[请益] 自己刻 RSS Reader

楼主: chan15 (ChaN)   2015-02-08 15:26:30
最近心血来潮想要练习写一个公司用的 RSS Reader,目的就是抓取一
些指定的网址之后将内容汇整进来,并且标示已读未读而已,想到几
个问题想请教大家
1. 资料撷取时间:
我目前个人使用 Feedly,根据观察的结果,我猜网址资料的开始,应
该是从第一个加入此网址的人起始,譬如说有个 Blog 叫 http://ww
w.aaa.com 从 2007 年开始,A 是在这个 RSS Reader 第一个使用该
网址的人,使用时间是 2014-11 月份,于是 Server 便会从这段时间
开始定期执行 cron job 去扫资料,可是这样跑扫描时间间距不能太
长,否则的话如果是个更新频繁的网站会有掉资料的机会,可是如果
database 有几千几万个网站,这样跑起来也是挺恐怖的。
2. 资料撷取问题:
可以在某些确定是有名的 Blog 形式例如说(blogger)可能利用 lo
gic 去找出对应的 RSS 档案或者是 XML 撷取资料 ,可是像是一些挂
有个人 domain 的,例如像 http://blog.littlelin.info/,要怎么
check 或 convert 他成为 seed 呢
作者: MOONRAKER (㊣牛鹤鳗毛人)   2015-02-08 16:47:00
阿不就user各自登记URL然后server逐个送request看有没有RSS内容这样 我跟你若是订同一个网址可以只poll一次
楼主: chan15 (ChaN)   2015-02-08 18:51:00
应该是定期扫吧,request 才扫难免掉资料
作者: MOONRAKER (㊣牛鹤鳗毛人)   2015-02-09 11:28:00
当然马是定期送request 怎么可能request才扫

Links booklink

Contact Us: admin [ a t ] ucptt.com