最近心血来潮想要练习写一个公司用的 RSS Reader,目的就是抓取一
些指定的网址之后将内容汇整进来,并且标示已读未读而已,想到几
个问题想请教大家
1. 资料撷取时间:
我目前个人使用 Feedly,根据观察的结果,我猜网址资料的开始,应
该是从第一个加入此网址的人起始,譬如说有个 Blog 叫 http://ww
w.aaa.com 从 2007 年开始,A 是在这个 RSS Reader 第一个使用该
网址的人,使用时间是 2014-11 月份,于是 Server 便会从这段时间
开始定期执行 cron job 去扫资料,可是这样跑扫描时间间距不能太
长,否则的话如果是个更新频繁的网站会有掉资料的机会,可是如果
database 有几千几万个网站,这样跑起来也是挺恐怖的。
2. 资料撷取问题:
可以在某些确定是有名的 Blog 形式例如说(blogger)可能利用 lo
gic 去找出对应的 RSS 档案或者是 XML 撷取资料 ,可是像是一些挂
有个人 domain 的,例如像 http://blog.littlelin.info/,要怎么
check 或 convert 他成为 seed 呢