[问题] 抓取限定区间日期的PTT文章

楼主: EasonWW (叫我大飛)   2018-09-01 13:58:04
大家好,小弟最近在学习上遇到一个问题
先跟大家说一下,因为我希望短期有个明确的成果,来鼓励自己学习下去
因此在学习一些最最最基本的概念后,决定找一个已经被编辑好的code
从对方的code中,透过了解每行code的意义与用法后,希望最后可以理解并运用这个code
所以我选择之前在网络上看到的一则爬PTT图片的code来学习(因为看到很多心得分享文章,都说小成果的第一次是爬出PPT的图片)
但是那边主要是爬,当日的PTT文章,想请问如何把日期的限制,改成特定日期或特定区间的日期
而非只有针对当日新增的文章做爬文动作。以下是该code针对时间限制的段落
if __name__ == '__main__':
current_page = get_web_page(PTT_URL + '/bbs/Beauty/index.html')
if current_page:
articles = [] # 全部的今日文章
date = time.strftime("%m/%d").lstrip('0') # 今天日期, 去掉开头的 '0'
以符合 PTT 网站格式
current_articles, prev_url = get_articles(current_page, date) # 目前
页面的今日文章
while current_articles: # 若目前页面有今日文章则加入 articles,并回到
上一页继续寻找是否有今日文章
articles += current_articles
current_page = get_web_page(PTT_URL + prev_url)
current_articles, prev_url = get_articles(current_page, date)
"%m/%d" 如果这个是当日日期,要如何改变日期限制呢?再麻烦各位大大了谢谢!
我知道可能有人会觉得我的学习方式有点偏门,但是实在是为了有些成果来鼓励自己...
作者: s8300355 (s8300355)   2018-09-01 16:08:00
直接从爬到的资料去限制时间应该可以吧
楼主: EasonWW (叫我大飛)   2018-09-01 19:26:00
请问大大是什么意思,我用这个爬都只会有当天的文章...这样要从何限制呢?抱歉太菜
作者: TakiDog (多奇狗)   2018-09-02 01:23:00
"python 时间计算" datetime 等等.. 时间不只有字串状态
作者: CodingMan (程式侠)   2018-09-02 16:58:00
https://github.com/Truth0906/PTTLibrary自动就是二元搜寻到你想要的日期的第一篇 然后爬文直到不是你想要的日期简单一点就是你先自己把该日期起始编号跟结束编号找出来 然后用爬文API 去帮你爬完

Links booklink

Contact Us: admin [ a t ] ucptt.com