[问题] 新手问ptt政黑版爬虫

楼主: askdrlin (中央氣象局)   2018-12-09 12:11:45
大家好,小弟我目前已经把ptt政黑版爬虫给爬完了,目前的状况是标题,时间,发文id
,内容,推文,都可以爬下来
想要进阶到正则表达式把内文作者或是来源给抓出来,不知道这是否可行?因为政黑版的
发文格式相当混乱,
像是是
新闻来源:xx
新闻:xx
xxx 报导
xxxx ooo 综合报导
或是什么都没有
不晓得是否能够写出把这些单独抓出来的正则表达式,因为也怕写了会抓到其他的字就是
了....
作者: jiyu520 (不要鲫鱼我)   2018-12-09 12:36:00
ㄜ...你自己回答自己了,可以啊
作者: s860134 (s860134)   2018-12-09 16:55:00
没有干净的资料只有无尽的苦功...
作者: CodingMan (程式侠)   2018-12-10 14:59:00
推二楼 你只能case by case 了

Links booklink

Contact Us: admin [ a t ] ucptt.com