[问题] 爬虫剔除不必要标签

楼主: m87dd05 (八八里阿巴)   2019-03-12 10:57:35
小弟是爬虫新手
想请问各位前辈
我目前已经针对网页爬到如附图之资讯了(利用 find + find_all 搭配for循环)
使用find_all("th", attrs={"data-XXXXXX: ""})
最后可以爬到如下图之资讯
https://imgur.com/a/8FTeXMM
但因<th>包住<span>,但<span>的内容我不需要,我只需要 Time
试过如果我在这个时候直接print find_all("th", attrs={"data-XXXXXX: ""}).text 会
得到
作者: rexyeah (ccccccc)   2019-03-12 11:33:00
find_all("th" attrs=lambda x: x and "whatever" in x)没测过... 不过常用类似的方法去筛选抓回来的东西
作者: nini200 (200妮妮)   2019-03-12 13:57:00
直接给网址
作者: art1 (人,原来不是人)   2019-03-12 22:26:00
使用.contents[0]看看

Links booklink

Contact Us: admin [ a t ] ucptt.com