[问题] 爬虫剔除不必要标签 m87dd05 PTT批踢踢实业坊

[问题] 爬虫剔除不必要标签

楼主: m87dd05 (八八里阿巴) 2019-03-12 10:57:35

小弟是爬虫新手
想请问各位前辈
我目前已经针对网页爬到如附图之资讯了(利用 find + find_all 搭配for循环)
使用find_all("th", attrs={"data-XXXXXX: ""})
最后可以爬到如下图之资讯

但因<th>包住<span>，但<span>的内容我不需要，我只需要 Time
试过如果我在这个时候直接print find_all("th", attrs={"data-XXXXXX: ""}).text 会
得到

作者: rexyeah (ccccccc) 2019-03-12 11:33:00

find_all("th" attrs=lambda x: x and "whatever" in x)没测过... 不过常用类似的方法去筛选抓回来的东西

作者: nini200 (200妮妮) 2019-03-12 13:57:00

直接给网址

作者: art1 (人，原来不是人) 2019-03-12 22:26:00

使用.contents[0]看看

继续阅读

[讨论] 爬虫在ptt的应用?nini200 [问题] 环境该如何设定yehsc0806 [问题] 误调环境变量的系统变量tokyo291 [问题] kmode套件使用问题BlgAtlfans [问题] Django多worker爬虫如何做shared memoryMinarai [问题] Pandas 撷取部分excel字段并合并nanokevin [问题] 请问这个问题是如何记e79829 Re: [问题] 初学该选哪一本书？liton [问题] 请问我为何无法建立档案物件alubasteve [讨论] 急征Python家教casio8

Contact Us: admin [ a t ] ucptt.com