PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[问题] 爬虫剔除不必要标签
楼主:
m87dd05
(八八里阿巴)
2019-03-12 10:57:35
小弟是爬虫新手
想请问各位前辈
我目前已经针对网页爬到如附图之资讯了(利用 find + find_all 搭配for循环)
使用find_all("th", attrs={"data-XXXXXX: ""})
最后可以爬到如下图之资讯
但因<th>包住<span>,但<span>的内容我不需要,我只需要 Time
试过如果我在这个时候直接print find_all("th", attrs={"data-XXXXXX: ""}).text 会
得到
作者:
rexyeah
(ccccccc)
2019-03-12 11:33:00
find_all("th" attrs=lambda x: x and "whatever" in x)没测过... 不过常用类似的方法去筛选抓回来的东西
作者:
nini200
(200妮妮)
2019-03-12 13:57:00
直接给网址
作者:
art1
(人,原来不是人)
2019-03-12 22:26:00
使用.contents[0]看看
继续阅读
[讨论] 爬虫在ptt的应用?
nini200
[问题] 环境该如何设定
yehsc0806
[问题] 误调环境变量的系统变量
tokyo291
[问题] kmode套件使用问题
BlgAtlfans
[问题] Django多worker爬虫 如何做shared memory
Minarai
[问题] Pandas 撷取部分excel字段并合并
nanokevin
[问题] 请问这个问题是如何记
e79829
Re: [问题] 初学该选哪一本书?
liton
[问题] 请问我为何无法建立档案物件
alubasteve
[讨论] 急征Python家教
casio8
Links
booklink
Contact Us: admin [ a t ] ucptt.com