[问题] 网络爬虫后的资料分析

楼主: ansi54 (笑笑生)   2015-12-02 14:35:50
大家好
小弟近来自学python的网络爬虫
抓取网页的html档后用beautifulsoup资料分析
我的目的在于要抓取关键字搜索后的资料(一页有50笔)
目前发现一个问题无法解决(也google不到)
因为我要抓的网页资料在原始码上的编排有做手脚
我要抓的title它有些是编排为: "标题"
有些是:"标题
"
因为这个双引号位置的关系,使得我抓出来的资料编排就不一致
请问各位先进 我要如何修改我的程式才能让我抓出来的资料编排一致?
谢谢
小弟的程式如下:
for item in range (0, 50):
title = soup.findAll('a',{'class':'t'})[item].get_text().strip()
date_t = soup.findAll('span',{'class':'date'})[item].get_text()
print date_t,".",title
作者: Slimlife (SlimLife)   2015-12-02 20:14:00
Did you try regexp already?
楼主: ansi54 (笑笑生)   2015-12-03 09:12:00
not yet, but I'll try it. THX.
作者: Ziom (Oquainogen)   2015-12-03 22:50:00
有时某些空格用strip()也消不掉 可以试"".join(s.split())其中s是你要拆解的string
楼主: ansi54 (笑笑生)   2015-12-04 09:05:00
谢谢z大 我会试试看的 感谢

Links booklink

Contact Us: admin [ a t ] ucptt.com