楼主:
ansi54 (笑笑生)
2015-12-02 14:35:50大家好
小弟近来自学python的网络爬虫
抓取网页的html档后用beautifulsoup资料分析
我的目的在于要抓取关键字搜索后的资料(一页有50笔)
目前发现一个问题无法解决(也google不到)
因为我要抓的网页资料在原始码上的编排有做手脚
我要抓的title它有些是编排为: "标题"
有些是:"标题
"
因为这个双引号位置的关系,使得我抓出来的资料编排就不一致
请问各位先进 我要如何修改我的程式才能让我抓出来的资料编排一致?
谢谢
小弟的程式如下:
for item in range (0, 50):
title = soup.findAll('a',{'class':'t'})[item].get_text().strip()
date_t = soup.findAll('span',{'class':'date'})[item].get_text()
print date_t,".",title