[问题] 网络爬虫后的资料分析 ansi54 PTT批踢踢实业坊

[问题] 网络爬虫后的资料分析

楼主: ansi54 (笑笑生) 2015-12-02 14:35:50

大家好
小弟近来自学python的网络爬虫
抓取网页的html档后用beautifulsoup资料分析
我的目的在于要抓取关键字搜索后的资料（一页有50笔）
目前发现一个问题无法解决（也google不到）
因为我要抓的网页资料在原始码上的编排有做手脚
我要抓的title它有些是编排为： "标题"
有些是："标题
"
因为这个双引号位置的关系，使得我抓出来的资料编排就不一致
请问各位先进我要如何修改我的程式才能让我抓出来的资料编排一致？
谢谢
小弟的程式如下：
for item in range (0, 50):
title = soup.findAll('a',{'class':'t'})[item].get_text().strip()
date_t = soup.findAll('span',{'class':'date'})[item].get_text()
print date_t,"．",title

作者: Slimlife (SlimLife) 2015-12-02 20:14:00

Did you try regexp already?

楼主: ansi54 (笑笑生) 2015-12-03 09:12:00

not yet, but I'll try it. THX.

作者: Ziom (Oquainogen) 2015-12-03 22:50:00

有时某些空格用strip()也消不掉可以试"".join(s.split())其中s是你要拆解的string

楼主: ansi54 (笑笑生) 2015-12-04 09:05:00

谢谢z大我会试试看的感谢

继续阅读

[问题] 请教该如何处理这个问题Dong0129 [问题] csv档案读写ybeei [问题] python IDEcwoldind [问题] 0基础网络影片trausing [问题] 新手学习所遇到的问题mymx4000 [问题] py2exe 加入要import的.pyad20scott [问题] django pipeline vs compressorJS1037 [问题] 关于django新手入门建议spriteeddy [问题] Django的这个资料显示大家会怎么处理？content71 [问题] import session的问题herbacin