[问题] 关于网页抓取内容 jenocool PTT批踢踢实业坊

[问题] 关于网页抓取内容

楼主: jenocool 2014-09-01 21:53:39

本来只有在写C++，但由于有抓网页的需求
看到大家推荐Python所以就尝试看看
但摸了一整天其实还是不太懂
先附上我的程式码
# -*- coding: utf-8 -*-
import urllib2
from sgmllib import SGMLParser
class Title(SGMLParser):
is_a=""
name=[]
global getitem
getitem = False
def start_ol(self,attrs):
global getitem
getitem = True
def start_a(self, attrs):
global getitem
if getitem == True:
self.is_a = 1
def end_a(self):
self.is_a=""
def end_ol(self):
global getitem
getitem = False
def handle_data(self, text):
if self.is_a and text !='库存页面' and text !='更多此站结果':
self.name.append(text)
content =
urllib2.urlopen('https://tw.search.yahoo.com/search;_ylt=A8tUwYpDIQRU33UApv9r1gt.?fr2=time&ei=utf-8&fr=yfp&p=%E6%BD%AE%E8%82%89&btf=m').read()
List = Title()
List.feed(content)
for i in List.name:
print i.decode('utf-8')
目的是希望把每一篇搜寻结果的标题存起来
好不容易才弄到稍微想用的样子
但发现如果标签内有其他的标签，似乎会自动换行?
例如原本标题:台北潮肉寿喜烧肉@*~洪小玥~*－iPeen 爱评网
而在Html中则是
台北
<b>潮肉</b>
寿喜烧肉@*~洪小玥~*－iPeen 爱评网
所以抓出来的结果就变成
台北
潮肉
寿喜烧肉@*~洪小玥~*－iPeen 爱评网
不知道要用什么方法将他们合并?
另外想请问一下，抓取GOOGLE搜寻结果似乎会有问题
上网查了一下似乎是有防止抓取
不知道有没有什么方法可以解决?
看了一整天还是一头雾水 ..
谢谢大家了

作者: IAMPF (PF) 2014-09-01 22:06:00

试试看BeautifulSoup中的get_text看看？

继续阅读

[问题] Py2app搭配PyQt5错误aaburger [资讯] Django Girls Taipei #1 来了！Dkr Re: [问题] 请问Windows+Python3可以使用OpenCV吗？os653 Re: [问题] 想请问有更有效率的写法吗?forloricever [问题] 请问Windows+Python3可以使用OpenCV吗？os653 [问题] Django admin的问题kanako [问题] Web-based 工具开发的相关问题hajimels [闲聊] 有没有Py二次开发SolidWorks的案例？Love1019 Re: [问题] 请问二维list一维化yjc1 [问题] 请问二维list一维化ee55244