[问题] lxml遇到<br /> 该如何处理? girl5566 PTT批踢踢实业坊

[问题] lxml遇到<br /> 该如何处理?

楼主: girl5566 (5566520) 2016-03-14 23:06:54

大家好最近想试着撰写网页爬虫
想抓取网页的这部分资讯

尝试的结果为
# -*- coding: utf-8 -*-
from urllib2 import urlopen
import xml.etree.ElementTree as ET
from lxml import etree
import mechanize
import sys
url = "http://www.tham.com.tw/recipe6.php"
path = "//*[@id=\"left-inner\"]/div[2]/div[3]"
html = urlopen(url).read()
tree = etree.HTML(html)
startindex = 4
data = tree.xpath(path)
print data[0].text
Output:
>>> ================================ RESTART ================================
>>>
材料 2人份
>>>
看网页的原始码猜测是因为<br />阻挡了判断的缘故
请问这个有解吗??

作者: ckc1ark (伪物) 2016-03-15 00:37:00

//*[@id=\"left-inner\"]/div[2]/div[3]//text() 试试

楼主: girl5566 (5566520) 2016-03-15 19:43:00

感谢已解决

作者: aweimeow (喵喵喵喵ヽ( ・∀・)ノ) 2016-03-16 20:18:00

path = "//*[@itemprop=\"name\"]"print title[0].text你的 XPATH 抓错了

继续阅读

[问题] 爬虫 jsp网页乱码aaa7513231 [问题] matplotlib在数据下积分sam122094 Re: [问题] 模组路径Neisseria [问题] 模组路径lihsianglin [问题] 排序多个 dict 的集合zha0 Re: [问题] 有关于写档及取代问题justfor0223 Re: [问题] 有关于写档及取代问题Neisseria [问题] 有关于写档及取代问题justfor0223 Re: [问题] 比较并取代字串的文字iyaicharles [问题] 比较并取代字串的文字eric2853