[问题] 该如何靠一个定位点抓取上层资料?

楼主: KeyBoardKill (✩键✩盘✩戮✩)   2018-06-03 18:38:31
各位好,做爬虫又遇到了个问题...基本上来源会有 ID 跟 Number ,我必须靠Number
来追踪到ID,目前已经能做到追踪到Number但ID跟Number不同行,我不懂该如何提取
能给我点提示吗?谢谢
范例:.....
str = '''
<li><a href="123.html" target=_blank class="Observe24">
十分钟资料</a></li>
'''
如果是整行同一行我就有办法使用split来抓到并清洗出我要的123.html
但现在如果分行了,我只能抓到 唯一识别值:十分钟资料,我不知道应该怎么回推
从我在原始码找到十分钟的资料后,往上一行获取到 123.html 这个值
恳请指点 谢谢
作者: ringlwe   2018-06-03 18:56:00
作者: ThxThx (洗洗睡)   2018-06-03 19:39:00
我看起来你的做法是把HTML code看成是纯文字来处理为何不先把他parse成结构化的资料?
作者: kobe8112 (小B)   2018-06-03 23:09:00
爬虫还是建议用selector啦,不管是CSS或是XPATH这样遇到问题自己比较容易除错,板友也容易帮忙

Links booklink

Contact Us: admin [ a t ] ucptt.com