[问题] 该如何靠一个定位点抓取上层资料？ KeyBoardKill PTT批踢踢实业坊

[问题] 该如何靠一个定位点抓取上层资料？

楼主: KeyBoardKill (✩键✩盘✩戮✩) 2018-06-03 18:38:31

各位好，做爬虫又遇到了个问题...基本上来源会有 ID 跟 Number ，我必须靠Number
来追踪到ID，目前已经能做到追踪到Number但ID跟Number不同行，我不懂该如何提取
能给我点提示吗？谢谢
范例:.....
str = '''
<li><a href="123.html" target=_blank class="Observe24">
十分钟资料</a></li>
'''
如果是整行同一行我就有办法使用split来抓到并清洗出我要的123.html
但现在如果分行了，我只能抓到唯一识别值：十分钟资料，我不知道应该怎么回推
从我在原始码找到十分钟的资料后，往上一行获取到 123.html 这个值
恳请指点谢谢

作者: ringlwe 2018-06-03 18:56:00

是不是这个呀https://stackoverflow.com/questions/5815747/beautifulsoup-getting-href

作者: ThxThx (洗洗睡) 2018-06-03 19:39:00

我看起来你的做法是把HTML code看成是纯文字来处理为何不先把他parse成结构化的资料？

作者: kobe8112 (小B) 2018-06-03 23:09:00

爬虫还是建议用selector啦，不管是CSS或是XPATH这样遇到问题自己比较容易除错，板友也容易帮忙

继续阅读

[问题] 新手请益 Jupyter 内使用 tooltip longallen007 [问题] 新手请益关于抓资料ppoo1215 [问题] 阵列放值进去出错tsrn37992307 Re: [问题] while循环问题TW185930 Re: [问题] while循环问题MOONY135 [问题] while循环问题TW185930 [问题] python的o是唸作［o] 还是［a]？wang19980531 [讨论] 循环执行N个函式的写法icetofux [问题] pygame征求问问题计费的家教b05703 [问题] SQL一个字段里面找复数目标MAGICXX