[已解决] 网络爬虫抓不到标签<img>的src属性 bugbug777 PTT批踢踢实业坊

[已解决] 网络爬虫抓不到标签<img>的src属性

楼主: bugbug777 (sil) 2018-11-11 19:03:16

大家好，小鲁是个网络爬虫新手
最近想来写一个下载图片的网络爬虫
这里附上简短的程式码
>>> import requests, bs4
>>> url = 'https://v.comicbus.com/online/comic-103.html?ch=924'
>>> r = requests.get(url)
>>> r.raise_for_status()
>>> soup = bs4.BeautifulSoup(r.text)
>>> img_tag = soup.find('img', id='TheImg')
>>> img_tag
<img border="0" id="TheImg" name="TheImg"/>
似乎抓不到src的这个属性，请问这是为什么？
图示8comic的海贼王924话图片

作者: ckc1ark (伪物) 2018-11-11 19:07:00

检测器看到的是前端处理后的DOM 可能page source没这张图

作者: zo6596001 (超帅肥宅) 2018-11-11 19:10:00

把HTML输出成一个txt档，然后检查跟Google看到的一不一样如果不一样的话，那就只能用Selenium了可以Google一下Ajax这个东西，应该就是这个技术在搞鬼其实就是网页分成2种，动态跟静态。requests之类的只能抓静态网页" target="_blank" rel="nofollow">

你要抓的东西好像是透过这行从服务器抓过来的" target="_blank" rel="nofollow">

反白的是航海王的图档，我在requests回来的资料找不到这串还是改用Selenium吧..." target="_blank" rel="nofollow">

作者: dhec10701p (doublej) 2018-11-11 20:26:00

重点是要render javascript

作者: zo6596001 (超帅肥宅) 2018-11-11 20:26:00

偷偷贴我写的爬虫～其实Selenium也很简单的～抓了几十万张图片，现在硬盘正绝赞爆满中～

作者: TakiDog (多奇狗) 2018-11-11 21:18:00

有能力就用requests找出规则爬，seleniumu效能太QQ

作者: eight0 (æ¬¸XD) 2018-11-12 16:15:00

用 requrests + node_vm2 https://is.gd/AfRc8h

继续阅读

[问题] tkinter print另一个执行中的py档的方法st40182 [问题] 有关dict用法 (DFS找有向图中的cycle)skyHuan [问题] if 的判断是否有特殊限制?jasonhsu14 [问题]python爬虫中html选取元素问题cscscs56 [问题] 简单面试问题jkkert [问题] 如何安装另一个anaconda promptbewilderment [问题] xlwings excel插图透明化caron0225 [问题]爬虫-汇率运算问题cscscs56 [问题] python正规表示式如何做？han999 [问题] 固定seed去eval tf.random仍不同值 znmkhxrw

[已解决] 网络爬虫 抓不到标签<img>的src属性

[已解决] 网络爬虫抓不到标签<img>的src属性