[已解决] 网络爬虫 抓不到标签<img>的src属性

楼主: bugbug777 (sil)   2018-11-11 19:03:16
大家好,小鲁是个网络爬虫新手
最近想来写一个下载图片的网络爬虫
这里附上简短的程式码
>>> import requests, bs4
>>> url = 'https://v.comicbus.com/online/comic-103.html?ch=924'
>>> r = requests.get(url)
>>> r.raise_for_status()
>>> soup = bs4.BeautifulSoup(r.text)
>>> img_tag = soup.find('img', id='TheImg')
>>> img_tag
<img border="0" id="TheImg" name="TheImg"/>
似乎抓不到src的这个属性,请问这是为什么?
图示8comic的海贼王924话图片
https://imgur.com/ccnRjKr
作者: ckc1ark (伪物)   2018-11-11 19:07:00
检测器看到的是前端处理后的DOM 可能page source没这张图
作者: zo6596001 (超帅肥宅)   2018-11-11 19:10:00
把HTML输出成一个txt档,然后检查跟Google看到的一不一样如果不一样的话,那就只能用Selenium了可以Google一下Ajax这个东西,应该就是这个技术在搞鬼其实就是网页分成2种,动态跟静态。requests之类的只能抓静态网页https://imgur.com/4wUewbD.jpg你要抓的东西好像是透过这行从服务器抓过来的https://imgur.com/7jHyB8J.jpg反白的是航海王的图档,我在requests回来的资料找不到这串还是改用Selenium吧...https://imgur.com/lsp28eH.jpg
作者: dhec10701p (doublej)   2018-11-11 20:26:00
重点是要render javascript
作者: zo6596001 (超帅肥宅)   2018-11-11 20:26:00
偷偷贴我写的爬虫~ 其实Selenium也很简单的~抓了几十万张图片,现在硬盘正绝赞爆满中~
作者: TakiDog (多奇狗)   2018-11-11 21:18:00
有能力就用requests找出规则爬,seleniumu效能太QQ
作者: eight0 (欸XD)   2018-11-12 16:15:00
用 requrests + node_vm2 https://is.gd/AfRc8h

Links booklink

Contact Us: admin [ a t ] ucptt.com