[问题] 爬虫无法读完全部的资料

楼主: pfii1997119 (阿宽)   2023-04-04 02:58:02
最近正在学习爬虫 requests & beautifulsoup4
看了影片的tutorial 想要自己尝试用这个网站进行爬虫
https://monitor.buyerguide.info/pre-selection/cp-eye
检查之后发现这个table在tbody这个标签里面
但是当我print(tbody.contents)之后
发现他只有读到GW2480Plus这笔资料 后面都遗失了
想请问应该要怎么做才能正确地读到最后一笔资料G322CQP呢?
我的code在下方 可以直接复制
https://gist.github.com/akuan1997/5a6a4fb4ba56be9b0e87fd7066736ff4
谢谢python板的大神
作者: virgil246 (virgil585)   2023-04-04 21:49:00
可以用浏览器Devtools 把Javascript Disable看一下剩下的资料会跟你爬的到的资料一样 这个是前端的动态渲染至于要怎么爬 要去定位出哪一个js function让浏览器再拿了一次资料然后把资料补到画面上 通常都混淆过很难看懂 我也不会好像也不叫混淆 前端通常会用webpack打包js 这时候会把js作压缩 所以变量的可读性下降很多
作者: tzouandy2818 (Naked Bear)   2023-04-05 16:16:00
用 requests-html 来跑 JS 跑完再爬内容

Links booklink

Contact Us: admin [ a t ] ucptt.com