[问题] 爬虫无法读完全部的资料 pfii1997119 PTT批踢踢实业坊

[问题] 爬虫无法读完全部的资料

楼主: pfii1997119 (阿宽) 2023-04-04 02:58:02

最近正在学习爬虫 requests & beautifulsoup4
看了影片的tutorial 想要自己尝试用这个网站进行爬虫
https://monitor.buyerguide.info/pre-selection/cp-eye
检查之后发现这个table在tbody这个标签里面
但是当我print(tbody.contents)之后
发现他只有读到GW2480Plus这笔资料后面都遗失了
想请问应该要怎么做才能正确地读到最后一笔资料G322CQP呢?
我的code在下方可以直接复制
https://gist.github.com/akuan1997/5a6a4fb4ba56be9b0e87fd7066736ff4
谢谢python板的大神

作者: virgil246 (virgil585) 2023-04-04 21:49:00

可以用浏览器Devtools 把Javascript Disable看一下剩下的资料会跟你爬的到的资料一样这个是前端的动态渲染至于要怎么爬要去定位出哪一个js function让浏览器再拿了一次资料然后把资料补到画面上通常都混淆过很难看懂我也不会好像也不叫混淆前端通常会用webpack打包js 这时候会把js作压缩所以变量的可读性下降很多

作者: tzouandy2818 (Naked Bear) 2023-04-05 16:16:00

用 requests-html 来跑 JS 跑完再爬内容

继续阅读

[问题] 有没有法子找出程式为何无法中止？HuangJC Re: 字串变量跳脱字符问题HuangJC Re: 字串变量跳脱字符问题zerof 字串变量跳脱字符问题holmes3 字段加密(使用VBA、Python、VB.NET) southknight [问题] .api.merge()无法使用oscarku [问题] 如何正确的 mock requests 回传的 iter_contentchan15 [问题] Jupyter notebook 能不能删除成对括号？llrabel [闲聊]分享 line捐血机器人asiagodfater [问题] 该如何写入google试算表的指定位置呢？kiwigo1000