[问题] 新手爬虫requests_selenium ShawnHsia PTT批踢踢实业坊

[问题] 新手爬虫requests_selenium

楼主: ShawnHsia (new ID) 2022-04-17 21:42:10

大家好
我是完全没有任何程式资讯背景的老人家，纯网页自学，很多基本东西不懂
只想试着爬资料，还请鞭小力些～
以下状况描述
1
有成功爬取此网页资料
https://www.samr.gov.cn/zw/wjfb/index.html
程式码就抄抄改改网络教学
https://pastebin.com/wgppME9S
2
后来想爬下面这个网页，request就会出现412的error code
http://www.nhc.gov.cn/wjw/gfxwjj/list.shtml
想要学着用看看selenium但是一开始要打开网页就有问题
(用edge不太打的开，用chrome就可以，用selenium操控chrome又打不开)
程式码如下
https://pastebin.com/3mSJA6w1
3
试着使用chrome的外挂程式automa
https://www.automa.site/
则可以正确获取单页资料(标题+日期)，然而不会设定循环或自定网址来爬完85页的资料
想要请教状况2
我该往什么方向学习或者请告诉我要看哪些资料
(https://blog.csdn.net/bcfdsagbfcisbg/article/details/121741801)
有查过可能的原因(上面连结)但或许因为没有相关基础知识无法解决﹑也没有方向
，卡了很几天
还是有版友可以教我使用automa感觉也不错，是菜鸟新手的另一种解决方案
以上问题还请版友不吝指教～～先谢过了～～

作者: singleflying (馅饼) 2022-04-20 17:29:00

试了一下这篇，把headers加进去就可以了https://reurl.cc/yrZDNM

作者: wang0424 (FFFFFF) 2022-04-20 20:11:00

推一楼好心

楼主: ShawnHsia (new ID) 2022-04-21 11:41:00

谢谢楼上版友回复，header中加入cookie我试过就是短暂可以，一段时间后又变412，目前还无法自行完成解决方案

作者: atrisk (atrisk) 2022-05-09 17:33:00

试了用较简单的requests和beautifulsoup4组合似乎也可以。selenium一般我都是没招时才会拿来用，例如对付javascript

继续阅读

[问题] 请问这程式该如何写，不知该如何写？lightsky520 [问题] 建立不同python版本虚拟环境ctr1 [问题] Api到DB的即时资料串流ms0344303 [问题] shelve模组创一个档案text.dat会变成怪档newbrain Re: [问题] append的问题ddavid Re: [问题] append的问题unfinish Re: [问题] 如何import所有来自指定目录的moduleVivianAnn [问题] 国徽中间的圆为何无法填满白色tang1019 [问题] tflite quantizationjack155861 [闲聊] 送书影像处理相关pent