楼主:
a114514 (a114514)
2025-11-26 19:11:49代po
我使用 Playwright 或 requests 来爬取美国政府财报网站 SEC Filings 的资料,设定下
载速率大约为每秒一个档案。但在下载过程中,电脑网络连线进行到一半时遭到封锁,导致
流程中断。
只是对于他们防爬机制还不了解
robots.txt 的内容是存在的,允许部分静态资源,禁止管理与系统目录。你看不到是因为
速率过快被服务器挡住,不是因为档案不存在。
目前平均一分钟爬90个档案没锁,但只是听说有人一分钟可以爬200到300个
所以这里有精通网页爬虫的专家吗