作者:
Hsins (翔)
2020-10-29 06:18:00你的问题叙述没头没尾的。纯粹执行 Python 脚本通常是直接丢请求取东西回来,要嘛就是取页面原始码再透过 selector或 xpath 定位,又或是直接字串透过正则表达式做 parsing,这时的内存不足会是脚本可能有 memory leak 或者是读入过量的资料。如果还需要开浏览器,通常是有需要加载 js 才会渲染页面,要嘛 headless 要嘛 seleium,至少要交代一下吧?浏览器跳内存不足的原因有很多啊,你脚本是不是会一直开新分页?又或者是要一直下拉加载新内容?还是其他?如果是开太多分页或内存没清,就去找文件看看那个方法可以调用去关分页或者是清理浏览器的内存,然后在脚本里呼叫。如果清了内存就不能爬了,那就找其他的爬法…搞不好是对方网站加载的 js 有没写好的东西一直堆上去…如果你需要爬的东西,是重启浏览器之后直接运行脚本继续爬也没差,容错率比较高的话。写个脚本定期去杀掉进程,然后重启会比较快速无脑