打算写一支591爬虫
有符合条件的新物件就跳出通知
因为懒得架server跟DB 想用chrome extension来做
稍微做了研究
发现要取得房屋列表json
需要先进到591页面
取得cookie的591_new_session跟html里面<meta>中的csrf-token
分别放到get reqeust中的header跟cookie
才能取到我要的资料
想问用js能做得到吗 还是一定要后端语言呢
如果要做成后端 要能设定定时执行
还要考虑跨电脑同步db问题 只打算存物件id用来判断重复物件
想到就觉得麻烦...
好像还没看过有人用纯js写爬虫的?
作者: milktea736 (milktea) 2020-07-18 19:34:00
应该可以用 nodejs 试试?
作者:
alihue (wanda wanda)
2020-07-18 19:35:00JS 会先处理 CORS 到爆
可以 查apify啊 不过我抓的是静态页面 可能不符
非常讨厌CORSpython他不香吗db跟server 用docker不就帮你装好了
作者:
yahooc (更想要)
2020-07-18 19:57:00真香
作者:
x123356 (x123356)
2020-07-18 20:00:00我觉得你可以先搞懂为什么会有CORS存在 还有api gateway
作者: guanting886 (Guanting) 2020-07-18 21:41:00
....
用node.js写 不会很难 用js browser会因为cors挡
作者:
BlacksPig (Black Handsome s Pig)
2020-07-18 21:43:0011楼意见不错,已笑翻
extension在background发XHR应该就不会被CORS挡不过要先在manifest的permissions把目标网域加进去
作者:
Mamann (嘛嘛)
2020-07-19 00:21:00直接nodejs不用cors啦
作者:
TakiDog (多奇狗)
2020-07-19 01:31:00在浏览器执行一定撞cors,载片我都写Python直接把连结用 书签放js丢给python后端XD
cors可以关掉浏览器的cors看看,或是你webpack用proxy绕过去,但就只是自己用爽的而已
我打算用python写了 买个便宜主机设定cron job数据库用jsonbin 应该能解决我的问题
作者:
kewang (652公共汽车)
2020-07-19 09:50:00SSR 还好,如果你是 CSR 的话就一定要用后端处理了,puppeteer 操作万解
前端我用angular 框架 用proxy 启动不会cors哦
作者: qq076qq076 (小小菜鸟) 2020-07-19 15:15:00
楼上,ng就是帮你起了一个本地的node服务器做proxy啊...
作者:
Hsins (翔)
2020-07-19 19:07:00GitHub Actions 就能搞定的东西,为什么要自己租服务器?
作者: Hitmear (尸殌化液) 2020-07-20 14:46:00
591我之前用python直接打request,一下就搞定了放在heroku上也免费
作者:
jobintan (Robin Artemstein)
2020-07-21 08:02:00Heroku免费的应该有限制吧!还是去官网看一下比较好。
heroku我记得一天要休眠6小时 没人戳也会自动休眠
作者:
infixman (松下问童子)
2020-07-22 09:58:00heroki不是绑信用卡就不用休眠?*heroku
作者: aa06697 (todo se andarà) 2020-07-23 14:33:00
11楼XD