[请益] js有辨法写爬虫吗

楼主: vi000246 (Vi)   2020-07-18 19:31:10
打算写一支591爬虫
有符合条件的新物件就跳出通知
因为懒得架server跟DB 想用chrome extension来做
稍微做了研究
发现要取得房屋列表json
需要先进到591页面
取得cookie的591_new_session跟html里面<meta>中的csrf-token
分别放到get reqeust中的header跟cookie
才能取到我要的资料
想问用js能做得到吗 还是一定要后端语言呢
如果要做成后端 要能设定定时执行
还要考虑跨电脑同步db问题 只打算存物件id用来判断重复物件
想到就觉得麻烦...
好像还没看过有人用纯js写爬虫的?
作者: diabloevagto (wi)   2020-07-18 19:33:00
可以
作者: milktea736 (milktea)   2020-07-18 19:34:00
应该可以用 nodejs 试试?
作者: alihue (wanda wanda)   2020-07-18 19:35:00
JS 会先处理 CORS 到爆
作者: dreamnook (亚龙)   2020-07-18 19:51:00
可以 查apify啊 不过我抓的是静态页面 可能不符
作者: MOONY135 (谈无欲)   2020-07-18 19:54:00
非常讨厌CORSpython他不香吗db跟server 用docker不就帮你装好了
作者: yahooc (更想要)   2020-07-18 19:57:00
真香
作者: x123356 (x123356)   2020-07-18 20:00:00
我觉得你可以先搞懂为什么会有CORS存在 还有api gateway
作者: leo5916267 (小叶)   2020-07-18 20:40:00
不然直接去591客服问怎么爬你们家的网页
作者: MOONY135 (谈无欲)   2020-07-18 20:59:00
https://reurl.cc/9Elgea + cron 给我香起来
作者: guanting886 (Guanting)   2020-07-18 21:41:00
....
作者: seal0112   2020-07-18 21:43:00
用node.js写 不会很难 用js browser会因为cors挡
作者: BlacksPig (Black Handsome s Pig)   2020-07-18 21:43:00
11楼意见不错,已笑翻
作者: fantasychese (林阿宅)   2020-07-18 23:35:00
最近刚好在学 你须要的是Puppeteer
作者: Ayukawayen (亚布里艾尔发芽>//<)   2020-07-18 23:51:00
extension在background发XHR应该就不会被CORS挡不过要先在manifest的permissions把目标网域加进去
作者: Mamann (嘛嘛)   2020-07-19 00:21:00
直接nodejs不用cors啦
作者: zxc8899546 (GC)   2020-07-19 00:23:00
用cheerio处理html 抓取你要的部分就好
楼主: vi000246 (Vi)   2020-07-19 01:21:00
大家讲的都是node.js 看来只能用后端写了
作者: TakiDog (多奇狗)   2020-07-19 01:31:00
在浏览器执行一定撞cors,载片我都写Python直接把连结用 书签放js丢给python后端XD
作者: leo5916267 (小叶)   2020-07-19 02:31:00
cors可以关掉浏览器的cors看看,或是你webpack用proxy绕过去,但就只是自己用爽的而已
楼主: vi000246 (Vi)   2020-07-19 02:57:00
我打算用python写了 买个便宜主机设定cron job数据库用jsonbin 应该能解决我的问题
作者: kewang (652公共汽车)   2020-07-19 09:50:00
SSR 还好,如果你是 CSR 的话就一定要用后端处理了,puppeteer 操作万解
作者: apotatostory (卍煞气a帅勾勾卍)   2020-07-19 12:17:00
前端我用angular 框架 用proxy 启动不会cors哦
作者: qq076qq076 (小小菜鸟)   2020-07-19 15:15:00
楼上,ng就是帮你起了一个本地的node服务器做proxy啊...
作者: chatnoir (对不起)   2020-07-19 15:57:00
有proxy当然不会有cors啊 =_=
作者: Hsins (翔)   2020-07-19 19:07:00
GitHub Actions 就能搞定的东西,为什么要自己租服务器?
作者: Hitmear (尸殌化液)   2020-07-20 14:46:00
591我之前用python直接打request,一下就搞定了放在heroku上也免费
作者: jihon2002 (公馆没有鹿)   2020-07-21 01:26:00
这样找租屋变好方便XD
作者: jobintan (Robin Artemstein)   2020-07-21 08:02:00
Heroku免费的应该有限制吧!还是去官网看一下比较好。
楼主: vi000246 (Vi)   2020-07-21 08:57:00
heroku我记得一天要休眠6小时 没人戳也会自动休眠
作者: infixman (松下问童子)   2020-07-22 09:58:00
heroki不是绑信用卡就不用休眠?*heroku
作者: aa06697 (todo se andarà)   2020-07-23 14:33:00
11楼XD

Links booklink

Contact Us: admin [ a t ] ucptt.com