请益Request爬虫

楼主: andy22543 (andy22543)   2023-01-19 20:03:51
最近接到一个专案要爬购物网站存mySQL
爬分类里面各产品资讯+内页详细资讯
目前已经使用selenium+multithreading写完
可惜速度不够快
所以正改用request改写
但发现不管用什么方法(session、cookie、payload)都没办法取得首页的商品资讯
已经把网络上能看的解决方式都看过一遍还是无解
另外也试过network的event(貌似是api?
把相关资讯post上去爆出ConnectionError: ('Connection aborted.'
所有能试解法都试过还是无法
有没有精通的高手帮看一下还有什么办法呢
附上连结
https://www.hktvmall.com/hktv/zh/%E8%B6%85%E7%B4%9A%E5%B7%BF%E5%A0%B4/%E8%B6%85%E7%B4%9A%E5%B8%82%E5%A0%B4/%E5%86%B7%E5%87%8D-%E6%80%A5%E5%87%8D%E9%A3%9F%E5%93%81/main/search?page=0&q=%3Arelevance%3Astreet%3Amain%3Acategory%3AAA11110000000
作者: keel90135 (尼可)   2023-01-19 20:13:00
标题分类跟缩网址都不会吗...
作者: Hsins (翔)   2023-01-19 20:23:00
非亲非故又问的不清不楚,愿意帮忙的人可能不多:(
作者: MoonCode (MoonCode)   2023-01-19 20:40:00
你浏览器看得到用爬虫至少能抓个几次(后续可能被挡)不要放弃
作者: alihue (wanda wanda)   2023-01-19 22:01:00
直接回到完成的版本,然后复制多份同时跑,每支爬的范围指定一下
作者: victor21813 (OHYEAH)   2023-01-19 22:40:00
先缩网址再说
作者: chuchutaro (啾啾太郎)   2023-01-20 00:03:00
dynamic websites?
作者: wayne5668944 (wayne5668944)   2023-01-20 00:25:00
印象中好像如果是spa爬虫抓不到(?)
作者: vi000246 (Vi)   2023-01-20 00:33:00
如果你是女生 帮的人可能会多一点只能给你关键字 用wireshark或fiddler看request的rawdata 想辨法模拟出一个一模一样的request这是get的raw data https://imgur.com/EViD6Ld我网络乱抓的图 我比较常用fiddler 你可以找个顺手的
作者: becca945 (频果芽子)   2023-01-20 01:03:00
你很不想问问题?
作者: Murasaki0110 (麦当劳欢乐送)   2023-01-20 01:19:00
问chatGPT
作者: kanahela (卡娜赫拉)   2023-01-20 07:38:00
你给的这个网址,超级市场分类商品,点进去就timeout了
楼主: andy22543 (andy22543)   2023-01-20 09:17:00
不好意思第一次在本版发文感谢各位指教
作者: surimodo (好吃棉花糖)   2023-01-20 10:07:00
selenium 笑死 怎么可能快
作者: HybridSC (VisionS)   2023-01-20 15:44:00
建议先去搞懂request的运作方式,不然以后也是一个页面问一次
作者: vi000246 (Vi)   2023-01-20 16:41:00
这两本书我没读过 不过看目录应该有你要的东西https://www.tenlong.com.tw/products/9787301322697https://www.tenlong.com.tw/products/9787115528735看反爬虫那个章节就好
作者: brucetu (sec)   2023-01-20 20:29:00
selenium不够快你不会多开几台?你在那边破解反爬虫的成本绝对够你多开好几台
作者: vi000246 (Vi)   2023-01-21 00:34:00
多开几台治标不治本 又浪费效能 学好request才是正解
楼主: andy22543 (andy22543)   2023-01-21 11:04:00
谢谢各位意见,小弟再回去多研究request
作者: ReverieKai (ReveErieKai)   2023-01-21 17:48:00
你要先了解request和Selenium两个爬出来的网页差异还有运作原理
作者: secretfly (☠鬼灭·之喵喵)   2023-01-22 01:00:00
网络上能看的解决方式都看过一遍???你可以看两遍
作者: B0988698088 (废文少女小円♥)   2023-01-22 12:30:00
连缩网址都不会你回去报资测会比较快
作者: MoonCode (MoonCode)   2023-01-22 19:19:00
作者: john0312 (Chen John L)   2023-01-22 19:57:00
有些反爬虫技术就不是requests学好就能解决的
作者: Belieeve (芥末拿铁)   2023-01-23 06:30:00
弱弱问一下,用爬虫进行商业行为(外包),这样不违法吗…?
作者: vi000246 (Vi)   2023-01-23 20:07:00
爬虫大部份都是违法的 请低调使用
作者: Hsins (翔)   2023-01-23 20:17:00
之前请益过,有一说是真的要起诉的话,可能需要举证爬虫的运作造成的实际损失。有些爬虫比如是电商贩售物品,没有公开 API 又希望第三方行销团队或是其他平台想要同步销售而去爬取资料,好像就比较难判断。建议还是了解一下对方意图会比较好
作者: ripple0129 (perry tsai)   2023-01-24 14:30:00
真的不行就headless,慢了一点但是在背景慢慢爬,太快有时候反而也会被挡
作者: Belieeve (芥末拿铁)   2023-01-25 08:10:00
谢谢大家的解说
作者: s25g5d4 (function(){})()   2023-01-25 14:54:00
这种通常要另外打 API 拿到资料,如果习惯爬虫写法可以考虑 jsdom,比 headless 再更轻量点
作者: superpandal   2023-01-25 22:44:00
如上推文 爬虫是灰色地带 慢不一定是坏事 别人不让你爬事小 告你事大 要快也不是不行 不论你用不用合法的方式还是要付钱 直接跟购物网站接洽比较好
作者: MonyemLi (life)   2023-01-26 00:58:00
快速就是固定时间增加request数量,小型点的就营运会卡了。

Links booklink

Contact Us: admin [ a t ] ucptt.com