请益Request爬虫 andy22543 PTT批踢踢实业坊

请益Request爬虫

楼主: andy22543 (andy22543) 2023-01-19 20:03:51

最近接到一个专案要爬购物网站存mySQL
爬分类里面各产品资讯+内页详细资讯
目前已经使用selenium+multithreading写完
可惜速度不够快
所以正改用request改写
但发现不管用什么方法(session、cookie、payload)都没办法取得首页的商品资讯
已经把网络上能看的解决方式都看过一遍还是无解
另外也试过network的event(貌似是api?
把相关资讯post上去爆出ConnectionError: ('Connection aborted.'
所有能试解法都试过还是无法
有没有精通的高手帮看一下还有什么办法呢
附上连结
https://www.hktvmall.com/hktv/zh/%E8%B6%85%E7%B4%9A%E5%B7%BF%E5%A0%B4/%E8%B6%85%E7%B4%9A%E5%B8%82%E5%A0%B4/%E5%86%B7%E5%87%8D-%E6%80%A5%E5%87%8D%E9%A3%9F%E5%93%81/main/search?page=0&q=%3Arelevance%3Astreet%3Amain%3Acategory%3AAA11110000000

作者: keel90135 (尼可) 2023-01-19 20:13:00

标题分类跟缩网址都不会吗...

作者: Hsins (翔) 2023-01-19 20:23:00

非亲非故又问的不清不楚，愿意帮忙的人可能不多:(

作者: MoonCode (MoonCode) 2023-01-19 20:40:00

你浏览器看得到用爬虫至少能抓个几次（后续可能被挡）不要放弃

作者: alihue (wanda wanda) 2023-01-19 22:01:00

直接回到完成的版本，然后复制多份同时跑，每支爬的范围指定一下

作者: victor21813 (OHYEAH) 2023-01-19 22:40:00

先缩网址再说

作者: chuchutaro (啾啾太郎) 2023-01-20 00:03:00

dynamic websites?

作者: wayne5668944 (wayne5668944) 2023-01-20 00:25:00

印象中好像如果是spa爬虫抓不到（？）

作者: vi000246 (Vi) 2023-01-20 00:33:00

如果你是女生帮的人可能会多一点只能给你关键字用wireshark或fiddler看request的rawdata 想辨法模拟出一个一模一样的request这是get的raw data " target="_blank" rel="noreferrer noopener nofollow">

我网络乱抓的图我比较常用fiddler 你可以找个顺手的

作者: becca945 (频果芽子) 2023-01-20 01:03:00

你很不想问问题？

作者: Murasaki0110 (麦当劳欢乐送) 2023-01-20 01:19:00

问chatGPT

作者: kanahela (卡娜赫拉) 2023-01-20 07:38:00

你给的这个网址，超级市场分类商品，点进去就timeout了

楼主: andy22543 (andy22543) 2023-01-20 09:17:00

不好意思第一次在本版发文感谢各位指教

作者: surimodo (好吃棉花糖) 2023-01-20 10:07:00

selenium 笑死怎么可能快

作者: HybridSC (VisionS) 2023-01-20 15:44:00

建议先去搞懂request的运作方式，不然以后也是一个页面问一次

作者: vi000246 (Vi) 2023-01-20 16:41:00

这两本书我没读过不过看目录应该有你要的东西https://www.tenlong.com.tw/products/9787301322697 https://www.tenlong.com.tw/products/9787115528735看反爬虫那个章节就好

作者: brucetu (sec) 2023-01-20 20:29:00

selenium不够快你不会多开几台?你在那边破解反爬虫的成本绝对够你多开好几台

作者: vi000246 (Vi) 2023-01-21 00:34:00

多开几台治标不治本又浪费效能学好request才是正解

楼主: andy22543 (andy22543) 2023-01-21 11:04:00

谢谢各位意见，小弟再回去多研究request

作者: ReverieKai (ReveErieKai) 2023-01-21 17:48:00

你要先了解request和Selenium两个爬出来的网页差异还有运作原理

作者: secretfly (☠鬼灭·之喵喵) 2023-01-22 01:00:00

网络上能看的解决方式都看过一遍？？？你可以看两遍

作者: B0988698088 (废文少女小円♥) 2023-01-22 12:30:00

连缩网址都不会你回去报资测会比较快

作者: MoonCode (MoonCode) 2023-01-22 19:19:00

凶

作者: john0312 (Chen John L) 2023-01-22 19:57:00

有些反爬虫技术就不是requests学好就能解决的

作者: Belieeve (芥末拿铁) 2023-01-23 06:30:00

弱弱问一下，用爬虫进行商业行为（外包），这样不违法吗…？

作者: vi000246 (Vi) 2023-01-23 20:07:00

爬虫大部份都是违法的请低调使用

作者: Hsins (翔) 2023-01-23 20:17:00

之前请益过，有一说是真的要起诉的话，可能需要举证爬虫的运作造成的实际损失。有些爬虫比如是电商贩售物品，没有公开 API 又希望第三方行销团队或是其他平台想要同步销售而去爬取资料，好像就比较难判断。建议还是了解一下对方意图会比较好

作者: ripple0129 (perry tsai) 2023-01-24 14:30:00

真的不行就headless，慢了一点但是在背景慢慢爬，太快有时候反而也会被挡

作者: Belieeve (芥末拿铁) 2023-01-25 08:10:00

谢谢大家的解说

作者: s25g5d4 (function(){})() 2023-01-25 14:54:00

这种通常要另外打 API 拿到资料，如果习惯爬虫写法可以考虑 jsdom，比 headless 再更轻量点

作者: superpandal 2023-01-25 22:44:00

如上推文爬虫是灰色地带慢不一定是坏事别人不让你爬事小告你事大要快也不是不行不论你用不用合法的方式还是要付钱直接跟购物网站接洽比较好

作者: MonyemLi (life) 2023-01-26 00:58:00

快速就是固定时间增加request数量，小型点的就营运会卡了。

继续阅读

[请益] 如何比较在新旧机器上build code的效能qazsd Re: [请益] 适合入门functional programming 的教学oopFoo [请益] 适合入门functional programming 的教学FXW11314 [征才] AppWorks School 诚征技术导师max80713 [讨论] 研究所的研究与资讯产业的关联。applebg Re: [心得] 好的注解是解释为何需要这段 codegobears5566 [讨论] 架站通常都是有要赚钱....吧？secretfly [请益] offer选择 [新创医疗、电支]langrisser19 [请益] 人事系统EijiHoba [讨论] 普发现金 6 千元，数位部：2 月底前完成Lordaeron