[问题] 爬虫资料返回虚假资料 aidansky0989 PTT批踢踢实业坊

[问题] 爬虫资料返回虚假资料

楼主: aidansky0989 (alta) 2020-04-29 22:02:41

最近练习爬资料时，
在爬虾皮发现返回的资料量很少且
爬到100笔左右数据以后会返回虚假
资料。
尝试过消除浏览器cookie：
1.模拟常人访问时间
import time
import random
time. sleep(random.randint(1,9))
2.固定状态更新cookies, 用requests. cookies. get_dict()，观察发现更新后的cookie
跟我定义的cookie字典不同，在想是否有session Id留在虾皮服务器记录session
import requests
session=requests.session()
params={}
cookie_dict={}
headers={}
session. cookies. update(cookie_dict)
session. get(url,cookies=cookie_dict,
params=params,headers=headers)
3.proxies={"http":"代理ip","https":"代理ip"}
请求头加入proxies=proxies
1,2试过无效，3每次用都404断线，想请问版上高手的建议，谢谢！

作者: vi000246 (Vi) 2020-04-29 22:48:00

什么叫虚假资料? 感觉是有限制ip请求上限

楼主: aidansky0989 (alta) 2020-04-29 23:30:00

遇到的问题是1.预计爬20页资料，实际只爬出2-3页的资料量2.约第100笔以后的资料是投毒返回，价格返回乱数，店家地址只返回第一个字，图片网址乱码。前100笔搜寻验证过资料数值都正确过一段时间再爬又可以爬出约100笔正确资料，推测可能是cookies时效已过被清除。电脑试过改用代理IP，换过多个代理IP都无法连线

作者: wsybu (%小步步%) 2020-04-30 14:05:00

有试过设定User-Agent?

楼主: aidansky0989 (alta) 2020-04-30 17:44:00

user-agent有设，放在headers

作者: pandajohn (猫熊酱) 2020-04-30 22:13:00

帮推一个我也好奇后续解法

作者: s860134 (s860134) 2020-05-01 11:58:00

可以给个网址范例让大家试试?cookie 会一直变很正常的，因为 response 有 set-cookierequests 模拟浏览器行为当然会把 cookie 进行更新如果你是爬搜寻页面，他要求 header "referer" 正确

作者: salmon12706 (Ellen) 2020-06-29 16:18:00

工研院人工智能课程推荐https://reurl.cc/4RDRaK

继续阅读

Re: [问题] 人脸辨识tylpk [问题] 有关python opencv face_recognition的问novicebear [问题] 人脸辨识s1010257 [资讯] 看盘工具 skcom 0.9.4 释出tacovirus [问题] Enthought Canopy 问题sariel0322 [问题] 证交所融券余额爬取yahoo168 Fw: [资讯] 顺着趋势来转型吧!AI人工智能工程师培训oepan [问题] python numpy 向量化pinner [问题] multiprocess变得很慢？tsaiminghan [问题] convolve2d问题there801021