[问题] 爬虫资料返回虚假资料

楼主: aidansky0989 (alta)   2020-04-29 22:02:41
最近练习爬资料时,
在爬虾皮发现返回的资料量很少且
爬到100笔左右数据以后会返回虚假
资料。
尝试过消除浏览器cookie:
1.模拟常人访问时间
import time
import random
time. sleep(random.randint(1,9))
2.固定状态更新cookies, 用requests. cookies. get_dict(),观察发现更新后的cookie
跟我定义的cookie字典不同,在想是否有session Id留在虾皮服务器记录session
import requests
session=requests.session()
params={}
cookie_dict={}
headers={}
session. cookies. update(cookie_dict)
session. get(url,cookies=cookie_dict,
params=params,headers=headers)
3.proxies={"http":"代理ip","https":"代理ip"}
请求头加入proxies=proxies
1,2试过无效,3每次用都404断线,想请问版上高手的建议,谢谢!
作者: vi000246 (Vi)   2020-04-29 22:48:00
什么叫虚假资料? 感觉是有限制ip请求上限
楼主: aidansky0989 (alta)   2020-04-29 23:30:00
遇到的问题是1.预计爬20页资料,实际只爬出2-3页的资料量2.约第100笔以后的资料是投毒返回,价格返回乱数,店家地址只返回第一个字,图片网址乱码。前100笔搜寻验证过资料数值都正确过一段时间再爬又可以爬出约100笔正确资料,推测可能是cookies时效已过被清除。电脑试过改用代理IP,换过多个代理IP都无法连线
作者: wsybu (%小步步%)   2020-04-30 14:05:00
有试过设定User-Agent?
楼主: aidansky0989 (alta)   2020-04-30 17:44:00
user-agent有设,放在headers
作者: pandajohn (猫熊酱)   2020-04-30 22:13:00
帮推一个 我也好奇后续解法
作者: s860134 (s860134)   2020-05-01 11:58:00
可以给个网址范例让大家试试?cookie 会一直变很正常的,因为 response 有 set-cookierequests 模拟浏览器行为当然会把 cookie 进行更新如果你是爬搜寻页面,他要求 header "referer" 正确
作者: salmon12706 (Ellen)   2020-06-29 16:18:00
工研院人工智能课程推荐https://reurl.cc/4RDRaK

Links booklink

Contact Us: admin [ a t ] ucptt.com