[问题] 集保户股权分散表无法爬取

楼主: toyboy (打杂小弟兼职菸酒生)   2022-10-09 17:25:27
hi, 各位大大
小弟之前有写爬虫每周爬取及保护股权分散表,从上周后好像网页改版后就无法抓取,
试了一周还是搞不定,只能来求助大神帮忙解惑,感谢
错误讯息如下
<html><body><h1>SRVE0255E: A WebGroup/Virtual Host to handle
/smWeb/QryStockAjax.do has not been defined.</h1><br/><h3>SRVE0255E: A
WebGroup/Virtual Host to handle www.tdcc.com.tw:443 has not been
defined.</h3><br/></body></html>
资料爬取方式
import requests
from bs4 import BeautifulSoup as BS
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36'}
info = {'SYNCHRONIZER_TOKEN':'c0fa73d9-db72-499f-a10f-d87cb046c047',
'SYNCHRONIZER_URI': '/portal/zh/smWeb/qryStock',
'method': 'submit',
'firDate': '20221007',
'scaDate': '20221007',
'sqlMethod': 'StockNo',
'stockNo': '2330',
'stockName': ''
}
res = requests.post('https://www.tdcc.com.tw/smWeb/QryStockAjax.do', data =
info, headers = headers)
soup = BS(res.text, "lxml")
print(soup)
作者: surimodo (好吃棉花糖)   2022-10-09 22:34:00
post里面网址改成qryStock那个原始网址就可以或者你给一下当初爬出来资料长怎样我看能不能帮你做到资料格式输出
楼主: toyboy (打杂小弟兼职菸酒生)   2022-10-10 07:29:00
感谢,换网址就有抓到东西了,只是分散表部分查无资料看起来是SYNCHRONIZER_TOKEN验证码挡下,现在要抓的分散表都显示查无资料
作者: surimodo (好吃棉花糖)   2022-10-10 10:47:00
有资料阿 就算爬虫出来的看不懂你自己用原始网页点一点的没跑出资料?
作者: surimodo (好吃棉花糖)   2022-10-10 06:34:00
post里面网址改成qryStock那个原始网址就可以或者你给一下当初爬出来资料长怎样我看能不能帮你做到资料格式输出
作者: surimodo (好吃棉花糖)   2022-10-10 06:34:00
post里面网址改成qryStock那个原始网址就可以或者你给一下当初爬出来资料长怎样我看能不能帮你做到资料格式输出
作者: surimodo (好吃棉花糖)   2022-10-10 06:34:00
post里面网址改成qryStock那个原始网址就可以或者你给一下当初爬出来资料长怎样我看能不能帮你做到资料格式输出
楼主: toyboy (打杂小弟兼职菸酒生)   2022-10-10 15:29:00
感谢,换网址就有抓到东西了,只是分散表部分查无资料看起来是SYNCHRONIZER_TOKEN验证码挡下,现在要抓的分散表都显示查无资料
楼主: toyboy (打杂小弟兼职菸酒生)   2022-10-10 15:29:00
感谢,换网址就有抓到东西了,只是分散表部分查无资料看起来是SYNCHRONIZER_TOKEN验证码挡下,现在要抓的分散表都显示查无资料
作者: surimodo (好吃棉花糖)   2022-10-10 18:47:00
有资料阿 就算爬虫出来的看不懂你自己用原始网页点一点的没跑出资料?
楼主: toyboy (打杂小弟兼职菸酒生)   2022-10-10 15:29:00
感谢,换网址就有抓到东西了,只是分散表部分查无资料看起来是SYNCHRONIZER_TOKEN验证码挡下,现在要抓的分散表都显示查无资料
作者: surimodo (好吃棉花糖)   2022-10-10 18:47:00
有资料阿 就算爬虫出来的看不懂你自己用原始网页点一点的没跑出资料?
作者: surimodo (好吃棉花糖)   2022-10-10 18:47:00
有资料阿 就算爬虫出来的看不懂你自己用原始网页点一点的没跑出资料?
楼主: toyboy (打杂小弟兼职菸酒生)   2022-10-10 20:13:00
手动点是有资料,但用爬回来的看起来都显示查无此资料,检视From Date内的SYNCHRONIZER_TOKEN每次手动查询都会变才想说是不是这个值要先想怎么抓最新的,不然无法爬
楼主: toyboy (打杂小弟兼职菸酒生)   2022-10-10 20:13:00
手动点是有资料,但用爬回来的看起来都显示查无此资料,检视From Date内的SYNCHRONIZER_TOKEN每次手动查询都会变才想说是不是这个值要先想怎么抓最新的,不然无法爬
楼主: toyboy (打杂小弟兼职菸酒生)   2022-10-10 20:13:00
手动点是有资料,但用爬回来的看起来都显示查无此资料,检视From Date内的SYNCHRONIZER_TOKEN每次手动查询都会变才想说是不是这个值要先想怎么抓最新的,不然无法爬
作者: surimodo (好吃棉花糖)   2022-10-10 22:26:00
https://paste.ee/p/0rK9x研究一下 除了token不能重复用post 还要给 cookies
作者: surimodo (好吃棉花糖)   2022-10-10 22:26:00
https://paste.ee/p/0rK9x研究一下 除了token不能重复用post 还要给 cookies
作者: surimodo (好吃棉花糖)   2022-10-10 22:26:00
https://paste.ee/p/0rK9x研究一下 除了token不能重复用post 还要给 cookies
作者: lycantrope (阿宽)   2022-10-10 22:50:00
可以用Session
作者: lycantrope (阿宽)   2022-10-10 22:50:00
可以用Session
作者: lycantrope (阿宽)   2022-10-10 22:50:00
可以用Session
楼主: toyboy (打杂小弟兼职菸酒生)   2022-10-11 06:09:00
爬到资料了,感谢S大热心协助,谢谢
楼主: toyboy (打杂小弟兼职菸酒生)   2022-10-11 06:09:00
爬到资料了,感谢S大热心协助,谢谢
楼主: toyboy (打杂小弟兼职菸酒生)   2022-10-10 12:13:00
手动点是有资料,但用爬回来的看起来都显示查无此资料,检视From Date内的SYNCHRONIZER_TOKEN每次手动查询都会变才想说是不是这个值要先想怎么抓最新的,不然无法爬
作者: surimodo (好吃棉花糖)   2022-10-10 14:26:00
https://paste.ee/p/0rK9x研究一下 除了token不能重复用post 还要给 cookies
作者: lycantrope (阿宽)   2022-10-10 14:50:00
可以用Session
楼主: toyboy (打杂小弟兼职菸酒生)   2022-10-10 22:09:00
爬到资料了,感谢S大热心协助,谢谢
作者: class99 (class99)   2022-12-10 22:11:00
我能产生动态token, 但爬下来的html档案没有集保资料S 大的图片档不在了, 可以再传一次吗? 谢谢

Links booklink

Contact Us: admin [ a t ] ucptt.com