[问题] 集保户股权分散表无法爬取 toyboy PTT批踢踢实业坊

[问题] 集保户股权分散表无法爬取

楼主: toyboy (打杂小弟兼职菸酒生) 2022-10-09 17:25:27

hi, 各位大大
小弟之前有写爬虫每周爬取及保护股权分散表，从上周后好像网页改版后就无法抓取，
试了一周还是搞不定，只能来求助大神帮忙解惑，感谢
错误讯息如下
<html><body><h1>SRVE0255E: A WebGroup/Virtual Host to handle
/smWeb/QryStockAjax.do has not been defined.</h1><br/><h3>SRVE0255E: A
WebGroup/Virtual Host to handle www.tdcc.com.tw:443 has not been
defined.</h3><br/></body></html>
资料爬取方式
import requests
from bs4 import BeautifulSoup as BS
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36'}
info = {'SYNCHRONIZER_TOKEN':'c0fa73d9-db72-499f-a10f-d87cb046c047',
'SYNCHRONIZER_URI': '/portal/zh/smWeb/qryStock',
'method': 'submit',
'firDate': '20221007',
'scaDate': '20221007',
'sqlMethod': 'StockNo',
'stockNo': '2330',
'stockName': ''
}
res = requests.post('https://www.tdcc.com.tw/smWeb/QryStockAjax.do', data =
info, headers = headers)
soup = BS(res.text, "lxml")
print(soup)

作者: surimodo (好吃棉花糖) 2022-10-09 22:34:00

post里面网址改成qryStock那个原始网址就可以或者你给一下当初爬出来资料长怎样我看能不能帮你做到资料格式输出

楼主: toyboy (打杂小弟兼职菸酒生) 2022-10-10 07:29:00

感谢，换网址就有抓到东西了，只是分散表部分查无资料看起来是SYNCHRONIZER_TOKEN验证码挡下，现在要抓的分散表都显示查无资料

作者: surimodo (好吃棉花糖) 2022-10-10 10:47:00

有资料阿就算爬虫出来的看不懂你自己用原始网页点一点的没跑出资料？

作者: surimodo (好吃棉花糖) 2022-10-10 06:34:00

post里面网址改成qryStock那个原始网址就可以或者你给一下当初爬出来资料长怎样我看能不能帮你做到资料格式输出

作者: surimodo (好吃棉花糖) 2022-10-10 06:34:00

post里面网址改成qryStock那个原始网址就可以或者你给一下当初爬出来资料长怎样我看能不能帮你做到资料格式输出

作者: surimodo (好吃棉花糖) 2022-10-10 06:34:00

post里面网址改成qryStock那个原始网址就可以或者你给一下当初爬出来资料长怎样我看能不能帮你做到资料格式输出

楼主: toyboy (打杂小弟兼职菸酒生) 2022-10-10 15:29:00

感谢，换网址就有抓到东西了，只是分散表部分查无资料看起来是SYNCHRONIZER_TOKEN验证码挡下，现在要抓的分散表都显示查无资料

楼主: toyboy (打杂小弟兼职菸酒生) 2022-10-10 15:29:00

感谢，换网址就有抓到东西了，只是分散表部分查无资料看起来是SYNCHRONIZER_TOKEN验证码挡下，现在要抓的分散表都显示查无资料

作者: surimodo (好吃棉花糖) 2022-10-10 18:47:00

有资料阿就算爬虫出来的看不懂你自己用原始网页点一点的没跑出资料？

楼主: toyboy (打杂小弟兼职菸酒生) 2022-10-10 15:29:00

感谢，换网址就有抓到东西了，只是分散表部分查无资料看起来是SYNCHRONIZER_TOKEN验证码挡下，现在要抓的分散表都显示查无资料

作者: surimodo (好吃棉花糖) 2022-10-10 18:47:00

有资料阿就算爬虫出来的看不懂你自己用原始网页点一点的没跑出资料？

作者: surimodo (好吃棉花糖) 2022-10-10 18:47:00

有资料阿就算爬虫出来的看不懂你自己用原始网页点一点的没跑出资料？

楼主: toyboy (打杂小弟兼职菸酒生) 2022-10-10 20:13:00

手动点是有资料，但用爬回来的看起来都显示查无此资料，检视From Date内的SYNCHRONIZER_TOKEN每次手动查询都会变才想说是不是这个值要先想怎么抓最新的，不然无法爬

楼主: toyboy (打杂小弟兼职菸酒生) 2022-10-10 20:13:00

作者: surimodo (好吃棉花糖) 2022-10-10 22:26:00

https://paste.ee/p/0rK9x研究一下除了token不能重复用post 还要给 cookies

作者: surimodo (好吃棉花糖) 2022-10-10 22:26:00

https://paste.ee/p/0rK9x研究一下除了token不能重复用post 还要给 cookies

作者: surimodo (好吃棉花糖) 2022-10-10 22:26:00

https://paste.ee/p/0rK9x研究一下除了token不能重复用post 还要给 cookies

作者: lycantrope (阿宽) 2022-10-10 22:50:00

可以用Session

作者: lycantrope (阿宽) 2022-10-10 22:50:00

可以用Session

作者: lycantrope (阿宽) 2022-10-10 22:50:00

可以用Session

楼主: toyboy (打杂小弟兼职菸酒生) 2022-10-11 06:09:00

爬到资料了，感谢S大热心协助，谢谢

楼主: toyboy (打杂小弟兼职菸酒生) 2022-10-11 06:09:00

爬到资料了，感谢S大热心协助，谢谢

楼主: toyboy (打杂小弟兼职菸酒生) 2022-10-10 12:13:00

作者: surimodo (好吃棉花糖) 2022-10-10 14:26:00

https://paste.ee/p/0rK9x研究一下除了token不能重复用post 还要给 cookies

作者: lycantrope (阿宽) 2022-10-10 14:50:00

可以用Session

楼主: toyboy (打杂小弟兼职菸酒生) 2022-10-10 22:09:00

爬到资料了，感谢S大热心协助，谢谢

作者: class99 (class99) 2022-12-10 22:11:00

我能产生动态token, 但爬下来的html档案没有集保资料S 大的图片档不在了, 可以再传一次吗? 谢谢

继续阅读

[问题] 请问资料前处理问题(空格和tab混用的dataWeiU [问题] csv写入问题chacha7202 [问题] requests等同于C#的webrequest吗?Federer5566 Re: [问题] 物件学习方式zerof [问题] 物件学习方式koconut [问题] 爬虫如何做到多进程异步处理surimodo Re: [问题] 简单写一个PicPick的外挂程式Hsins [问题] Linebot，回传及时爬虫资料(续)crazystyle63 [问题] import requests 出现问题ccs93313 [问题] 简单写一个PicPick的外挂程式note100