Hi 各位好,
最近开始学习python进行爬虫,参考网络上的大数软件教学,
先进行半自动化的爬取, 取得验证码图片后再手动输入验证码,
以上部份都没有问题, 但由于在进行证交所买卖日报表的爬取时,
因为买卖日报表是aspx, 所以一开始遇到__VIEWSTATE及__EVENTVALIDATION
变量会变动问题,所幸在本版有爬文知道如何解决此问题 (先利用GET爬取
此两变量,再利用POST送出实际的请求)
但最后送出POST后会发现爬取回来的网页内容会是 "验证码错误"
买卖日报表有两个FRAME: Menu及Content,
Menu会出现验证码错误;Content则为空白
想请问各位大神, 是否可提供小弟一个方向呢?
ps. 在正式送出POST前,只会选一个证券代号, 再选择后, 我查看Chrome 开发者工具
应该并没有额外的POST请求,所以我所爬取的__VIEWSTATE应该是没问题的
请参考我写的code (jupyter notebook):
https://github.com/weishiny/ProgramNote/blob/master/DailyReportCAPTCHA.ipynb