[问题] 爬买卖日报表CAPTCHA问题

楼主: SONGya168 (威威)   2018-02-28 09:40:01
Hi 各位好,
最近开始学习python进行爬虫,参考网络上的大数软件教学,
先进行半自动化的爬取, 取得验证码图片后再手动输入验证码,
以上部份都没有问题, 但由于在进行证交所买卖日报表的爬取时,
因为买卖日报表是aspx, 所以一开始遇到__VIEWSTATE及__EVENTVALIDATION
变量会变动问题,所幸在本版有爬文知道如何解决此问题 (先利用GET爬取
此两变量,再利用POST送出实际的请求)
但最后送出POST后会发现爬取回来的网页内容会是 "验证码错误"
买卖日报表有两个FRAME: Menu及Content,
Menu会出现验证码错误;Content则为空白
想请问各位大神, 是否可提供小弟一个方向呢?
ps. 在正式送出POST前,只会选一个证券代号, 再选择后, 我查看Chrome 开发者工具
应该并没有额外的POST请求,所以我所爬取的__VIEWSTATE应该是没问题的
请参考我写的code (jupyter notebook):
https://github.com/weishiny/ProgramNote/blob/master/DailyReportCAPTCHA.ipynb
作者: s860134 (s860134)   2018-02-28 18:50:00
你买卖日报进去的时候不用填验证码吗?
楼主: SONGya168 (威威)   2018-02-28 21:58:00
需要,我是先取得验证码图片后,formdata手动填,有利用session目前还没有做到自动的手动填完验证码后送post出去
作者: ok963963ok (冷月无痕)   2018-03-01 10:19:00
若有需要识别验证码,可站内
楼主: SONGya168 (威威)   2018-03-01 18:11:00
目前我是卡在送post出去验证码不过,验证码为手填
作者: a830307119 (天生我材必有用)   2018-03-03 06:57:00
作者: ar54971   2018-03-06 03:38:00
作者: galeondx   2018-03-06 04:16:00

Links booklink

Contact Us: admin [ a t ] ucptt.com