[问题] 请教这验证码如何解析

楼主: HenryLiKing (HenryLiKing)   2017-09-05 21:16:07
大家好
我最近刚开始在研究爬虫
在登入的时候,看到这样的验证码图片
http://imgur.com/a/vO5GX
我尝试过把他转成 numpy array 后
切掉旁边的边边
然后用 pytesseract 去读图片
但是辨识率超级低
不知道要如何着手解析这样验证码的文字
想请教一下各位前辈这种类型的要如何分析
谢谢!!
补:
刚刚没说到
其实我有做过一点点处理
大致上是这样 https://goo.gl/zFPBDg
但是辨识成功率大概是 10~40%左右
超级低QQ
作者: shadowjohn (转角遇到爱)   2017-09-05 21:17:00
去杂点,去边框,文字跟四周留些空白,转成黑白白底黑字,然后tesseract定白名单,应该差不多了
作者: bluecadence (Maxwell's demon)   2017-09-05 22:15:00
这种用 tensorflow 写个三层 CNN 训练一下就解决了要作到辨识成功率到99%不难
作者: jack123218 (jack123218)   2017-09-06 10:42:00
如果字跟杂点都是固定颜色直接用色码把杂点滤掉就好了
作者: f496328mm (为什么会流泪)   2017-09-06 10:59:00
我也想问 一楼说的方法 image 要事前做好多处理阿@@
作者: vi000246 (Vi)   2017-09-06 11:47:00
我之前做的笔记http://docdro.id/4cVgmsJ
作者: f496328mm (为什么会流泪)   2017-09-06 13:09:00
感谢 另外tensorflos实战的网址 404
作者: vi000246 (Vi)   2017-09-06 13:45:00
网址挂掉就直接google标题吧刚google一下好像找不到了
作者: bbkingck (Twister)   2017-09-06 16:06:00
学习图片的前处理的话,推荐PyImageSearch,也可捡到现成
作者: f496328mm (为什么会流泪)   2017-09-06 17:26:00
太感谢这里的大大了,给做image的一个方向,不然根本不知要从何做起,只好一直调vgg
作者: aa12twtwaa (Tohka)   2017-09-06 20:04:00
不想前置处理的话可以参考这个https://goo.gl/2k74V2pip安装captcha库然后把扭曲线的那个砍掉字型替换成相近的字体
作者: vi000246 (Vi)   2017-09-07 00:51:00
我试过自已做训练集 用肉眼辨识5000份就累了楼上那方法要自已产验证码自已辨识才行
作者: TitanEric (泰坦)   2017-09-08 00:31:00
学弟安安
作者: luce   2017-09-08 02:48:00
可以先去看论文,有很多相关的研究。
作者: TakiDog (多奇狗)   2017-09-08 21:16:00
我做过这种 几乎一模一样的验证码 直接二值化 去杂点不知道为什么图片size会影响 我就把它放大在平滑然后差不多就能有个8成成功率了
作者: f496328mm (为什么会流泪)   2017-09-08 21:24:00
想请教怎么放大啊? 例如 DATA 给 64*64不想太多变量就取样成 32*32不知道怎么放大 或是放大的概念
作者: TakiDog (多奇狗)   2017-09-08 22:22:00
图片存下来我是在把它做拉大的动作 还有四周加上空白

Links booklink

Contact Us: admin [ a t ] ucptt.com