PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[问题] 请教这验证码如何解析
楼主:
HenryLiKing
(HenryLiKing)
2017-09-05 21:16:07
大家好
我最近刚开始在研究爬虫
在登入的时候,看到这样的验证码图片
http://imgur.com/a/vO5GX
我尝试过把他转成 numpy array 后
切掉旁边的边边
然后用 pytesseract 去读图片
但是辨识率超级低
不知道要如何着手解析这样验证码的文字
想请教一下各位前辈这种类型的要如何分析
谢谢!!
补:
刚刚没说到
其实我有做过一点点处理
大致上是这样 https://goo.gl/zFPBDg
但是辨识成功率大概是 10~40%左右
超级低QQ
作者:
shadowjohn
(转角遇到爱)
2017-09-05 21:17:00
去杂点,去边框,文字跟四周留些空白,转成黑白白底黑字,然后tesseract定白名单,应该差不多了
作者:
bluecadence
(Maxwell's demon)
2017-09-05 22:15:00
这种用 tensorflow 写个三层 CNN 训练一下就解决了要作到辨识成功率到99%不难
作者:
jack123218
(jack123218)
2017-09-06 10:42:00
如果字跟杂点都是固定颜色直接用色码把杂点滤掉就好了
作者:
f496328mm
(为什么会流泪)
2017-09-06 10:59:00
我也想问 一楼说的方法 image 要事前做好多处理阿@@
作者:
vi000246
(Vi)
2017-09-06 11:47:00
我之前做的笔记
http://docdro.id/4cVgmsJ
作者:
f496328mm
(为什么会流泪)
2017-09-06 13:09:00
感谢 另外tensorflos实战的网址 404
作者:
vi000246
(Vi)
2017-09-06 13:45:00
网址挂掉就直接google标题吧刚google一下好像找不到了
作者:
bbkingck
(Twister)
2017-09-06 16:06:00
学习图片的前处理的话,推荐PyImageSearch,也可捡到现成
作者:
f496328mm
(为什么会流泪)
2017-09-06 17:26:00
太感谢这里的大大了,给做image的一个方向,不然根本不知要从何做起,只好一直调vgg
作者:
aa12twtwaa
(Tohka)
2017-09-06 20:04:00
不想前置处理的话可以参考这个
https://goo.gl/2k74V2
pip安装captcha库然后把扭曲线的那个砍掉字型替换成相近的字体
作者:
vi000246
(Vi)
2017-09-07 00:51:00
我试过自已做训练集 用肉眼辨识5000份就累了楼上那方法要自已产验证码自已辨识才行
作者:
TitanEric
(泰坦)
2017-09-08 00:31:00
学弟安安
作者: luce
2017-09-08 02:48:00
可以先去看论文,有很多相关的研究。
作者:
TakiDog
(多奇狗)
2017-09-08 21:16:00
我做过这种 几乎一模一样的验证码 直接二值化 去杂点不知道为什么图片size会影响 我就把它放大在平滑然后差不多就能有个8成成功率了
作者:
f496328mm
(为什么会流泪)
2017-09-08 21:24:00
想请教怎么放大啊? 例如 DATA 给 64*64不想太多变量就取样成 32*32不知道怎么放大 或是放大的概念
作者:
TakiDog
(多奇狗)
2017-09-08 22:22:00
图片存下来我是在把它做拉大的动作 还有四周加上空白
继续阅读
[问题] iperf3 for python在windows上的使用
jack622
[问题] CNN辨识特定物件
gs8613789
Re: [问题] pandas read_csv(网址)
coeric
[问题] pandas read_csv(网址)
uncle925
[问题] 文件隔行读取
dinoptt1993
[问题] 爬虫相关问题(BeautifulSoup)
TZULIU
Fw: [征才] Dell - Data Science Analyst
maplesida
[问题] 爬虫出网站中所有的内文
tosakashiron
[问题] 辨识图片物体,上tag
blue14753
[问题] 问一下python的正规式
ptt0720
Links
booklink
Contact Us: admin [ a t ] ucptt.com