大家好~
前阵子期中考完很闲,就花了约一周的时间用CNN实作了台铁验证码辨识(搭配Keras)
在版上有看到一些前辈实作时遇到的一些问题(如相黏的数字无法辨识)应该都有解决
但我想可能主要是因为我不是以切割图片的方式去一个一个字辨识吧
验证集是手动标记的约1000张,训练集部分则是用自行模仿产生的约50000张
用自行产生的训练集 训练后的模型对验证集辨识效果很好
单码辨识率大约有98.84%
整体一次辨识成功率也有91%左右(有些字像6和9旋转后容易误判)
继续训练下去精准度会更高,不过我想这样应该够用了
不过现在还只能辨识固定6码的验证码
5码+6码的部分目前有想法(可能加入RNN去做,或是加入空白字符让CNN辨识)
等之后有空再去实作看看~
下面附上Github连结,今天写了很详尽的README放上去
有兴趣的版友们可以看看或一起讨论如何改进 :)
https://github.com/JasonLiTW/simple-railway-captcha-solver