Re: [闲聊] 赤松健:国图全书籍光学字符建置和AI辨识

楼主: medama ( )   2022-07-14 22:07:30
※ 引述《LABOYS (洛城浪子)》之铭言:
: https://twitter.com/KenAkamatsu/status/1547567317894463488
: https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg
: 拜访了(株)モルフォAIソリューションズ株式会社
: 我曾经阐述我的梦想是
: “国会图书馆的全书籍都以光学字符辨认技术来建置,并且可以进行全文检索为目标”
: 没想到负责该技术的就是这间公司。
: 旧书籍的图像→文本转化,以现在的技术已经非常高水准,
: 以后期待能朝着利用人工智能的领域,
: 利用到AI来判断前后的文字脉络或用字遣词,这样的目标迈进。
: 如果这个梦想成真,那么其益处将是无法计量的。
他这里的古文书指的是古代日本的手写草书字体,
不是单纯旧书籍的意思
以前都要人工辨认,非常费时,
现在技术已经可以用电脑辨认,
今后的目标是用电脑靠前后文来提升字体辨认率
例:
https://i.imgur.com/WURzdkp.png
https://i.imgur.com/gIfD3n9.png
一般人没学过日文草书
大概只能辨识出20%汉字和假名
以往是靠专家学者辨认再转写
不过目前电脑的辨识率已经到能80%以上
作者: kaj1983   2022-07-14 22:12:00
第二张和我家附近的诊所医师在写病历时一样笔迹耶XD
作者: D2Diyus (想买的书太多了)   2022-07-14 22:12:00
古日本很多大名亲笔书信真的潦草到日本人也认不出来(
作者: hinajian (☆小雏☆)   2022-07-14 22:25:00
以后人机验证变成 认得出来的是AI 认不出来的是人类了(X
作者: yung80111 (洛沁)   2022-07-14 22:29:00
古代人看得懂这在写啥?
作者: daidaidai02 (不推理的名侦探)   2022-07-14 22:30:00
哇靠伟业
作者: inte629l   2022-07-14 22:31:00
这些古文书主要用意是在哪啊? 契约之类的?
楼主: medama ( )   2022-07-14 22:34:00
用在任何地方啊 这是古代的书写体
作者: chewie (北极熊)   2022-07-14 22:40:00
https://bit.ly/3RrFl6S这篇可以看书写体-古文-现代文体的翻译 第一步的书写体辨识若能用AI辨识协助会快很多
作者: w11918 (歪)   2022-07-14 22:52:00
一楼那个叫医学速写
作者: mn435 (nick)   2022-07-14 23:04:00
搞不懂写这么样 收信人就算会草书也读得很吃力吧
作者: winglight   2022-07-14 23:16:00
虎鲸文也能辨识吗?
作者: bluejark (蓝夹克)   2022-07-14 23:19:00
以现在的深度学习来说是可以做到的
楼主: medama ( )   2022-07-14 23:20:00
不会很吃力啊 草书是另一套字体 不是胡乱写的
作者: bluejark (蓝夹克)   2022-07-14 23:21:00
就是先把一些对照表做出来再让AI去辨识
作者: nilr   2022-07-15 07:49:00

Links booklink

Contact Us: admin [ a t ] ucptt.com