[闲聊] 赤松健:国图全书籍光学字符建置和AI辨识

楼主: LABOYS (洛城浪子)   2022-07-14 21:57:45
https://twitter.com/KenAkamatsu/status/1547567317894463488
https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg
拜访了(株)モルフォAIソリューションズ株式会社
我曾经阐述我的梦想是
“国会图书馆的全书籍都以光学字符辨认技术来建置,并且可以进行全文检索为目标”
没想到负责该技术的就是这间公司。
古文书的图像→文本转化,以现在的技术已经非常高水准,
以后期待能朝着利用人工智能的领域,
利用到AI来判断前后的文字脉络或用字遣词,这样的目标迈进。
如果这个梦想成真,那么其益处将是无法计量的。
作者: spfy (spfy)   2022-07-14 21:58:00
GOOGLE:为什么要花钱?
作者: gox1117 (月影秋枫)   2022-07-14 21:58:00
钱哪来
作者: mattc123456c (Matt Zhuang)   2022-07-14 21:59:00
扫描还要去比对吧?
作者: medama ( )   2022-07-14 21:59:00
他这里的古文书指的是古代日本的手写草书字体,以前都要人工辨认,非常费时,现在技术已经可以用电脑辨认,
作者: LLSGG (西西西瓜)   2022-07-14 21:59:00
大图书馆计画,
作者: medama ( )   2022-07-14 22:00:00
今后的目标是用电脑靠前后文来提升字体辨认率不是单纯旧书籍的意思
作者: LLSGG (西西西瓜)   2022-07-14 22:00:00
抓一下古文抄袭
作者: majohnman (麻酱面)   2022-07-14 22:02:00
先不论这件事的必要程度,毕竟将书本电子化的确可以以防万一未来发生什么事,但是全书的数字很庞大吧,要去哪生钱来搞这种事,政府也不会轻易拨款在这种事上吧
作者: bestteam (wombat是胖胖熊)   2022-07-14 22:02:00
GOOGLE能做到判别古文书????
作者: mattc123456c (Matt Zhuang)   2022-07-14 22:03:00
对于1楼,免费OCR服务不够理想
作者: a71085 (iii)   2022-07-14 22:03:00
中文有一个老外发起的网站叫做中国哲学书电子化计划
作者: cat05joy (CATHER520)   2022-07-14 22:07:00
OCR只是合标准的字体 字体一歪很容易辨识不到
作者: spfy (spfy)   2022-07-14 22:08:00
GOOGLE以前是用reCAPTCHA叫大家帮他辨识 不是指用免费OCR免费OCR连标准英文字体都会认错
作者: Bugquan (靠近边缘)   2022-07-14 22:10:00
不会扫描后,做成验证码
作者: qazxswptt (...)   2022-07-14 22:17:00
有点跑太多的感觉 不如先数位化 辨识以后再说
作者: bladesinger   2022-07-14 22:22:00
google的reCAPTCHA那堆填字就是让无数下载(?)的用户来进行人肉训练AI
作者: hinajian (☆小雏☆)   2022-07-14 22:22:00
免费的最贵
作者: Bugquan (靠近边缘)   2022-07-14 22:24:00
不过最大的问题还是钱
作者: reccalin (DJ)   2022-07-14 22:27:00
这个真的成功会很棒 一堆古早论文都只有图档
作者: inte629l   2022-07-14 22:32:00
之后会有古文书的图片来辨别50音吗XD
作者: discoveryray (chih)   2022-07-14 22:34:00
研究生福音
作者: michaelfat19   2022-07-14 22:47:00
选上议员就是要争取用政府的钱做这件事啊==
作者: jasonchangki (阿特拉斯耸耸肩)   2022-07-14 23:07:00
这种就是整理期超苦但一旦成型超方便
作者: nalthax (书虫一枚)   2022-07-14 23:13:00
作者: newasus (我是萝莉控我自豪)   2022-07-14 23:51:00
OCR技术需求太高先不论 单纯扫描的话不会花到非常多钱吧应该几千万台币内能搞定?
作者: TsaiPC (Never say never.)   2022-07-15 00:18:00
日本国会图书馆目前一直有在做绝版书数位化,只是目前要看电子档还是要到国会图书馆才行
作者: nilr   2022-07-15 07:47:00
作者: abucat (阿布猫)   2022-07-15 09:01:00
这个推

Links booklink

Contact Us: admin [ a t ] ucptt.com