[闲聊] 赤松健：国图全书籍光学字符建置和AI辨识 LABOYS PTT批踢踢实业坊

[闲聊] 赤松健：国图全书籍光学字符建置和AI辨识

楼主: LABOYS (洛城浪子) 2022-07-14 21:57:45

https://twitter.com/KenAkamatsu/status/1547567317894463488
https://pbs.twimg.com/media/FXoQRY5akAAWOYo.jpg
拜访了(株)モルフォＡＩソリューションズ株式会社
我曾经阐述我的梦想是
“国会图书馆的全书籍都以光学字符辨认技术来建置，并且可以进行全文检索为目标”
没想到负责该技术的就是这间公司。
古文书的图像→文本转化，以现在的技术已经非常高水准，
以后期待能朝着利用人工智能的领域，
利用到AI来判断前后的文字脉络或用字遣词，这样的目标迈进。
如果这个梦想成真，那么其益处将是无法计量的。

作者: spfy (spfy) 2022-07-14 21:58:00

GOOGLE：为什么要花钱?

作者: gox1117 (月影秋枫) 2022-07-14 21:58:00

钱哪来

作者: mattc123456c (Matt Zhuang) 2022-07-14 21:59:00

扫描还要去比对吧？

作者: medama ( ) 2022-07-14 21:59:00

他这里的古文书指的是古代日本的手写草书字体，以前都要人工辨认，非常费时，现在技术已经可以用电脑辨认，

作者: LLSGG (西西西瓜) 2022-07-14 21:59:00

大图书馆计画，

作者: medama ( ) 2022-07-14 22:00:00

今后的目标是用电脑靠前后文来提升字体辨认率不是单纯旧书籍的意思

作者: LLSGG (西西西瓜) 2022-07-14 22:00:00

抓一下古文抄袭

作者: majohnman (麻酱面) 2022-07-14 22:02:00

先不论这件事的必要程度，毕竟将书本电子化的确可以以防万一未来发生什么事，但是全书的数字很庞大吧，要去哪生钱来搞这种事，政府也不会轻易拨款在这种事上吧

作者: bestteam (wombat是胖胖熊) 2022-07-14 22:02:00

GOOGLE能做到判别古文书????

作者: mattc123456c (Matt Zhuang) 2022-07-14 22:03:00

对于1楼，免费OCR服务不够理想

作者: a71085 (iii) 2022-07-14 22:03:00

中文有一个老外发起的网站叫做中国哲学书电子化计划

作者: cat05joy (CATHER520) 2022-07-14 22:07:00

OCR只是合标准的字体字体一歪很容易辨识不到

作者: spfy (spfy) 2022-07-14 22:08:00

GOOGLE以前是用reCAPTCHA叫大家帮他辨识不是指用免费OCR免费OCR连标准英文字体都会认错

作者: Bugquan (靠近边缘) 2022-07-14 22:10:00

不会扫描后，做成验证码

作者: qazxswptt (...) 2022-07-14 22:17:00

有点跑太多的感觉不如先数位化辨识以后再说

作者: bladesinger 2022-07-14 22:22:00

google的reCAPTCHA那堆填字就是让无数下载(?)的用户来进行人肉训练AI

作者: hinajian (☆小雏☆) 2022-07-14 22:22:00

免费的最贵

作者: Bugquan (靠近边缘) 2022-07-14 22:24:00

不过最大的问题还是钱

作者: reccalin (DJ) 2022-07-14 22:27:00

这个真的成功会很棒一堆古早论文都只有图档

作者: inte629l 2022-07-14 22:32:00

之后会有古文书的图片来辨别50音吗XD

作者: discoveryray (chih) 2022-07-14 22:34:00

研究生福音

作者: michaelfat19 2022-07-14 22:47:00

选上议员就是要争取用政府的钱做这件事啊==

作者: jasonchangki (阿特拉斯耸耸肩) 2022-07-14 23:07:00

这种就是整理期超苦但一旦成型超方便

作者: nalthax (书虫一枚) 2022-07-14 23:13:00

耶

作者: newasus (我是萝莉控我自豪) 2022-07-14 23:51:00

OCR技术需求太高先不论单纯扫描的话不会花到非常多钱吧应该几千万台币内能搞定？

作者: TsaiPC (Never say never.) 2022-07-15 00:18:00

日本国会图书馆目前一直有在做绝版书数位化，只是目前要看电子档还是要到国会图书馆才行

作者: nilr 2022-07-15 07:47:00

推

作者: abucat (阿布猫) 2022-07-15 09:01:00

这个推

继续阅读

[闲聊] 久美子头发那两搓看起来很好吸maple2378 Re: [闲聊] 地下城第三季穷的好好笑takashi001 [22夏] 组长女儿与保姆 02SaberTheBest [情报] 漫画家 2022日本北九州市驻村交流计画Qorqios Re: [缀歌] 破釜咖啡厅安科纪录----魔法少女艾比盖尔Vinygli Re: [闲聊] 灌篮高手的神奈川四强,武里高校到底出来干嘛的?njnjy [法米通]《MHR:破晓》2连冠！《风之少年》也热销ryoma1 Fw: [BGD] BanG Dream! Morfonication 动画主视觉YuiiAnitima [闲聊] 平蔵是在玩KOF吗？slamblock15 [情报] 宝可梦新无印 117.118 剧透wl760713

一般男女モニタリングAV×マジックミラー便コラボ企画大手企業の内定を目指す就活女子大生にじゅぼじゅぼフェラ面接！質疑応答中に喋れなくなるほどの大量口内射精で精子ダダ漏らし！過激面接で火照ったJDオマ○コにデカチンをねじ込みザーメンまみれSEX！全員中出しス…

【ゴールデン福袋】ユーザーを絶頂に導いた天使たち◆ ANGEL KMP 48時間ノーカットセレクション

【VR】没収したエロ本に発情したお堅い生徒会女子（隠れ巨乳）がギンギンに反り返った僕のペ●スにご乱心見様見真似で‘セックスごっこ’に没入するあまりドッピュドピュ膣内射精森下ことの、高瀬りな

巨乳を押し付けながらムニュムニュ接吻！唾液を飲ませて交わる密着ベロキス中出し性交

家庭教師のアナタが甘え上手な巨乳教え子に射精管理されちゃうアニメ声淫語＆美少女見つめ合いオナサポ天月あず

Contact Us: admin [ a t ] ucptt.com