[资料] AI 保存冰岛语的经验

楼主: RungTai (RungTai)   2023-06-29 10:02:42
MBA 的在美学习笔记 FB https://reurl.cc/dD1W62
【AI 模型的意外用途:拯救濒临绝种的…语言? 】
人生去过的国家不多,有幸冰岛是其中一个。但至今仍然让人忘不了啊!
冰岛的景色简直是异世界,有时青草绿地像是天堂,有时却有如“世界末日与冷酷意境”
。无论天堂或地狱,到处都是随手拿起来乱拍都可以当桌布的等级。难怪要拍火星的电影
都要在此取景啊!
不过在冰岛旅游倒是有个小障碍:在地图搜寻景点时,怎么都拼不对地名。
因为冰岛语实在是太难了。导致普通人如我,连把地名拼出来都难。
首都雷克雅维克 Reykjavík 还算简单的。冰岛最著名的景点,世界仅有的冰河湖景色 J
ökulsárlón ,我从来没能一次好好拼对。最变态的是岛中的火山,叫做 T h r í h
n ú k a g í g u r !看得我眼睛都花了。当时没去,恐怕就是因为太难拼了,在地图
拼不出来找不到路,直接放弃。
虽然冰岛语很难,但如果到此地观光,会发现——根本不用讲冰岛语。
虽然冰岛语是官方语言,但统计显示接近九成的冰岛人,每天都得讲英语!连英文电影预
告,都直接不上字幕。如今冰岛语只剩下 30 万人在讲了。
虽然大家日常交流还是会用冰岛语,但住在这里,不讲冰岛语也是完全 OK 的。
难怪有人说,这个语言百年后很可能会消失,可以说是名副其实的濒危语种了。
语言是文化的精髓。语言的灭绝,就失去了未来文化发展的可能性。就算是最热门的中文
英文,也有许多传统文化甚至神话的单字,是怎么也翻译不出来的。以中文来说,譬如“
功夫”、“风水”、“太极”至今除了音译以外,都没有一个好的翻译。而且冰岛语还与
其他维京人的语言紧密相连。如果未来突然发现新的古文明遗迹,却没有人能读得懂,真
是人类文明遗产的一大损失!

还好,在灭绝的前夕, AI 登场拯救了这项语言。
在此之前,冰岛人其实曾经做出努力。政府成立了语言部门,专门用来保存这些术语。甚
至他们还自己用了 GPT-3 ,拿 30 万笔冰岛语资料,来训练以及微调(Fine-tune)。
可惜成果令人失望——冰岛语实在太冷门了,很多词根本翻不出来,连基本的问题 AI 都
因为训练不足,一直“幻想”出大错特错,却 100% 肯定的答案。
终于, OpenAI 和远在天边靠近极圈的冰岛人联系上了,释出他们最关键的技术来拯救冰
岛语。
OpenAI 从前其实不是很 Open。即使他们曾经对外简单展示了模型训练过程,却没有公开
最重要的一步:人类反馈的增强学习(RLHF),到底是要怎么搞最有效率。
不过为了跟冰岛政府一同拯救冰岛语,倒是让 OpenAI 使出绝招了。他们合作后,开始
了 RLHF 的一连串计画:由 AI 作为学生,“人类老师”作为教学辅具,让模型不断的出
产答案,人类来评分。
结果呢?竟然短短 100 个例子以后,就让冰岛语模型达到了可用的阶段!
如今 AI 可以用写出北欧神话风格的冰岛语古诗,并在人类用冰岛语问问题时,自动识别
语言,并回答冰岛相关知识。重要的是,以后 IT 的接口语言,无论是客服还是问答机器
,完全可以默认是冰岛文!
也就是说,未来即使家里没人懂冰岛文,冰岛的孩子们还是可以用冰岛语跟 AI 聊天啦!

从只是个聊天机器人,到拯救一门语言。 AI 技术真的挑战很多从前既定的认知框架。
从前谁能想到,可能真正能把一个深邃难解、口耳相传的北欧文化传承下来的,不是那些
祖传的冰岛人,竟然只是存在云端资料中心里头,模型的一套“参数”呢?
随着 AI 技术发展,很多从前的规范,社会的众多条条框框,可能都要砍掉重练了。
每年络绎不绝的游客,用数位技术拚命拍,想把冰岛的视觉风景留下来。而那些眼睛看不
到摸不著的文化遗产,因为 AI ,竟然也有了永续流传的机会!
你怎么能不爱科技呢?
话说回来,相比之下 30 万冰岛人用的小语种,其实台湾原住民就有超过 58 万,而阿美
族更是有二十几万。 AI 是不是也来拯救我们南岛少数民族的族语呢?
(好吧我承认这一篇只是想 PO 照片啦!)
作者: Tahuiyuan (mata)   2023-06-29 12:19:00
要是平埔原住民语们多撑250年,或许就不会被台、日、华等语言轮番取代了…
作者: MilchFlasche (实践才能发光)   2023-06-29 15:07:00
“被取代”和“撑不了”似乎是同一件事……
作者: Tahuiyuan (mata)   2023-06-29 15:07:00
说得也是 QQ
作者: guanquan   2023-06-30 11:45:00
我记得冰岛人很保护他们的语言,没听过有啥危机
作者: saram (saram)   2023-06-30 16:15:00
高山部落原住民若搬到西部平原,也早就全讲台语了.小语族的必然命运.保护也没用.再说保护要有利多引诱.平埔人转换语言的模式和近世台语转国语一样.两百年来转三种语言.可以列世界纪录.
作者: MilchFlasche (实践才能发光)   2023-07-01 09:36:00
楼顶无讲话无侬共汝当做哑口政府佮社会先共无友善个态度提掉才讲啦

Links booklink

Contact Us: admin [ a t ] ucptt.com