MBA 的在美学习笔记 FB https://reurl.cc/dD1W62
【AI 模型的意外用途:拯救濒临绝种的…语言? 】
人生去过的国家不多,有幸冰岛是其中一个。但至今仍然让人忘不了啊!
冰岛的景色简直是异世界,有时青草绿地像是天堂,有时却有如“世界末日与冷酷意境”
。无论天堂或地狱,到处都是随手拿起来乱拍都可以当桌布的等级。难怪要拍火星的电影
都要在此取景啊!
不过在冰岛旅游倒是有个小障碍:在地图搜寻景点时,怎么都拼不对地名。
因为冰岛语实在是太难了。导致普通人如我,连把地名拼出来都难。
首都雷克雅维克 Reykjavík 还算简单的。冰岛最著名的景点,世界仅有的冰河湖景色 J
ökulsárlón ,我从来没能一次好好拼对。最变态的是岛中的火山,叫做 T h r í h
n ú k a g í g u r !看得我眼睛都花了。当时没去,恐怕就是因为太难拼了,在地图
拼不出来找不到路,直接放弃。
虽然冰岛语很难,但如果到此地观光,会发现——根本不用讲冰岛语。
虽然冰岛语是官方语言,但统计显示接近九成的冰岛人,每天都得讲英语!连英文电影预
告,都直接不上字幕。如今冰岛语只剩下 30 万人在讲了。
虽然大家日常交流还是会用冰岛语,但住在这里,不讲冰岛语也是完全 OK 的。
难怪有人说,这个语言百年后很可能会消失,可以说是名副其实的濒危语种了。
语言是文化的精髓。语言的灭绝,就失去了未来文化发展的可能性。就算是最热门的中文
英文,也有许多传统文化甚至神话的单字,是怎么也翻译不出来的。以中文来说,譬如“
功夫”、“风水”、“太极”至今除了音译以外,都没有一个好的翻译。而且冰岛语还与
其他维京人的语言紧密相连。如果未来突然发现新的古文明遗迹,却没有人能读得懂,真
是人类文明遗产的一大损失!
—
还好,在灭绝的前夕, AI 登场拯救了这项语言。
在此之前,冰岛人其实曾经做出努力。政府成立了语言部门,专门用来保存这些术语。甚
至他们还自己用了 GPT-3 ,拿 30 万笔冰岛语资料,来训练以及微调(Fine-tune)。
可惜成果令人失望——冰岛语实在太冷门了,很多词根本翻不出来,连基本的问题 AI 都
因为训练不足,一直“幻想”出大错特错,却 100% 肯定的答案。
终于, OpenAI 和远在天边靠近极圈的冰岛人联系上了,释出他们最关键的技术来拯救冰
岛语。
OpenAI 从前其实不是很 Open。即使他们曾经对外简单展示了模型训练过程,却没有公开
最重要的一步:人类反馈的增强学习(RLHF),到底是要怎么搞最有效率。
不过为了跟冰岛政府一同拯救冰岛语,倒是让 OpenAI 使出绝招了。他们合作后,开始
了 RLHF 的一连串计画:由 AI 作为学生,“人类老师”作为教学辅具,让模型不断的出
产答案,人类来评分。
结果呢?竟然短短 100 个例子以后,就让冰岛语模型达到了可用的阶段!
如今 AI 可以用写出北欧神话风格的冰岛语古诗,并在人类用冰岛语问问题时,自动识别
语言,并回答冰岛相关知识。重要的是,以后 IT 的接口语言,无论是客服还是问答机器
,完全可以默认是冰岛文!
也就是说,未来即使家里没人懂冰岛文,冰岛的孩子们还是可以用冰岛语跟 AI 聊天啦!
—
从只是个聊天机器人,到拯救一门语言。 AI 技术真的挑战很多从前既定的认知框架。
从前谁能想到,可能真正能把一个深邃难解、口耳相传的北欧文化传承下来的,不是那些
祖传的冰岛人,竟然只是存在云端资料中心里头,模型的一套“参数”呢?
随着 AI 技术发展,很多从前的规范,社会的众多条条框框,可能都要砍掉重练了。
每年络绎不绝的游客,用数位技术拚命拍,想把冰岛的视觉风景留下来。而那些眼睛看不
到摸不著的文化遗产,因为 AI ,竟然也有了永续流传的机会!
你怎么能不爱科技呢?
话说回来,相比之下 30 万冰岛人用的小语种,其实台湾原住民就有超过 58 万,而阿美
族更是有二十几万。 AI 是不是也来拯救我们南岛少数民族的族语呢?
(好吧我承认这一篇只是想 PO 照片啦!)