[新闻]训练台版 AI 语言模型，许永真：盼让百工 pl132 PTT批踢踢实业坊

[新闻]训练台版 AI 语言模型，许永真：盼让百工

楼主: pl132 (pl132) 2024-05-01 17:48:08

训练台版 AI 语言模型，许永真：盼让百工百业商用
https://technews.tw/2024/04/30/tw-ai-llm-taide/
国科会去年 4 月启动 TAIDE 计画，研发台版大型繁中 AI 语言模型，台大资工系教授许
永真表示，TAIDE 是透过中文资料，训练以英文为母语的 Llama 模型，“像在教美国长
大的 ABC 讲中文”，已有初步成果，盼尽快让台湾百工百业商用。
“2024年AI与资讯安全论坛”今天登场，台大资工系教授许永真以“台湾的AI与大型语言
模型（LLM）”为题发表演说。
为因应国际大型语言模型常产生资讯偏误，或不符台湾文化与价值观的回应，国科会去年
4月启动TAIDE计画，在Llama（Meta语言模型）原型基础上，由国内学界专家发展及训练
调校。
许永真为台湾AI卓越中心副总召集人，参与TAIDE计画，今日论坛表示AI有资安风险，许
多人都担心“所思所想、机敏资料外流”，让大家对AI又爱又怕，甚至有人透过AI模型学
习，攻击世界任何网站。
她援引哈佛法学教授雷席格所说“我们正处于AI的‘欧本海默时刻’，好坏永远并存”。
许永真也说，虽然要担心资料外流问题，但更该正视台湾失去数位话语权、自主发展大模
型的机会，故一年前就与专家团队建议台湾应建造自己的AI对话引擎，国科会指导下，成
功打造TAIDE可信任AI对话引擎。
她分享，TAIDE是站在巨人肩膀上，选择以英文为母语的Llama模型，再透过中文资料继续
训练；许永真比喻“就像在教美国长大的ABC讲中文”，透过英文基础教育、中文基础教
育、中学教育、高等教育等加强学习。
算力有限下，TAIDE去年6月成功完成第一阶段展示，她表示，目标是成为商用模型，让台
湾百工百业使用，条件包括基础模型必须可商用，也要有充足可商用授权中文资料。
许永真分享，Meta去年7月推动可商用Llama 2，今年4月19日释出Llama 3新大型语言模型
，团队仅用四天就完成模型训练；接下来的挑战是透过可商用中文资料训练，目前有许多
中文授权资料量，也欢迎各界交流资源。
她强调，TAIDE不是要和各大语言模型抗衡匹敌，但希望供台湾中小企业甚至不愿意资料
外流的金融业安全可靠的语言模型使用，也期待民间力量让专案商转，共同壮大。

作者: CalvinBryant (空白是低调的表示。) 2024-05-01 21:02:00

浪费国家资源

作者: JamesForrest (Forrest) 2024-05-02 20:35:00

选个语系人口少的语言训练AI真的智O

继续阅读