[新闻] 中研院AI语言模型出包！廖俊智：提醒其他 gaymay5566 PTT批踢踢实业坊

[新闻] 中研院AI语言模型出包！廖俊智：提醒其他

楼主: gaymay5566 (feeling很重要) 2023-10-12 13:21:48

1.媒体来源:
NOWnews 今日新闻
2.记者署名:
李琦玮／台北报导
3.完整新闻标题:
中研院AI语言模型出包！廖俊智：提醒其他计画勿用中国资料
4.完整新闻内文:
我国中央研究院日前推出类似CHatGPT的繁体中文语言模型CKIP-Llama-2-7b，被踢爆使用
中国建置的数据库，9日紧急下架，立委今（12）日关切此议题，中研院长廖俊智说明，
主要是年轻研究员求快心切，想利用新技术，将明清人物的生平进行自动化分析，建构语
言模型并非研究本意，另外，中研院将成立生成式AI风险研究小组，提供研究人员相关指
引。
立法院教文会邀请中研院院长廖俊智列席报告业务概况，并备质询。多名立委关切繁中AI
语言模型出包状况。
立委万美玲指出，中研院日前推出繁体中文语言模型，请网友测试，结果回答我国最高领
导人是国家主席习近平，并自述是由复旦大学自然语言处理实验室和上海人工智能实验室
共同开发，居住地在上海人工智能实验室服务器集，非常离谱，质疑这是中研院研发的吗
？还是研究员大量引用中国资料、甚至抄袭对岸研究成果？
廖俊智回应，主要是一名研究员求快心切，把尚未完全测试完毕的软件，以开源精神，上
网请大家一同测试，产生了一些有待商榷的结果，研究员已深切反省，中研院也在本次事
件学到正面教训，体认到繁中语言词汇非常重要，需要大家一起来做。
万美玲表示，中研院管理不够严谨，研究员的所有研究出去都是代表中研院，绝非他个人
，结果这套系统3天就下架，简直是闹了个笑话。
中研院资讯所长廖弘源表示，主要是年轻研究员执行2个计画，一个是国科会从去年8月到
今年7月、经费70万元的计画，大型预训练语言模型的建构与校正，另一个则是中研院数
位文化中心给予30万元研究计画，有关明清历史时空调查，因为CHatGPT是去年10月问世
，该研究员拿到计画后，就想用新技术来赶快进行研究。
廖弘源说明，大型语言模型就像人脑，需要给予许多资料、知识的训练，必须花很多钱请
很多人去建构数据库，但台湾主要是靠国家力量做，该研究员仅是为了历史研究计画，建
构出资料集，但经费不够多，便想到对岸与我们同语言，便想直接使用中国与明清历史相
关的资料，将简体中文转成繁体中文，去加以训练，想要很快展现研究成果，却没想到这
些数据库背后的价值观也被纳入。
廖弘源强调，开发AI语言模型非研究员本意，年轻人也不知道引用中国数据库的敏感度，
才犯下此种疏忽。
立委张廖万坚询问，中研院仅用30万元去做繁体中文语言模型？日前声明说会成立“生成
式AI风险小组”因应，何时会成立？院内的拟定审核机制何时提出？
廖俊智说，30万元计画原本并非要做生成式AI研究，而是明清历史研究，是研究员想利用
新技术，求快心切，动用这些经费赶快做测试；“生成式AI风险小组”正在规划中，会尽
快进行，国际上也正在进行这类控管，因为AI对社会冲击仍然是未知数。
立委黄国书询问，中研院未来在推动CHatGPT研究，还会持续使用中国资料集吗？
廖俊智回应，将配合国科会TAIDE计划自行开发。
黄国书说，目前除了该出包计划外，目前与CHatGPT相关的研究计画还有6个，都还会再进
行吗？是否也在引用中国资料集？
廖俊智说，目前了解到没有引用中国资料集，还会再注意、盘点，中研院后续将规划成立
“生成式AI风险研究小组”，深入了解AI对社会的冲击，提供研究人员相关指引，但在指
引出来前，上述计画不会暂停，因为这些计划除了辞库外，还有技术方面等很多面向，
会再跟几位研究员提醒勿使用中国资料。
5.完整新闻连结:
https://www.nownews.com/news/6279063
6.备注:
还有6个！
我看是没戏了，懂的都懂，中研院大型语言模型计画根本是小孩开大车～

继续阅读

[问卦] 爱因斯坦如果看到现在以巴战争会想什么？stradadelsol [问卦] 除了田慎节之外，有人推红灯区吗?kjes924308 [新闻] 侯友宜打电话给柯文哲没人接? 黄珊珊这样oftheday Re: [问卦] 板标是不是急了？vancepeng [问卦] 登革热地图级距一万四跟五百同级？xFANx [问卦] 搭车碰到猴痘病患坐旁边怎么办lawyer94 [新闻] 黄曙光陷国造潜舰泄密风波　黄珊珊为兄wavelet [问卦] 要有WHO认证的疫苗才打的是？twnndnpdnc [问卦] 板标是不是急了？dear747837 [问卦] 还有人吃到臭蛋毒蛋的八卦吗？？a520