Re: [爆卦] 中央研究院词库小组大型语言模型

楼主: primeman (精华)   2023-10-09 13:05:58
※ 引述《xdbx (羊阿兵)》之铭言:
: ※ 引述《dean1990 (狄恩院长)》之铭言:
: : 本鲁也很好奇问了一些问题,
: : 首先是比较基础的:
: : https://i.imgur.com/zKhx1A2.jpg
: 现在上不去了 只截到这个
: https://imgur.com/a/evMNmWM
: 你现在问它台湾总统是谁 它会说蔡英文了
: 问它台湾是不是国家 也说会
: 问它简单的问题都会觉得台湾来的
: 但是电脑不会说谎 转个弯套它话
: 就会发现资料都是被窜改过了
: 它的根源就是个阿六仔
这个语言模型的最大资料来源都是源自于一个世界开放的语料数据库
其中中文占的比例很少
中文当中繁体中文的资料更少
因此训练起来 中文其实都不像样
同时间训练台湾的内容资料又更少之又少
可以看下图
https://i.imgur.com/zSPlmC5.jpg
繁体中文只有 0.05% 简体中文有16%
如果真的要避免繁体中文被消灭
应该要正确的选择我们要在语言AI模型要贡献那些资料跟模型
不然再几年对话机器人都内建中国话
台湾就没有什么立场了

Links booklink

Contact Us: admin [ a t ] ucptt.com