Re: [爆卦] 中央研究院词库小组大型语言模型 primeman PTT批踢踢实业坊

Re: [爆卦] 中央研究院词库小组大型语言模型

楼主: primeman (精华) 2023-10-09 13:05:58

※ 引述《xdbx (羊阿兵)》之铭言：
: ※ 引述《dean1990 (狄恩院长)》之铭言：
: : 本鲁也很好奇问了一些问题，
: : 首先是比较基础的：
: : https://i.imgur.com/zKhx1A2.jpg
: 现在上不去了只截到这个
:

: 你现在问它台湾总统是谁它会说蔡英文了
: 问它台湾是不是国家也说会
: 问它简单的问题都会觉得台湾来的
: 但是电脑不会说谎转个弯套它话
: 就会发现资料都是被窜改过了
: 它的根源就是个阿六仔
这个语言模型的最大资料来源都是源自于一个世界开放的语料数据库
其中中文占的比例很少
中文当中繁体中文的资料更少
因此训练起来中文其实都不像样
同时间训练台湾的内容资料又更少之又少
可以看下图
https://i.imgur.com/zSPlmC5.jpg
繁体中文只有 0.05% 简体中文有16%
如果真的要避免繁体中文被消灭
应该要正确的选择我们要在语言AI模型要贡献那些资料跟模型
不然再几年对话机器人都内建中国话
台湾就没有什么立场了

继续阅读

[问卦] 外交部编18亿挺乌，要编多少挺以？hyperdunk [问卦] 那一天空袭警报大响到处都是爆炸声你会ꬱqadc [问卦] 没人发现海峡两岸根本就很安全吗！nobody0303 [问卦] 反对囤房税结果建商囤房变两倍？R3hab Re: [问卦] 台男不生小孩把钱拿去自己爽会怎样？biorgan [问卦] 以色列根本是恐怖份子吧？dean1990 [问卦] 哥革（俄罗斯）什么时候要打以色列magiccello Re: [问卦] 让日本改善台湾的交通需要多久的时间?HuangJC [问卦] 虾皮上的黄游是土制的黄油吗？iLeyaSin365 [问卦] youtube一直出现疑似诈骗广告怎办a6000200