Re: [新闻] 国庆日变10/1!中研院认了“AI语言模型”

楼主: areses (areses)   2023-10-09 21:59:07
不知道这个话题有什么好延烧的,一个数据库而已。
在中文环境,台湾本就贡献有限,要研究,就必不可少用到对岸资料,重要的是语言模型的
表现怎么样。
至少从实际来看,回答逻辑通顺,条例分明,也能准确理解提问的意涵并给出准确的答案,
这不就够了吗?
大模型就是需要大数据,大数据是所有人一起贡献的,而不是中研院能决定的。台湾人能贡
献的数据有限,那就慢慢来,只要技术在,随着数据集的扩大,自然会训练出适合台湾的语
言大模型。
※ 引述 《armorblocks (package)》 之铭言:
:  
:  
: 中央研究院词库小组日前发布的繁体中文大型语言模型CKIP-LlaMa-2-7b,今(9)日遭踢
: 爆使用中国数据库,询问“国庆日是何时”会回答“10月1日”。中研院坦言,训练资料
: 有来自中国开源的任务资料集(COIG),今日中午已将测试版先行下架。
:  
: 网友发现询问该语言模型“国庆日是何时?”,其会回答中国国庆日“10月1日”;询问
: “中华民国国歌为何?”,它会回答中华人民共和国的国歌“义勇军进行曲”;询问我国
: 宪法,则会回答“中华人民共和国宪法”。外界质疑中研院使用中国数据库训练,仅简转
: 繁后就公开。
:  
: 中研院资讯所表示,CKIP-LlaMa-2-7b的研究目标之一是让meta开发的Llama2大型语言模
: 型具备更好的繁体中文处理能力。这项小型研究仅用约30万元的经费,将明清人物的生平
: 进行自动化分析,建构自动化的历史人物、事件、时间、地点等事理图谱,因此训练资料
: 除了繁体中文的维基百科,另也包含台湾的硕博士论文摘要、来自中国开源的任务资料集
: COIG、诗词创作、文言文和白话文互相翻译等阅读理解问答。
:  
: 资讯所强调,这是一项个人小型研究,各界对该模型进行的提问测试,并未在原始研究范
: 畴。该研究人员表示,由于生成式AI易产生“幻觉”(hallucination),导致模型产生
: 内容出乎预期,未来将努力改善。目前已将测试版先行下架,未来相关研究及成果释出,
: 会更加谨慎。
:  

Links booklink

Contact Us: admin [ a t ] ucptt.com