Re: [新闻] 国庆日变10/1！中研院认了“AI语言模型” areses PTT批踢踢实业坊

Re: [新闻] 国庆日变10/1！中研院认了“AI语言模型”

楼主: areses (areses) 2023-10-09 21:59:07

不知道这个话题有什么好延烧的，一个数据库而已。
在中文环境，台湾本就贡献有限，要研究，就必不可少用到对岸资料，重要的是语言模型的
表现怎么样。
至少从实际来看，回答逻辑通顺，条例分明，也能准确理解提问的意涵并给出准确的答案，
这不就够了吗？
大模型就是需要大数据，大数据是所有人一起贡献的，而不是中研院能决定的。台湾人能贡
献的数据有限，那就慢慢来，只要技术在，随着数据集的扩大，自然会训练出适合台湾的语
言大模型。
※ 引述《armorblocks (package)》之铭言：
: 　
: 　
: 中央研究院词库小组日前发布的繁体中文大型语言模型CKIP-LlaMa-2-7b，今（9）日遭踢
: 爆使用中国数据库，询问“国庆日是何时”会回答“10月1日”。中研院坦言，训练资料
: 有来自中国开源的任务资料集（COIG），今日中午已将测试版先行下架。
: 　
: 网友发现询问该语言模型“国庆日是何时？”，其会回答中国国庆日“10月1日”；询问
: “中华民国国歌为何？”，它会回答中华人民共和国的国歌“义勇军进行曲”；询问我国
: 宪法，则会回答“中华人民共和国宪法”。外界质疑中研院使用中国数据库训练，仅简转
: 繁后就公开。
: 　
: 中研院资讯所表示，CKIP-LlaMa-2-7b的研究目标之一是让meta开发的Llama2大型语言模
: 型具备更好的繁体中文处理能力。这项小型研究仅用约30万元的经费，将明清人物的生平
: 进行自动化分析，建构自动化的历史人物、事件、时间、地点等事理图谱，因此训练资料
: 除了繁体中文的维基百科，另也包含台湾的硕博士论文摘要、来自中国开源的任务资料集
: COIG、诗词创作、文言文和白话文互相翻译等阅读理解问答。
: 　
: 资讯所强调，这是一项个人小型研究，各界对该模型进行的提问测试，并未在原始研究范
: 畴。该研究人员表示，由于生成式AI易产生“幻觉”（hallucination），导致模型产生
: 内容出乎预期，未来将努力改善。目前已将测试版先行下架，未来相关研究及成果释出，
: 会更加谨慎。
: 　

继续阅读

[问卦] 日照索隆打的赢狗眼米霍克吗？stu88001 [问卦] ‘幻影旅团’，到底有多强阿= =....?sasaki3630 [问卦] 清真寺没事可以去逛逛吗？aa1477888 [问卦] 哇靠在东京浅草遇到费德勒Blink41 [问卦] 没人发现‘冷冻水饺’变贵了吗？HDSM [问卦] 我宣布最强薯条tg9456 Re: [问卦] 明天国庆日该如何庆祝squard [问卦] 为什么你们就不愿意相信超哥白手起家?XSR700 Re: [问卦] 超派炸鸡到底好不好吃fatslave [问卦] 体臭该如何解决？indoman