Re: [问卦] 听说中研院AI花300万？ Uizmp PTT批踢踢实业坊

Re: [问卦] 听说中研院AI花300万？

楼主: Uizmp (黑袍法师) 2023-10-10 18:11:41

※ 引述《sxy67230 (charlesgg)》之铭言：
: ※ 引述《Fortran (Fortran)》之铭言：
: : 如题
: : 本肥好奇，若这样简转繁中，直接套用中国模型，应该不用花到300万吧
: : 顶多就换个皮，简转繁中，连一个工作天都不用，1~5万就够了
: : 剩下的经费都....？
: : 有卦？
: 阿肥外商码农阿肥啦！
: 推广一下微软Azure服务，这边试算开一张A100机器折合台币差不多8万台币/月，平均一
: 天3000不到，中研院应该够划算了，也算是现在市场公道价，反正都用开源简中数据了，
: 放Azure训练也没什么资安问题，而且要捞90GB的模型档案不到十五分钟就载完了，Azure
: 又快又好用。
: Llama现在一堆微软、Nvidia都有释出开源训练框架，无脑载套件下来照教学拉下训练con
: fig就可以开始跑，推论也直接用Nvidia的inference框生成2048个字不到0.7秒不到，最
: 多给你开发Gradio的接口框三天好了，这样一天给研究人员一人五万/天，十五万加上Azu
: re 8万就二十万不到耶！
: 三百万真羡慕，我们政府很有钱呐！
: 嘻嘻
https://ppt.cc/fZf2Sx
中研院声明专区
本院资讯所表示，CKIP-Llama-2-7b 并非中研院官方或所方发表的研究成果，而是个别研
究人员公布的阶段性成果。此非台版chatGPT，且跟国科会正在发展的 TAIDE 无关。
CKIP-Llama-2-7b 的研究目标之一是让 meta 开发的 Llama 2 大型语言模型具备更好的
繁体中文处理能力。这项小型研究仅用了大约30万元的经费，将明清人物的生平进行自动
化分析，建构自动化的历史人物、事件、时间、地点等事理图谱，因此训练资料除了繁体
中文的维基百科，另也包含台湾的硕博士论文摘要、来自中国开源的任务资料集 COIG（
CHINESE OPEN INSTRUCTION GENERALIST）、诗词创作、文言文和白话文互相翻译等阅读
理解问答；在github网页上也据实说明。
由于这是一项个人小型的研究，各界对该模型进行的提问测试，并未在原始的研究范畴。
该研究人员表示，由于生成式AI易产生“幻觉”（hallucination），模型产生内容出乎
预期，也是未来要努力改善的地方，研究人员今（9）日已将测试版先行下架，未来相关
研究及成果释出，会更加谨慎。对相关研究的成果，公开释出前，院内也会拟定审核机制
，避免类似问题产生。
==
原来只值 3 秒钟啊。

继续阅读

[问卦] 您希望我国租借左国哪一省呢？became [新闻] 桃园女租铁皮屋开赌场墙上还写“小声点”gotopark [问卦] 30几岁退休是不是蛮无聊的PrettyOdd [问卦] 为何日本没进贡妃子给中国皇帝？？judas666 [问卦] 以色列484不懂no means noWingedHussar [问卦] 我朋友在FB好像崩溃了，要怎么安慰啊？gaymay5566 [问卦] 李多慧屌打三上悠亚对吧？WaWa3 [问卦] 七年了有什么漂亮成绩能说嘴？kinve1014 [问卦] 吴京、成龙去加萨走廊救人质会怎么拍?syearth [问卦] 白天不看三军阅兵只等烟火是？？mini186