※ 引述《sxy67230 (charlesgg)》之铭言:
: ※ 引述《Fortran (Fortran)》之铭言:
: : 如题
: : 本肥好奇,若这样简转繁中,直接套用中国模型,应该不用花到300万吧
: : 顶多就换个皮,简转繁中,连一个工作天都不用,1~5万就够了
: : 剩下的经费都....?
: : 有卦?
: 阿肥外商码农阿肥啦!
: 推广一下微软Azure服务,这边试算开一张A100机器折合台币差不多8万台币/月,平均一
: 天3000不到,中研院应该够划算了,也算是现在市场公道价,反正都用开源简中数据了,
: 放Azure训练也没什么资安问题,而且要捞90GB的模型档案不到十五分钟就载完了,Azure
: 又快又好用。
: Llama现在一堆微软、Nvidia都有释出开源训练框架,无脑载套件下来照教学拉下训练con
: fig就可以开始跑,推论也直接用Nvidia的inference框生成2048个字不到0.7秒不到,最
: 多给你开发Gradio的接口框三天好了,这样一天给研究人员一人五万/天,十五万加上Azu
: re 8万就二十万不到耶!
: 三百万真羡慕,我们政府很有钱呐!
: 嘻嘻
https://ppt.cc/fZf2Sx
中研院声明专区
本院资讯所表示,CKIP-Llama-2-7b 并非中研院官方或所方发表的研究成果,而是个别研
究人员公布的阶段性成果。此非台版chatGPT,且跟国科会正在发展的 TAIDE 无关。
CKIP-Llama-2-7b 的研究目标之一是让 meta 开发的 Llama 2 大型语言模型具备更好的
繁体中文处理能力。这项小型研究仅用了大约30万元的经费,将明清人物的生平进行自动
化分析,建构自动化的历史人物、事件、时间、地点等事理图谱,因此训练资料除了繁体
中文的维基百科,另也包含台湾的硕博士论文摘要、来自中国开源的任务资料集 COIG(
CHINESE OPEN INSTRUCTION GENERALIST)、诗词创作、文言文和白话文互相翻译等阅读
理解问答;在github网页上也据实说明。
由于这是一项个人小型的研究,各界对该模型进行的提问测试,并未在原始的研究范畴。
该研究人员表示,由于生成式AI易产生“幻觉”(hallucination),模型产生内容出乎
预期,也是未来要努力改善的地方,研究人员今(9)日已将测试版先行下架,未来相关
研究及成果释出,会更加谨慎。对相关研究的成果,公开释出前,院内也会拟定审核机制
,避免类似问题产生。
==
原来只值 3 秒钟啊。