史丹福大学AI团队抄袭中国大模型 曝光后全网删库 终道歉收场
https://bit.ly/4c6lYd0
网传史丹佛大学AI团队抄袭、“套壳”中国国产大模型成果,引起业界高度关注和热议。目
前,涉事的史丹佛学生已公开正式道歉。
史丹福大学的一个研究团队在5月29日发布Llama3-V项目,宣称仅需500美元就能训练出一个
SOTA(State of the Art,即最先进的)多模态大模型,效果比肩GPT-4V、Gemini Ultra、
Claude Opus等,但模型小100倍。
公开信息显示,Llama3-V团队的其中两位作者 Siddharth Sharma 与 Aksh Garg 是史丹福
大学计算机系的本科生,曾发表过数篇机器学习相关的论文。
名校背景,特斯拉、SpaceX等大厂经历的成员,再加上号称足以“改变现状”的研究成果,
Llama3-V受到了相当程度的关注。Llama3-V不仅在社交媒体上迅速蹿红,还一度冲上了Hugg
ingFace趋势榜(机器学习领域中较有影响力的平台,其趋势榜一定程度反映出模型的流行
度)的首页。
然而,没过几天,一位网民发现,Llama3-V的模型结构和代码与出自清华系明星创业公司面
壁智能的MiniCPM-Llama3-V 2.5几乎一模一样,只是变量名有所变化。
网民在面壁智能GitHub的项目下放出了证据。这些证据包括:Llama3-V的模型架构和代码与
MiniCPM-Llama3-V 2.5几乎完全相同,仅有一些变量名和格式化的差异;Llama3-V使用了Mi
niCPM-Llama3-V 2.5的分词器(tokenizer),并且连同MiniCPM-Llama3-V 2.5定义的特殊
符号也出现在了Llama3-V中;将从HuggingFace下载的Llama3-V模型权重中的变量名改成Min
iCPM-Llama3-V 2.5的,模型可以用MiniCPM-V代码成功运行。
网民为什么不直接质疑Llama3-V,而是在面壁智能GitHub的项目下进行爆料?事实上,网民
此前于6月2日在Llama3-V页面上提出的质疑,不过很快便被Llama3-V的作者已经删除了。
为此,提出质疑的网民被激怒暴走,跑到了 MiniCPM-V 的 Github 页面进行事件还原,提
醒面壁智能团队关注此事。
在MiniCPM-Llama3-V 2.5团队收到提醒后也迅速作出反应,于是一个新的证据出现。
面壁智能的MiniCPM-Llama3-V 2.5项目具有独特的功能,如识别清华简——一种罕见的中国
古代文字。
公开资料显示,清华简是清华大学于2008年7月收藏的一批战国竹简,为战国中晚期文物。M
iniCPM-Llama3-V 2.5团队透露,识别清华简是MiniCPM-Llama3-V 2.5的一项实验功能,训
练图像是最近从出土文物中扫描并由MiniCPM-Llama3-V 2.5团队标注,且尚未公开发布。
Llama3-V模型居然也可以识别“清华简”。两个模型在识别的表现上,正确的结果上基本一
致,错误的情况也颇为相似。
鉴于这些结果,MiniCPM-Llama3-V 2.5团队表示,很难用巧合来解释这种不寻常的相似性,
希望Llama3-V的作者能够对这个问题给出官方解释。相信这对开源社区的共同利益很重要。
当网民抛出三大事实质疑后,Llama3-V的做法是——不回应直接删除网民评论。
目前,Llama3-V 的 GitHub 项目主页已显示为“404”,HuggingFace上Llama3-V项目也已
经不可见,在作者社交媒体账号上也找不到此前宣传 Llama3-V 的内容。
6月3日,Llama3-V团队成员Aksh Garg在社交媒体上发文回应了质疑。但随后不久这条回应
便被删除。
Llama3-V在未公开的实验性特征上与MiniCPM-Llama3-V 2.5表现出高度相似的行为,这些特
征是根据MiniCPM-Llama3-V 2.5团队内部数据训练的。
面对抄袭的质疑,史丹福团队最初辩称,他们的工作早于面壁智能的MiniCPM,只是使用了
他们的tokenizer。
另据媒体消息,面壁智能联合创始人兼CEO李大海在朋友圈回应说“深表遗憾”,这也是一
种“受到国际团队认可的方式”,并呼吁大家共建开放、合作、有信任的社区环境。
面壁智能首席科学家、清华大学长聘副教授刘知远表示,人工智能的飞速发展离不开全球算
法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进。面壁开源的MiniCP
M-Llama3-V 2.5 就用了最新的Llama3作为语言模型基座。而开源共享的基石是对开源协议
的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这
一点。他们在受到质疑后已在Huggingface删库,该团队三人中的两位也只是史丹福大学本
科生,未来还有很长的路,如果知错能改,善莫大焉。
北京面壁智能科技有限责任公司成立于2022年8月,今年4月,面壁智能完成新一轮数亿元融
资,由华为哈勃领投,春华创投、北京市人工智能产业投资基金等跟投,知乎作为战略股东
持续跟投支持。今年2月,面壁智能发布开源模型MiniCPM后,又推出MiniCPM 2系列端侧模
型。李大海表示,推动大模型在端侧的落地是面壁目前的重点工作之一。
据第一财经报道,在最新的进展中,史丹福Llama3-V团队的两位作者Siddharth Sharma和 A
ksh Garg在社交平台上就这一学术不端行为向面壁MiniCPM团队正式道歉,并表示会将Llama
3-V模型悉数撤下。
另外,史丹福人工智能实验室主任Christopher David Manning也发文谴责这一抄袭行为,
并对MiniCPM这一中国开源模型表示赞扬。
Manning写道,“怎能不为自己的错误买单!清华大学自然语言处理实验室做出了很棒的开
源工作,有力推动科学发展。”
Manning还痛斥道:“所谓‘真正做到之前,假装你做到了’是硅谷的无耻产物。”Manning
引用的这句流行语“Fake it before you make it”,一度盛行于硅谷的初创圈和科技公司
,被不少创业者奉为圭臬。