[新闻] AI圈爆大丑闻!研究揭Meta、Google、Open

楼主: zaiter (zaiter)   2025-05-02 06:38:23
评测网本来就要赚钱 这也很正常
AI圈爆大丑闻!研究揭Meta、Google、OpenAI在Chatbot Arena上“作弊”
钜亨网编译庄闵棻 综合报导2025-05-01 21:12
AI圈爆大丑闻,研究揭Meta、Google、OpenAI在Chatbot Arena上“作弊”。(图:Shutterstock)
来自人工智能(AI)实验室 Cohere、史丹佛大学、麻省理工学院(MIT)与知名 AI 研究机构 AI2 的最新研究指出,知名 AI 测试平台《Chatbot Arena》疑似对 Meta(META-US) 、OpenAI、Google (GOOGL-US) 与亚马逊 (AMZN-US) 等大型科技公司提供不对等的测试机会,借此提升其排行榜成绩,影响评测公信力。
据报导,透过分析五个月内超过 280 万场模型对战纪录,研究发现 Meta、OpenAI 与 Google 的模型曝光率远高于其他厂商,有更多机会收集用户回馈并优化模型。
研究团队还发现,封闭商业模型如 Google 与 OpenAI,在平台上的出战次数明显高于其他模型,相较之下,开源模型的曝光率低,甚至容易遭到移除,形成资料存取与曝光的长期不平等。
模型向日常使用者展示的次数,与其他公司相比,OpenAI、Google、xAI 和 Meta 的取样率更高。(图取自研究报告)
取样率反映了模型在 LMArena 中被一般使用者看到的频率,也直接决定了此模型开发者能获得多少使用者互动资料。
报告发布后,OpenAI 创始成员 Andrej Karpathy 也在 X 上质疑评测公平性。他指出 Google 的 Gemini 曾在排行榜上大幅领先,但实际使用体验却不如排名较低的 Claude 3.5,怀疑 Google 等科技巨头暗中操纵结果。
LM Arena 允许公司私下测试多个模型版本引争议
此外,报告还指出,LM Arena 组织允许大公司私下测试多个模型版本,却仅公开表现最佳者的成绩,对外隐藏成绩较差的版本。Cohere 副总裁 Sara Hooker 直言:“只有少数公司被告知可以进行私下测试,而且测试次数远高于其他公司,这根本是操弄游戏规则。”
025 年 1 月至 3 月统计,每个提供者的私人测试模型数量。(图取自研究报告)
研究指出,Meta 在 2024 年初私下测试多达 27 个 Llama 4 模型变体,却只公布一款高分者作为官方代表,明显有选择性披露之嫌。
在研究发表前不久,Meta 也曾因优化一款未公开的 Llama 4 模型,使其在 Chatbot Arena 获得亮眼成绩而引发争议。该版本未对外释出,而公开版本表现普通,强化了外界对平台公平性的疑虑。
Google 与 LM Arena 高层为平台辩护,反指研究数据有误
对此,LM Arena 共同创办人、柏克莱教授 Ion Stoica 则回应道,该研究存在“多处不实与可疑分析”。官方声明则重申平台致力于公平、社群导向的评测,鼓励所有模型多次提交参赛。
Google DeepMind 首席研究员 Armand Joulin 也为平台辩护,指出报告数据不准确,Google 仅提交过一款 Gemma 3 模型进行测试,并未如报告所言反复试验。
学者呼吁增加透明度,建议公开所有私测数据
研究者建议 LM Arena 应设立私测次数上限,并全面公开所有私测结果,以回应公平性质疑。对此,LM Arena 则认为“公开未释出模型的测试成绩毫无意义”,拒绝部分改革建议。
尽管对于数据公开意见不一,LM Arena 对于改善模型对战次数不均的问题表示愿意接受建议,计画推出新的抽样算法以提升公平性。
值得注意的是,LM Arena 近日宣布将正式成立公司并寻求募资,引发外界对其商业化后的中立性进一步担忧。这篇研究可望成为推动评测平台改革的催化剂。
《Chatbot Arena》由加州大学柏克莱分校于 2023 年启动,采用“双模型对战”的形式,让用户对比两个 AI 回答并投票选出较佳者。随着其影响力上升,成为 AI 公司展示模型实力的重要平台
https://news.cnyes.com/news/id/5957613

Links booklink

Contact Us: admin [ a t ] ucptt.com