[新闻] AI圈爆大丑闻！研究揭Meta、Google、Open zaiter PTT批踢踢实业坊

[新闻] AI圈爆大丑闻！研究揭Meta、Google、Open

楼主: zaiter (zaiter) 2025-05-02 06:38:23

评测网本来就要赚钱这也很正常
AI圈爆大丑闻！研究揭Meta、Google、OpenAI在Chatbot Arena上“作弊”
钜亨网编译庄闵棻综合报导2025-05-01 21:12
AI圈爆大丑闻，研究揭Meta、Google、OpenAI在Chatbot Arena上“作弊”。（图：Shutterstock）
来自人工智能（AI）实验室 Cohere、史丹佛大学、麻省理工学院（MIT）与知名 AI 研究机构 AI2 的最新研究指出，知名 AI 测试平台《Chatbot Arena》疑似对 Meta(META-US) 、OpenAI、Google (GOOGL-US) 与亚马逊 (AMZN-US) 等大型科技公司提供不对等的测试机会，借此提升其排行榜成绩，影响评测公信力。
据报导，透过分析五个月内超过 280 万场模型对战纪录，研究发现 Meta、OpenAI 与 Google 的模型曝光率远高于其他厂商，有更多机会收集用户回馈并优化模型。
研究团队还发现，封闭商业模型如 Google 与 OpenAI，在平台上的出战次数明显高于其他模型，相较之下，开源模型的曝光率低，甚至容易遭到移除，形成资料存取与曝光的长期不平等。
模型向日常使用者展示的次数，与其他公司相比，OpenAI、Google、xAI 和 Meta 的取样率更高。（图取自研究报告）
取样率反映了模型在 LMArena 中被一般使用者看到的频率，也直接决定了此模型开发者能获得多少使用者互动资料。
报告发布后，OpenAI 创始成员 Andrej Karpathy 也在 X 上质疑评测公平性。他指出 Google 的 Gemini 曾在排行榜上大幅领先，但实际使用体验却不如排名较低的 Claude 3.5，怀疑 Google 等科技巨头暗中操纵结果。
LM Arena 允许公司私下测试多个模型版本引争议
此外，报告还指出，LM Arena 组织允许大公司私下测试多个模型版本，却仅公开表现最佳者的成绩，对外隐藏成绩较差的版本。Cohere 副总裁 Sara Hooker 直言：“只有少数公司被告知可以进行私下测试，而且测试次数远高于其他公司，这根本是操弄游戏规则。”
025 年 1 月至 3 月统计，每个提供者的私人测试模型数量。（图取自研究报告）
研究指出，Meta 在 2024 年初私下测试多达 27 个 Llama 4 模型变体，却只公布一款高分者作为官方代表，明显有选择性披露之嫌。
在研究发表前不久，Meta 也曾因优化一款未公开的 Llama 4 模型，使其在 Chatbot Arena 获得亮眼成绩而引发争议。该版本未对外释出，而公开版本表现普通，强化了外界对平台公平性的疑虑。
Google 与 LM Arena 高层为平台辩护，反指研究数据有误
对此，LM Arena 共同创办人、柏克莱教授 Ion Stoica 则回应道，该研究存在“多处不实与可疑分析”。官方声明则重申平台致力于公平、社群导向的评测，鼓励所有模型多次提交参赛。
Google DeepMind 首席研究员 Armand Joulin 也为平台辩护，指出报告数据不准确，Google 仅提交过一款 Gemma 3 模型进行测试，并未如报告所言反复试验。
学者呼吁增加透明度，建议公开所有私测数据
研究者建议 LM Arena 应设立私测次数上限，并全面公开所有私测结果，以回应公平性质疑。对此，LM Arena 则认为“公开未释出模型的测试成绩毫无意义”，拒绝部分改革建议。
尽管对于数据公开意见不一，LM Arena 对于改善模型对战次数不均的问题表示愿意接受建议，计画推出新的抽样算法以提升公平性。
值得注意的是，LM Arena 近日宣布将正式成立公司并寻求募资，引发外界对其商业化后的中立性进一步担忧。这篇研究可望成为推动评测平台改革的催化剂。
《Chatbot Arena》由加州大学柏克莱分校于 2023 年启动，采用“双模型对战”的形式，让用户对比两个 AI 回答并投票选出较佳者。随着其影响力上升，成为 AI 公司展示模型实力的重要平台
https://news.cnyes.com/news/id/5957613

继续阅读

Re: [讨论] 最近是不是很冻？peter98 [新闻]半导体培训计画，台湾助危地马拉打造“晶pl132 [新闻] 黄仁勋认中国AI实力“很接近美国”　点名qazxc1156892 [问卷] （抽千元现金）工作时间与态度研究 MalcolmKK [讨论] Thread上面是不是三角在洗地redbeansyrup [讨论] 最近是不是很冻？yamakazi [请益] 科雅光电blithe1621 [讨论] 科技业40岁之后会担心转职吗?foxconn1080 [讨论] 有公司调薪只调高层吗？joseph1357 [情报] 纬创结构调薪yokann