Re: [新闻] AI圈爆大丑闻！研究揭Meta、Google、Open sxy67230 PTT批踢踢实业坊

Re: [新闻] AI圈爆大丑闻！研究揭Meta、Google、Open

楼主: sxy67230 (charlesgg) 2025-05-02 17:48:01

※ 引述《zaiter》之铭言：
: 评测网本来就要赚钱这也很正常
: AI圈爆大丑闻！研究揭Meta、Google、OpenAI在Chatbot Arena上“作弊”
: 钜亨网编译庄闵棻综合报导2025-05-01 21:12
: AI圈爆大丑闻，研究揭Meta、Google、OpenAI在Chatbot Arena上“作弊”。（图：Shutt
: erstock）
: 来自人工智能（AI）实验室 Cohere、史丹佛大学、麻省理工学院（MIT）与知名 AI 研究
: 机构 AI2 的最新研究指出，知名 AI 测试平台《Chatbot Arena》疑似对 Meta(META-US)
: 、OpenAI、Google (GOOGL-US) 与亚马逊 (AMZN-US) 等大型科技公司提供不对等的测试
: 机会，借此提升其排行榜成绩，影响评测公信力。
呃，新闻讲得不知所云，ChatBot Arena是一个动态的竞技场，一般是评测人员上去上面事
前不会知道待测的是哪一个配对的模型，AB模型是在比较以后评测人员选定后才会跳出被选
择的是哪一个模型。
他一开始是基于Bradley-Terry Model的统计假设，两两竞技比赛人员历史上只有少数或是
没有对弈过，然后我们要知道谁才是选秀状元的假设。
理论上BT Model是历史悠久蛮公平也有信度的统计方法论，但前提是出赛取样率要公平。这
篇论文是CohereAI(加拿大新创）跟史丹佛联名发表的，指出来的是当前一堆大公司洗一大
堆复制体然后霸占榜单导致取样不公平，所以就打破BT模型的假设，然后他们也有实验证明
了主流模型在ChatBot Arena取样到的机会异常高。
直白一点就是如果NBA喇叭詹有钱到可以无限复制自己疯狂出赛八成的队伍，然后再取最好
的那个复制体对外宣传自己是MVP，这样就会有不公平竞技疑虑，那NBA自己本身的信度就会
下降。
不过论文也只是提出一个假设跟实验，实际上有没有不公平竞技也只有评测公司自己知道而
已。论文也没提到拿评测公司资料训练这件事情，所以这件事情还是有待定论的。
差不多4酱

继续阅读

[新闻] 黄仁勋5/12抵台拜访台积电等供应链共商qazxc1156892 [新闻] 台积叛将与忠臣：两位技术天才的抉择penny83320 [请益] 工作除了薪水大家还看什么?交通工时WFH?endurance [心得] 智邦伙食讨论a9202507 Re: [请益] 常说年轻人不要看薪水那有别的指标吗gn01216674 Re: [请益] 常说年轻人不要看薪水那有别的指标吗keyofdejavu [情报] 中科院针对高层自肥做出回应joseph1357 Re: [请益] 主管的主管的核心价值在哪里？shinza Re: [讨论] 科技业40岁之后会担心转职吗?andonie Re: [请益] 主管的主管的核心价值在哪里？sky2030