楼主:
sxy67230 (charlesgg)
2025-05-02 17:48:01※ 引述 《zaiter》 之铭言:
: 评测网本来就要赚钱 这也很正常
: AI圈爆大丑闻!研究揭Meta、Google、OpenAI在Chatbot Arena上“作弊”
: 钜亨网编译庄闵棻 综合报导2025-05-01 21:12
: AI圈爆大丑闻,研究揭Meta、Google、OpenAI在Chatbot Arena上“作弊”。(图:Shutt
: erstock)
: 来自人工智能(AI)实验室 Cohere、史丹佛大学、麻省理工学院(MIT)与知名 AI 研究
: 机构 AI2 的最新研究指出,知名 AI 测试平台《Chatbot Arena》疑似对 Meta(META-US)
: 、OpenAI、Google (GOOGL-US) 与亚马逊 (AMZN-US) 等大型科技公司提供不对等的测试
: 机会,借此提升其排行榜成绩,影响评测公信力。
呃,新闻讲得不知所云,ChatBot Arena是一个动态的竞技场,一般是评测人员上去上面事
前不会知道待测的是哪一个配对的模型,AB模型是在比较以后评测人员选定后才会跳出被选
择的是哪一个模型。
他一开始是基于Bradley-Terry Model的统计假设,两两竞技比赛人员历史上只有少数或是
没有对弈过,然后我们要知道谁才是选秀状元的假设。
理论上BT Model是历史悠久蛮公平也有信度的统计方法论,但前提是出赛取样率要公平。这
篇论文是CohereAI(加拿大新创)跟史丹佛联名发表的,指出来的是当前一堆大公司洗一大
堆复制体然后霸占榜单导致取样不公平,所以就打破BT模型的假设,然后他们也有实验证明
了主流模型在ChatBot Arena取样到的机会异常高。
直白一点就是如果NBA喇叭詹有钱到可以无限复制自己疯狂出赛八成的队伍,然后再取最好
的那个复制体对外宣传自己是MVP,这样就会有不公平竞技疑虑,那NBA自己本身的信度就会
下降。
不过论文也只是提出一个假设跟实验,实际上有没有不公平竞技也只有评测公司自己知道而
已。论文也没提到拿评测公司资料训练这件事情,所以这件事情还是有待定论的。
差不多4酱