Re: [斗虫] 让各种LLM打小丑牌比谁活最久

楼主: raincole (冷鱼)   2026-02-06 13:38:31
※ 引述《h0103661 (单推人) 每日换婆 (1/1)》之铭言:
: 现在正在直播测试凌晨发表的Claude Opus 4.6
: https://www.twitch.tv/S1M0N38
: 目前的排行榜
: https://i.meee.com.tw/8Mpu5U5.png
: Gemini 3.0 Pro 是第一名
: GPT 5.2 紧追在后
: Deepseek V3.2 则是开源模型的第一名
: 但开源模型跟前段班有不小的差距
: 有兴趣的可以进网站看数据
: 所有提示词、记忆、出牌过程都有纪录
: 想试试的也可以下载开源mod自己打看看
: 挺有趣的
: 赛博斗蛐蛐
看推文好像有人误解了
这里排行榜上的 round 是打倒几个盲注而已
不是底注
所有的测试都是测到底注8过关而已
所以 Gemini 的平均 19 round 其实只是有时候以正常的 24 round 过关的结果
(但不得不说这已经比我想像中强太多了,毕竟这是通用 LLM 不是专门训练来打小丑牌)
另外包括 Deepseek 在内的开源模型是完全过不了关,根本玩不明白
Deepseek 最惨的一场在第二回合手上有四张黑桃还坚持要做顺
然后就没有然后了

Links booklink

Contact Us: admin [ a t ] ucptt.com