Re: [斗虫] 让各种LLM打小丑牌比谁活最久 raincole PTT批踢踢实业坊

Re: [斗虫] 让各种LLM打小丑牌比谁活最久

楼主: raincole (冷鱼) 2026-02-06 13:38:31

※ 引述《h0103661 (单推人) 每日换婆 (1/1)》之铭言：
: 现在正在直播测试凌晨发表的Claude Opus 4.6
: https://www.twitch.tv/S1M0N38
: 目前的排行榜
: https://i.meee.com.tw/8Mpu5U5.png
: Gemini 3.0 Pro 是第一名
: GPT 5.2 紧追在后
: Deepseek V3.2 则是开源模型的第一名
: 但开源模型跟前段班有不小的差距
: 有兴趣的可以进网站看数据
: 所有提示词、记忆、出牌过程都有纪录
: 想试试的也可以下载开源mod自己打看看
: 挺有趣的
: 赛博斗蛐蛐
看推文好像有人误解了
这里排行榜上的 round 是打倒几个盲注而已
不是底注
所有的测试都是测到底注8过关而已
所以 Gemini 的平均 19 round 其实只是有时候以正常的 24 round 过关的结果
(但不得不说这已经比我想像中强太多了，毕竟这是通用 LLM 不是专门训练来打小丑牌)
另外包括 Deepseek 在内的开源模型是完全过不了关，根本玩不明白
Deepseek 最惨的一场在第二回合手上有四张黑桃还坚持要做顺
然后就没有然后了

继续阅读

[闲聊] “卡厄斯梦境”又出大事平衡崩坏negisan39 [蔚蓝] 请教教我们吧！敦子老师gino861027 [闲聊] 天子传奇九第一章共28期callhek [闲聊] ‘感觉遮断穴’现实中超实用的吧LABOYS [讨论] 咒术回战netflix翻译好像爆炸了GTES [情报] 《仁王3 》上市宣传影片basala5417 [Fate] 狮心王理查越想越不妙耶wvookevp [宠粉] 索尼CFO：到年底前，PS5涨价机率不大SuperSg Re: [情报] 日本网拍mercari煤炉或登陆台湾？maoding [绝区] 这C位的大腿太肥了吧Barrel

優しくてイヤだと言えない部活少女とスポーツ整体セクハラ施術未歩なな

スーパースター女優と大乱交激レア共演S1ファン感謝祭

ここまで無口で助けも呼べないチョロ女なんだったら、3年前から犯しておけばよかった。架乃ゆら

【VR】超豪華S1専属女優27名×超スーパー最高画質 S1史上初！8KVRベスト没入感にこだわった厳選SEX27コーナー1000分オーバー

出張先で軽蔑している中年セクハラ上司とまさかの相部屋に…朝まで続く絶倫性交に不覚にも感じてしまった私村上悠華