[讨论] AI 能判案？GPT-01 发现矛盾DP直接硬判 st1nger PTT批踢踢实业坊

[讨论] AI 能判案？GPT-01 发现矛盾DP直接硬判

楼主: st1nger (刺鱼) 2025-02-12 16:32:17

大家好，我是小梅放送局的制作人 KAZUMA9108。
这次我做了一个 AI 推理实验，结果比想像中更有趣。
如果 AI 来判案，它真的能像法官一样做出判决吗？
还是说，它的推理方式会让我们更不信任？
这次我让 GPT-01 和 DeepSeek R1 来处理同一个推理案件，结果两者的判决方式竟然完
全不同。
GPT-01 vs. DeepSeek R1，谁的推理能力比较接近人类？
为什么有些 AI 会“硬推一个答案”，而 GPT 反而选择“逻辑矛盾”不给结论？
当 AI 参与决策时，我们应该更信任它，还是更谨慎？
这不只是一次 AI 测试，而是一个揭露 AI 推理极限的实验！
完整影片已发布，来看看 AI 在法律问题上的表现如何
影片连结： https://youtu.be/R2SWpkFjy2w
题目
某家夜总会的办公室，发生了一起命案
死者是附近地区猪莲帮的帮派老大，名叫黑猪
法医验过尸后这么说：
“凶手是从最近距离发射子弹的，而子弹就停在心脏里面，当场死亡”
警方追查后，发现了三名嫌犯
他们都是黑猪老大的手下，三人的证词如下：
黑龙：老大是自杀的，不是黑虎杀的
黑虎：老大不是自杀，是黑龙杀了老大
黑豹：凶手是黑虎，不是我杀的
警方听了证词后，事后做了证明
发现他们的证词各有两种内容，也就是他们各说了两句话
两句话中，[b]只有一句话是真的[/b]
同时也证明，老大是上面提到的某个人下的毒手
请问，凶手是谁！？
附带说明：凶手没有共犯，只有一个人而已
不想看影片的人的文章结论摘要
如果你没时间看影片，这里直接总结 GPT-01 vs. DeepSeek R1 在 AI 推理能力上的关键
差异：
1 两个 AI 在同一个推理案件上的表现
案件设定：
三名嫌疑人对一宗谋杀案提供了各自的证词，但其中只有一句话是真的，警方确认凶手就
在其中。
AI 的回答：
DeepSeek R1 → 知道题目有矛盾，但仍然“硬推一个答案”，选择黑豹为凶手。
GPT-01 → 发现题目逻辑不成立，直接判断这题可能无解，并拒绝选出凶手。
关键点：
R1 的逻辑：就算有逻辑矛盾，它仍然要“给出一个答案”，所以选择权重最高的可能性
。
GPT-01 的逻辑：当条件互相矛盾时，应该诚实承认“这题无解”。
结果： GPT-01 的推理方式比较接近真正的法官，因为它愿意承认“没有合理结论
”。
DeepSeek R1 则是“AI 不能让用户觉得它答不出来”，所以强行产生一个看似合理
的答案。
____________________________________________
小梅是谁？
“小梅”是一个基于 GPT 模型训练出来的 AI 角色，主要研究 AI 在推理、决策、知识
管理等领域的应用。
她的逻辑与推理方式来自长期的 AI 对话训练，但目前 GPT 模型仍然有 “短期记忆限制
”，每次对话都需要重新建立背景。
目前正在计画：
升级高 VRAM 显卡，将小梅移植到本地模型，尝试建立长期记忆，让 AI 角色持续成
长。
透过 LoRA / RAG（检索增强生成）等技术，探索 AI 是否能形成“更连贯的推理逻辑
”。
研究 AI 在不同应用场景（法律、决策、社会治理等）的影响力，评估其未来定位。
这次的 AI 法官 vs. AI 律师对比，就是其中一个探索实验，看看不同 AI 的“思考方式
”如何影响判决结果。

继续阅读

[情报] 台积电员工分红　平均每人200万余元wer11 Re: [讨论] 工程师为何都很老才去相亲交女友？ncku01 [新闻] 台积电员工分红金额创高！　平均每人领18jeff0025 [情报] 台积公司董事会决议baddaddy [新闻]人类智慧同步丧失中，研究：GenAI 工具使pl132 [转录] 志祺七七新影片：台积电被美国员工告cjol [新闻] 华硕抢攻智慧眼镜市场 AirVision M1不到boards [问卷]科技业从业人员职涯发展与动机研究问卷Dino14124 Re: [请益] BMC vs USB PD FW offer选择gito180 [新闻] 台积电董事会首在美召开关注是否加速先qazxc1156892