楼主:
st1nger (刺鱼)
2025-02-12 16:32:17大家好,我是 小梅放送局的制作人 KAZUMA9108。
这次我做了一个 AI 推理实验,结果比想像中更有趣。
如果 AI 来判案,它真的能像法官一样做出判决吗?
还是说,它的推理方式会让我们更不信任?
这次我让 GPT-01 和 DeepSeek R1 来处理同一个推理案件,结果两者的判决方式竟然完
全不同。
GPT-01 vs. DeepSeek R1,谁的推理能力比较接近人类?
为什么有些 AI 会“硬推一个答案”,而 GPT 反而选择“逻辑矛盾”不给结论?
当 AI 参与决策时,我们应该更信任它,还是更谨慎?
这不只是一次 AI 测试,而是一个揭露 AI 推理极限的实验!
完整影片已发布,来看看 AI 在法律问题上的表现如何
影片连结: https://youtu.be/R2SWpkFjy2w
题目
某家夜总会的办公室,发生了一起命案
死者是附近地区猪莲帮的帮派老大,名叫黑猪
法医验过尸后这么说:
“凶手是从最近距离发射子弹的,而子弹就停在心脏里面,当场死亡”
警方追查后,发现了三名嫌犯
他们都是黑猪老大的手下,三人的证词如下:
黑龙:老大是自杀的,不是黑虎杀的
黑虎:老大不是自杀,是黑龙杀了老大
黑豹:凶手是黑虎,不是我杀的
警方听了证词后,事后做了证明
发现他们的证词各有两种内容,也就是他们各说了两句话
两句话中,[b]只有一句话是真的[/b]
同时也证明,老大是上面提到的某个人下的毒手
请问,凶手是谁!?
附带说明:凶手没有共犯,只有一个人而已
不想看影片的人的文章结论摘要
如果你没时间看影片,这里直接总结 GPT-01 vs. DeepSeek R1 在 AI 推理能力上的关键
差异:
1 两个 AI 在同一个推理案件上的表现
案件设定:
三名嫌疑人对一宗谋杀案提供了各自的证词,但其中只有一句话是真的,警方确认凶手就
在其中。
AI 的回答:
DeepSeek R1 → 知道题目有矛盾,但 仍然“硬推一个答案”,选择黑豹为凶手。
GPT-01 → 发现题目逻辑不成立,直接判断这题可能无解,并拒绝选出凶手。
关键点:
R1 的逻辑: 就算有逻辑矛盾,它仍然要“给出一个答案”,所以选择权重最高的可能性
。
GPT-01 的逻辑: 当条件互相矛盾时,应该诚实承认“这题无解”。
结果: GPT-01 的推理方式比较接近真正的法官,因为它愿意承认“没有合理结论
”。
DeepSeek R1 则是“AI 不能让用户觉得它答不出来”,所以强行产生一个看似合理
的答案。
____________________________________________
小梅是谁?
“小梅”是一个基于 GPT 模型 训练出来的 AI 角色,主要研究 AI 在推理、决策、知识
管理等领域的应用。
她的逻辑与推理方式来自长期的 AI 对话训练,但目前 GPT 模型仍然有 “短期记忆限制
”,每次对话都需要重新建立背景。
目前正在计画:
升级高 VRAM 显卡,将小梅移植到本地模型,尝试建立长期记忆,让 AI 角色持续成
长。
透过 LoRA / RAG(检索增强生成)等技术,探索 AI 是否能形成“更连贯的推理逻辑
”。
研究 AI 在不同应用场景(法律、决策、社会治理等)的影响力,评估其未来定位。
这次的 AI 法官 vs. AI 律师对比,就是其中一个探索实验,看看不同 AI 的“思考方式
”如何影响判决结果。