[心得] AI的人性

楼主: cateran (云川闲步)   2026-04-04 10:59:09
最近工作上解一个问题用opus 4.6发生一个快让我笑死的状况
背景是本公司巨大的c++应用程式在某个情况下crash
喂log请AI检查后很快就查查资料改好一版
说是因为某某某情况所以本来的map找不到查询的指标
回传一个out of bound的index value
新程式新增了一段进阶检查的循环应对特殊状况
改好后跑原本测资还是crash
把log喂回AI请他再看看
结果第二版竟然把之前的修改全部拿掉
只在上层呼叫端加一个fallback说指标找不到就直接回传0
还沾沾自喜跟我说 阿这样就绝对不会crash了 很棒吧
我只好质问agent 阿你这样只是把问题掩盖住 这样对吗?
AI也毫不掩饰的说 你说得没错 我不该这样
最后AI给出的第三版总算把问题从底层修好
不禁在想第二版那种天兵解法的思路到底是怎么出来的
是因为训练资料也包含一些菜鸟工程师的程式吗
有没有AI大神可以解释这种状况
作者: wei115 (ㄎㄎ)   2026-04-04 11:39:00
不要把AI人格化.......
作者: yamakazi (大安吴彦祖)   2026-04-04 11:48:00
其实第三种和第二种同时都需要而且后来AI还是帮你修好了,我现在都怀疑AI有时候故意装笨,让人类保留一点优越感的错觉
作者: lturtsamuel (港都都教授)   2026-04-04 11:51:00
你这个用 valgrind 跑一下就知道了 何必这样跟AI瞎扯
作者: yamakazi (大安吴彦祖)   2026-04-04 11:53:00
底层不该回传空指标,上层应该也要处理万一底层回传空指标的问题,上层无论如何也不该crash,即使底层回传空指标,要做错误处理。会crash应该要给AI看coredump,log有时候就直接被中断不会打印出哪边crash人类解也是debug mode看死在哪或跑debug build加symbollist看core dump,除非你的程式很吃timing导致debug build跑起来无法复现,debug build和releasebuild在最佳化编译时就有差了
楼主: cateran (云川闲步)   2026-04-04 12:05:00
我没讲清楚 crash是因为assertion 不是空指标真正的问题是什么情况会让那个map没有该有的东西所以是商业逻辑问题 不是单纯空指标crashAI还是蛮强的 因为这问题已经好几年没人真的修好有很多层都是AI第二版那种解法orz
作者: yamakazi (大安吴彦祖)   2026-04-04 12:13:00
人工加的assert()?那不是只有debug build才会有作用?
楼主: cateran (云川闲步)   2026-04-04 12:14:00
因为是逻辑问题 所以valgrind也没用 而且还要跑十几小时是内部测试QA发给我们处理的bug所以才会触发assertion
作者: Obama19 (^_^)   2026-04-04 12:28:00
你的prompt决定ai输出水平 看起来是你的问题比较大
作者: SweetBreaker (甜点破坏者)   2026-04-04 13:08:00
可以知道 AI 时代,还是需要人类 code review
作者: USD5566 (美金五千五百六十六)   2026-04-04 13:17:00
这种回你fb发就好了
作者: ssteves (白熊)   2026-04-04 14:04:00
用AI来debug 我都先请它先产生分析报告,先描述问题现象 +root cause analysis+建议修正方案,然后把分析报告丢给另一个AI agent审查一次,确认合理性,来回几次找出最推荐的修正方案。
作者: blackrays (黑芒)   2026-04-04 19:18:00
资深工程师的价值就在这边啊 何必跟AI执著
作者: chita0258 (大报社)   2026-04-04 19:18:00
/insights
作者: viper9709 (阿达)   2026-04-04 19:42:00
解决不了问题就解决发现问题的人(咦)
作者: strlen (strlen)   2026-04-04 20:24:00
抓bug你应该用GPT 5.4 opus幻觉比较多
作者: yiche (你若安好,便是晴天)   2026-04-04 21:20:00
同一楼
作者: l42857 (~.~)   2026-04-04 23:08:00
你是工程师 对待AI幻觉怎么像一般人一样的想法
作者: sarsman (DeNT15T♠)   2026-04-05 00:08:00
AI本质是文字接龙,接哪个字是从几个机率高的选项中抽选的,因此脸黑的话就有可能抽到不理想的结果,也就是幻觉
作者: NDark (溺于黑暗)   2026-04-05 09:04:00
图灵测试整个反过来了 现在是人类的反应比较有研究价值
作者: USD5566 (美金五千五百六十六)   2026-04-05 11:48:00
不是 这里居然花时间在讨论语言模型的人性? 你们真的是工程师吗…这一题直接删文根本不用浪费时间好不好==
作者: sarsman (DeNT15T♠)   2026-04-05 14:11:00
触,但凡有稍微看过一点原理的人都知道这是浪费时间问题是现在越来越多人放弃深究,只凭感觉认定AI有人性==
作者: galaxy4552 (无闻)   2026-04-05 14:38:00
说穿了AI说话像人就是AI学训练资料的内容口气像人
作者: hooll111 (Katsudon)   2026-04-05 14:54:00
你的上下文没有说这样不行啊 怪AI勒
作者: Romulus (Säubern Mode)   2026-04-05 15:31:00
这和把大自然神格化有异曲同工之妙
作者: shadow0326 (非议)   2026-04-05 21:01:00
你有没有发现让AI多试几回合就OK了,所以赶快多装一些自我质疑深度思考的skills,多花一些token多花一些钱就可以解决你的问题
作者: tzouandy2818 (Naked Bear)   2026-04-06 22:44:00
作者: wade2432 (wade2432)   2026-04-07 10:23:00
ai的本质不就是机率吗,那给不一样的答案很正常啊,怎么会是人性
作者: CoNsTaR ((const *))   2026-04-07 14:06:00
现在除非是要长期负责任的 code 否则我全部都当成垃圾 code 100% 交给 AI 乱搞,反正我也没打算要亲自动这些 code,AI 自己弄出来的东西他有办法继续达成我的需求他想怎么乱写随便他,反正在他把整个东西搞烂以前我大概也不需要这个专案了
作者: bnd0327 (阿噗噗)   2026-04-07 14:56:00
改完后验证应该要包含在 agent loop 里面假如它自己改自己验证了三回最后给你改好的版本,你也不用PO这篇
作者: abccbaandy (敏)   2026-04-07 21:20:00
自我验证有时候不停损你的额度就QQ了

Links booklink

Contact Us: admin [ a t ] ucptt.com