Re: [请益] 软件失业是迟早的事吧

楼主: SkankHunt42 (me so horny)   2025-10-15 11:19:56
推 yamakazi: 人类方也没提数据啊,人类有SWE bench可以看分数?10/15 09:36
→ yamakazi: 人类自己都没有benchmark 却可以觉得人类自己做得比ai好 10/15 09:36
→ yamakazi: 才奇怪吧10/15 09:36
没有要ㄉ一ㄤ谁的意思
就是这benchmark到底存不存在
小弟我相信 这一定是有论文的
找了一下
还真的有
https://arxiv.org/html/2501.16857v1
以下为AI翻译 并由我这个人脑节录:
1. 在本研究中,我们使用 GPT-4(OpenAI 于 2024 年 4 月前两周提供的版本)作为代表
性 LLM,针对 LLM 与人类生成的 Python 程式码,在各项效能指标上进行比较。
2. 该研究采用包含 72 项 Python 编码任务的基准数据集,这些任务涵盖了来自先前研究
[7]的各种软件工程问题。一位具有软件开发经验的计算机专业大四学生(人类程式设计
师)为这 72 项编码任务开发了程式码,同时使用 GPT-4(即 2024 年 4 月可用版本)
生成程式码样本,以产生对等的 LLM 输出。
3. 在编码标准评估中,Pylint 和 Radon 分析显示,虽然 LLM 生成与人工编写的程式码都
存在缺陷,但 LLM 更可能犯下可透过严格遵守编码标准来避免的错误。尽管程度较轻,
但研究中的 LLM(以及人类)有时会忽略编码风格和标准程序中的重要细节,这些细节对
于维护可读性和程式码品质至关重要。
4. 与人工生成的程式码相比,LLM 通常会产生具有更高循环复杂度的程式码。我们的结果表
明,LLM 倾向过度设计解决方案,这可能导致程式码更难维护,且在软件开发后期阶段更
容易出现错误。
5. LLM 生成的程式码在功能正确性测试中经常表现良好,证明了 LLMs 在自动化执行简单且
定义明确的编码任务上的实用性。相反地,在需要深厚领域专业知识或复杂问题解决能力
的任务中,人类程式设计师往往比 LLMs 表现更出色。
(编注:人类编写的程式码通过率为 54.9%,而 LLM 生成的程式码通过率达 87.3%)
要说这篇论文缺点是什么的话
就是他只有一个大四学生当作人类基准
所以样本数非常不足 另外用的模型也是稍旧
欢迎质疑paper的人花钱花精力自己去做一次benchmark
学术界本来就是这样
总之结论大概就是: 就该文献的场景与数据来看 人类与LLM擅长的不同 优缺点不同
不过当手里只有锤子时,在某些人看起来,所有东西都像是钉子
作者: yamakazi (大安吴彦祖)   2024-10-15 09:36:00
人类方也没提数据啊,人类有SWE bench可以看分数?人类自己都没有benchmark 却可以觉得人类自己做得比ai好才奇怪吧
作者: zyxx (321)   2025-10-15 12:02:00
作者: SuGK (GK)   2025-10-15 12:10:00
推最后一句
作者: oopFoo (3d)   2025-10-15 13:44:00
https://github.com/SWE-bench/SWE-bench/issues/465swe是蛮有参考性的。但还是有各种作弊方式,像上面就是某个漏洞,被claude,qwen跟其它llms利用来获取更高分数。但设计者说,分数其实不要互比,要自己比自己,互比参考意义不大。因为....(原因太多,我懒的打了)
作者: DrTech (竹科管理处网军研发人员)   2025-10-15 16:05:00
你是在反串搞笑吗,这篇论文又不是 swe-bench verified
作者: yamakazi (大安吴彦祖)   2025-10-15 17:29:00
XD
作者: viper9709 (阿达)   2025-10-16 01:07:00
最后一句XD
作者: DrTech (竹科管理处网军研发人员)   2025-10-16 08:36:00
论文就是拿一个没有参考价值不知名的题目,测一个大四学生,连研讨会都投不上。结果你把这种学生报告当成宝。会引用这种烂论文的人也只是出张嘴而已。外行人。第一句:没有要ㄉ一ㄤ谁的意思,结果推文拼命ㄉ一ㄤ。果然你手里有锤子的你,看到谁都在捶。拿出正常一点的论文,再来讨论啦,外行人又爱ㄉ一ㄤ别人。不知道原PO坚持发引用一篇,连研讨会都没上的低品质论文,是要强调或能证明什么?还是纯粹故意引战ㄉ一ㄤ人?
作者: angusyu (〒△〒)   2025-10-16 09:58:00
我听到玻璃碎掉的声音,不知道怎么回事
作者: jack0204 (Jarbar王朝)   2025-10-16 10:12:00
我有点看不懂在吵什么?感觉主题歪了
作者: Romulus (Säubern Mode)   2025-10-16 10:59:00
人类没办法copy而且方差太大 测benchmark就没啥意义这样把可以复制并且表现都差不多的工具和不具备重现性的人类用同一种评估方式就没啥实用价值 俗称做身体健康的本质应该和试证明理科生已坠入情网差不多一本正经讲干话 但是其实也没那么干话那种感觉(
作者: cc2006 (cfc)   2025-10-16 12:56:00
原po找一个没什么参考价值的论文来说服别人,别人提出反对意见也很合理吧
作者: Romulus (Säubern Mode)   2025-10-16 14:24:00
就研究没啥问题 只是没办法应用而已DrTech什么时候会给你具体的批评了
作者: yamakazi (大安吴彦祖)   2025-10-16 16:58:00
推,我的论点也是差不多这样,人类方提不出分数,目前唯一的论文看起来又是AI胜,然后人类方一直纠结你分数只有82没到99不能用笑死就跟围棋一样吧,搞不好Kaggle leetcode周赛已经偷偷有AI在打了,之后再学围棋办一个大奖赛,公开挑战leetcode排名前十的人类,奖金一高自然有人参赛那三百题给本科新人写一天搞不好都没办法完成一题以前没AI时,难一点的功能或虫我都要好几天了,现在变成五到十分钟而且我后来看那个bench,看起来没有人类介入,我的经验是,一边看他改扣一边跟他对话,有问题指出来他几乎可以马上改好,甚至有时候只要跟他讲遇到的问题,他自己会找到原因那个82分要是有人类介入对话,说不定可以更高
作者: abraxas (Abr.)   2025-10-16 18:44:00
“我的论点也是差不多这样”XDD
作者: yamakazi (大安吴彦祖)   2025-10-16 19:16:00
楼上你也可以提出你关于使用AI的感想或论点
作者: viper9709 (阿达)   2025-10-16 21:00:00
推抽礼券都没人要写了+1 XD
作者: ripple0129 (perry tsai)   2025-10-17 03:06:00
不要激动,在这版po文没被酸过的都不算老
作者: DrTech (竹科管理处网军研发人员)   2025-10-17 08:38:00
原PO好爱ㄉ一ㄤ人喔。果然手里拿着锤子的人,就是爱捶人。内文与推文,,只看到原PO一堆人身攻击,不让别人发表不同看法。没看到AI到底能不能赢人类。就事论事,我欣赏原PO有自己独立想法,为自己论点持续讨论的态度,但一直人身攻击可以省下来。原来卖显卡公司收了这种,到处人身攻击的员工喔,笑死。
楼主: SkankHunt42 (me so horny)   2025-10-17 13:37:00
所以DrTech你可以回答一下,在你于本文中第一则推文前,我有任何攻击你的地方吗?
作者: DrTech (竹科管理处网军研发人员)   2025-10-17 13:39:00
赢一个大四生=有些地方赢人类?全人类都算大四生喔。那么不专业的逻辑,真的是卖显卡公司该有的水准吗。
楼主: SkankHunt42 (me so horny)   2025-10-17 13:41:00
所以我一直问你输赢到底怎么算阿XD那这样讲,生成一个leetcode medium题目程式码的速度人类可以赢LLM吗?你如果需要,我很乐意找数据给你那我找到了你会承认LLM有些地方赢人类吗?还是你要继续找其他漏洞?还有澄清一下,我可没说你是流氓,我写的是我相信你该不是。还是你觉得自己是那种只准自己动手不准别人还手的人?只会索求跟无理取闹的人就是巨婴,我好像也只是在做事实陈述而已
作者: Suleika (Suleika)   2025-10-17 15:36:00
帮推 软工板就得贡贡人互锤才精彩
作者: dream1124 (全新开始)   2025-10-17 23:50:00
推最后一句
作者: red0210 (My Name Is Red)   2025-11-18 19:56:00
原论文的第一作者生涯总引用数破千,论文放 arXiv 也未必是投不上研讨会

Links booklink

Contact Us: admin [ a t ] ucptt.com