[闲聊] 写程式是AI强，还是人类强 DoraGian PTT批踢踢实业坊

[闲聊] 写程式是AI强，还是人类强

楼主: DoraGian (饮冰) 2024-09-26 09:56:07

── 除非最顶尖，不然人类软件工程师完全打不赢
程式技术人才评估平台 CodeSignal 近期推出 AI Benchmarking Report，
评估了目前热门 AI 模型的 Coding 能力，并与“人类”软件工程师进行比较。
结果发现“普通”软件工程师的能力已经输给了大多数的 AI 模型，包含常见的 GPT-4o 或
Claude Sonnet 等等。
甚至 OpenAI 最新推出的 o1 模型，遥遥领先其他模型与普通人类软件工程师，差距非常大
。
目前只有最顶尖的软件工程师可以稍微领先 o1 模型！
排名如下：
1. 顶尖软件工程师
2. o1-preview
3. o1-mini
4. claude-3.5-sonnet
5. gpt-4o
6. llama3.1-405b
7. gemini-1.5-pro
8. gpt-4o-mini
9. 一般软件工程师
10. gemini-1.5-flash
11. gpt-3.5-turbo
▋ 评估方法
CodeSignal 不是单纯测试理论上的程式知识，
而是使用了目前顶尖科技、金融公司用来“面试软件工程师”的题目。
他们使用了 159 种题目，来测试 AI 和人类的编写程式和问题解决能力（问题大多需要编
写约 40 到 60 行程式）
▋ AI 模型表现
‧ o1-preview 和 o1-mini
表现最好的模型，在所有指标中都遥遥领先。
在处理各种问题，表现都非常稳定，能够成功解决大多数情境中的程式问题。
‧ GPT-4o
在解决完整问题的时候表现出色。
能够根据反馈不断改进答案，像人类工程师一样，逐步修正错误。
‧ Claude 3.5 Sonnet
更擅长处理简单的程式问题。
但在处理多次尝试的问题（尤其是超过 5 次尝试）时，模型的表现会下降，甚至会出现偏
离正确解法的情况。
https://www.facebook.com/share/p/pU2p8rucwrs5MapA
中兴电机超分台大化学
果然是要没落的警讯吗

继续阅读

Re: 你们有什么三十岁的人生建议吗h0103661 [闲聊] 台中赛车paul1951 Re: [闲聊] 板友救救我CultClassic [ZZZ ] 现在登入小月卡有特效了耶Wardyal [姆咪] 鸣潮的限五差距好像没有很大MiHoMo [姆咪] 库洛不像某米膨胀到不抽就是坐牢gwawa0617 Re: [闲聊] 入围赛猜谜有钱erimow Re: 你们有什么三十岁的人生建议吗RuRu0421 nga有什么好看的板sc95819200 [档案] 抽不到妃姬杯h0103661