── 除非最顶尖,不然人类软件工程师完全打不赢
程式技术人才评估平台 CodeSignal 近期推出 AI Benchmarking Report,
评估了目前热门 AI 模型的 Coding 能力,并与“人类”软件工程师进行比较。
结果发现“普通”软件工程师的能力已经输给了大多数的 AI 模型,包含常见的 GPT-4o 或
Claude Sonnet 等等。
甚至 OpenAI 最新推出的 o1 模型,遥遥领先其他模型与普通人类软件工程师,差距非常大
。
目前只有最顶尖的软件工程师可以稍微领先 o1 模型!
排名如下:
1. 顶尖软件工程师
2. o1-preview
3. o1-mini
4. claude-3.5-sonnet
5. gpt-4o
6. llama3.1-405b
7. gemini-1.5-pro
8. gpt-4o-mini
9. 一般软件工程师
10. gemini-1.5-flash
11. gpt-3.5-turbo
▋ 评估方法
CodeSignal 不是单纯测试理论上的程式知识,
而是使用了目前顶尖科技、金融公司用来“面试软件工程师”的题目。
他们使用了 159 种题目,来测试 AI 和人类的编写程式和问题解决能力(问题大多需要编
写约 40 到 60 行程式)
▋ AI 模型表现
‧ o1-preview 和 o1-mini
表现最好的模型,在所有指标中都遥遥领先。
在处理各种问题,表现都非常稳定,能够成功解决大多数情境中的程式问题。
‧ GPT-4o
在解决完整问题的时候表现出色。
能够根据反馈不断改进答案,像人类工程师一样,逐步修正错误。
‧ Claude 3.5 Sonnet
更擅长处理简单的程式问题。
但在处理多次尝试的问题(尤其是超过 5 次尝试)时,模型的表现会下降,甚至会出现偏
离正确解法的情况。
https://www.facebook.com/share/p/pU2p8rucwrs5MapA
中兴电机超分台大化学
果然是要没落的警讯吗