Re: [请益] 软件失业是迟早的事吧

楼主: oopFoo (3d)   2025-10-17 08:01:49
※ 引述《SkankHunt42 (凯子爸)》之铭言:
: 推 yamakazi: 人类方也没提数据啊,人类有SWE bench可以看分数? 10/15 09:36
: → yamakazi: 人类自己都没有benchmark 却可以觉得人类自己做得比ai好 10/15 09:36
: → yamakazi: 才奇怪吧 10/15 09:36
: 没有要ㄉ一ㄤ谁的意思
: 就是这benchmark到底存不存在
现在的llms是以人类为基准做测试。swe-bench 就是人类做过了,看llms可不可以做。
https://github.com/SWE-bench/SWE-bench
swe-bench是拿github已解决的issues来作为测试。
https://openai.com/index/introducing-swe-bench-verified/
swe-bench verified是把一些openai认为under specified的issues踢掉。就更容易自动化测试。
测试的题目,大部分都非常简单。15分钟内解决
例如variable referenced before assignment
或者parameter ignored。deprecation warning
普通有程度的人,大概可以90%+没问题。有问题的大致上是需要domain knowledges的。
例如
有些matrix的问题,你如果不熟,那不会做是正常的。
老实说,连东西的内容都不了解,就大谈特谈,我无话可讲
作者: DrTech (竹科管理处网军研发人员)   2025-10-17 08:34:00
专业。swe-bench就是人先做过的issue。swe-bench verified就是人再过滤一次,认为适合公平测试AI能力的工作。
作者: yamakazi (大安吴彦祖)   2025-10-17 08:40:00
本来就是拿有人做过的没问题啊,不然要怎么对答案?问题是没有拿来测人类平均解题水平我当然知道这是有人做过的XD你知道就连大学联考题目,也是给大一生做过才拿来考的吗XD然后那个考的大一生,还要待在围场里等联考结束才跟出题老师一起出闱
作者: DrTech (竹科管理处网军研发人员)   2025-10-17 08:49:00
yamakazi说的对。问题在于swe-bench verified没看过单一测试者人类的解题成绩。不过好笑的又来了,swe-bench verified 没看过任何一个人类的成绩。yamakazi怎么会在前几天认定人解得一定比较差? 自打嘴巴。
作者: yamakazi (大安吴彦祖)   2025-10-17 09:15:00
因为我用过ai工作跟我之前自己工作比较。之前比较难的功能或虫都好几天才解完,现在有AI真的五到十分钟搞定单算行数的话,我2018年左右平均一年进扣九千行,今年九月我用claude 4 sonnet一个月进扣五万行如果我下去跟AI比benchmark,我觉得我会惨败我自己以前一年如果进超过一万五千行扣,就觉得蛮操的了,现在一个月进口五万行还不觉得累就像是你各位在高中大学时期,班上就是有那种强者,你从日常跟他上课考试就知道这个人很强,我跟他比完全惨败,不用等到比完联考你就知道他一定上台大医学系一样那五万行我几乎每行都有review,几乎没有太大问题,光review code比自己手刻轻松多了而且他会自己make run,自己检查log完后出报告,很多时候只要看他下个指令,看完他准备要下的指令后没问题按yes就可以了
作者: brucetu (sec)   2025-10-17 10:07:00
能像你的专案一个月进扣五万行的应该不多,照你这速度五个人一个月异动二十万行 怎么维护?你只是无脑用大量程式码把功能做过去 自己看不到问题就说AI没问题,老板会很喜欢你这种 因为你交差快,反正爆掉的时候你就知道,希望半年后你还有办法维护六个月前的那几十颗commit
作者: Suleika (Suleika)   2025-10-17 10:11:00
y说llm进code很快没说错阿,但这版很少提到真正会遇到问题的一直是全局trade off,效能调教,安全性检查......
作者: brucetu (sec)   2025-10-17 10:15:00
哦 而且我的sonnet 4.5每次任务都会犯三四个奇怪的逻辑错误 所以我不知道你到底怎么办到让AI一个月产生五万行没有问题的程式码,我感觉你要不是下指令之神应该出来开课,不然就是你真的看不到程式码里面的问题
作者: Suleika (Suleika)   2025-10-17 10:16:00
只要llm没有fine-tune过,不能靠reasoning解题,就还是工具还有他说的是一年5万...反驳都没看清楚
作者: richardz (卍罪爱卍)   2025-10-17 10:20:00
他明明说一个月五万...到底谁没看清楚...
作者: Suleika (Suleika)   2025-10-17 10:21:00
拍谢我没看清楚第二行,一个月5万是有点夸张就是了要看写的是啥
作者: brucetu (sec)   2025-10-17 10:27:00
我就是看到一个月五万 怕是我看错,反复看了三五次他的留言,确定他是说本来一年九千现在一个月五万,如果他是写错了 我会更怀疑他有好好地看AI产出的扣吗?还是瞄一眼好像没大问题而且功能可以动就commit了
作者: yamakazi (大安吴彦祖)   2025-10-17 10:29:00
写systemC,就是要拼多啊,而且也没什么安全性问题我们有给他MD档,md 档里面有范例程式,你光下prompt当然没那么精准我们各种md档加起来可能也快万行了,你prompt不可能讲那么详细如果你发现AI常犯的错误,或是这次试错了好几次才正确,你要叫他学起来就是叫他把这次的经验写进去md 档,大部分md内容也是叫AI写不是我自己写
作者: selfvalue (ime)   2025-10-17 10:57:00
这串我关注很久 你跟Skaut大大讨论的内容都很不错 有兴趣可以来我们网站发lesswrong.comjaan tallinn(skype联合创办人)跟eliezer yudkowsky都有在网站写过相关的讨论串 可以注册后开一个讨论 很多人会回上来看看
作者: yamakazi (大安吴彦祖)   2025-10-17 11:14:00
一个月五万没错,不过把md档也算进去了,没特别分开算举个例子,他以前常常忘了先make all就直接跑程式,可能以为自己写的是python,我就叫他写在自己的md档里,以后他改完扣就会自己make all and run了,不用特别再下prompt
作者: selfvalue (ime)   2025-10-17 11:34:00
我们网站科技公司的老板(航太 耳机等等)跟顶尖科学家工程师很多 但网站人数很少 欢迎来发言
作者: MoonCode (MoonCode)   2025-10-17 12:00:00
lesswrong 相比 reddit hackernews 有什么特别的?
作者: selfvalue (ime)   2025-10-17 12:19:00
lesswrong跟许多机构有直接的关系 像是miri/ open philanthropy
作者: MoonCode (MoonCode)   2025-10-17 12:19:00
有关系能干嘛 不太懂
作者: selfvalue (ime)   2025-10-17 12:20:00
像是我们网站的成员Vitalik Buterin(大家应该都知道他是谁)就有直接资持这些机构他在上面叫vbuterin 可以看我们的排行榜https://www.lesswrong.com/leaderboardhttps://en.wikipedia.org/wiki/Vitalik_ButerinArtificial intelligenceeditIn May 2021, Buterin donated $665 million to the Future of Life Institute, a nonprofit which, amongst other things, seeks to mitigate the existentialrisk from artificial intelligence. Buterin worriesthat AI could become the new dominant species onEarth, and may "end humanity for good".[45]Future of Life InstituteLogo of the Future of Life InstituteAbbreviationFLIFormationMarch 2014; 11 years agoFoundersJaan Tallinnvitalik捐了六亿多美金的机构 founders 可以看看 第一个也是lw活跃用户就是skype创办人之一的jaan他在网站上面叫jaan在科技工作上的影响比较直接我也很喜欢hackernews 那边也不错上面讨论的比较倾向数学 可以看看网站介绍 比较奇怪一点https://www.lesswrong.com/w/bayes-theoremhttps://www.lesswrong.com/posts/KN3BYDkWei9ADXnBy/e-t-jaynes-probability-theory-the-logic-of-science-i我们网站欢迎数学好的朋友上面的文章都很朴实 也有比较普通的人上去聊数学跟科技不要看上面用户有人捐了几百亿台币那些 话题跟用户本身没有什么关系 大家都在聊数学相关话题vitalik是比较出色的网站成员之一数学才是最重要的
作者: MoonCode (MoonCode)   2025-10-17 13:48:00
xD 好吧 我没有被说服 谢啦
作者: selfvalue (ime)   2025-10-17 13:57:00
上面有定期的聊天聚会 如果你是在欧美日本 可以上去看日期 去聊天一个Nasa的工作人员很爱办 可以去吃东西 带小狗过去玩聊数学比较小的 温馨的我去过几次 看过不少同行 jaan, 火箭公司的老板 那些人 比较温馨hackernews比较大可以上去聊数学模型 论文那些
作者: viper9709 (阿达)   2025-10-17 17:56:00
一个月五万行@@
作者: selfvalue (ime)   2025-10-17 18:35:00
上这网站我觉不错上去写怎么想 还有你怎么用专业知识然后在去见面会这网站成员很多公司的外部专家== openai, Microsoft那些在上面答题也满有趣的专业非常强可以去玩^tesla也有十年前网站讨论的事情 不少都陆陆续续被网站成员解决/实现这一串很像上面会讨论的 很多人答的不错
作者: Romulus (Säubern Mode)   2025-10-17 23:45:00
我家的Claude 4.5才一周进四千行 我大概要手动修五批众所皆知 一定是我prompt下太烂……XD我怎么下prompt Claude都无法正确使用AWS SDK 想必我全责
作者: SkankHunt42 (me so horny)   2025-10-17 23:58:00
Claude 我已经弃了 听说现在其他工具更好用而且Claude 订价偏贵就算了还不诚实 高级模型也是用一下就没了
作者: Romulus (Säubern Mode)   2025-10-18 00:00:00
都差不多啊 Gemini 2.5 Pro, GPT-5 都那样从来不觉得各主流模型间有什么很本质上的差异顶多就偶而这题A解的比较好 那题只有B解的出来 之类的
作者: art1 (人,原来不是人)   2025-10-18 00:44:00
高见龙下班后用 AI 两个月产出十八万行程式码,一个月五万好像也还好,AI 产程式码的速度跟人比起来真是天上飞比地上爬
作者: quickey (色肥宅)   2025-10-18 07:20:00
产归产,还是要review啊XD
作者: CRPKT (crpkt)   2025-10-19 09:33:00
领域不一样,硬比行数没有太大意义啦
作者: NDark (溺于黑暗)   2025-10-19 12:10:00
楼楼上 我觉得测试与审查都会终将推到AI.但是最终的问题还是回到 需求有没有被满足问题的最后一定是有一个核心的问题 而不是只是炫技如果只是炫技那么市场上现在就是满满的AI影片
作者: newhandfun (新手方)   2025-10-21 11:20:00
等AI可以帮工程师扛责任再叫我

Links booklink

Contact Us: admin [ a t ] ucptt.com