也不知道哪根筋不对半夜睡不着来这个基本没在看的版发文
先上个人权
这篇文没有打算细谈任何AI实际应该怎么使用的内容
一方面懒得说二方面我觉得这很因情况而异三方面我也不知道
纯粹想到什么打什么打到我睡着为止
开头放个Andrej Karpathy这篇推特
https://x.com/karpathy/status/2015883857489522876?s=46
我觉得这是最近我看到最符合个人使用经验的文章
网络上充斥许多只有AI很强跟AI没用论点的文章
真正中肯做出分析的反而很难看到 (当然也可能是推荐算法使然
喔对了小小自介一下
我最近的工作比较大的milestone是release了一个叫做nijiv7的动漫风格文生图模型
https://x.com/nijijourney/status/2009714744597643503?s=20
更之前的话则是参与midjourney video 1的开发
我的工作内容基本包涵
- 上千张显卡的模型训练
- 以亿为等级的图片影片数据处理
- 图片影像生成模型的各种调整跟feature development
比较忙的时候可能一天同时会碰到资料处理 训练 跟模型推理的代码
实际工作更杂像我最近就开副本在做别的事情 但上面可以当作是工作的主干
而个人在ai coding这一方面觉得算是经历了三个大的变革
1. chatgpt 出来后复制贴上问答
2. cursor 类型的 ide 直接导入
3. claude code等的自主 ai 代理人
3这一块我们团队也是到最近才开始比较积极探索
主要是opus 4.5, codex等模型让agent能力大幅提升
也让3使用起来带来的效益更大
(个人觉得从hype到实际落地能用通常都需要一段缓冲期
而且比起1 2 要运用好3的learning curve更陡
我最近都开玩笑说vibe coding比coding难 写skill比写code难
现在使用算是2 3混合只有在非常偶尔的情况会把独立的问题用1拿去问不同llm吧
至于模型吗 我们都是用最好的甚至claude code直接开api usage (比 team plan速度快
一个月一个人烧个几百几千美元都有 (还没算cursor跟其他杂七杂八的
ai agent这东西感觉是 用起来其实没这么容易
也没有像网络上大部分讲的这么万能
现在最大的问题基本是context management跟spec
毕竟目前ai还不会读心 他不知道你想做什么
而且就算spec写好了实际跑起来还是会发现常常有遗漏
所以的确是一行code都不用写 其实我去年用cursor就几乎一行code都没写了
但会发现到头来最大的bottleneck还是人类自己
因为人类要负责提出requirement (spec)跟做evaluation
这两件事情并没有这么简单
嘛所以像是brainstorm这种让agent厘清requirement的就很好用
至于evaluation 作为有程式背景的做code review还是最直接的方式
(上面Andrej Karpathy的文也有提到
实际上ai写的code有时候就算是对的
但就是看他的code style或是一些冗余的内容很不爽
至于那些纯vibe完全不看code的人 大概需要不同的evaluation方式吧
但考虑到ml这种超大规模数据处理跟模型训练
坦白讲你不看code你安心吗
你除了看code有什么方式保证他在所有情况的behavior都是对的 我还真不知道
所以说 这东西真的很看情况
网络上kol说了ai多好用 但他们也不会知道怎么把它用在千卡的集群上对吧
我有朋友在银行 或者在quant工作 那边又是完全不同的情况跟问题
每个人都有自己的工作流程目标跟限制
只能在这个为基础来尝试把ai容纳到工作流里面去
是说既然为什么这么麻烦为什么还要用ai agent呢
因为人就是懒 而agent虽然不是万能 但如果用得好
对于偷懒 不对 对于提升工作效率 还是有很大帮助的
大概这样 一时没想到啥要写了 睡觉去起来继续当agent manager