[新闻] 我的领导马斯克:痛恨开会,不要非技术中

楼主: jackliao1990 (jack)   2024-03-30 21:24:50
我的领导马斯克:痛恨开会,不要非技术中层,推崇裁员
https://www.qbitai.com/2024/03/131964.html
鱼羊
AI大神卡帕西最新分享
马斯克称得上是个“魔鬼老板”这事儿,已经出了名了。
现在,他的老部下卡帕西(Andrej Karpathy)又在最新访谈中“锤”了他一把(doge)

我不得不恳求他允许我招人。
他(马斯克)总是默认要裁掉员工。
喜欢裁人之外,在这场红杉组织的AI Ascent活动上,卡帕西也揭露了更多马斯克管理公
司的细节:
痛恨开会、拒绝躺平、比起跟VP更喜欢直接和工程师聊工作…
另外,他也聊了不少大家伙关心的大模型话题,包括:
法学硕士作业系统
规模重要吗?
年轻的新创公司要如何与OpenAI竞争?
更多细节,以下奉上文字版分享~
(Claude 3亦有贡献)
大语言模型是新时代的CPU
Q :安德烈,非常感谢你今天加入我们。 OpenAI最初的办公室就在我们旧金山办公室的
对面,当时你们很多人都挤在一起。
除了在巧克力工厂楼上工作,实现了威利旺卡的梦想,在这里工作还有哪些令你难忘的时
刻?
卡帕西 :是的,OpenAI最初的办公室就在那里,如果不算Greg的公寓的话。
我们在那里待了大概两年,楼下就是巧克力工厂,味道一直很香。 那时团队大概有10-20
多人。
我们在那里度过了一段非常有趣的时光。 老黄在GTC大会上提到的,他把第一台DGX超级
电脑送到OpenAI的事,就发生在那里。
Q :安德烈其实是不需要介绍的,不过我还是想提一下他的背景。 他师从Geoffrey
Hinton和李飞飞,最早因为在史丹佛大学开设的深度学习课程成名。
2015年他共同创办了OpenAI。 2017年,他被马斯克挖走了。
大家可能不太记得当时的情况了:特斯拉经历了6任Autopilot负责人,每个人都只做了6
个月。 我记得安德烈接手这个职位时,我还祝他好运来着。
没多久,他就回到了OpenAI。 而现在他拥有完全的自由,可以想做什么就做什么。 所以
我们很期待听他今天分享的见解。
我最欣赏安德烈的地方在于,他是一位令人着迷的未来主义思想家,他是坚定的乐观主义
者,同时他也是一位非常务实的建造者。 今天他会和我们分享一些关于这些方面的见解

首先,即便在7年前,AGI看起来也是一个在我们有生之年几乎不可能实现的目标。 而现
在它似乎已经在望了。 你对未来10年有什么看法?
卡帕西 :你说的没错。 几年前,AGI的路径还很不明朗,还处于非常学术化的探讨阶段
。 但现在已经很清楚了,大家都在努力填补这片空白。
优化工作正在如火如荼地进行中。 大致来说,每个人都在努力建立“ 大模型作业系统
(LLM OS)”。
我喜欢把它比作一个作业系统。 你要准备好各种外围设备,然后把它们连接到一个新的
CPU上。 这些周边设备包括文字、图像、音讯等各种模态。 CPU就是语言模型本身。 它
还将与我们已经建造的所有Software 1.0基础设施相连。
我认为大家都在努力建构这样一个东西,然后把它定制成适用于各个经济领域的产品。
总的来说,发展方向就是我们可以调整这些相对独立的agent,为它们分配高层次的任务
,让它们专门从事各种工作。 这将非常有趣和令人兴奋。 而且不只一个agent,会有很
多agent。 想像一下那会是什么样子?
Q :如果未来真的如你所说,那我们现在该如何调整自己的生活方式?
卡帕西 :我不知道。 我想我们必须努力去建构它,去影响它,确保它是正向的。 总之
就是尽量让结果变好。
Q :既然你现在是一个自由人,我想提一个显著的问题,那就是OpenAI正在主导整个生态

今天在座的大多数人都是创业者,他们试图开辟一些小众市场,并祈祷OpenAI不会在一夜
之间把他们打垮。
你认为其中还有机会吗? OpenAI会在哪些领域继续占主导地位?
卡帕西 :我的总体印像是,OpenAI正在努力建立LLM作业系统。 正如我们今天早些时候
听到的,OpenAI正试图开发一个平台。 在此基础上,你可以在不同的垂直领域建立不同
的公司。
作业系统的类比其实很有意思,因为像Windows这样的作业系统,也自带一些默认的应用
程序,例如浏览器。
所以我认为,OpenAI或其他公司可能也会推出一些默认的应用,但这并不意味着你不能在
上面运行不同的浏览器,你可以在他们的基础之上运行不同的agent。
会有一些默认应用,但也可能会有一个充满活力的生态系统,有各种各样的应用,针对具
体场景进行了微调。
我很喜欢用早期的iPhone应用程式来类比。 这些应用程式一开始都有点像开玩笑,需要
时间来发展。 我想我们现在正在经历同样的事情。 人们正在努力弄清楚这个东西擅长什
么? 不擅长什么? 我如何使用它? 如何程式设计? 如何调试? 如何让它执行实际任
务? 需要什么样的监督? 因为它相当自主,但不完全自主的。 所以监督应该是什么样
的呢? 评估应该是什么样的? 有很多事情需要思考,需要理解。 我认为 需要一些时间
来弄清楚如何与这种新的基础设施合作 。 所以我认为在未来几年我们会看到这一点。
Q :现在大语言模型的竞赛正在如火如荼地进行,有OpenAI、Anthropic、Mistral、
Llama、Gemini,还有整个开源模型生态系统,以及大量的小模型。 你如何预见生态系未
来的发展?
卡帕西 :是的,所以我再次强调,作业系统的类比很有意思。 我们有Windows、macOS这
样闭源的系统,也有开源的Linux。 我认为大模型可能也会是这样的格局。
我们称呼这些模型的时候也要小心,你列举的许多模型,像是Llama、Mistral等,我不认
为它们是真正的开源。 这就像是把一个作业系统的二进制档案扔出来,你可以使用它,
但不是完全有用。 确实有一些我认为是完全开源的语言模型,它们完整地发布了编译“
作业系统”所需的全部基础设施,从资料收集到模型训练。 这比只拿到模型权重肯定要
好得多,因为你可以微调模型。
但我认为有一个微妙的问题,就是你不能完全微调模型,因为你微调得越多,它在其他所
有任务上的表现就会越差。
所以如果你想增加某种能力而不影响其他能力,实际上可能需要混合先前的资料集分布和
新的资料集分布来进行训练。 如果只给你模型权重,你其实做不到这一点。 你需要训练
循环,需要资料集等。 所以你在使用这些模型时实际上是受限的。
它们肯定是有帮助的,但我们可能需要更好的术语对其进行描述。 开放权重模型、开源
模型,还有专有模型,生态系统可能会是这样的。 而且很可能会与我们今天的生态系统
非常相似。
规模是最主要决定因素
Q :我想问的另一个问题,就是规模。 简单来说,规模似乎是最重要的。 数据规模、算
力规模。 因此,大型研究实验室、大型科技巨头今天拥有巨大的优势。 你对此有何看法
? 规模就是一切吗? 如果不是,还有什么重要的?
卡帕西 :我认为规模绝对是第一位的。
其中有一些细节确实需要处理好。 我认为资料集的准备工作也很重要,要让资料非常好
、非常干净,这可以让运算效率提升。
但我认为规模将是主要的决定因素,是第一主成分,当然你还需要把其他很多事情做好。
如果没有规模,那你根本无法训练这些大模型。 如果你只做微调之类的工作,可能不需
要那么大的规模,但我们还没有真正看到这一点完全实现。
Q :你能详细说说除了规模之外,你认为还有哪些重要因素吗,可能优先级低一些?
卡帕西 :首先,你不能只训练这些模型。 如果你只是提供资金和规模,实际上训练这些
模型仍然非常困难。
部分原因是基础设施太新了,还在开发中,还不完善。 但在这种规模上训练模型是极为
困难的,是一个非常复杂的分布式最佳化问题。 这方面的人才目前其实相当稀缺。 这基
本上是一个疯狂的事情,模型在成千上万个GPU上运行,在不同的时间点随机失败。 监控
这个过程,让它运作起来,实际上是极其困难的挑战。
直到最近,GPU才像预期的那样能处理1万个GPU的工作负载。 所以我认为很多基础设施在
这种压力下都在吱吱作响,我们需要解决这个问题。
现在,如果你只是给某人一大笔钱或大量的GPU,我不确定他们是否能直接生产出大模型
,这就是为什么不仅仅是规模的问题。 你实际上需要大量的专业知识,包括基础设施方
面、算法方面,以及数据方面,要非常谨慎。
Q :生态系统发展得如此之快,一年前我们认为存在的一些挑战,现在也越来越多地解决
。 幻觉、上下文视窗、多模态能力、推理速度越来越快、成本越来越低。 现在还有哪些
语言模型研究的挑战让你夜不能寐? 你认为有哪些问题够紧迫,但也是可以解决的?
卡帕西 :我认为在算法方面,我想了很多的一个问题是扩散模型和自回归模型之间的
明显差异。 它们都是表示机率分布的方法。 事实证明,不同的模态显然适合其中之一
。 我认为可能有一些空间来统一它们,或以某种方式将它们联系起来。
我想指出的另一件事是,运行大模型的基础设施的内在效率。 我的大脑耗电量大概是20
瓦。 老黄在GTC上刚刚谈到了他们要建造的大型超级计算机,数字都是兆瓦级的。 所以
也许你不需要那么多能量来运行一个大脑。 我不知道具体需要多少,但我认为可以肯定
地说,在运行这些模型的效率方面,我们还可以1000倍到100万倍地提升。
我认为部分原因是当前的电脑根本不适合这个工作负载。 英伟达的GPU朝着这个方向迈出
了很好的一步,因为你需要极高的并行性。 我们实际上并不关心以某种方式依赖资料的
顺序计算。 我们只是需要在许多不同的阵列元素上执行相同的算法。 所以我认为第一
个是调整电脑架构以适应新的资料工作流程,第二是推动我们目前看到有改进的东西。
第一个可能是精度。 我们看到精准度从最初的64位双精度下降到现在的4、5、6位,甚至
根据你所读的论文不同,可能是1.5到8位。 所以我认为精准度是控制这个问题的一个很
大的杠杆。
第二个当然是稀疏性。 事实上,大模型中的许多参数都是零,或是接近零。 所以如果你
能以某种方式利用这一点,比如说让稀疏矩阵乘法变得更有效率,那就太好了。 这方面
有一些有前景的研究。
另外还有一些有趣的想法,例如奇异值分解(SVD),看看是否可以将其分解成更小的矩阵
,然后重新组合。 例如只计算前向传播,不做反向传播,训练一个较小的模型来预测较
大模型的输出。
所以我认为,从根本上讲,要解决两个问题:
一个是建立更合适的硬件。 另一个是找到更好的算法,在保持效能的同时提高效率。
我认为这两方面都还有很大的探索空间。 从能源效率的角度来看,如果我们能缩小与大
脑的差距,那将是一个巨大的进步。 这可能意味着我们每个人都可以负担得起一个模型
,或在我们的设备上运行一个模型,而不需要连接到云端。
马斯克“在管理世界上最大的创业公司”
Q :好的,我们换个话题。 你曾与这个时代的许多伟人并肩工作过,OpenAI的Sam、Greg
及其他团队成员,还有马斯克。
在座有多少人听过关于美国赛艇队和日本赛艇队的笑话? 这是个有趣的故事。 马斯克分
享过这个笑话,我认为它反映了他在打造企业文化和团队方面的许多理念。 故事中有两
支队伍,日本队有4名划手和1名舵手,美国队有4名舵手和1名划手。 有人猜得出当美国
队输了后他们会怎么做吗? 大声说出来。 完全正确,他们会开除那个划手。
马斯克分享这个例子,我认为是在阐述他对于雇用合适的人才、打造合适团队的看法。
透过与这些不可思议的领导者的密切合作,你学到了什么?
卡帕西 :我想说马斯克管理公司的方式非常独特。我觉得人们并没有真正意识到它有多
特别。即便是听别人讲,你也很难完全理解。我觉得这很难用语言描述。我甚至都不知道
从何说起。但这确实是一种非常独特、与众不同的方式。
用我的话来说, 他正在管理全球最大的新创公司 。 我觉得我现在也很难描述清楚,这
可能需要更长时间来思考和总结。
不过首先,他喜欢 由强大且技术含量高的小团队来组成公司 。
在其他公司,发展的过程中团队规模往往会变大。 而马斯克则总是反对团队过度扩张。
为了招募员工,我必须做很多努力。 我必须恳求祂允许我招人。
另外,大公司通常很难摆脱绩效不佳的员工。 而马斯克则更愿意主动裁人。
事实上,为了留住一些员工,我不得不据理力争,因为他总是默认裁掉他们。
所以第一点就是,维持一支实力强劲、技术过硬的小团队。 绝对不要有那种非技术型的
中阶管理。 这是最重要的一点。
第二点则是他如何营造工作氛围,以及走进办公室时给人的感觉。
他希望工作环境充满活力。 人们四处走动,思考问题,专注于令人兴奋的事物。 他们或
是在白板上写写画画,或是在电脑前敲程式码。 他不喜欢一潭死水,不喜欢办公室里没
有生机。
他也不喜欢冗长的会议,总是鼓励人们在会议毫无意义时果断离场。 你真的能看到,如
果你对会议毫无贡献也没有收获,那就可以直接走人,他非常支持这一点。 我想这在其
他公司是很难见到的。
所以我认为 营造正向的工作氛围是他灌输的第二个重要理念 。 也许这其中还包括,当
公司变大后,往往会过度照顾员工。 而在他的公司不会如此。 公司的文化就是你要拿出
百分之百的专业能力,工作节奏和强度都很高。
我想最后一点或许是最独特、最有趣也最不寻常的,就是 他与团队如此紧密地连结在一
起 。
通常一个公司的CEO是一个遥不可及的人,管理著5层下属,只和副总裁沟通,副总裁再和
他们的下属主管沟通,主管再和经理层沟通,你只能和直属上司对话。 但马斯克经营公
司的方式完全不同。 他会亲自来到办公室,直接与工程师交谈。
我们开会时,会议室里经常是50个人和马斯克面对面,他直接跟工程师对话。 他不想只
是和副总裁、主管们说话。
通常一个CEO会把99%的时间花在和副总裁沟通上,而他可能有50%的时间在和工程师沟通
。 所以如果团队规模小且高效,那么工程师和程式码就是最可信的资讯来源。 他们掌握
第一手的真相。 马斯克要直接和工程师交流,以了解实际情况,并讨论如何改进。
所以我想说,他与团队联系紧密,而不是遥不可及,这一点非常独特。
此外,他在公司内部行使权力的方式也不同寻常。 例如如果他与工程师交谈,了解到一
些阻碍专案进度的问题。 例如工程师说,“我没有足够的GPU来运行程式”,他会记在心
里。 如果他两次听到类似的抱怨,他就会说:“好,这是个问题。那现在的时间表是什
么?什么时候能解决?”
如果得不到满意的答复,他会说,“我要和GPU集群的负责人谈谈”,然后有人就会打电
话给那个负责人,他会直截了当地说:“现在就把集群容量翻一倍。从明天开始每天向我
汇报进展,直到集群规模扩大一倍。”
对方可能会推脱说还要经过采购流程,需要6个月之类的。 这时马斯克就会皱起眉头,说
:“好,我要跟黄仁勋谈谈。”然后他就会直接铲除计画障碍。
所以我认为大家并没有真正意识到他是如何深度参与各项工作,扫清障碍,施加影响力的

老实说,离开这样的环境去一家普通公司,你真的会想念这些独特的地方。
影片连结:
https://www.youtube.com/watch?v=c3b-JASoPi0

Links booklink

Contact Us: admin [ a t ] ucptt.com