大神卡帕西强烈建议:透过做专案来学习,坚持“1万小时定律”
https://www.thepaper.cn/newsDetail_forward_27973111
一水发自凹非寺
现场掌声雷动! 大神Andrej Karpathy在柏克莱黑客马拉松的演讲再引热议。
我们似乎正步入一个全新的运算范式,类似电脑技术在1980年代的转型。
我们正在进入的新范式,大语言模型就像CPU一样,使用Token而不是字节,并且有一个上
下文视窗而不是RAM,这就是大语言模型作业系统(Large Language Model OS, LMOS)
。
随后在18分钟左右的演讲中,Karpathy分享了从15年前初次接触人工智能至今的感受。
过程中也回顾了在OpenAI的经历,描述了公司从八个人在公寓工作到如今成为市值近千亿
美元的行业巨头。
不过,正如网友们所提醒的:
最精华的在最后,透过做专案来学习,找到合适的奖励模式,让大脑进入良性循环。
get! 接下来就让我们一起品品这场被网友评价为“干货满满”的演讲。
以下为卡帕西开幕演讲内容整理
步入全新运算范式
大家好,感谢邀请我来。
我非常喜欢黑客马拉松,因为这里蕴含着巨大的能量和创造力。 年轻人在一起学习和创
新,这是我最喜欢的地方。 我也参加过不少黑客马拉松,所以很高兴能在这里和大家交
流。
今天的会场规模之大,超出了我的预期。 黑客马拉松的盛大,反映出人工智能在过去十
五年间的快速发展。
我自15年前首次接触人工智能,当时的AI仅限于小规模学术讨论,专注于数学细节的推敲
。
当时我们训练神经网络使用的是来自MNIST的小数字,我们训练受限玻尔兹曼机,使用对
比散度训练网络。
而今,AI已非昔日之景象。 NVIDIA,作为GPU 的主要生产商,已跃升为美国市值最大的
公司之一,引领产业发展。 我们正生活在一个独特且充满活力的时代,众多的黑客马拉
松赛事便是明证。
我认为,这一切的背后,是计算本质的深刻改变。 我们似乎正步入一个全新的计算范式
,类似于电脑技术在1980年代的转型(当时电脑进入了PC时代)。
目前,我们所运用的不再是执行字节指令的中央处理器,而是处理字串片段的大型语言
模型。 这些模型,连同上下文视窗、储存设备等,构成了一种新型的运算架构,我称之
为大型语言模型作业系统,或简称LLM OS。
这是一种全新的程式设计学习对象,我们正在探索其优势与限制,并思考如何将其有效融
入产品开发中。
数周前,OpenAI发布了GPT-4o的演示,这项演示让我们直观感受到了与AI交流的可能性。
它不仅能够回应语音指令,还能进行视觉辨识、绘画等多元任务。 我强烈推荐各位观看
电影《她》,在这部电影里,主角与一个被称为操作系统的AI进行对话,我认为这部电影
非常接近现实。
然而,电影中的AI着重于情感智能,而在现实世界中,我们的社会更可能利用这些模型来
解决数位空间中的各类问题。
这些数位实体不仅可以执行任务,还能进行交流与协作,甚至模拟Slack对话,自动化数
位基础架构。 尽管实体基础设施的自动化尚处于起步阶段,但其潜力不容忽视。
此外,我还想推荐另一部2004年威尔史密斯主演的电影《我,机器人》。
这部电影设想了一个机器人在社会中广泛执行任务的未来。 剧透一下,在电影里,人们
的生活并没有变得更好,反而似乎被机器人主导。 我认为这个设想相当有趣。
电影中描绘的故事发生在2035年,也就是十年后。 也许那时我们可能生活在,机器人在
我们周围走动、和我们交谈、在实体世界和数位世界中执行任务的环境中。
那会是什么样子呢? 我们如何去程式设计? 我们怎样才能让它们按照我们的预期进行操
作?
当你考虑所有这些因素时,你可能会有一种通用人工智能的感觉。 这意味着你深刻地理
解了,如果这些技术继续发展,我们可能会在不远的将来遇见什么。
我们可能在数位领域和实体领域实现大规模的自动化。 现在,我不知道你们的想法,但
我个人对这个情景感到有些沮丧。 这是我用过去几分钟的谈话内容作为输入,用图像生
成器产生的图片。 实际上,我并不喜欢这幅画。
我觉得我们可以做得更好,我们这里有几千人。 在座的各位即将踏入AI产业,你们将对
这些科技的发展拥有一定的影响力。 我们所期望的未来,应是人与自然和谐共存,自动
化技术隐于幕后,不显山露水。
滚雪球效应
接下来,我想分享一些个人经验。 我认为我了解了专案如何变成现实世界的变革。
我发现的第一件很神奇的事情是,有时很小的项目,就像小雪球一样,实际上可以发展成
非常大的项目。
我曾经做过一个小型的魔术方块颜色撷取器专案。 另外,13年前,我在YouTube上发布了
一些游戏编程教程,尝试教人们如何进行游戏编程,我有很多视频游戏。 我还有一个有
趣的神经进化模拟器。
并非所有这些项目都能产生雪球效应,许多只是探索和尝试。 事实上,这三个项目对我
来说并没有产生太大的影响。 不能说它们是无用功,只是没有为我带来预期的效果,它
们仍然对我有帮助。
但游戏编程教程却以某种方式为我带来了雪球效应,这引导我从游戏编程教程转向了一些
颇受欢迎的魔方视频,这激发了我对教学的热情。
后来,当我在史丹佛大学攻读博士学位时,有幸开设并教授了CS231N课程,这是史丹佛大
学的首门重点深度学习课程。
之后,我创建了一个YouTube频道,推出了为深度学习和大语言模型制作的“从零到高手
”系列,很多人都喜欢这个。
在此基础上,雪球效应持续,我目前非常感兴趣的一个专案是下一步的课程。 我将这个
课程命名为LLM 101N,目的是教你创建一个说故事的工具,类似于你可以用来产生故事的
ChatGPT。
这个课程的设计想法是让你从零开始学习,从基础知识到创造一个在说故事领域的类似
ChatGPT的工具。
我认为,从头开始学习创建这个工具将是非常有启发性的,也会非常有趣。 两三天前,
我在GitHub上发布了这个课程,它还很初级,但我对此非常兴奋。 对我来说,这就像是
一颗滚雪球,越滚越大。 它始于13年前的一个小游戏程式设计。
在OpenAI,我也亲眼见证了类似的过程。 如同先前简单提到的,我是OpenAI的创始成员
,研究员。
七年前,我在OpenAI工作,这是一些公开的图片,展示了我们八个人在Greg的公寓工作的
情况。
OpenAI的创立就是为了与Google展开竞争。 Google就像是一只拥有700亿美元自由现金流
的大猩猩。 那时,Google几乎雇用了AI研究行业的一半人员。
这是一个相当有趣的格局,而我们只是八个带着笔记型电脑的人。 OpenAI在内部探索了
大量的项目,我们聘请了一些非常优秀的人才,许多人的专案并未取得太大进展,但有些
人的专案确实取得了成效。
举例来说,在OpenAI早期历史中,有人在研发一个Reddit的聊天机器人。 当你瞥见他们
的桌子,你可能会问,我们正在试图与Google竞争,你正在开发一个Reddit的聊天机器人
。
我们应该做一些更大的事情。 因此,这些刚起步的项目很容易被忽视,因为它们在初期
非常脆弱。
但实际上,Reddit聊天机器人是什么? 它是一个语言模型。 而且恰好是在Reddit上进行
训练的。 不过,你完全可以利用任何资料来训练这样的语言模型,并不仅限于Reddit。
当Transformer出现后,这个模型变得更为完善。 然后,其应用领域从只有Reddit扩展到
许多其他的网页。
突然之间,你就可以看到GPT-1,GPT-2,3,4,最后是GPT-4o的出现。
所以,这个看似不起眼的Reddit聊天机器人,最后却催生了GPT-4o,我们现在认为它是运
算范式的改变。 你可以和它对话,它的回应令人惊艳。
今天,OpenAI的估值可能接近1000亿美元。 看到小雪球逐渐滚成大雪球的成果,令人难
以置信。
所以我想说,你应该坚持你的项目,让它们逐渐积累,也许它们可以变成大雪球。
此外,我坚信Malcolm Gladwell提出的“一万小时”定律。
我认为,成功源自于重复的实践和大量的付出。 不要过度紧张,我在做些什么? 我是成
功还是失败? 只要简单地统计你投入的时间,一切都会累积起来。
有几个例子可以说明这一点。
几周前,我在周末制作了一个非常粗糙的网站awesomemovies.life。
因为那个周六我想看电影,所以我就上线了这个电影推荐引擎网站。
有人在推特上回复我说:“哇,你周末就搞定了,好酷啊。”我对此产生了些许思考,因
为我并不觉得这有多么神奇。
这个人没看到的是,这已经是我第20次做这样的网站了,我知道我要做的每一步。
首先,我需要Linode,然后是Flask服务器。 我写一些JavaScript,样式表,HTML,然后
把这些组合起来。 我需要抓取所有这些网页,提取tf.idf 向量,训练SVM。
这些都是我已经做过20次的事情,我甚至有之前项目的代码片段。我只是在重新组合我已
有的资源,因此可以在一个周末完成。
另一个例子是我在特斯拉自动驾驶专案中的经历。
大约7、8 年前,我被聘请来领导特斯拉自动驾驶的电脑视觉团队。
加入团队后,我做的第一件事之一就是用PyTorch重新编写电脑视觉深度学习网络训练的
程式码库。 我基本上从头开始重新编写了整个项目,它现在成了项目的核心部分。
对某些人来说,这在当时看起来可能很惊人,但对我来说并非如此。 因为我在读博期间
花了五年时间做类似的事情,我清楚知道需要什么。
我需要训练集,评估集,我需要在PyTorch中的训练循环,我需要配置文件,我需要日志
目录,我需要引入ResNet,我需要做检测,我们正在进行回归和分类。
整个过程,我预见了所有步骤,而这种预见只有经验才能带来。
因此,真正去尝试达到你的10,000个小时,这真的会有很大的影响,这就是全部。
顺便说一下,10,000个小时,如果你每天工作六小时,大约需要五年。
所以,你需要大约像完成一个博士学位的时间来在某个领域发展出专业技能。
墙裂推荐“做专案”
我还发现,保持大脑释放多巴胺其实很有用。 你要了解你的心理状况,你的大脑,它是
如何运作的,维持活力,如何保持受到启发。 特别是,你的大脑就像一个奖励机器,它
渴望得到奖励,你需要满足这个需求。
那么,有什么好的方法可以给予奖励呢?
在我的经验中,这可以透过做项目,并且持续发布它们来实现。
首先,专案能让你全面深入地做一些事情。 例如,当你去上课时,你通常是在广泛地学
习,而专案是让你根据需求来学习。
我认为这是一种非常不同的学习模式,很好地补充了广泛的学习方式,这非常重要。
另一个原因是,发布项目其实也是一个非常好的策略。
如果你打算发布一些东西,那么你会开始考虑所有可能看到它的人,你的朋友、团队成员
、家人和未来的雇主。
因此,这无疑提高了你对自己工作的要求,会让你更努力地工作。
因为别人会评价你的工作,如果工作品质差,你会感到羞愧,这种压力有时是有帮助的
。 且当他人关注你的专案时,你会得到满足感。
总的来说,我认为这就是事情的大致运作方式,所传达的讯息就是不断的挑战。
希望我们能从小专案做起,共同创造一个美好的未来。 谢谢大家。
还有一件事
最后,“keep hacking”的卡帕西最近也开始玩AI影片生成了!
他把《傲慢与偏见》的前几句话做成了视频,用的工具还是大杂烩那种~
据他透露,其“配方”如下:
用Claude完成了第一章,产生了场景和图像的单独提示
用Ideogram按照提示产生图像
用Luma处理图像并将其动画化
用ElevenLabs处理旁白
用Veed进行最终缝合
这一番操作花了大神将近1小时,以至于他在线发问:
对于任何能够提供便利的人来说,这里都有一个巨大的讲故事的机会。 谁正在打造第一
家100%AI原生电影制作?
那么,你觉得卡帕西的这个影片如何? (欢迎在留言处随意留言)
参考连结:
[1]https://www.youtube.com/watch?v=tsTeEkzO9xc
[2]https://x.com/karpathy/status/1808686307331428852