Re: [新闻] AI芯片竞争开跑,谷歌公布第四代TPU,宣

楼主: waitrop (嘴砲无双)   2023-04-07 15:09:01
※ 引述《ynlin1996 (.)》之铭言:
: 原文标题:
: AI芯片竞争开跑,谷歌公布第四代TPU,宣称比辉达A100芯片更快更节能
: 原文连结:
: https://bit.ly/3meYAG8
: 发布时间:
: 2023.4.6
: 记者署名:
: 茋郁
: 原文内容:
: 谷歌于2023年4月5日公布了其用于训练AI模型的超级电脑的新细节,称该系统比辉达的同类型系统A100更快、更节能。虽然现今大多数涉足AI领域的公司的处理能力都来自辉达的芯片,但谷歌设计自己客制化芯片Tensor Processing Unit(TPU)期望能够推动其在AI研究。
: 谷歌是在COVID-19大流行高峰期间宣布了其Tensor芯片,当时从电子到汽车的企业面临芯片短缺的困境。由于谷歌看到苹果在客制化芯片的投入,帮助了iPhone以及其他产品的开发。因此最初该芯片是为其Pixel智慧型手机提供动力,可是历经几年之后,谷歌将TPU延伸至更多领域,可见得其开发方面取得了长足的进步。
: 如今谷歌90%以上的AI训练工作都使用这些芯片,即通过模型提供数据的过程,使它们在诸如类似人类的文字查询或生成影像等任务中发挥作用。
: 谷歌TPU现在已经是第四代了。之所以世代芯片发展那么迅速的关键在于,谷歌使用AI来设计其TPU芯片。谷歌声称,与人类花费数月时间设计芯片相比,使用AI设计芯片仅需要6小时即可完成设计过程。
: 一旦采用AI设计芯片,产品迭代都在迅速发生,这就是TPU进入第四代的原因。未来随着生成式AI的快速发展,将造成大型语言模型的规模呈现爆炸式成长,这意味着它们太大而无法储存在单颗芯片上。所以谷歌客制化开发的光讯号交换器将4,000多颗芯片串在一起成为一台超级电脑,以帮助连接各个机器。此外,微软也是将芯片拼接在一起以满足OpenAI的研究需求。
: 谷歌指出,PaLM模型——其迄今为止最大的公开披露的语言模型——通过在50天内将其拆分到4,000颗芯片超级电脑中的两个来进行训练。更重要的是,其超级电脑可以轻松地动态重新配置芯片之间的连接,有助于避免出现问题并进行调整以提高性能。
: 谷歌除了自己使用TPU之外,一家新创公司Midjourney使用该系统训练其模型,该模型在输入几句文字后即可生成新影像。
: 可是谷歌并没有将其第四代芯片与辉达目前的旗舰H100芯片进行比较。谷歌暗示它可能正在开发一种新的TPU,它将与辉达H100展开竞争。
: 总之,随着生成式AI的崛起,AI芯片的开发脚步将成为下一个厂商积极介入的领域,以抢夺未来商机。
: 心得/评论:
: Google公布第四代TPU,并宣称比NVIDIA A100更快更节能,其客户Midjourney利用TPU训练其模型再输入文字后生成图片。
周末下班闲聊,
发现tech版没有这篇文章,
那就在这里讨论好了,
其实我说的东西都是网络 google+wiki 就有的东西,
先简单说明一下现代化的ML DeepLearning的基本概念,
其实就是用暴力法把整个model 放进去 GPU/TPU 里头training/inference,
这会有两个最大的限制,
硬件速度跟GPU/TPU内存容量,
硬件太慢跑不动或跑太久,
GPU/TPU内存容量太小的话是连跑都不能跑,
我几年前在板上分享的TQQQ DeepLearning 预测股价的模型,
需要8GB 的 GPU VRAM
维基小百科之后就回到主题: ChatGPT,
目前所有的聊天机器人模型通通都是LLM,
https://en.wikipedia.org/wiki/Wikipedia:Large_language_models
GPT-3 需要VRAM 175GB,
股歌微软OpenAI 这几家的模型一定远远超过这个大小,
大上数百倍都有可能,
我是做硬件芯片的,
不要问我model 这块的问题,
所以现在这些聊天机器人模型最大的问题是整个系统无法塞下model training,
所以这篇文章的重点在这句话:
"谷歌客制化开发的光讯号交换器将4,000多颗芯片串在一起",
只能这么做才有办法塞下这么大的model training,
Nvidia 也有类似的技术叫做 NVLink,
可以把电脑上数个Nvidia 显卡串联运算,
但是如果模型大到一台电脑显卡全部插满都塞不下运算的话,
我就不知道Nvidia 如何解决,
但是我相信Nvidia 一定有解决的方法
所以现在问题已经提升到整个系统端,
而不是我的芯片跑多快这么简单的问题,
软件跟模型要如何切割如何分配塞入多台超级电脑,
硬件方面如何塞入最大的模型做运算
说个题外话,
我几年前做了一个project, AI 芯片与系统研发的project,
最近拿到公司的大奖,
不是新闻这个TPU,
我跟开发model 的对口同事讨论过,
是否能够拿我们开发的这个系统来跑Chat model,
得到答案是否定的,
至少现阶段还无法做到,
原因很简单, VRAM 不够大, 塞不下model,
但是他们model 部门也有在想办法要细切 model 看可不可以塞进去这个系统,
所以速度已经不是最重要的考量了,
至于速度,
两年前应该是全世界最快的芯片+系统,
可惜 VRAM 不够大,
原本运用方向就不是要做chat
作者: wahaha711233   2023-04-07 15:33:00
类似脑细胞神经连结 30年前的超大电脑又回来了

Links booklink

Contact Us: admin [ a t ] ucptt.com