这我来回答吧
AI芯片一般是指用来加速深度学习模型推理的芯片
如果是训练通常还是利用Gpu 因为生态系比较成熟
那么深度学习推理时间会耗在哪里呢
通常就是convolution 或是Gemm
当然convolution 可以透过线性代数几次的转换
变成gemm 这也是一门学问
所以矩阵相乘等于是最重要的运算了
你只要能加速这么简单的东西
就能号称你在做AI芯片了
不断的堆硬件上去 性能就出来了
甚至有些公司走火入魔
连非矩阵运算的指令都做了
因为深度学习的模型越来越大
所以并行去运算矩阵相乘就是很重要的事了
你的硬件并行时 耗电跟降频做得够好的话
就能有点能见度了 现在中国的新创没有一家做到的
所以就有一些人脑袋动到光计算上面
讯号转成光能计算 算完再转回电
但这非常的不稳定 基本上也是不可能回收成本
好了 你说这么简单的话 那也很容易啊
然而 深度学习在运行过程中 还有一个很大的耗损
就是算子与算子之间的资料传输
用硬件加速过后 每个算子的时间大幅缩短
但是彼此之间的memory copy仍然耗损严重
于是cache或是local memory变的异常重要
算子与算子之间的fusion做得好
搭配上速度够快又大的memory基本上也很厉害了
中国那一堆新创耗电降频不行
现在就往这方向拼命做
那么AI芯片前景怎么样呢
老实说 前景是死路一条
CPU GPU 大公司都在从自家指令来优化模型
或是直接配上特殊资料格式 如tf32 fp8
华为的c4比起来就是个花拳绣腿 还推行不起来
我现在底下50多人就在做未来的方向
从模型优化算法 内存策略 框架
到底层assembly加速 完整的一套方案
如果你有关注一些新的paper
优化到最后 对比常用硬件 AI芯片根本没有优势
就像挖矿没有收益时的矿机一样
纯电子垃圾
※ 引述《QQmickey》之铭言
: 虽然从新闻上看到 三星已经出了 不知道是不是唬烂的
: 自己也是理工背景 但是想问科技版的大大们
: 这是真的吗?
: 我所学的 觉得不太可能
: 虽然很多事很难讲 已知用火
: 诺贝尔物理奖也一堆错的
: 难道是神学