千禧年的网络泡沫,也是先炒作硬件商,Cisco, Sun...,Sun还有"dot in dot-com"的广告。
网络确实是改变世界,但真正大赚的是软件公司,而且是完全新鲜的软件公司。
这次AI浪潮,应该也是类似。
N家这次炒作这么高,是因为真的,Compute是供不应求。每个大公司都怕买不够,跟不上。
但最近一些AI的发展,也许会发现,这些Compute是不需要的。
Mamba, RetNet, RWKV是从"Attention"的这点来改善。"Attention"是Quadratic Complexity,这是硬件需求的关键。现在在找方法从Quadratic改成Linear。
Mamba我很看好,它的作者之一也是"Flash Attention"的作者。
但昨天一篇新的论文,可能是真的翻天覆地的开始。
https://arxiv.org/abs/2402.17764
"The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits"
https://news.ycombinator.com/item?id=39535800
hn的讨论。
现在讨论的共识是,可行,理论基础很扎实。各路人马开始指出,从2006年开始的这方面研究,已经找出好多篇证实这方向是可行的。
现在的LLM是用fp16(16bits),这方法可1.58bits,(讨论说可以缩到0.68bits)
然后本来是fp dot product的只要int add。
轻松10x的效能,新ASIC针对Ternary weight发展可以轻松100x的效能改善?
如果这篇证实是可行的,AI起跑点重新设置,所有公司的价值都要重新计算。
这篇的作者群很有资历,但很有趣的是,主要是来自北京/清华大学。美国猛力压制中国的运力运算,造就不太需要Compute的方法的发现,戳破美国AI泡沫,这会是非常的讽刺。