https://bit.ly/3zaRKaA
MatMul-free LM 透过密集层和元素级阿达玛乘积采用加法运算来达成类似自注意力机制的
功能。具体来说,三元权重用于消除密集层中的 MatMul,类似二元神经网络(binary neur
al network,BNN)。为了消除 MatMul 的自注意力机制,研究人员使闸门循环单元(Gated
Recurrent Unit,GRU)最佳化,完全依赖元素乘积。这种创新模型可与最先进的 Transfo
rmer 竞争,同时消除所有 MatMul 操作。
从昨天一直看到在讨论这篇论文
还是看不太懂
只觉得不用做矩阵乘法应该是夸大了