attention residual

楼主: sustainer123 (caster)   2026-03-23 18:21:57
最近很红的文章
瞄几眼想说什么傻逼玩意
何恺明的东西你也想动手脚
加注意力复杂度直接炸掉
看完后确实是好文章
实验扎实 论点清晰 full attention residual版本的操作也不复杂
而且时间复杂度确实也不是大问题
block就复杂些
但我不像这篇文章要用在LLM
block是为了LLM的工程实现的搞的东西
cv用full应该也没太大负担
下午搞了full版 希望明天有GPU 没有我就

Links booklink

Contact Us: admin [ a t ] ucptt.com