Vision Transformers Need Registers

楼主: sustainer123 (caster)   2025-12-30 18:22:16
这篇是处理vit特征图的噪声问题
大抵来说 背景会出现高norm的点
这些点大多数是没啥资讯的背景
这些背景会丢失局部讯息并overfit全局讯息
换言之 我们可以说这些噪声被模型当成全局讯息的暂存器
解决方法就是加几个token当暂存器
训练完丢掉
我测试对模型效果没提升
然后加的token越少降低越少

Links booklink

Contact Us: admin [ a t ] ucptt.com