※ 引述 《sustainer123 (温水佳树的兄长大人)》 之铭言:
:
: ※ 引述 《sustainer123 (温水佳树的兄长大人)》 之铭言:
: :
: : ※ 引述 《sustainer123 (温水佳树的兄长大人)》 之铭言:
: : :
: : : 有点懂在干嘛了
: : :
: : : 本质上就使用不同策略训练特征提取部分跟分类器
: : :
: : : 长尾学习来说 backbone一般常用cross entropy这种非重加权的损失函数来学习通用
特
: 征
: : :
: : : 分类器再用重采样或重加权来学习少数特征
: : :
: : : 放到语义分割来说
: : :
: : : 就是先跑一次一般训练
: : :
: : : 然后冻结encoder 然后再训练decoder
: : :
: : : 但decoder不知道要重train多少
: : :
: : : 最后一层 还是 整个
: : :
: : : 唉 没啥能照抄的东西 麻烦
: : :
: :
: : 想了一下
: :
: : 实验应该可以这样设计
: :
: : 维持原架构
: :
: : 分别训练backbone跟分类器
: :
: : 两种损失函数
: :
: : 总共4种组合
: :
: : 快速测一下要不要继续投资
: :
: : 毕竟也不少论文讨论一阶段架构
: :
: : 没屌用就跳ㄅ
:
: 用本来的损失函数当二阶段损失函数
:
: 模型效果比用原来的损失函数跑一阶段训练来的差
:
: 但改用weighted cross entropy
:
: 二阶段训练效果就比一阶段好了
:
: 感觉能研究不同损失函数的效果
:
抄BBN这篇paper的想法
因为我是语义分割问题 要重采样很难变成长头的分布
所以我分两个分支 一个用CE 一个用Dice
两个之间一样用alpha这个根据随叠代次数变多
加强尾部学习的自适应参数
但思考其实不太一样
他是对logit动手脚 两个分支的logit用alpha调节比例
我是调整loss function算出来的loss
两个依比例相加
结果就是一坨大便
loss的比例不固定
loss curve根本没参考价值
不过有点想法 下礼拜再看看要怎么修改