Re: 解耦学习 sustainer123 PTT批踢踢实业坊

Re: 解耦学习

楼主: sustainer123 (caster) 2025-09-12 18:51:55

※ 引述《sustainer123 (温水佳树的兄长大人)》之铭言：
: 　
: ※ 引述《sustainer123 (温水佳树的兄长大人)》之铭言：
: : 　
: : ※ 引述《sustainer123 (温水佳树的兄长大人)》之铭言：
: : : 　
: : : 有点懂在干嘛了
: : : 　
: : : 本质上就使用不同策略训练特征提取部分跟分类器
: : : 　
: : : 长尾学习来说 backbone一般常用cross entropy这种非重加权的损失函数来学习通用
特
: 征
: : : 　
: : : 分类器再用重采样或重加权来学习少数特征
: : : 　
: : : 放到语义分割来说
: : : 　
: : : 就是先跑一次一般训练
: : : 　
: : : 然后冻结encoder 然后再训练decoder
: : : 　
: : : 但decoder不知道要重train多少
: : : 　
: : : 最后一层还是整个
: : : 　
: : : 唉没啥能照抄的东西麻烦
: : : 　
: : 　
: : 想了一下
: : 　
: : 实验应该可以这样设计
: : 　
: : 维持原架构
: : 　
: : 分别训练backbone跟分类器
: : 　
: : 两种损失函数
: : 　
: : 总共4种组合
: : 　
: : 快速测一下要不要继续投资
: : 　
: : 毕竟也不少论文讨论一阶段架构
: : 　
: : 没屌用就跳ㄅ
: 　
: 用本来的损失函数当二阶段损失函数
: 　
: 模型效果比用原来的损失函数跑一阶段训练来的差
: 　
: 但改用weighted cross entropy
: 　
: 二阶段训练效果就比一阶段好了
: 　
: 感觉能研究不同损失函数的效果
: 　
抄BBN这篇paper的想法
因为我是语义分割问题要重采样很难变成长头的分布
所以我分两个分支一个用CE 一个用Dice
两个之间一样用alpha这个根据随叠代次数变多
加强尾部学习的自适应参数
但思考其实不太一样
他是对logit动手脚两个分支的logit用alpha调节比例
我是调整loss function算出来的loss
两个依比例相加
结果就是一坨大便
loss的比例不固定
loss curve根本没参考价值
不过有点想法下礼拜再看看要怎么修改

继续阅读

[瓦特] 对了关于Ina画展有工作人员长得像Ksonwahaha99 Re: [闲聊] 我哥好强XROCK Re: [瓦特] 复习一下咪口颜质CureSeal [BGD] 这贝斯手和keyboard是谁RosieChaeng [瓦特] 复习一下咪口颜质evilmoom 台积电供应链将进驻屏东屏东县加快各项建设uiojkl789 Re: [闲聊] 我哥好强CureSeal Re: [瓦特] 你虹出大事了Hosimati Re: [姆咪] 阿北又要进去了喔？walter741225 [BGD ] 阿姨们Creepig0519