[问卦] MDP和ML的reward设计的卦?

楼主: kevin3292 (生长在孤儿院的小孩)   2018-07-08 18:25:25
小弟我最近在看Markov Decision Process还有Reinforce Learning
发现他们其实都会有一个reward function, 也就是系统给的评分
我就不自觉地想了
这些评分, 通常都是怎么设计的呢?
总不会是我会1分2分 旁边的邻居说3分4分
还有reward内有不同单位意念的 又该如何设计呢?
目前我想的是
决定于该使用者的喜好程度
如果他觉得某项指标比较重要, 他就把该指标的reward权重调高一些
相反的则调低一些
通常大家在设计时, 真的是根据使用者来决定这些reward的吗?

Links booklink

Contact Us: admin [ a t ] ucptt.com