[问卦] MDP和ML的reward设计的卦? kevin3292 PTT批踢踢实业坊

[问卦] MDP和ML的reward设计的卦?

楼主: kevin3292 (生长在孤儿院的小孩) 2018-07-08 18:25:25

小弟我最近在看Markov Decision Process还有Reinforce Learning
发现他们其实都会有一个reward function, 也就是系统给的评分
我就不自觉地想了
这些评分, 通常都是怎么设计的呢?
总不会是我会1分2分旁边的邻居说3分4分
还有reward内有不同单位意念的又该如何设计呢?
目前我想的是
决定于该使用者的喜好程度
如果他觉得某项指标比较重要, 他就把该指标的reward权重调高一些
相反的则调低一些
通常大家在设计时, 真的是根据使用者来决定这些reward的吗?

继续阅读

Re: [问卦] 能不能立法禁止炒房获利啊A6 [问卦] X语录是不是小编掰出来的啊LYS5566 [新闻] 网络名声换选票年轻人大多不看政见qweerrt123 Re: [问卦] 到大陆实习是不是正确的决定啊FrankLP [新闻] 北市积欠劳保费35.3亿今年清偿高雄还有1cisbpmtw Re: [爆卦] Power锟FB和YT关闭的真相johnny9667 [问卦] 应因、在再不分的人再想什么？john91018 [问卦] 有没有那种手游音量全开的八卦kingkiller Re: [问卦] 小望突然变得很主动怎么办(战女阵线CavendishJr Re: [问卦] 怎么学店生都很爱自慰顶大生工作能力差？st305018