假设切入的是 dqn
dqn 成功的关键之一是 experience replay,玩游戏 okay,不见得适合直接套用在交易,交易的经验是会失效的,或者再加一些机制
dqn network 学的是 q value,是一个迭代的值,不是那么直观,换句话说,可能不知道 network 学到了什么,overfiting 时不容易解
看内文,喜欢 rl 的原因是可以帮你决定进出场,一个 regression network 定义一下 loss function 也可以,例如
network output p 当成是持有部位的变化
c 是涨跌变化
loss function 可以是 - p * c
network 的 output 就可以帮你决定进出场
没人知道交易是鸡还是牛,所以那把刀好用很难说,不管如何手上那把刀要用顺一点
rl 是一把不太好使的刀,deepmind 的论文都能充分理解,使起来会比较游刃有余