用GAIL(Generative Adversarial Imitation Learning)及Pytorch解出MountainCar-v0
, 赏金五千元。
使用原始的TRPO或PPO来训练policy均可,也可将原始的GAN换成Wasserstein GAN 。 底
下连结可供参考,至少专家轨迹是可用的。
一旦成功完成,请寄给我结果和部份程式的截图,我就会将钱汇入指定帐户,然后再把原
始码寄给我即可
https://github.com/alanyuwenche/GAIL_MountainCar_CartPole