Skip to content
Compare
Choose a tag to compare
@yangtao121 yangtao121 released this 24 Feb 13:08
· 13 commits to v2.0 since this release

当前版本特性

第一个稳定版本的AquaML,当前版本提供了强化学习的算法——SAC、PPO、FusionPPO。当前算法均支持多线程,全算法支持RNN训练(hidden state作为obs一部分),FusionPPO额外支持batch trajectory模式,这将大幅度提升训练的稳定性。

添加的新功能

  1. 现在可以在parameters里面通过设置store_model_times来确定保存模型的频率.

下一个版本计划:

  1. 加入配合RL使用的Meta learning。
  2. FusionPPO以及PPO加入normalize loss的功能使其即使在reward不是-1~1之间也能很好的优化。