当前版本特性
第一个稳定版本的AquaML,当前版本提供了强化学习的算法——SAC、PPO、FusionPPO。当前算法均支持多线程,全算法支持RNN训练(hidden state作为obs一部分),FusionPPO额外支持batch trajectory模式,这将大幅度提升训练的稳定性。
添加的新功能
- 现在可以在parameters里面通过设置store_model_times来确定保存模型的频率.
下一个版本计划:
- 加入配合RL使用的Meta learning。
- FusionPPO以及PPO加入normalize loss的功能使其即使在reward不是-1~1之间也能很好的优化。