2.0

Latest

Latest

yangtao121 released this 24 Feb 13:08

· 13 commits to v2.0 since this release

当前版本特性

第一个稳定版本的AquaML，当前版本提供了强化学习的算法——SAC、PPO、FusionPPO。当前算法均支持多线程，全算法支持RNN训练(hidden state作为obs一部分)，FusionPPO额外支持batch trajectory模式，这将大幅度提升训练的稳定性。

添加的新功能

现在可以在parameters里面通过设置store_model_times来确定保存模型的频率.

下一个版本计划：

加入配合RL使用的Meta learning。
FusionPPO以及PPO加入normalize loss的功能使其即使在reward不是-1~1之间也能很好的优化。

Assets 2