随着DeepSeek-R1模型的出现, 强化学习打开了AI Agents持续进化的大门。后续RL对AI Agents的发展越来越重要, 作为技术人, 需要对强化学习进行系统性的学习与了解。
- load pre-train LLM model & tokenizer
- load datasets
- set reward function
- set model training args
- train
- inference
- eval
随着DeepSeek-R1模型的出现, 强化学习打开了AI Agents持续进化的大门。后续RL对AI Agents的发展越来越重要, 作为技术人, 需要对强化学习进行系统性的学习与了解。