Skip to content

Latest commit

 

History

History
17 lines (13 loc) · 626 Bytes

README.md

File metadata and controls

17 lines (13 loc) · 626 Bytes

强化学习相关知识学习

随着DeepSeek-R1模型的出现, 强化学习打开了AI Agents持续进化的大门。后续RL对AI Agents的发展越来越重要, 作为技术人, 需要对强化学习进行系统性的学习与了解。

学习课程

强化学习原理

RL for AI Agents

Unsloth GRPO

  1. load pre-train LLM model & tokenizer
  2. load datasets
  3. set reward function
  4. set model training args
  5. train
  6. inference
  7. eval