李宏毅深度强化学习笔记(LeeDeepRL-Notes)

李宏毅老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂，他会通过很多有趣的例子来讲解强化学习理论。比如老师经常会用玩 Atari 游戏的例子来讲解强化学习算法。此外，为了课程的完整性，我们整理了周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。

使用说明

第 4 章到第 11 章为李宏毅《深度强化学习》的部分；
第 1 章和第 2 章根据《强化学习纲要》整理而来；
第 3 章和第 12 章根据《百度强化学习》整理而来。

笔记在线阅读地址(内容实时更新)

地址：https://datawhalechina.github.io/leedeeprl-notes/

课程在线观看地址

bilibili：李宏毅《深度强化学习》

内容导航

章节	习题	项目
第一章强化学习概述	第一章习题
第二章马尔可夫决策过程 (MDP)	第二章习题
第三章表格型方法	第三章习题	项目一使用 Q-learning 解决悬崖寻路问题
第四章策略梯度	第四章习题
第五章近端策略优化 (PPO) 算法	第五章习题
第六章 Q 学习 (基本概念)	第六章习题
第七章 Q 学习 (进阶技巧)	第七章习题	项目二使用 DQN 实现 CartPole-v0
第八章 Q 学习 (连续动作)	第八章习题
第九章演员-评论员算法	第九章习题
第十章稀疏奖励	第十章习题
第十一章模仿学习	第十一章习题
第十二章深度确定性策略梯度 (DDPG) 算法	第十二章习题	项目三使用 Policy-Based 方法实现 Pendulum-v0

贡献者

Qi Wang

教程设计
中国科学院大学

David Young

习题设计
清华大学

John Jim

项目设计
北京大学

致谢

特别感谢 @Sm1les、@LSGOMYP 对本项目的帮助与支持。

关注我们

LICENSE

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

Name		Name	Last commit message	Last commit date
Latest commit History 363 Commits
codes		codes
docs		docs
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
mydoc.txt		mydoc.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

李宏毅深度强化学习笔记(LeeDeepRL-Notes)

使用说明

笔记在线阅读地址(内容实时更新)

课程在线观看地址

内容导航

贡献者

致谢

关注我们

LICENSE

About

Releases

Packages

Languages

License

cnnAndBn/leedeeprl-notes

Folders and files

Latest commit

History

Repository files navigation

李宏毅深度强化学习笔记(LeeDeepRL-Notes)

使用说明

笔记在线阅读地址(内容实时更新)

课程在线观看地址

内容导航

贡献者

致谢

关注我们

LICENSE

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages