Introduction of Reinforcement Learning

1 Multi-Armed Bandit

Markov process

Bellman equation: Bellman Expectation Equation & Bellman optimality equation

To solve: The optimal policy in Markov decision processes

Policy Iteration & Value Iteration

Sarsa Algorithm & Q-Learning

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
1 Multi-Armed Bandit.ipynb		1 Multi-Armed Bandit.ipynb
2 Markov Decision Process.ipynb		2 Markov Decision Process.ipynb
3 Dynamic Programming.ipynb		3 Dynamic Programming.ipynb
4 TD model.ipynb		4 TD model.ipynb
Readme.md		Readme.md