GitHub - xysun/rl-algorithms: DQN, REINFORCE, actor-critic, Q-learning, SARSA, Monte Carlo prediction & control, policy & value iteration

Collection of my implementation of reinforcement learning algorithms

Deep RL

REINFOCE with continuous action
- Parametralize mean and standard deviation of a normal distribution
- mean is linear model; standard deviation is exp(linear)
- Does not seem to converge as of episode 1000 :( Although the solution given here does not converge either 🤷
actor-critic with CartPole
- Important: use a powerful enough function approximator for value critic
REINFORCE with CartPole
- In Bernoulli output: sigmoid(y) !== P(y); instead, P(y) = sigmoid((2y-1)z), where z is output of linear unit
- auto gradient FTW! \o/
Linear function approximation with mountain car, with my own tile encoding implementation
- learning rate is important
- epsilon decay is important
Q-learning
Sarsa
Monte Carlo Prediction & Control with Exploring Starts
- reproduced black jack solution from Sutton book
Policy evaluation & iteration, value iteration

Name		Name	Last commit message	Last commit date
Latest commit History 70 Commits
common		common
images		images
tests		tests
.gitignore		.gitignore
Monte-Carlo-Prediction-and-Control-with-Exploring-Starts.ipynb		Monte-Carlo-Prediction-and-Control-with-Exploring-Starts.ipynb
Policy-evaluation-Policy-iteration-and-Value-Iteration.ipynb		Policy-evaluation-Policy-iteration-and-Value-Iteration.ipynb
README.md		README.md
actor_critic.py		actor_critic.py
analysis.ipynb		analysis.ipynb
dqn.py		dqn.py
linear_fa_mountain_car.py		linear_fa_mountain_car.py
q_learning.py		q_learning.py
reinforce.py		reinforce.py
reinforce_continuous.py		reinforce_continuous.py
sarsa.py		sarsa.py