强化学习 基础分类

跟着莫烦老师的强化学习教程时做的笔记,原贴:https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/

强化学习 基础分类

 

强化学习 基础分类

几大要素:

State

Action

Reward

 

 

mlagents-learn D:\ML-Agent\ml-agents-master\config\sac\Fight.yaml --env=D:\ML-Agent\Training\ml-selfplay-fighter --run-id=firstRun

 

Model-Free RL 不理解环境(只能一步一步走)

Model-Based RL 理解环境(能通过想象预判情况)

 

基于概率和价值分类

基于概率(Policy-Based RL -可以适用于连续action

根据概率进行行动

基于价值(Value-Based RL -通常用于离散action

根据最高价值进行行动

 

Q-Learning(基于价值)

Sarsa

 

Policy Gradients(基于概率)

 

Actor-Critic(两者的结合)

Actor基于概率做出动作,Critic根据动作给出价值

 

回合更新和单步更新

回合更新:基础班Policy Gradients,Monte-Carlo Learing

单步更新:Q Learning,Sarsa,升级版的Policy Gradients(更有效率)

 

在线学习(On-Policy)和离线学习(Off-Policy

Sarsa

Sarsa(λ)(在线学习)

 

Q Learing

Deep Q Network(离线学习)