强化学习基础分类

强化学习基础分类

几大要素：

State

Action

Reward

mlagents-learn D:\ML-Agent\ml-agents-master\config\sac\Fight.yaml --env=D:\ML-Agent\Training\ml-selfplay-fighter --run-id=firstRun

Model-Free RL 不理解环境（只能一步一步走）

Model-Based RL 理解环境（能通过想象预判情况）

基于概率和价值分类

基于概率（Policy-Based RL） -可以适用于连续action

根据概率进行行动

基于价值（Value-Based RL） -通常用于离散action

根据最高价值进行行动

Q-Learning（基于价值）

Sarsa

Policy Gradients（基于概率）

Actor-Critic（两者的结合）

Actor基于概率做出动作，Critic根据动作给出价值

回合更新和单步更新

回合更新：基础班Policy Gradients，Monte-Carlo Learing

单步更新：Q Learning，Sarsa，升级版的Policy Gradients（更有效率）

在线学习（On-Policy）和离线学习（Off-Policy）

Sarsa

Sarsa(λ)（在线学习）

Q Learing

Deep Q Network（离线学习）

强化学习 基础分类