Hulu机器学习问题与解答系列 | 第八弹:强化学习 (一)

Hulu机器学习问题与解答系列 | 第八弹:强化学习 (一)

前阵子有朋友表示,比加班还要痛苦的,是按时下班了也没有人约。

嗯…

难道你忘了每周两更的机器学习?

Hulu机器学习问题与解答系列 | 第八弹:强化学习 (一)

冬天不要光加鸡腿,也要抱紧大腿!满是干货的问答系列,别愣着了快上车~

今天的主题是

【强化学习】

为帮助大家更好地理解本期课题,作者将首先介绍强化学习的基本概念。解答与分析请关注明日推送。

“强化学习的基本概念”

强化学习近年来在机器学习领域越来越火,也受到了越来越多人的关注。强化学习是一个20世纪80年代兴起的,受行为心理学启发而来的一个机器学习领域,它关注身处某个环境中的决策器通过采取行动获得最大化的累积收益。和传统的监督学习不同,在强化学习中,并不直接给决策器的输出打分。相反,决策器只能得到一个间接的反馈,而无法获得一个正确的输入/输出对,它需要在不断的尝试中优化自己的策略以获得更高的收益。从广义上说,大部分涉及动态系统的决策学习过程都可以看成是一种强化学习。它的应用非常广泛,包括博弈论、控制论、优化等多个不同领域。这两年,AlphaGo及其升级版横空出世,彻底改变了围棋这一古老的竞技领域,在业界引起很大震惊,其核心就是强化学习。与未来科技发展密切相关的机器人领域,也是强化学习的用武之地,从机器人行走,到自动驾驶,处处都有强化学习的身影。

强化学习的基本场景可以用下图来描述(图来自于wiki),有环境(Environment)、机器人(Agent),状态(State),动作(Action),奖励(Reward)等几个基本概念。一个机器人在环境中会发出各种动作,环境会接收到动作,引起自身状态的变迁,同时给机器人以奖励。机器人的目标就是使用一些策略,发出合适的动作,最大化自身的收益。

Hulu机器学习问题与解答系列 | 第八弹:强化学习 (一)

整个场景一般可以描述为一个马尔科夫决策过程(Markov decision process, MDP),这个过程的几个要素如下(这里我们以离散时间的马尔科夫决策过程为例,整个过程也是离散时间随机控制过程):

动作(action),所有可能发出动作的集合记作A(可能是无限的);

状态(state),所有状态的集合记作S;

奖励(reward),机器人可能收到的奖励,一般是一个实数;

Hulu机器学习问题与解答系列 | 第八弹:强化学习 (一)

Hulu机器学习问题与解答系列 | 第八弹:强化学习 (一)

强化学习的核心任务是,学习一个从状态空间S到动作空间A的映射,最大化累积受益。常用的强化学习算法有Q学习(Q-Learning),策略梯度(Policy gradient),以及演员评判家算法(Actor-critic)等。


欢迎留言提问或探讨

关注“Hulu”微信公众号

点击菜单栏“机器学习”获得更多系列文章

Hulu机器学习问题与解答系列 | 第八弹:强化学习 (一)