Hulu机器学习问题与解答系列 | 第八弹：强化学习 (一)

前阵子有朋友表示，比加班还要痛苦的，是按时下班了也没有人约。

嗯…

难道你忘了每周两更的机器学习？

冬天不要光加鸡腿，也要抱紧大腿！满是干货的问答系列，别愣着了快上车~

今天的主题是

【强化学习】

为帮助大家更好地理解本期课题，作者将首先介绍强化学习的基本概念。解答与分析请关注明日推送。

“强化学习的基本概念”

强化学习近年来在机器学习领域越来越火，也受到了越来越多人的关注。强化学习是一个20世纪80年代兴起的，受行为心理学启发而来的一个机器学习领域，它关注身处某个环境中的决策器通过采取行动获得最大化的累积收益。和传统的监督学习不同，在强化学习中，并不直接给决策器的输出打分。相反，决策器只能得到一个间接的反馈，而无法获得一个正确的输入/输出对，它需要在不断的尝试中优化自己的策略以获得更高的收益。从广义上说，大部分涉及动态系统的决策学习过程都可以看成是一种强化学习。它的应用非常广泛，包括博弈论、控制论、优化等多个不同领域。这两年，AlphaGo及其升级版横空出世，彻底改变了围棋这一古老的竞技领域，在业界引起很大震惊，其核心就是强化学习。与未来科技发展密切相关的机器人领域，也是强化学习的用武之地，从机器人行走，到自动驾驶，处处都有强化学习的身影。

强化学习的基本场景可以用下图来描述（图来自于wiki），有环境（Environment）、机器人（Agent），状态（State），动作（Action），奖励（Reward）等几个基本概念。一个机器人在环境中会发出各种动作，环境会接收到动作，引起自身状态的变迁，同时给机器人以奖励。机器人的目标就是使用一些策略，发出合适的动作，最大化自身的收益。

Hulu机器学习问题与解答系列 | 第八弹：强化学习 (一)