强化学习之Exploration - Exploitation Dilemma 1

强化学习之Exploration - Exploitation Dilemma 1
Exploration是探索如何选择动作的潜在假设。例如,采取智能体之前从未采取的动作,Q-learning 中的贪婪策略就是基于这个思想会,设置一定的概率来采取之前没有的动作。

Exploitation是利用已有的知识来更好地完成任务,根据当前已知情况获得最大收益。例如一条路收益为5,一条路收益为10,这是两条已知的路,狗狗会加油发现那个10的道路。但是还有一条收益为15的道路狗狗探索不到,需要exploration。强化学习之Exploration - Exploitation Dilemma 1