强化学习之Exploration - Exploitation Dilemma 1

强化学习之Exploration - Exploitation Dilemma 1
Exploration是探索如何选择动作的潜在假设。例如，采取智能体之前从未采取的动作，Q-learning 中的贪婪策略就是基于这个思想会，设置一定的概率来采取之前没有的动作。

Exploitation是利用已有的知识来更好地完成任务，根据当前已知情况获得最大收益。例如一条路收益为5，一条路收益为10，这是两条已知的路，狗狗会加油发现那个10的道路。但是还有一条收益为15的道路狗狗探索不到，需要exploration。强化学习之Exploration - Exploitation Dilemma 1

强化学习之Exploration - Exploitation Dilemma 1

相关推荐