CS 188 Project3(RL) Q8: Bridge Crossing Revisited

首先,在无噪声的BridgeGrid上用默认学习率训练50次完全随机的Q-learner学习,观察是否找到最佳策略。

python gridworld.py -a q -k 50 -n 0 -g BridgeGrid -e 1

CS 188 Project3(RL) Q8: Bridge Crossing Revisited

现在采用epsilon设置为0做同样的实验。是否存在一个epsilon和一个学习率,在50次迭代之后,很可能(大于99%)会学习到最佳策略?analysis.py中的question8()应返回2元组(epsilon,learning rate)或字符串“not possible”。epsilon由-e控制,学习率由-l控制。注意:您的响应不应依赖于用于选择动作的平分决胜机制。这意味着,即使我们将整个桥梁网格世界旋转90度,您的答案也应该是正确的。

要评分,请运行autograder:

python autograder.py -q q8

欢迎关注微信公众号:“从零起步学习人工智能”!