今天,我也来说说AlphaGO Zero,不谈

2016年3月,AlphaGo以4:1战胜围棋世界冠军、职业九段棋手李世石,代号AlphaGo Lee。

2016年末~2017年初,AlphaGo在中国棋类网站注册,与数十位围棋高手展开快棋博弈,以60:0战胜人类选手,代号AlphaGo Master。

2017年5月,AlphaGo以3:0战胜世界排名第一的围棋冠军柯洁。

2017年10月18日,DeepMind团队公布最强版AlphaGo,代号AlphaGo Zero。以100:0战胜AlphaGo Lee。

今天,我也来说说AlphaGO Zero,不谈

而你知道吗?过去所以版本的AlphaGo,都是在人类棋局的基础上学习的,而AlphaGo Zero却是无师自通成为最强的。

这么说吧,就是以往的AlphaGo是人为的给他看棋谱,告诉他,这局棋这么下会输,这么下会赢,哪些地方怎么下更容易获胜。在与世界围棋高手博弈之前,AlphaGo可是进行了长达数个月的训练,依靠数台电脑和48个TPU,不断记忆强化的自我学习,才能战胜围棋高手们。

反观AlphaGo Zero,我们只告诉他,这里有一个棋谱,有一些黑子,有一些白子,轮休下,将另一种颜色的子围住吃掉的获胜。而就是在这种状况下,AlphaGo Zero依靠4个TPU,在三天时间内不断自我博弈,就成功击败了AlphaGo。

这会得出一个很可怕的结论:人类的思维限制了机器的思维

今天,我也来说说AlphaGO Zero,不谈

上图给出了AlphaGo Lee和AlphaGo Master的水平值,以及AlphaGo Zero的成长曲线。

从实验的过程中,我们也发现了一些很有趣的现象。在开始的几小时,Zero下棋是一种“随意”的状态,没有输赢的概念,棋子下在哪个多的是一种概率问题;接着,发现能更好围住对方的更容易赢,于是棋子基本绕着下;再后来,发现谁先占领棋盘边缘的更容易获胜,会有先争夺边缘位置……

这和普通人下棋是十分相像的,一种从直觉到思考的过程,虽然对机器人来说这不十分准确。

今天,我也来说说AlphaGO Zero,不谈

上图是AlphaGo系列的一些性能展示。

AlphaGo Zero的胜利,给我们带来一种更深的境界。

《射雕英雄传》中老顽童通过左右手互搏自创武功,当世也算无敌
《笑傲江湖》中独孤大侠自创剑招,关键见招拆招、招招进攻,根本无剑谱秘籍一类
《倚天屠龙记》中张三丰教授张无忌剑法,忘其剑招,只会其剑意

AlphaGo是博览天下武功秘籍的藏经阁和尚
AlphaGo Zero更像无招胜有招的独孤大侠

当然,这只是个中趣味。


究竟是人类限制了机器,还是人类限制了自己呢?

近年来,随着科技的不断发展,尤以计算机方面为重,我们不断地思考着科技给我们带来的到底是便利,还是毁灭。

电影《Matrix》、《Terminator》等无不是对日益发展的机器科技所发出的担忧。

机器的发展极大的方便人们的日常生活,但过去强大的机器功能也让人们的存在少了许多必然。

柯洁评价AlphaGo,称其为围棋上帝。试问,在这样一个上帝面前,我们是否还需要下围棋呢?我们下围棋的意义又有哪些呢?如果不论你如何反抗,结果难逃一死,而且不容改变,我们会选择反抗吗?对我们来说,最好的结果可能就是放弃围棋了……这是所有人都不希望看到的。

今天,我也来说说AlphaGO Zero,不谈

尽管如此,人类也有这机器无法复制的东西,那便是感情,或者说,我们仅剩的温存。我们以自己的思维为模板,让机器学习,机器再把学习的成果反馈回来,我们都在向思维的更深层发展,但人类的速度远不如机器,迟早一天,机器的发展会远超我们的想象,能否控制暂且不谈,但这种思维的积累发展,确实要引起我们的关注。

我对科技的发展持乐观态度,但个中问题,在我们大力发展科技的时候,我们能不能顺便的思考一下呢?