从Google人工智能DeepMind团队的AlphaGo的论文算法提取的学习方法：大脑逻辑结构图

贝叶斯定理考虑的是 P(A|B)是在B发生的情况下A发生的可能性。在现实中，事件A受多个事件的影响，还可能受上一次事件A本身的影响（反馈）。

可以写成人工智能通用反馈公式y=f(x,y1)，其中y1=f(x)。它是强化学习和自我学习的基础。

从AlphaGo的论文算法提取的人工智能学习方法

第一层价值判断

重要的----百里挑一，去掉99%无用的。

第二层快速响应（简单）和深度理解（复杂）

简单：常见的，固定的逻辑

复杂：卷积神经网络（分层拆分计算，求无限接近值）+蒙特卡洛树搜索（选重要节点向后推断，得到最优值）

第三层强化学习

决策下一步赏罚激励

第四层专家网络

并入已有认知网络（归类）

第五层自我提升

反向更新自我学习

像不像我们的大脑？

你出门转一圈，并不会像摄像机一样记下所有东西，而是你会选择你认为重要的关注（价值判断）。

如果这条路你走了无数遍，你不会迷路，会快速找到你要逛的店（快速响应），这条路又熟悉了一遍（强化学习）。

但如果你走到了一条你从来没走过的街，遇到了不同的人，不同的房子，不同的植物等等，你可能很感兴趣。在看的同时，你会把这些特征试图理解（深度理解），贴上标签，存入你已有的认知体系（专家网络）。

你对周围越敏感，越在意，思考的越深（规则、算法、分层越多，拆分的越细，计算的时间越长），贴的标签越多，记住的东西越完整（深度理解）。

等下次再遇到时，你就会快速地（快速响应）知道，那人我曾经在哪遇到过。

如果这条新街，初次来就给你很多乐趣（赏罚激励），你下次肯定优先来这里逛。

你的价值判断会自动把这条街升级为最值得逛的街（反向更新，在五个层次里都会更新）。同时你还不断回忆这段快乐时光（自我学习）。

从Google人工智能DeepMind团队的AlphaGo的论文算法提取的学习方法：大脑逻辑结构图