机器学习理论与统计机器学习的理论

机器学习是一个无处不在的科学，现在人工智能非常火，其实人工智能的核心就是机器学习。这一讲主要讲解一下什么是机器学习，机器学习的历史，机器学习的新旧方法和一个简单的例子。

机器学习方法的

现在在计算机科学与技术方面的困难点主要在于对人脑的理解，知道大脑是如何工作的，他的推理，他的认知，他的创造。很多在计算机领域的研究都基于机器学习，我认为计算机领域的basic的研究主要是机器学习的研究方法。

计算机领域的分支：

计算机视觉：人脸检测，场景分割和理解，监控视频下面的人脸检测和识别，图像理解。
语音识别：主要是用了深度神经网络，正确率提提升了30%，是一个非常大的飞跃。机器学习第一讲统计机器学习的理论
Social computing ：社交网络，对网络进行分析，建模，往往用大数据等进行分析
Web search and Recommendation：网页搜索与推荐，随同过滤的方法等。亚马逊30%的利润来源于机器学习给他带来的提升。对于搜索引擎来说，我们可以对需求做分类，做排列。还有一些计算广告学，通过计算广告的搜索信息和重要性来确定广告具体放在网页的哪个位置，出现什么时候
生物信息学，机器人学，微处理器设计，寒武纪芯片设计

什么是机器学习

Field of study that gives computers the ability to learn without being explicitly progrommed.--------Arthur Sammuel .
他认为机器学习就是不给出一个确定的算法可以让计算机自己去学习
机器学习的定义没有必要一定给他一个确定的定义。机器学习其实是发展一些算法，理论去分类，聚类，识别，推理，估计，对某些特定的环境做出一些反应行为。

机器学习特点

第一点，data很有必要性，现在都说是海量的数据，但是海量的数据往往存在很noisy的数据，我们需要的往往书数据里面的知识，数据很多，但是知识可能很少，怎么把数据转换成知识，如果是裸数据就是无监督学习，如果数据有标注，在做一些分类的时候就是有监督学习。在无监督和有监督之间又会有一些其他的方法，比如早期的半监督学习，到后面的弱监督，网络监督，自然监督。
数据产生的过程往往是不知道的，但是这个过程不是一个完全随意的过程，我们会given一个数据集，一个problem，我们需要建立一个模型来解决这个问题，所以对这个数据做一个假设，我们选择一个高斯模型，就得假设我们的数据就是高斯模型的。有时候我们取得这个数据实际上并不是假设的那样，这个数没有关系的，有一些假设没有用，有一些假设是有用的，只要你的假设最后得出的结果能够很好的解决这个问题，那这个假设就是effective ，这个模型就是effective的。
All models are wrong,but some are useful.

机器学习流派

符号学派：它们认为机器学习是一个逆向推理的过程，来源于心理学和哲学
链接学派：来源于神经科学，一小部分来源于物理学。它们认为人类的知识是神经的突触传递的，神经元之间可以利用突触链接，用计算机模拟出人体的神经元之间传递的方式
进化主义：利用遗传算法模拟出人进化的过程来求最优解，依赖于基因学。一个进化机器人可以通过模拟来感知身体的部件，他可以自己学会走路，如果他身体的某一部分损坏了，他可以计算出另一个部件来代替他，他是可以不断进化的
贝叶斯派:依赖于统计学，它认为所有的模型依赖于先验，参数是变量，未知的随机变量。
最大似然派:通过类比推理，支持向量机，Kernel machines，参数是常量，通过模型预测完的参数是常量。

机器学习的大的方法

监督学习
给出一个数据集，它所有的data都是标记的，学习一个function或者一个model，能够预测任何一个输入X的y值，y=f(x;w)，w是模型的参数
如果y 是一个类别标签的话，那么就是一个分类问题，如果y是一个连续的量的话，那就是一个回归问题，。如果y是一个有序的话，那个就是一个ranking
无监督学习
跟前面差不多，只不过是输入的数据没有lable,只是原始数据本身。无监督学习实际上就是学习现在正在发生什么事情，常见的无监督学习方法：密度估计。维度减少/可视化，聚类（聚类可以解决图像分割问题）
强化学习
Predictive /Self-Supervised Learning
过去预测现在，或者是从现在预测过去
Semi-Supervised Learning半监督学习
它是有监督和无监督中间的一种监督方式，它的label的信息不是所有样本都有，只是一小部分样本有label，大部分是没有label的。用途，半监督聚类跟半监督分类

举个栗子：
现在只有两个数据做分类的话，那我们所连得分界线可能是一条直线，
但是如果在半监督下面的话，除了有label的数据（红蓝点），还有其他Unlabel的数据，那些黑的的圈是没有标注的数据，那么现在在做标注的时候，就不会把分类面变成一条直线，他的分类面就会变成圆，这说明UNlabel的数据在训练过程中是非常有用的，它起到揭示数据规律的作用：外面的环是类别一，里面的环是类别二
机器学习第一讲统计机器学习的理论
Transfer and Muti-Task learning
多层感知机模型就是Muti-Task learning的模型，主要的点是share 他的特征，表达，模型参数的分布
Mate learning（学习如何学习）
通过这个模型再learn出一个模型出来，或者一个方法出来，告诉你应该怎么学这个task。
虚线左边是train，右边是task，每一行是一个sample，每个训练集给了5个样本（5 plus），每个样本属于一个类别，每个类别给了一个例子，所以他是一个one short five plus 问题：每个类别我只有一个样本，这个样本是鸟，这个样本是人，然后她一共有5个类别，在测试集中给出两个没有出现在训练集中的图片用来检验。
机器学习第一讲统计机器学习的理论
Active Learning
一般情况下，给我们的数据是有没有label已经给我们说好了，但是在主动学习中，数据的label可以自己选

例子

在这个图中有400个样本，有两个高斯分布的类别，如果从中随机选30个label，就是15个是绿的，15个是红的，得出的分类界面是下面的图，显然他不是很好
机器学习第一讲统计机器学习的理论
如果用主动学习的方法选取特定的label做分类界面，这样出现的界面会更好。

学习策略

分为产生式和判别式的，总的目标都是学习从x到Y的映射
产生式模型：通过贝叶斯来学习
判别式的：直接根据后验概率来计算
简单的学习例子
绿色是sin函数，点是sin函数+噪声
机器学习第一讲统计机器学习的理论
可以Polynomial function 来建立这个模型，w为参数

error function
通过错误率最小化这个E就可以求得w。

直接看结果，当w=0时候，得出的红线是一条直线，当=1.=2.=3的回归是越来愈好，但是当=3的时候，所有的点都在红线上，这样在测试集上非常好，但如果我们再给一个数据，不一定很好的分开，这就属于overffiting,过拟合
机器学习第一讲统计机器学习的理论
我们看一下训练误差和测试误差的两根线，一个越来越低，一个越来越高，模型越复杂，对训练的拟合就会越来越好

机器学习第一讲统计机器学习的理论