【机器学习】——入门：什么是机器学习？

欢迎大家加入企鹅群：727069065，不定期分享最新学习资源，资料收集不易，前50免费进群，望理解

接触机器学习有一段时间了，有些东西还是要记录下来才有意义。从本篇开始，我将持续更新关于机器学习的内容，非常适合新手入门或小白来学习。今天来介绍一下机器学习的整体框架，为我们之后章节的学习铺平道路。

1.什么是机器学习？

一般来说，机器学习是对依据经验提升自身性能或丰富自身知识的各种算法和系统的系统性研究。通俗点儿，就是使用正确的特征来构造正确的模型，以完成指定的任务。
一个完整的机器学习任务需要经历2个过程：训练和测试。训练就是根据历史数据（或经验）组成一个训练集，训练出一个相对正确的模型。为了验证该模型的正确性，我们需要收集未经过训练的数据，组成一个测试集进行测试，进而对未知数据的结果进行预测。
这就好比我们学习，在学习过程中需要掌握基础知识点并做一些基础习题，这个过程就是一个“训练”的过程，之后在考试中我们运用已经掌握的知识来解决卷纸中没有遇到过的题，这个过程就是一个“测试”的过程，最终考试的分数也就相当于该模型的准确度，可以当作评价一个该模型好坏的一个指标。因此，机器学习可以看成人类学习成长过程中的一个模拟，

2.机器学习的三要素

根据定义，可以发现机器学习的三大组成要素：任务、模型、特征，如图所示是它们之间的关系。

任务：可以通过机器学习来解决的问题
模型：机器学习的输出，同一个问题可以选择不同的模型。常见的模型有：几何模型、概率模型、逻辑模型、分组模型、评分模型等。
特征：机器学习的马达。模型的质量由特征决定，因此特征的选择很大程度决定了机器学习应用的成败。特征可以看成是在任一实例上度量的测度，常见的特征域就是实数集。

【机器学习】——入门：什么是机器学习？

这里要强调的是“任务”和“学习问题”的区别：任务是通过模型来完成的，即它是在“测试”过程中才有的，学习问题是通过能过产生模型的学习算法来解决的，它是在“训练”过程中才有的。要完成一项任务，要建立从用特征描述的数据到输出的恰当映射，该映射即模型。学习问题的中心任务就是研究如何从训练数据集中获取该映射。因此，“训练”的过程直接影响模型的好坏。

注意：在很多情况下，数据集中都会存在“噪声”，例如样本可能被赋予了错误的标注信息，或者特征本身就有错误，如果此时一味地追求训练集的正确分类，则可能会导致该模型过拟合，无法在测试集中进行推广。这就好比我们在背题的时候不能死记硬背，如果只是记住了答案，那么在考试的时候换了题就不会了。

3.机器学习的类型

按任务分类：回归模型（预测模型）、分类模型、结构化学习模型。回归模型输出的是一个不能枚举的数值，即连续的；分类模型又包括简单的二分类模型和复杂的多分类模型，但是多分类模型的本质依然是二分类模型。常见的二分类问题有垃圾邮件过滤，常见的多分类问题有文档自动归类；结构化学习模型的输出是一个长度不固定的值，如图片语义分析，输出是图片的文字描述。
按方法分类：有线性模型和非线性模型。线性模型较为简单，但作用不可忽视，线性模型是非线性模型的基础，很多非线性模型都是在线性模型的基础上变换而来的。非线性模型又可以分为传统机器学习模型（如SVM、KNN、决策树等）和深度学习模型。
按照学习理论分类：有监督学习，半监督学习，无监督学习，迁移学习和强化学习。

①当训练样本带有标签时是有监督学习，有监督学习主要的类型是分类和回归；

②训练样本部分有标签，部分无标签时是半监督学习；

③训练样本全部无标签时是无监督学习，无监督学习的主要类型是聚类和降维（降维通过找到共同点来减少数据集的变量。大多数大数据可视化使用降维来识别趋势和规则）；

④迁移学习就是就是把已经训练好的模型参数迁移到新的模型上以帮助新模型训练。

⑤强化学习使用机器的个人历史和经验来做出决定。强化学习的经典应用是玩游戏。与监督和非监督学习不同，强化学习不涉及提供“正确的”答案或输出。相反，它只关注性能。这反映了人类是如何根据积极和消极的结果学习的。很快就学会了不要重复这一动作。同样的道理，一台下棋的电脑可以学会不把它的国王移到对手的棋子可以进入的空间。然后，国际象棋的这一基本教训就可以被扩展和推断出来，直到机器能够打(并最终击败)人类*玩家为止。

按模型的输出是否有目标变量分类：有目标变量则为预测性模型，没有目标变量则为描述性模型。

	预测性模型	描述性模型
有监督学习	分类、回归	子群发现
无监督学习	预测性聚类	描述性聚类、关联规则发现

4.机器学习的范围

经常会看到有人问，深度学习和机器学习有什么联系。其实它俩的区别很简单，深度学习是机器学习的一个子集，而机器学习又是人工智能的一个分支。因此，机器学习在生活中广泛应用：

自然语言处理=文本处理+机器学习。
语音识别=语音处理+机器学习。
模式识别=机器学习。两者的主要区别在于前者是从工业界发展起来的概念，后者则主要源自计算机学科。
数据挖掘=机器学习+数据库。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。
计算机视觉=图像处理+机器学习。图像处理技术用于将图像处理为适合进入机器学习模型中的输入，机器学习则负责从图像中识别出相关的模式。
统计学习近似等于机器学习。机器学习中的大多数方法来自统计学；但是在某种程度上两者是有分别的，这个分·别在于：统计学习者重点关注的是统计模型的发展与优化，偏数学，而机器学习者更关注的是能够解决问题，偏实践，因此机器学习研究者会重点研究学习算法在计算机上执行的效率与准确性的提升。

最后建议大家，如果想学深度学习，最好还是从机器学习起步，而且要精读书籍，把每一个数学公式都弄懂，这样才能彻底领悟，后续的学习进度也会加快的。过几天我会更新有关分类算法的知识，请大家点个关注，欢迎大家随时和我私信交流！

如果想看更详细的介绍，可以参考https://www.cnblogs.com/subconscious/p/4107357.html

【机器学习】——入门：什么是机器学习？

欢迎大家加入企鹅群：727069065，不定期分享最新学习资源，资料收集不易，前50免费进群，望理解

1.什么是机器学习？

2.机器学习的三要素

3.机器学习的类型

4.机器学习的范围

相关推荐