机器学习基础概念
数据挖掘和机器学习的关系
什么是数据挖掘?
1.周杰伦是男歌手吗?
2.吸烟是不是肺癌发病率的主要诱因?
哪个是数据挖掘研究的问题?
周杰伦是不是男歌手,显而易见,查一下他的资料就可知,是他的一个属性,男女两种,,很容易去确定。
吸烟是不是肺癌诱因?这问题就比较复杂,肺癌的诱因会有很多种,饮食、环境、基因等,不能很确定的说肺癌就是这种因素引起的,简单地通过查找是不能得到问题的准确的答案的,可能需要分析大量的数据,才能得到较满意的结果,这就是数据挖掘所要解决的问题。
数据挖掘其实还有很多知识点,对于数据挖掘最重要的就是机器学习,相当于一种工具(算法)
训练数据/验证数据/测试数据
建模之前,数据分为三个部分:
训练集:用于训练,构建模型
验证集:训练过程中测试模型的好坏(偷懒一般不设验证集,正常应该有的)
测试集:模型训练好后,用测试集测试模型的好坏
监督学习/无监督学习/半监督学习
监督学习:
用于训练的图片带有标签,去建立模型,成为有监督的学习,如下图的标签3,dog
监督学习就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的)。再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的。就像我输入了一个人的信息,他是有性别属性的。我们输入我们的模型后,我们就明确的知道了输出的结果,也可以验证模型的对错。
举个例子,我们从小并不知道什么是手机、电视、鸟、猪,那么这些东西就是输入数据,而家长会根据他的经验指点告诉我们哪些是手机、电视、鸟、猪。这就是通过模型判断分类。
例子:手写数字识别
无监督学习:
训练的数据没有标签,通过聚类算法(下图两部分,圈内的离得比较近,属性等比较相似,属于同一类)分出样本数据一些具有相同属性的样本,属于同一类,这种叫做无监督学习,简单的说就是数据没有带标签。
半监督学习:
半监督学习是上面两种的结合,主要使用少量带有标签的数据和大量没有带标签的数据进行训练和分类的问题。用的比较少。
回归/分类/聚类
回归:
数据点分布如下,其中蓝色的线称之为回归线,图片中拟合数据点较多的一条线(面),可应用于数据预测,股票走势预测等
预测的数据是连续性的数据。
例子:
分类:
一般都是代表性的数据,应用如:
图像识别
垃圾邮件分类
文本分类
预测的数据类别型的数据,且类别已知。
例子:
聚类:
无监督学习,用聚类算法后分类。预测数据为类别型数据,但类别未知。
例子: