机器学习笔记1—机器学习的定义与分类
转载请注明链接:http://blog.****.net/cracked_hitter/article/details/78442351
该系列文章为对Andrew Ng老师ML视频的学习笔记。主要是对其中的知识做一些梳理,并加入自己的一些理解与公式的推导。文章记录的并不详细,只对一些知识的要点进行整理。可能文章中会有不当之处,也希望各位在阅读过程中不吝赐教。
-------------------------------------------------------------------------
在视频的开头先以两个例子来说明一下机器学习的一些应用。第一个例子是,FaceBook以及苹果这样的公司会将照片进行识别与分类,从而能够使你很方便的得到哪些是与你朋友有关的照片;第二个例子也是机器学习相关常用而且简单的分类问题的实例,即垃圾邮件的识别问题,当你收到一封邮件时,你的邮箱系统会帮你区分这封邮件是否为垃圾邮件。
接下来,给出了机器学习一些具体的应用方面。
1.数据挖掘方面
用于处理随时增长的数据,例如网页点击数据,音频数据,生物以及工程数据等
2.不能够通过手动编程实现的领域(该部分数据主要是没有很精确量化标准,而是以一种模糊识别的方法进行处理)
例如,自动飞行的直升机,手写文字识别,大多数自然语言处理,计算机视觉
3.自定制的程序
Amazon、Netflix 的产品推送系统
4.理解人类的学习(即实现大脑功能,真正的AI)
-----------------------------------------------------------------------------
机器学习定义
一、由 Arthur Samuel在1959年给出的,机器学习:不需要给予计算机非常明确的编程代码,计算机可自动学习的能力。同时视频中还给出了一个Samuel训练计算机下西洋棋的例子,通过与Samuel本人数千次的西洋棋对局,计算机成长为一位“西洋棋高手”
二、由Tom Mitchell在1998年给出的定义:有点拗口,英文定义很直白。通过训练集合(即经验)E来训练,以T为最终目标,以P为评判标准。
------------------------------------------------------------------------
机器学习的分类
- 监督学习(Supervised learning)
- 无监督学习(Unsupervised learning)
输入一定数量的训练集合,其中既包括有输入变量与输出结果,对该训练集合以一种特定的方法进行训练,从而达到一个最优的算法来对新的输入数据进行结果的预测,其中回归问题、分类问题都属于监督学习内容。这里给出了两个例子,一个是房屋价格的预测,一个是乳腺癌良性与恶性的预测。
图.房屋价格预测,linear regression问题
图.单一变量与多变量乳腺癌预测问题,logistic regression问题
二、无监督学习(没有确定结果,直接对数据进行建模分析)
训练数据中没有明确的结果输出,而是直接对数据进行建模提取其中的特征进行分析。例如:聚类问题
这里通过两个散点图很形象的给出了监督学习中的分类问题与无监督学习中的聚类问题的区别。
第一张图为分类问题,有明确的结果,通过特征变量对数据进行分类;第二张图为聚类问题,通过算法提取数据中的特征对其进行分类处理。
这里同时给出另外一些非监督学习的例子。
图 新闻分类问题
图 基因辨别
-------------------------------------------------------------------------------
小结:
机器学习,即给计算机以自动学习的能力,不需要人为规定太多的阈值与准确的程序,而是给以一定方法与目标,通过训练数据对得到一个最优的算法,从而对新的数据进行预测,并且在新的数据中继续学习。通过Machine Learning可以让计算机更好的完成某些需要重复分析与计算的任务,从而得到更优的处理方法。
在机器学习的分类中,传统上会将机器学习区分为监督学习与无监督学习,其中也会有一些数据的处理中会用到介于两者之间的半监督学习,以及更为复杂的增强学习,深度学习等。