机器学习基础入门笔记(一)

目录

 

机器学习参考定义:

为什么要学习机器学习:

通过下列公式来对大数据、机器学习、深度学习关系进行展示:

机器学习方法的分类:

有监督学习

无监督学习

强化学习


机器学习参考定义:

We define machine learning as a set of methods that can automatically detect patterns in data,and then the uncovered patterns to predict future data,or to perform other kinds of decision making under uncertainty(such as planning how to collect more data!).

 

                                         ——<<Machine learning learning:A probabilistic perspective>>

 

简单理解呢,机器学习就是一系列方法,这些方法能够帮助我们自动的找出数据中的规律,然后对未来的数据进行预测,从而支持我们现实生活中的决策。

 

为什么要学习机器学习:

台大李宏毅教授通过我们为什么需要学习机器学习以AI训练师为例,风趣幽默的方式回答了这一问题,而且目前大数据分析和人工智能已经成为整个社会发展最主要的基础推动力,而两者的基础都是机器学习。

大数据是指数据采集、数据清洗、数据分析和数据应用的整个流程中的理论、技术和方法。大数据分析火热的深刻原因:

  •   数据源:非结构化数据(语音、视频、文本、网络数据)
  • 广泛的应用场景:营销、广告、金融、交通、医疗等
  • 模型和计算能力(大大提升):深度学习、GPU、分布式系统

 

通过下列公式来对大数据、机器学习、深度学习关系进行展示:

机器学习基础入门笔记(一)

Data代表原始数据,X代表从数据中提取出来的一些表示、特征等, Y是我们要完成的任务,这个任务比如说是完成客户风险评估,Y就是这个客户的信用风险高还是低,X就是刻画Y的因素,F就是X与Y的映射关系。公式里的过程、方法、技术,我们可以把它们统称为大数据。

机器学习是大数据分析的核心内容。机器学习解决的是找到将x和y关联的模型F,从Data到X的步骤通常是人工完成的(特征工程)。

深度学习是机器学习的特殊的一部分(主要特殊在F的形式是多层的神经网络表示),其核心是自动找到对特定任务有效的特征,也即自动你完成Data到X的转换。

其实人工智能很多时候是从Y这个角度,来看我们解决什么问题,如果我们的任务Y是模拟人类(自动驾驶、围棋AlphaGo)的行为,则这类任务称为人工智能。深度学习也是目前AI中的核心技术。

 

机器学习方法的分类:

  • 有监督学习

    • 数据集中的样本带有标签,有明确目标(数据样式:<X,Y> 其中Y是答案,X就是标签,例如生病中的症状,特征,从这样的数据去学习Y和X的对应关系)
    • 回归(Y是连续的值)和分类(数据做分组,Y是离散的值)
    • 目标:找到样本到标签的最佳映射,(就是把F找到)
    • 典型方法
      • 回归模型:线性回归、岭回归、LASSO和回归样条等
      • 分类模型:逻辑回归、K近邻、决策树、支持向量机等
    • 应用场景:垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。
  • 无监督学习

    • 数据集中的样本没有标签,没有明确目标(学习的时候只有X没有Y),根据数据本身的分布特点,挖掘反应数据的内在特性
    • 典型方法:聚类(数据做分组)、降维、排序、密度估计、关联规则挖掘
      • 比如聚类:将数据集中相似的样本进行分组,使得:
        • 同一组对象之间尽可能相似
        • 不同组对象之间尽可能不相似
    • 应用场景:
      • 基因表达水平聚类:根据不同基因表达的时序特征进行聚类,得到基因表达处于信号通路上游还是下游的信息
      • 篮球运动员划分:根据球员相关数据,将其划分到不同类型(或者不同等级)的运动员阵营中
      • 客户分析:把客户细分到不同客户群,每个客户群有相似行为,做到精准营销
  • 强化学习

强化学习又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 。整个过程如下图,智能体不断跟环境做交互,环境会处于不同的状态,智能体根据环境不同的状态采取某一种动作,然后环境反馈给其一个信息,通过过程模拟和观察来不断学习/提高决策能力。

机器学习基础入门笔记(一)

 

 

  • 基本概念
    • agent:智能体
    • environment:环境
    • state:状态
    • action:行动
    • reward:奖励
  • 策略:环境提供一个状态,返回给它一个最佳的动作
  • 目标:习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)为最佳。

有监督、无监督学习预先都要搜集好一个数据集,基于数据集去学习,而强化学习最开始没有搜集数据,它可以通过模拟和观察来生成数据,更接近人类的学习模式。

参考资料:

https://www.bilibili.com/video/BV1NC4y1Y7Rz