一、大数据与机器学习-概述

一、什么是机器学习?

机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸

分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以

自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对

未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计

推断学联系尤为密切,也被称为统计学习理论。

二、机器学习应用场景举例

1.Game

2.Text to speech and speech recognition

3.3D 体感游戏

4.Bioinformatics(生物信息学)

5.Quantitative trading

6.Robotic Control

7.再现古代陶瓷工艺

三、机器学习和人工智能的关系

1.人工智能:是科学,为机器赋予视觉/听觉/触觉/推理 等智能。

2.机器学习:人工智能的计算方法

一、大数据与机器学习-概述

四、深度学习方法和其它人工智能方法的共性和差异

一、大数据与机器学习-概述

1.基于规则的方法

没有可学习的模块,输入的数据通过手工设计的程序,直接获取特征然后输出

2.经典机器学习方法

数据输入后通过手工设计获得的特征,然后通过特征映射获得输出

3.表示学习方法

a.非深度学习方法,特征是通过学习获得,然后通过特征映射输出

b.深度学习方法,首先学习得到简单特征,然后通过附加的层去学习去得到更多抽象特征,然后通过特征映射输出结果

五、机器学习和数据挖掘的关系

机器学习是数据挖掘的重要工具。数据挖掘是机器学习和数据库技术的交叉学科,主要利用机器学习技术来分析海量数据,利用数据库技术来管理海量数据。机器学习涉及的面更宽,常用在数据挖掘上的方法通常只是数据学习,其自身还包括例如强化学习等其它方法。

可以把机器学习当作一个这样的机器,往里面倒入各种不同的数据,然后通过模型学习,在一些假设的模型条件下,我们获得对数据的预测和输出。

六、机器学习和计算机视觉

计算机视觉是机器学习最重要的应用

七、机器学习和统计学

机器学习=统计— 模型和假设的检验

统计学关注自身,例如生存分析,空间分析、多测试;而机器学习关注在线学习、流行学习、主动学习等。

八、大数据机器学习主要特征

1.与日俱增的数据量

2.实验数据量的增加

3.与日俱增的神经网络模型规模

4.与日俱增的精度、复杂度和对现实世界的冲击

5.GPU Graphic Processing Unit

6.TPU Tensor Processing Unit

7.深度学习框架

TensorFlow 、Pytorch 、Caffe 、CNTK 、Keras 、MXNet 、Theano 、Scikit-learning 、Spark MLlib

八、重要参数教材:

一、大数据与机器学习-概述

以机器学习方法为主干,以深度学习模型为重点 ,实现大数据机器学习的应用为目标