数据挖掘

零散知识点

数据处理: 转换

big data

  1. volume:TB => ZB
  2. variety:structured (数值) => Structured && unstructured (文字、声音、图像、视频)
  3. velocity: batch => streaming data

大数据实际应用

  1. 公共安全领域:打击犯罪率,挖掘犯罪规律
  2. 医疗保健领域:

数据挖掘定义

data mining is the process of automatically extracting * interesting and useful hidden* pattern from usually massive, imcomplete and noisy data.
不是全自动化的(collection and preprocessing)

数据演变成最终成品过程

数据—(处理)—>信息—-(挖掘)—-> 知识 — (模型)—> 最终成品

数据挖掘过程

define problem –> data collection –> data preparation –> data modelling –> interpretation/evaluation –> implement/deploy model

ETL系统: 数据提取、数据转换、数据装载

数据挖掘最麻烦的事数据处理;往往得到的是脏数据;GIGO(garbage input garbage out)

数据挖掘 = 数据+模型+硬件设备

分类问题

相关算法

决策树、knn、神经网络、向量机

分类问题关键:找出分类边界(boundaries)

数据挖掘

数据处理

training set: 生成模型
test set:测试评估模型

混淆矩阵

数据挖掘
roc曲线:若曲线在random guess曲线下面,则毫无意义
数据挖掘
auc:曲线下面的面积。用auc去衡量roc曲线的性能,值越接近1越好

lift analysis:将潜在客户集中在一起,发生的可能性就有了一定的提升

聚类问题(clustery)

类内距离相近,类之间的距离较远

与分类的区分

分类是有标签,事先已经分好类的;
聚类是无标签的,通过判断彼此间的距离去进行分组

衡量距离的算法

欧式距离,马氏距离,曼哈顿距离

其他数据关系

  1. 关联数据
  2. 回归

    线性回归,不是指画出来一定是条直线,可以是曲线。线性回归实质上是指参数与变量之间的线性关系

    数据挖掘

隐私保护

(如何巧妙设置问卷获得一些隐私问题的答案)
数据挖掘