数据挖掘
零散知识点
数据处理: 转换
big data
- volume:TB => ZB
- variety:structured (数值) => Structured && unstructured (文字、声音、图像、视频)
- velocity: batch => streaming data
大数据实际应用
- 公共安全领域:打击犯罪率,挖掘犯罪规律
- 医疗保健领域:
数据挖掘定义
data mining is the process of automatically extracting * interesting and useful hidden* pattern from usually massive, imcomplete and noisy data.
不是全自动化的(collection and preprocessing)
数据演变成最终成品过程
数据—(处理)—>信息—-(挖掘)—-> 知识 — (模型)—> 最终成品
数据挖掘过程
define problem –> data collection –> data preparation –> data modelling –> interpretation/evaluation –> implement/deploy model
ETL系统: 数据提取、数据转换、数据装载
数据挖掘最麻烦的事数据处理;往往得到的是脏数据;GIGO(garbage input garbage out)
数据挖掘 = 数据+模型+硬件设备
分类问题
相关算法
决策树、knn、神经网络、向量机
分类问题关键:找出分类边界(boundaries)
数据处理
training set: 生成模型
test set:测试评估模型
混淆矩阵
roc曲线:若曲线在random guess曲线下面,则毫无意义
auc:曲线下面的面积。用auc去衡量roc曲线的性能,值越接近1越好
lift analysis:将潜在客户集中在一起,发生的可能性就有了一定的提升
聚类问题(clustery)
类内距离相近,类之间的距离较远
与分类的区分
分类是有标签,事先已经分好类的;
聚类是无标签的,通过判断彼此间的距离去进行分组
衡量距离的算法
欧式距离,马氏距离,曼哈顿距离
其他数据关系
- 关联数据
-
回归
线性回归,不是指画出来一定是条直线,可以是曲线。线性回归实质上是指参数与变量之间的线性关系
隐私保护
(如何巧妙设置问卷获得一些隐私问题的答案)