数据挖掘导论(一):数据挖掘的定义,方法,用途
什么是数据挖掘
数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。
(一)发现先前未知的有用模式
(二)预测未来的观测结果
知识发现:数据挖掘是数据库中知识发现不可缺少的一部分,而知识发现是将未加工的数据转换为有用信息的整个过程。
数据挖掘要解决的问题
- 可伸缩:需要有能力处理海量数据问题
- 高维性:需要很好的处理维灾难问题
- 异种数据和复杂数据:需要考虑数据对象的复杂性和多样性
- 非传统的分析:非单一假设-检验模式
- 数据的所有权与分布:需要考虑数据安全性、加快计算速度、汇总计算结果
数据挖掘的起源
数据挖掘的方法来自机器学习或AI,模式识别,统计学与数据库系统
数据挖掘任务(两大类)
1.预测任务
根据其他属性的值,预测特定属性的值
被预测变量通常被称为目标变量(因变量)
做预测变量通常被称为明变量(自变量)
2.描述任务
导出概括数据中潜在联系的模式
包括相关、趋势、聚类、轨迹、异常。
四种主要数据挖掘任务
预测建模(两种)
分类 |
回归 |
|
目标变量 |
离散 |
连续 |
举例 |
是否买书 |
股票价格 |
共同点 |
训练模型, 减小误差 |
举例:确定顾客对产品促销活动的反应,根据检查结果判断病人是否患有疾病,预测鸢尾花(IRIS)的类型等。
关联分析:用来发现描述数据中强关联特征的模式。
- 所发现的模式通常用蕴含规则或特征子集的形式表示
- 搜索空间通常是指数规模的,因此关联分析的目标是以有效的方式提取有趣的结果
举例:找出具有相关功能的基因组,识别用户一起访问的Web页面等。
聚类分析:旨在发现紧密相关的观测值组群
使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能相似。
举例:对相关顾客进行分组,主题分组。
异常检测:识别其特征显著不同于其他数据的观测值,这样的观测值点称为异常点或离群点。
- 异常检测算法的目标是发现真正的异常点,而避免错误的将正常的对象标注为异常点。一个好的异常检测器应具有高检测率和低误报率。
举例:检测欺诈,网络攻击。