什么是数据挖掘

数据挖掘是在大型数据存储库中，自动地发现有用的信息的过程。

（一）发现先前未知的有用模式

（二）预测未来的观测结果

知识发现：数据挖掘是数据库中知识发现不可缺少的一部分，而知识发现是将未加工的数据转换为有用信息的整个过程。

数据挖掘要解决的问题

数据挖掘的方法来自机器学习或AI，模式识别，统计学与数据库系统

数据挖掘导论（一）：数据挖掘的定义，方法，用途

根据其他属性的值，预测特定属性的值

被预测变量通常被称为目标变量（因变量）

做预测变量通常被称为明变量（自变量）

导出概括数据中潜在联系的模式

包括相关、趋势、聚类、轨迹、异常。

举例：确定顾客对产品促销活动的反应，根据检查结果判断病人是否患有疾病，预测鸢尾花(IRIS)的类型等。

数据挖掘导论（一）：数据挖掘的定义，方法，用途

举例：找出具有相关功能的基因组，识别用户一起访问的Web页面等。

数据挖掘导论（一）：数据挖掘的定义，方法，用途

使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能相似。

举例：对相关顾客进行分组，主题分组。

数据挖掘导论（一）：数据挖掘的定义，方法，用途

举例：检测欺诈，网络攻击。