数据挖掘(理论):数据挖掘概论
一,数据挖掘概念和原理
数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的数据中,利用统计、计算机、数学等领域的方法提取隐含在其中的信息和知识的过程。
数据挖掘特点:处理的数据规模十分庞大,非精确性查询(分析),快速响应变更,发现规则,动态变化
数据挖掘原理:利用算法对处理好的输入和输出数据进行训练,并得到模型, 然后再对模型进行验证,使得模型能够在一定程度上刻画出数据由输入到输出的关系, 然后再利用该模型,对新输入的数据进行计算,从而得到对我们有用的新的输出。
二,数据挖掘内容
关联(Apriori,FP-Tree,HotSpot)-无监督
(1)基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。
(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
(3)基于规则中涉及的数据的维数,关联规则可以分为单维的和多维的。
回归(线性回归,非线性回归,逐步回归,逻辑回归)-有监督
回归是确定两种或两种以上变数间相互定量关系的一种统计分析方法。
回归在数据挖掘中是最为基础的方法,也是应用领域和应用场景最多的方法,只要是量化型问题, 我们一般都会先尝试用回归方法来研究或分析。
分类(KNN,贝叶斯,神经网络,逻辑斯蒂,判别分析,支持向量机(SVN),决策树)-有监督
分类是最为常见的问题, 其典型的应用就是根据事物在数据层面表现的特征,对事物进行科学的分类。
聚类(K-Means,层次聚类,神经网络,高斯混合,模糊C均值)-无监督
聚类分析又称群分析,是根据“物以类聚”的道理,对样品进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。
预测-有监督
三,数据挖掘过程
数据准备
数据选择:从数据源中搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。
数据质量分析:缺失数据,数据错误,度量标准错误,编码不一致,无效元数据
数据预处理:数据清洗,数据集成,数据归约,数据变换
数据的探索
探索数据是对数据进行初步研究,以便投资者更好地了解数据的特征,为建模的变量选择和算法选择提供依据。
主要方法:描述统计,数据的可视化,数据探索的建模活动
模型的建立
模型的建立是数据挖掘的核心,在这一步要确定具体的数据挖掘模型(算法),并用这个模型原型训练出模型的参数,得到具体的模型形式。
模型的评估
模型评估阶段需要对数据挖掘过程进行一次全面的回顾,从而决定是否存在重要的因素或任务由于某些原因被忽视,此阶段的关键目的是判断是否还存在一些重要的(商业)问题仍未得到充分考虑。
指标:精度,时间效率,空间效率
模型的部署
模型的部署就是将通过验证评估的模型,部署到实际的业务系统中进行数据分析处理。