现实层面浅谈数据挖掘的基本流程

(本文是笔者查阅一定资料整理原创所写,受知识面限制,如存在错误,欢迎指出)
数据挖掘不同于传统意义上的数据分析。
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
首先,除去建立有专门数据系统的大型公司和互联网服务公司的大数据分析与挖掘,数据挖掘通常的针对内容为内部企业行业的小众化数据挖掘,其主要的目的是为了在挖掘过程中发现的问题进行针对性诊断,而数据分析是建立在结果导向的基础上,对数据进行针对的分析和诊断,其研究侧重于分析趋势和发展。
现实层面浅谈数据挖掘的基本流程
数据挖掘通过统计、在线分析处理、情报检索、机器学习等计算机科学算法,实现获取海量数据中的有价值信息。尽管数据挖掘的办法会针对不同类型的数据,数据获取方法,数据存储模型等因素的不同而存在一定的差异,然建立标准化的数据挖掘步骤,是实现高效数据挖掘的良好基础和前提,归纳起来,数据挖掘的标准化步骤通常包含以下七个流程:
第一步:定义问题
尽管在前文中提到,数据挖掘区别与传统数据分析的最大差异在于:数据分析属于结果导向性的一种对数据处理的一个过程,而数据挖掘的主观意志相对较弱,侧重于针对数据处理的结果进行问题的挖掘和研究。然数据挖掘依旧需要在一开始了解数据和业务的基础上,针对于可能需要解决的问题和目标有一个相对明确的定义,因为这一步关系到后期挖掘过程中所建模型的选择———针对不同目标,建立出的可能会完全不同。
第二步:建立数据挖掘库
数据挖掘库的建立基础在于日常过程中的持续性数据收集和对于数据挖掘库的维护工作,基于以上两点,评估出数据的质量以实现对于数据的清理工作,达到合并和整合,构建元数据的目的。这些工作都是高效数据挖掘实现的基础。
现实层面浅谈数据挖掘的基本流程
第三步:分析数据
通常情况下,数据挖掘所处理的初始数据源往往数量及其庞大,且并非所有收集到的数据都能为本次数据挖掘的目的提供有价值的信息。
而分析的目的就是在这庞大的数据样本中找到对预测输出结构影响最大的输出字段,并且,如果样本数据量相对较为庞大,我们可以仅仅导出这部分字段。
浏览和分析海量数据,并建立数据与目的之间的价值关联是一件及其耗时耗力的工作,这就要求我们选择一个工作界面友好和最适合自己工作模式的强大功能的协同工具软件来提高我们的工作效率。
第四步:准备数据
前文提到,数据挖掘的最核心任务是建立与目的相匹配的数学模型以实现对于挖掘目的的服务。
准备数据就是对这一过程的基础性工作,在杨良斌编著的《信息分析方法与实践》中,其主要涉及以下四个内容:选择变量,选择记录,创建新变量,转换变量。
第五部:建立模型
常见的的六大数据挖掘模型包含:
  1.决策树(Decision Tree)
  2.神经网络(Neural Network)
  3.相关规则
  4.K-nearest邻居
  5.联机分析处理(On Line Processing)
  6.数据可视化(Data Visualization)
模型建立的过程是存在反复性的一个过程,在商用问题导向的基础上,一个数据挖掘工程师需要多方面思考哪个模型对其分析目的能提供最大化的商用价值。
通常我们会讲所分析数据划分为两个或三个数据集,第一个数据集的主要功能为在不断测试的过程中建立与目标最符合的数据模型,第二个数据集的主要功能则是对于所建立模型的一个检测用和测试功能。最后,为了排除可能的因为测试集可能受模型的特性的影响,我们可能会建立第三个验证用数据集来考核模型的准确度,这个数据集我们称之为“验证集”。
训练和测试数据挖掘模型需要把数据至少分成两个部分,一个用于模型训练,另一个用于模型测试。
现实层面浅谈数据挖掘的基本流程
第六步:评价模型
完成模型的建立工作之后,必须对于通过数据集得出的结果进行评估,以达到解释模型价值的目的。
这是因为,模型的准确性是建立在测试集的基础上的,脱离测试集,模型是否依旧能保持相应的准确性,以及导入导入错误的类型可能会导致什么样情况的损失,这依旧是我们所需要考核的重点,而这一点通常情况下在模型建立过程是无法得到有效检验的。
“有效的模型不一定是正确的模型”,这仿佛成为数据挖掘工程师之间一个潜在的通识。这是因为模型建立过程中伴随着许多隐含性的假设。所以,一个模型建立到投入大范围使用往往需要经历现实世界中的不断测试。
第七步:实施
完成以上所有工作之后,一个完整的数据挖掘流程便已经结束,剩下的工作就是将所建立的模型正式投入使用。
使用方法主要有两种途径:一是将提提供给专门的数据分析人员做为参考,实现对于模型的优化改进,二是将此模型运用到其他数据集上。