对大数据 数据挖掘和机器学习的认识和理解

数据挖掘和大数据可以做什么?

简而言之,它们赋予我们预测能力。

我们的生活已经数字化了

我们每天所做的许多事情都可以记录下来。 每张信用卡交易都是数字化和可追溯的。 我们的公众形象一直受到许多*电视台在城市各个角落的监控; 对于企业而言,大多数财务和运营数据都保存在某些类型的ERP中; 随着可穿戴设备的兴起 ,每一次心跳和呼吸都被数字化并保存为可用数据。正当我们的大部分生活被数字化时,计算机现在可以比以往更好地“理解”我们的世界。

 

2.如果模式保持不变,则过去=未来

我们生活中的许多不同事物都表现出模式。例如,一个人可能在任何工作日内在工作和家庭之间旅行,或者在任何非工作日去度假或看电影,这种模式不太可能改变。商店将拥有任何一天的高峰时段和闲置时间,这种模式不太可能改变。企业将在一年中的某些月份要求更高的劳动力投入,这种模式不太可能改变。

总结第1点和第2点,我们可以得出结论,如果提供过去的模式,计算机很可能预测未来,因为这些模式在很长一段时间内最可能是一致的。

如果计算机可以预测人们的生活方式,它将准确知道什么时候是适合促销的最佳时间,例如,如果这个人每周五的星期五都要洗车,或者是优惠券,那就是洗车促销如果这个人每年三月都要去度假,那就留下来。Businesswise,计算机还可以 预测商店全天的销售预测,然后制定业务战略以最大化总收入。对于企业而言,计算机还可以设计出最合理的劳动力安排的最佳运营计划。

一旦未来变得可预测,我们可以随时提前计划并为可能的最佳行动做好准备。就像“黑客帝国”中的Neo一样,他能够躲避所有的子弹,因为他可以清楚地看到子弹的来源。根据夏洛克·福尔摩斯的说法,“对概率数学的高级掌握,对人类心理学的彻底理解,以及任何特定个体的已知倾向都可以大大减少变量的数量”,换句话说,“大数据给了我们预测未来的力量“。 这是数据挖掘的力量。数据挖掘始终与大数据联系在一起,因为大数据支持大量数据集,从而为所有预测提供了基础。

 

那么,大数据,数据挖掘和机器学习到底是什么?

大数据

当数据量巨大时,很明显这些数据无法在任何一台机器上处理。一个非常大的文件,比方说10GB,你可能无法在任何Windows系统中打开它,然后崩溃整个事情。 为此目的开发了大数据。您可以将其视为一种特殊的软件,它将大文件拆分为更小的文件,然后可以在多台计算机上进行处理。分割和组合数据片段的过程称为MapReduce。最常用于此过程的软件框架,称为Hadoop。Hadoop解决了基本问题,并且有许多工具可以与Hadoop一起使用,例如Pig,Zookeeper和Hive,以使过程更加容易。Hadoop连同它的许多相关工具通常被称为“大数据技术”。

机器学习

刚才我们根据一块数据的处理方式进行了触摸。假设这条数据包含一组购物者的购买行为,包括购买的商品总数,每个购物者购买的商品数量。这是迄今为止简单的统计分析。但是,如果我们的目标是分析不同类型的购物者之间的相关性,或者如果我们想要推断特定类型的购物者的特定偏好,或者甚至预测任何购物者的性别或年龄,我们将需要更多复杂的模型,我们称之为算法。机器学习可以更容易理解为为数据挖掘目的而开发的所有不同类型的算法,例如逻辑回归,决策树,协同过滤等等。

 

数据挖掘

通过应用机器学习算法,现有数据实际上可用于预测未知数,这正是数据挖掘的奇迹与机器学习密切相关的原因。然而,任何机器学习算法的强度在很大程度上取决于大量数据集的供应。请记住,无论算法有多复杂,都不能从几行数据中做出灵感预测。大数据技术是机器学习的前提,通过使用机器学习,我们能够从现有数据集中获得有价值的见解,这就是数据挖掘。

数据挖掘思维导图

学术上的数据挖掘研究方向比较传统,主要是处理数据,挖掘数据,评估模型。随着互联网和大数据的发展,数据挖掘的应用领域却越来越广。我们大可不必拘泥于数据挖掘、数据分析、机器学习的边界和区别,或许这些边界和区别都是人为设置的。毕竟不管哪种技术,能解决实际问题的都是好技术。

                                    对大数据 数据挖掘和机器学习的认识和理解

为什么究竟哪里好?

        数据挖掘就是从海量的数据中挖掘隐含在其中的、事先不为人知的、潜在的、 有用信息和知识的技术。这些信息是可能有潜在价值的,是用户感兴趣的、可理 解的、可运用的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。

        数据挖掘的应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利 用数据挖掘工具进行有目的的发掘分析,在当今数据和内容作为互联网的核心, 不论是传统行业还是新型行业,谁率先与互联网融合成功,能够从大数据的金矿 中发现暗藏的规律,就能够抢占先机,成为技术改革的标志,获得利益。常见的 应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务。大数据挖 掘商业价值的方法主要分为四种:第一:客户群体细分,然后为每个群体量定制 特别的服务。第二:模拟现实环境,发掘新的需求同时提高投资的回报率。第三: 加强部门联系,提高整条管理链条和产业链条的效率。第四:降低服务成本,发 现隐藏线索进行产品和服务的创新。在理论上来看:所有产业都会在数据挖掘的 发展中受益。

        例如在电子商务中数据挖掘的作用越来越大,可以用其对网站进行分析,识 别用户的行为模式,保留客户,提供个性化服务,优化网站设计,帮助电子商务 网站把真正有价值的知识从海量的信息提取出来,从而更好地为电子商务网站的 用户提供更方便的服务以及指导企业决策,数据挖掘在电子商务中的具体应用: 在电子商务中应用数据挖掘技术可以直接跟踪数据,分析顾客的购买行为并辅助 商家快速做出商业决策。在电子商务营销方面的应用它是以市场营销学的市场细分 原理为基础,其基本假定是消费者过去的行为是其今后消费倾向的最好说明。通 过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个 体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体 下一步的消费行为。需要做到产品生命周期策略分析,市场细分,制定合理的产 品策略和定价策略,制定合理的产品营销策略,优化促销活动。

        数据挖掘在未来的发展趋势上,在我看来,Web 网路中数据挖掘的应用,特 别是在互联网上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘,从 而建立强大的数据挖掘引擎与数据挖掘服务市场。融合各种异构数据的挖掘技术, 加强对各种非结构化数据的开采,如对文本数据,图形数据,视频图像数据,声 音数据乃至综合多媒体数据的开采。

       数据挖掘是一个新兴的领域, 具有广阔应用前景,随着计算机的处理能力 的日益强大,你能获得的数据量越大,你能挖掘到的价值就越多。实验的不断反 复、大数据的日渐积累让人类发现规律,预测未来不再是科幻电影里的读心术。 推动数据掘技术的深入发展和广泛应用,创造出更多的社会和经济价值。