Hadoop的起源与知识背景

1大数据的定义


         大数据(Big Data), 又称为巨量资料,指无法在一定时间范围内用常规软件工具进行捕授,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力流程优化能力的海量、增长率和多样化的信息资产


         大数据由巨型数据集组成,这些数据集大小常超出入类在可接受时间下的收集、管理和处理能力。大数据的大小经常改变,截至2012年, 单一数据集的大小从数太字节(TB)至数十亮纪字节(FB)不等。
         在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格、贺尼(DogLaney)指出数据增长的挑战和机遇有三个方向: (Volume,数据大小)、(通入Velocity, 数据输入输出的速度)与步(Variety,多样性),合称“3V" 或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、 高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理。“另外,有机构在3V之外定义第4个V:近真实性(Veracity) 为第四特点。
         大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油,数据挖掘(data mining)则是在探讨用以解析大数据的方法。
大数据的应用示侧包括大科学、RFID,感游设备网络、天文学、大气学、交通运输、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、医疗大数据,社交网络、通勤时间预测、医疗记录、照片图像和视频封存、  军事侦查、金融大数据,是具体的使用场景。  大规模的电子商务等。

  • 巨大科学
  • 科学研究
  • 民间部门
  • 社会学

二.  现如今,大数据的五个特征(IBM提出):

         1.Volume    大量

         2.Velocity    高速

         3.Variety      多样

         4.Value        价值

         5.Veracity    真实性

 

三.运用大数据技术典型的案例:

 

1.电商网站的商品推荐

Hadoop的起源与知识背景

 

2.基于大数据的天气预报

 

Hadoop的起源与知识背景

 

 

 

                                                                                                                        ————保持饥饿,保持学习

                                                                                                                                               Jackson_MVP