大数据这么火,什么是大数据呢?-大萝卜博客网
大数据”是一个术语,用来描述一种数据集,它及其庞大、复杂,以至于畅通的数据处理应用程序难以应对。术语“大数据”通常指的是应用预测分析、用户行为分析或者某些其他从数据中提取有价值信息的高级数据分析方法,并不是专指某特定规模的数据集。
——维基百科
大数据的概念
根据维基百科所说的大数据由巨型数据集组成,主要从两个方面解释了“大数据”的概念:
- 满足“大数据”首先要数据量巨大,巨大到什么程度哪?就是传统的数据处理程序难以应付的程度。(但依然没有明确一个量化的概念,TB级,PB级,还是很模糊的概念)但我认为“大”只是大数据的表象,还有更深层次的东西。
- “大数据”指只通过收集到的一些数据(信息)进行一些分析,预测提取更有价值的信息的方法行为。
所以,“大数据”不仅仅指“大”的数据集;它要是具有足够的规模、足够的维度的的数据量的数据集,可以基于此数据集进行一些预测、分析及更有价值的信息提取。
截至2012年,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等
根据网络信息所说美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油 由此可见大数据在现在有着什么样的地位
具体应用
1. 抖音
抖音是我们现在人人都会在用的短视频软件,根据抖音官方统计,抖音每日产生的数据量为20TB上下,想一想我们现在的一台笔记本电脑基本容量为1TB 照这么说来抖音一日产生的数据量大约是20个笔记本的硬盘大小的总和,面对这么庞大的数据量,任何高性能的计算机都对他束手无策!所以对待这些数据,我们就需要用一定的手段,这个手段统称为大数据技术.
大数据特性 "4V"
- Variety 多样性
指多种数据源多样,数据类型多样包括结构化数据、非结构化数据; - Velocity 时效性
指在大数据背景下,具有快速分析处理数据的能力。这个V的意义在于能够基于现有数据迅速做出决策。 - Volume 海量性
指只有基于海量的数据样本,才能推导出有意义的结论。 - Veracity 准确性
指要控制数据的质量,保证数据的可靠和准确,才能保证分析出有意义的结果。
注:以前之前三个V,后来IBM提出了第4个V,在可能出现各种散布的假新闻,社交媒体充斥着虚假信息,在收集数据时对数据渠道的可靠性与准确性的验证尤为重要。
市场
大数据的出现提升了对信息管理专家的需求,Software AG、Oracle、IBM、微软、SAP、易安信、惠普和戴尔已在多间数据管理分析专门公司上花费超过150亿美元。在2010年,数据管理分析产业市值超过1,000亿美元,并以每年将近10%的速度成长,是整个软件产业成长速度的两倍。
经济的开发成长促进了密集数据科技的使用。全世界共有约46亿的移动电话用户,并有10至20亿人链接互联网。自1990年起至2005年间,全世界有超过10亿人进入中产阶级,收入的增加造成了识字率的提升,更进而带动信息量的成长。全世界透过电信网络交换信息的容量在1986年为281兆亿字节(PB),1993年为471兆亿字节,2000年时增长为2.2艾字节(EB),在2007年则为65艾字节。根据预测,在2013年互联网每年的信息流量将会达到667艾字节!
小结
微博、天猫、淘宝、微信等等都直接产生了大量包括定位、消息记录、消费记录、评价、阅读等等殊为庞大的信息,可以说互联网企业都自然的带有数据企业的标签。不过如果我们从数据的源头看的更仔细一些,还是会发现,其实很多数据依然是有巨大的采集与归类的需求。
据野史记载,中亚古国花剌子模有一古怪的风俗,凡是给君王带来好消息的信使,就会得到提升,给君王带来坏消息的人则会被送去喂老虎。从前的人喜欢批评这位君王的天真品性,以为奖励带来好消息的人,就能鼓励好消息的到来,处死带来坏消息的人,就能根绝坏消息。
在今天这个信息爆炸的时代,我们不一定能让信使一定送来好消息,但你可以让我们的爬虫定时给你送来最有用最合你需求的信息。
IBM对维基百科的编辑纪录数据进行可视化的呈现。维基百科上总计数兆字节的文字和图片正是大数据的例子之一