一、大数据hadoop体系开篇,大数据介绍概况及架构图

      记得第一次接触“大数据”的概念,是在2017年的时候,记得当时大数据好像第一次火遍全国,甚至我所在的边疆省份的二线城市也燃起了大数据的星星之火;那时正好有个机会,公司和大学合作,要开展大数据的免费公开实战课,于是自学了一个月的大数据(离线部分),并且在接下来的三个月里,给大概几百个孩子讲了关于大数据的内容。

    过了那个阶段之后,在企业中做售前和部分解决方案的工作,大数据的学习就暂时告一段落了。直到最近,发现自己到了瓶颈、没法突破,才意识到技术上已经欠缺了许多;于是有了到目前为止近一个月的技术恶补。

     闲话就到这,接下来本人更新的所有博客、文章内容,应该都会和java、大数据、机器学习、深度学习、项目管理等等方面有关系吧。

    书归正传,开始第一篇大数据文章:

一、什么是大数据

大数据是指无法在一定时间范围内用常规软件、工具 进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

(通俗可以解释成:量很大的数据,就是大数据(PB级别:人类所有的印刷材料的数据量大概是200PB、全人类中国说过的话大概5EB))

二、大数据的特点4V

1、大量(Volume): 到目前,人类所有的印刷材料的数据量大概是200PB、全人类中国说过的话大概5EB;

2、高速(Velocity):这是大数据区别传统数据挖掘的组主要特征;根据IDC的预测,到2020年,全球数据使用量将达到35.2ZB,在如此海量数据面前,效率就是企业的生命。(通俗讲,就是我们的大数据的技术,在处理海量数据时,处理速度比传统的关系型数据库要快)

3、多样性(Variety):大数据包括:结构化数据(数据库表结构)、半结构化数据(日志log)、非结构化数据(音频、视频资料等)

4、低价值密度(Value):价值密度的高低和数据总量成反比。(相当于在大量的数据当中,有价值的数据稀疏的分布在其中,我们要通过数据挖掘技术,把有价值的数据提取出来(eg:80TB的总数据,一共有10MB有价值的)。)

三、大数据的应用场景

1、物流仓储: eg:我们买东西的时候,总是能从我们“本地仓”发货(但是当我们买比较偏门的东西的时候,就需要拆单(外地仓发那个偏门的货品)了)

2、零售:分析用户消费习惯,为用户购买商品提供方便,从而提升商品销量,经典的 : 啤酒+尿不湿;

3、商品推荐: eg:网上购买宝宝玩具后,推荐少儿图书、各种其他玩具等;

4、旅游:eg:旅游交通,什么时段 哪里会堵车,"削峰";

5、保险:海量数据挖掘及风险预测,助力保险精准营销、提升精细化定价能力;

6、金融:多维度分析和展现用户特征,帮助金融机构判定用户是否为优质客户,降低风险;

7、房产:选更适合的地段、建设更适合的楼房,卖给更适合的人;

8、人工智能(AI):阿尔法狗vs柯洁;餐饮机器人、自动驾驶... ... 

四、大数据发展前景

    党的十八大提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。

     这个感触倒是不深,但现在聊个技术话题,不会点算法、大数据的知识,都不好意思说自己是干java的。。。 。。。

五、大数据的架构

1、先看看大数据的部门组织结构图吧:

一、大数据hadoop体系开篇,大数据介绍概况及架构图

2、接下来是架构图:
一、大数据hadoop体系开篇,大数据介绍概况及架构图