数据仓库概念和项目架构

最近跟着尚硅谷做一个数据仓库项目,想以此项目来检验自己过去这段时间学习大数据技术的成果并以此提升自己,通过文章的方式记录自己做项目的过程,在项目中遇到的问题及解决过程,我都会记录在文章中,希望同时能帮到更多有需要和一起学习的朋友们,同时非常感谢尚硅谷非常慷慨地免费分享学习教程,想要教程的朋友们也可以去尚硅谷官网领取哦!

  • 数据仓库概念
    先来看教程的定义:
    数据仓库概念和项目架构
    再来说说我自己的理解:
    数据仓库就是存储了非常大的数据量的一个仓库。首先,数据从哪来?数据来源可以是业务数据或者是用户行为数据。业务数据就是在网站或者app上和登录、订单、商品、支付相关的数据;用户行为数据就是用户和app或者是网站交互产生的数据,例如点击、浏览、搜索等动作。数据仓库通过采集这些数据回来,把数据存储到数据仓库。接下来就可以对数据进行分析,可以用来做报表、用户画像、推荐系统、风控等操作,分析之后的结果可以帮助企业提供决策。

  • 项目架构
    项目架构图:
    数据仓库概念和项目架构
    数据流程图:
    数据仓库概念和项目架构
    由于我缺乏真是的app或者网站数据,所以日志数据只能通过代码进行生成。数据生成后直接给Flume采集。
    我采用的集群式Apache版的,3台虚拟机,各2核3g内存,集群的配置情况如下表格:
    数据仓库概念和项目架构
    集群配置情况如下:
    数据仓库概念和项目架构