浅谈大数据

最近给学校做智慧校园规划,最多想到的就是大数据,大数据就是一切的基础,在我的脑海中原始的理解大数据就是一个大型的数据库,和以前做的应用软件的数据库一样,只是存储的数据更多所以叫大数据,随着自己深入的研究发现以前的理解有太多的误区,分析一下自己理解的 大数据,加深一些理解,也希望得到一些指点。

大数据平台的主要是要理解数据流向和应用。首先大数据中需要的是数据仓库,数据仓库会对所有的源数据进行存储,保证数据的完整性、准确性,能够追本溯源;其次需要的是对所有的原始数据进行处理,包括数据的清洗和转化,对清洗和转化后的数据进行分类的存储到数据集市(最复杂的过程),从ODS采集数据,到DW层分区对数据进行处理;最后根据存储在数据中心的数据,为上层应用提供服务。

看的有点蒙圈,其实总的来说要弄懂大数据只需要理解大数据中的一些数据的基础概念和大数据的分层,就能有比较直观的概念了。

数据分类

元数据:元数据是数据的数据类型,例如:人的性别是一个实体数据,那么对性别来说是可以固定分为男和女两类的,那么男和女就是性别的元数据。

主数据:所谓主数据就是实体的属性数据,比如:人(姓名、性别、年龄、电话等)是对实体的一种描述,一般来说是不会变化的,或者变化后需要及时更新共享的。

交易数据:交易型数据指的是实体的一些行为数据,往往会携带很明显的时间属性,例如:老师在上课的时候进行了签到,于是有一条老师上课的签到记录,就是交易型的数据,对应的老师的个人信息和课程的基础信息就是主数据。

源数据:源数据可以简单的从字面理解,就是来自源头的数据,最原始的数据,包括各大系统中的元数据、主数据、交易型数据。

数据仓库分层

ODS:临时存储层,该层主要是完成源数据的数据汇集,也就是将所有系统的原有的数据库的所有数据同步到数据仓库中,并根据原有的系统进行分域的存储。

DWD:细节数据层,该层主要完成的是数据处理,也就是将ODS中的数据进行清洗的数据,由于数据来自各个系统,系统中主数据和元数据定义的有差别,那么通过主数据管理系统,统一数据的来源口径,保证数据的一致性,将按唯一的主数据、元数据转化的数据分域的进行存储,这个时候存储的数据也就是我们的原始数据,我们称之为细节数据,同时我们需要对所有的用户行为数据进行标签标记。

DWB:基础数据层(也叫指标数据层),该层级主要是对细节数据层中数据进行统计,统计计算出的数据进行存储,例如:一个老师本学期完成的课程总数。这些数据是实时的也是客观的。

DWS:服务数据层,该层主要是通过DWA对DWB中的基础 数据进行分析,推导出一些宽表和趋势分析图。

数据集市:根据不同的用户群体划分的微型数据仓库,且相互之间不关联,能够直接微对应的用户群体提供各层数据,多个数据集市组合成数据仓库;建设数据集市时是需要根据对应的用户群体的业务需求进行建模的,包括为对应群体完成查询和报表制作、多维分析以及数据挖掘等功能。

DWA:属于比较特殊的模块,它是有硬件和软件两部分组成的,根据软件提供的数据分析的算法和硬件提供的CPU计算能力,为客户提供大数据的分析能力。

 

理解的不是很透彻的数据集市

对应的数据集市建立主要分两步:

1.主题域分析

浅谈大数据

 

2.表结构设计

浅谈大数据

浅谈大数据

 

 

(1)    事实表
       事实表描述数据集市中最密集的数据。在电话公司中,用于呼叫的数据是典型的最密集数据;在银行中,与账目核对和自动柜员机有关的数据是典型的最密集数据。对于零售业而言,销售和库存数 据是最密集的数据等等。 
       事实表是预先被连接到一起的多种类型数据的组合体,它包括:一个反映事实表建立目的的实体的主键,如一张订单、一次销售、一个电话等等,主键信息,连接事实表与维表的外键,外键携带的非键值外部数据。如果这种非键外部数据经常用于事实表中的数据分析,它就会被包括在事实表的范围内。事实表是高度索引化的。事实表中出现30到40条索引非常常见。有时实事表的每列都建了索引,这样作的结果是使事实表中的数据非常容易读取。但是,导入索引所需的资源数量必须为等式提供因数。通常,事实表的数据不能更改,但可以输入数据,一旦正确输入一个记录,就不能更改此记录的任何内容了。 
(2)    维表
       维表是围绕事实表建立的。维表包含非密集型数据,它通过外键与事实表相连。典型的维表建立在数据集市的基础上,包括产品目录、客户名单、厂商列表等等。 
       数据集市中的数据来源于企业数据仓库。所有数据,除了一个例外,在导入到数据集市之前都应该经过企业数据仓库。这个例外就是用于数据集市的特定数据,它不能用于数据仓库的其他地方。外部数据通常属于这类范畴。如果情况不是这样,数据就会用于决策支持系统的其他地方,那么这些数据就必须经过企业数据仓库。 
       数据集市包含两种类型的数据,通常是详细数据和汇总数据。 
(3)    详细数据
       数据集市中的详细数据包含在星型结构中。当数据通过企业数据仓库时,星型结构就会很好的汇总。在这种情况下,企业数据仓库包含必需的基本数据,而数据集市则包含更高间隔尺寸的数据。但是,在数据集市使用者的心目中,星型结构的数据和数据获取时一样详细。
(4)    汇总数据
       数据集市包含的第二种类型数据是汇总数据。分析人员通常从星型结构中的数据创建各种汇总数据。典型的汇总可能是销售区域的月销售总额。因为汇总的基础不断发展变化,所以历史数据就在数据集市中。但是这些历史数据优势在于它存储的概括水平。星型结构中保存的历史数据非常少。 
       数据集市以企业数据仓库为基础进行更新。对于数据集市来说大约每周更新一次非常平常。但是,数据集市的更新时间可以少于一周也可以多于一周,这主要是由数据集市所属部门的需求来决定的。