关于数据仓库不得不说的事儿

对于大多数非从业者或者初学者来说，数据仓库（Data Warehousing）与数据挖掘（Data Mining）是很容易混淆的两个概念。有个形象的比喻说：如果把数据仓库比做一个大型的矿坑，那么数据挖掘就是入坑采矿的工作，数据挖掘需要有非常好的数据基础，没有丰富完整的数据，是挖掘不出好内容的。数据仓库可以说是数据挖掘最理想的地基。

数据仓库

要将非常庞大又复杂的数据转化成有用的信息，首先需要做的是有效率地收集数据，于是数据仓库应运而生。数据仓库是一个环境，而不是一件产品；数据仓库是面向主题的、集成的、相对稳定的、随时间不断变化（不同时间）的数据集合，提供用户用于决策支持的当前和历史数据。数据仓库技术是为了有效的把操作型数据集成到统一的环境中，以提供决策型数据访问的各种技术和模块的总称。

根据这个定义，数据仓库也可看成是某个组织的数据存储库，用于支持战略决策。数据仓库的功能是以集成的方式存储某组织的历史数据，来反应这个组织和企业的多个方面。数据仓库中的数据永远不会更新，仅用于相应终端用户的查询。一般来说，数据仓库非常的大，存储了数以亿计的记录。

数据仓库的数据全部来源于外部，它本身并不“生产”任何数据，同时自身也不需要“消费”任何数据。在数据架构上面，数据仓库通常采用层次化的模型架构，这种模式成本最低，基础数据和应用指标的一致性最好。

虽然存在数据仓库并不是数据挖掘的先决条件，但实际上，若能访问数据仓库，数据挖掘的任务就会变得容易的多。数据仓库的主要目标是增加决策过程的“情报”和此过程的相关人员的知识。

从业务数据库到数据仓库的的转化过程中，需要运用到ETL技术（extract提取、transform转换、load加载）。在整个数据仓库的构建中，ETL工作占整个工作的50%-70%。

ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后，进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘提供决策支持的数据。

在业务背景中，用户需要通过构建海量历史数据的区域，海量结构化的存储、管理和查询分析服务，来满足数据的归档、即时在线查询以及离线统计分析需求
巨龙大数据集成管理系统——高效的ETL抽取工具

巨龙大数据集成管理系统，是基于云计算和分布式存储之上的ETL抽取工具，采用标准化、规范化的抽取模式，实现对结构化、半结构化、非结构化资源的统一抽取、整合、加工、转化、和装载。

产品架构图

产品特点

全面适配主流大数据库技术的ETL任务

关于数据仓库不得不说的事儿

相关推荐