关于数据仓库不得不说的事儿
对于大多数非从业者或者初学者来说,数据仓库(Data Warehousing)与数据挖掘(Data Mining)是很容易混淆的两个概念。有个形象的比喻说:如果把数据仓库比做一个大型的矿坑,那么数据挖掘就是入坑采矿的工作,数据挖掘需要有非常好的数据基础,没有丰富完整的数据,是挖掘不出好内容的。数据仓库可以说是数据挖掘最理想的地基。
巨龙大数据集成管理系统——高效的ETL抽取工具
巨龙大数据集成管理系统,是基于云计算和分布式存储之上的ETL抽取工具,采用标准化、规范化的抽取模式,实现对结构化、半结构化、非结构化资源的统一抽取、整合、加工、转化、和装载。
数据仓库
要将非常庞大又复杂的数据转化成有用的信息,首先需要做的是有效率地收集数据,于是数据仓库应运而生。数据仓库是一个环境,而不是一件产品;数据仓库是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,提供用户用于决策支持的当前和历史数据。数据仓库技术是为了有效的把操作型数据集成到统一的环境中,以提供决策型数据访问的各种技术和模块的总称。数据仓库的数据全部来源于外部,它本身并不“生产”任何数据,同时自身也不需要“消费”任何数据。在数据架构上面,数据仓库通常采用层次化的模型架构,这种模式成本最低,基础数据和应用指标的一致性最好。
虽然存在数据仓库并不是数据挖掘的先决条件,但实际上,若能访问数据仓库,数据挖掘的任务就会变得容易的多。数据仓库的主要目标是增加决策过程的“情报”和此过程的相关人员的知识。
ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘提供决策支持的数据。
巨龙大数据集成管理系统——高效的ETL抽取工具
巨龙大数据集成管理系统,是基于云计算和分布式存储之上的ETL抽取工具,采用标准化、规范化的抽取模式,实现对结构化、半结构化、非结构化资源的统一抽取、整合、加工、转化、和装载。
产品架构图
产品特点
全面适配主流大数据库技术的ETL任务