数据采集与预处理技术考点复习——第三、四章
第三章:大数据采集架构
1. 简述多级Flume架构
Flume Agent包括Sourse、Channel、Sink
- Sourse:接收数据并将接收的数据进行封装,然后传递给一个或多个通道(Channel)支持http、jms、rpc、NetCat、Exec、Spooling、Directory。
- Channel:暂时的存储容器,将从Source处接受到的数据缓存起来,可以存放在memory、jdbc、file等
- Sink:读取数据并发送给下一个Agent或者最终的目的地。目的地包括hdfs、logger、avro、thrift、ipc、file、null、hbase、solr、自定义
2. 简述Kafka数据采集架构
Kafka包括Consumers、Broker、Producers
- Consumers:消息接收者,可以订阅一个或多个话题,接收Broke发送的数据
- Broker:服务代理,组成Kafka集群并保存已发布的消息
- Producers:消息发布者,能够发布消息到Topics进程(Topics:消息的分类名)
3. Topic可以分很多区,这些分区有什么作用
作为并行处理单元,使Kafka有能力高效的处理大量数据
第四章:大数据迁移技术
1. 基于同构存储的数据迁移和基于异构存储的数据迁移差别有哪些
- 同构存储的数据迁移是利用其自身复制技术,实现磁盘或卷LUN的复制
- 异构存储的数据迁移是通过存储自身的虚拟化管理技术,实现对不同品牌存储的统一管理及内部复制,从而实现数据迁移
2. ETL构建数据仓库包含哪些关键流程
- 确定主题
- 确定量度
- 确定事实数据粒度
- 确定维度
- 创建事实表
3. 简述Sqoop的数据导入和数据导出的过程
导入流程:
(1)读取要导入数据的表结构
(2)读取参数,设置好job
(3)调用mapreduce执行任务
- 对数据进行切分
- 写入范围,以便读取
- 读取范围参数(第二步中设置的参数)
- 创建RecordReader并从数据库中读取数据
- 创建map
- 执行map
导出流程:
导入过程的逆向过程
4. 查阅相关资料,利用Kettle实现数据迁移