数据采集与预处理技术考点复习——第三、四章

第三章：大数据采集架构

1. 简述多级Flume架构
数据采集与预处理技术考点复习——第三、四章
Flume Agent包括Sourse、Channel、Sink

Sourse：接收数据并将接收的数据进行封装，然后传递给一个或多个通道（Channel）支持http、jms、rpc、NetCat、Exec、Spooling、Directory。
Channel：暂时的存储容器，将从Source处接受到的数据缓存起来，可以存放在memory、jdbc、file等
Sink：读取数据并发送给下一个Agent或者最终的目的地。目的地包括hdfs、logger、avro、thrift、ipc、file、null、hbase、solr、自定义

2. 简述Kafka数据采集架构

Kafka包括Consumers、Broker、Producers

3. Topic可以分很多区，这些分区有什么作用

作为并行处理单元，使Kafka有能力高效的处理大量数据

1. 基于同构存储的数据迁移和基于异构存储的数据迁移差别有哪些

2. ETL构建数据仓库包含哪些关键流程

3. 简述Sqoop的数据导入和数据导出的过程
导入流程：
（1）读取要导入数据的表结构
（2）读取参数，设置好job
（3）调用mapreduce执行任务

导出流程：
导入过程的逆向过程

4. 查阅相关资料，利用Kettle实现数据迁移

转自——利用Kettle实现数据迁移