2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇
大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇
实验背景介绍
了解更多2017杭州·云栖大会 TechInsight & Workshop.
本手册为云栖大会Workshop《云计算·大数据:海量日志数据分析与应用》的《数据采集:日志数据上传》篇而准备。主要为保障各位学员在workshop当天能够顺畅进行动手实操,那么本节为学员掌握阿里云数据采集的操作和使用。
实验涉及大数据产品
- 大数据计算服务 MaxCompute
- 大数据开发套件 Data IDE
实验环境准备
必备条件:首先需要确保自己有阿里云云账号并已实名认证。详细点击:
开通大数据计算服务MaxCompute
若已经开通和购买了MaxCompute,请忽略次步骤直接进入创建Data IDE项目空间。
创建Data IDE项目空间
确保阿里云账号处于登录状态。
- step1:点击进入大数据(数加)管理控制台>大数据开发套件tab页面下。
- step2:点击**创建项目**,跳出创建项目对话框。
- step3:勾选**付费方式**为I/O后付费,填写**项目名称**及相关信息,点击**确定**,直至返回创建成功状态。
项目名需要字母或下划线开头,只能包含字母下划线和数字。
【注意】项目名称全局唯一,建议大家采用自己容易区分的名称来作为本次workshop的项目空间名称。
进入大数据开发套件
确保阿里云账号处于登录状态。
- step1:点击进入大数据开发套件**项目列表**。
- step2:点击已经创建的项目空间名称,进入大数据开发套件。
新建数据源
根据workshop模拟的场景,需要分别创建FTP数据源和RDS数据源。
1.新建FTP数据源
- step1:点击**数据集成>数据源管理**,继而点击**新增数据源**。
- step2:选择数据源类型ftp,同时Protocol选择为sftp,其他配置项如下。
FTP数据源配置信息如下:
- 数据源名称:ftp_workshop_log
- 数据源描述:ftp日志文件同步
- 数据源类型:ftp
- 网络类型:经典网络
- Protocol:sftp
- Host:10.80.177.33
- Port:22
- 用户名/密码:workshop/workshop
- step3:点击**测试连通性**,连通性测试通过后,点击**确定**保存配置。
2.新建RDS数据源
- step1:点击**数据集成>数据源管理**,继而点击**新增数据源**。
- step2:选择数据源类型为**RDS>mysql**并完成相关配置项。
RDS数据源配置信息如下:
- 数据源名称:rds_workshop_log
- 数据源描述:rds日志数据同步
- 数据源类型:RDS > Mysql
- RDS实例名称:rm-bp1z69dodhh85z9qa
- RDS实例购买者ID:1156529087455811
- 数据库名:workshop
- 用户名/密码:workshop/workshop#2017
- step3:点击**测试连通性**,连通性测试通过后,点击**确定**保存配置。
创建目标表
- step1:点击**数据开发**,进入数据开发首页中点击**新建脚本**。
- step2:配置文件名称为create_table_ddl,类型选择为ODPS SQL,点击**提交**。
- step3:编写DDL创建表语句,如下分别创建FTP日志对应目标表和RDS对应目标表.