2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

点击查看全文


大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

实验背景介绍

了解更多2017杭州·云栖大会 TechInsight & Workshop.

本手册为云栖大会Workshop《云计算·大数据:海量日志数据分析与应用》的《数据采集:日志数据上传》篇而准备。主要为保障各位学员在workshop当天能够顺畅进行动手实操,那么本节为学员掌握阿里云数据采集的操作和使用。

实验涉及大数据产品

实验环境准备

必备条件:首先需要确保自己有阿里云云账号并已实名认证。详细点击:

开通大数据计算服务MaxCompute

若已经开通和购买了MaxCompute,请忽略次步骤直接进入创建Data IDE项目空间。

  • step1:进入阿里云官网并点击右上角登录阿里云账号。
    2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

  • step2:点击进入数加 · MaxCompute产品详情页,点击**立即开通**。

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

  • step3:选择 按量付费,且选择 华东2(上海) Region* 点击 *立即购买 。 2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

创建Data IDE项目空间

确保阿里云账号处于登录状态。

  • step1:点击进入大数据(数加)管理控制台>大数据开发套件tab页面下。
  • step2:点击**创建项目**,跳出创建项目对话框。 2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇
  • step3:勾选**付费方式**为I/O后付费,填写**项目名称**及相关信息,点击**确定**,直至返回创建成功状态。 2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

项目名需要字母或下划线开头,只能包含字母下划线和数字。
【注意】项目名称全局唯一,建议大家采用自己容易区分的名称来作为本次workshop的项目空间名称。

进入大数据开发套件

确保阿里云账号处于登录状态。

  • step1:点击进入大数据开发套件**项目列表**。

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

  • step2:点击已经创建的项目空间名称,进入大数据开发套件。

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

新建数据源

根据workshop模拟的场景,需要分别创建FTP数据源和RDS数据源。

1.新建FTP数据源
  • step1:点击**数据集成>数据源管理**,继而点击**新增数据源**。

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

  • step2:选择数据源类型ftp,同时Protocol选择为sftp,其他配置项如下。

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

FTP数据源配置信息如下:

  • 数据源名称:ftp_workshop_log
  • 数据源描述:ftp日志文件同步
  • 数据源类型:ftp
  • 网络类型:经典网络
  • Protocol:sftp
  • Host:10.80.177.33
  • Port:22
  • 用户名/密码:workshop/workshop
  • step3:点击**测试连通性**,连通性测试通过后,点击**确定**保存配置。

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

2.新建RDS数据源
  • step1:点击**数据集成>数据源管理**,继而点击**新增数据源**。

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

  • step2:选择数据源类型为**RDS>mysql**并完成相关配置项。

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

RDS数据源配置信息如下:

  • 数据源名称:rds_workshop_log
  • 数据源描述:rds日志数据同步
  • 数据源类型:RDS > Mysql
  • RDS实例名称:rm-bp1z69dodhh85z9qa
  • RDS实例购买者ID:1156529087455811
  • 数据库名:workshop
  • 用户名/密码:workshop/workshop#2017
  • step3:点击**测试连通性**,连通性测试通过后,点击**确定**保存配置。

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

创建目标表

  • step1:点击**数据开发**,进入数据开发首页中点击**新建脚本**。

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

  • step2:配置文件名称为create_table_ddl,类型选择为ODPS SQL,点击**提交**。

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇

  • step3:编写DDL创建表语句,如下分别创建FTP日志对应目标表和RDS对应目标表.


点击查看全文

2017杭州·云栖大会---大数据workshop:《云数据·大计算:海量日志数据分析与应用》之《数据采集:日志数据上传》篇