海量数据计算应该如何选择数据库

背景

随着大数据的应用越来越广泛,应用的行业也越来越低,我们每天都可以看到大数据的一些新奇的应用,从而帮助人们从中获取到真正有用的价值。在阿里云的云数据库RDS版中,提供了大数据计算服务(MaxCompute,原名ODPS),它是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。通过数据集成服务,可将 RDS 数据导入 MaxCompute,实现大规模的数据计算。下面以 MaxCompute RDS 搭配为例介绍大数据应用计算方案。

前提

需开通 MaxCompute 服务,并完成项目设置。

需开通数据集成服务

 

操作步骤

 

   1. 登录 RDS 管理控制台,选择目标实例。

   2. 在 RDS 实例上增加数据集成的白名单。

   海量数据计算应该如何选择数据库

   3.登录 MaxCompute 管理控制台,创建 MaxCompute 数据表。

海量数据计算应该如何选择数据库

4. 登录 数据集成管理控制台,设置 RDS 源库和 MaxCompute 目标库信息。

海量数据计算应该如何选择数据库

5 设置数据集成同步字段。

海量数据计算应该如何选择数据库

6.设置数据集成速度与出错控制。

海量数据计算应该如何选择数据库

7. 完成设置后,将数据导入 MaxCompute。

 

8.登录 MaxCompute 管理控制台,执行查询操作,如下图所示。

海量数据计算应该如何选择数据库


参考

基于MaxCompute的大数据计算