阿里datax

阿里云开源离线同步工具DataX3.0介绍 
一. DataX3.0概览 
​ DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
 

阿里datax

  ● 设计理念 
为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。 
  ● 当前使用现状 
DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8w多道作业,每日传输数据量超过300TB。 
此前已经开源DataX1.0版本,此次介绍为阿里云开源全新版本DataX3.0,有了更多更强大的功能和更好的使用体验。Github主页地址:https://github.com/alibaba/DataX。
 

介绍多的不说了官网介绍比较详细,本文主要介绍xdata在windows系统的部署和使用 

二.如何使用 
安装好jdk和python配置好环境变量 
下载datax 

解压后目录为 


阿里datax


示例  oracle库赋值到oracle库 
1.配置job的json 
Java代码  阿里datax
  1. {  
  2.     "job": {  
  3.         "setting": {  
  4.             "speed": {  
  5.                 "channel"3  
  6.             }  
  7.         },  
  8.         "content": [  
  9.             {  
  10.                  "reader": {  
  11.                     "name""oraclereader",  
  12.                      "parameter": {  
  13.                         "column": ["",""],  
  14.                         "connection": [  
  15.                             {  
  16.                                 "jdbcUrl": [  
  17.                                     "jdbc:oracle:thin:@192.10.1:1521:orcl"  
  18.                                 ],  
  19.                                  "table": [  
  20.                                     ""  
  21.                                 ],  
  22.                             }  
  23.                         ],  
  24.                         "username""",  
  25.                         "password""",  
  26.                     }  
  27.                 },  
  28.                 "writer": {  
  29.                     "name""oraclewriter",  
  30.                     "parameter": {  
  31.                         "username""",  
  32.                         "password""",  
  33.                          "column": [""""],  
  34.                         "preSql": [  
  35.                            "truncate table "  
  36.                         ],  
  37.                         "connection": [  
  38.                             {  
  39.                                 "jdbcUrl""jdbc:oracle:thin:@127.0.0.1:1521:liuxu",  
  40.                                 "table": [  
  41.                                     ""  
  42.                                 ]  
  43.                             }  
  44.                         ]  
  45.                     }  
  46.                 }  
  47.             }  
  48.         ]  
  49.     }  
  50. }  

2.执行 

阿里datax

3.查看结果 

阿里datax