dataX3.0安装使用手册精品文档DataX3.0使用手册目录一、 dataX概述 11 dataX作用 12 DataX3.0框架设计 23 DataX3.0插件体系 2二、 dataX安装 31 创建用户组及用户 32 环境变量配置 43 安装python 4三、 dataX使用 41 生成配置文件模板 42 配置定时任务 73 常见问题及处理 8四、 dataX插件开发及安装 81. Reader插件开发 82. Writter插件开发 93. 插件部署 10一、 dataX概述1 dataX作用DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步2 DataX3.0框架设计DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。
将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中Reader:Reader为数据采集模块,负责采集数据源的数据,将数据发送给FrameworkWriter: Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端Framework:Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题3 DataX3.0插件体系类型数据源Reader(读)Writer(写)RDBMS 关系型数据库MySQL√√Oracle√√SQL Server√√PostgreSQL√√达梦√√通用RDBMS(支持所有关系型数据库)√√阿里云数仓数据存储MaxCompute(原ODPS)√√Analytic DB(原ADS)√OSS√√云数据库Memcache版(原OCS)√√Hive√NoSQL数据存储Table Store(原OTS)√√Hbase0.94√√Hbase1.1√√MongoDB√√无结构化数据存储TxtFile√√JsonFile√FTP√√HDFS√√二、 dataX安装1 创建用户组及用户root@hmaster-hdfs:/home/ubuntu# groupadd dataxroot@hmaster-hdfs:/home/ubuntu# useradd -g datax datax -m -d /home/dataxroot@hmaster-hdfs:/home/ubuntu# passwd dataxEnter new UNIX password: Retype new UNIX password: passwd: password updated successfullyroot@hmaster-hdfs:/home/ubuntu# usermod -G adm -a dataxroot@hmaster-hdfs:/home/ubuntu# su - dataxdatax@hmaster-hdfs:~$ iduid=1004(datax) gid=1000(ubuntu) groups=1000(ubuntu),4(adm),1002(datax)2 环境变量配置export JAVA_HOME=/usr/java/jdk1.7.0_80export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=$JAVA_HOME/binexport LANG=zh_CN.UTF-83 安装pythondatax@hmaster-hdfs:/home/ubuntu$ pythonPython 2.7.6 (default, Jun 22 2015, 17:58:13) [GCC 4.8.2] on linux2Type "help", "copyright", "credits" or "license" for more information.三、 dataX使用1 生成配置文件模板命令:bin/python datax.py -r {YOUR_READER} -w {YOUR_WRITER}案例1:mysqlreader-> mysqlwriterdatax@hmaster-hdfs:~/datax3/datax/bin$ python datax.py -r mysqlreader -w mysqlwriterDataX (DATAX-OPENSOURCE-1.0), From Alibaba !Copyright (C) 2010-2015, Alibaba Group. All Rights Reserved.Please refer to the mysqlreader document: Please refer to the mysqlwriter document: Please save the following configuration as a json file and use python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json to run the job.{ "job": { "content": [ { "reader": { "name": "mysqlreader", "parameter": { "column": [], "connection": [ { "jdbcUrl": [], "table": [] } ], "password": "", "username": "", "where": "" } }, "writer": { "name": "mysqlwriter", "parameter": { "column": [], "connection": [ { "jdbcUrl": "", "table": [] } ], "password": "", "preSql": [], "session": [], "username": "", "writeMode": "" } } } ], "setting": { "speed": { "channel": "" } } }}案例2:jsonfilereader-> hbasewriterdatax@hmaster-hdfs:~/datax3/datax/bin$ python datax.py -r jsonfilereader -w hbasewriter DataX (DATAX-OPENSOURCE-1.0), From Alibaba !Copyright (C) 2010-2015, Alibaba Group. All Rights Reserved.Please refer to the jsonfilereader document: Please refer to the hbasewriter document: Please save the following configuration as a json file and use python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json to run the job.{ "job": { "content": [ 。