新增数据导出DB
数据导出DB是指通过sqoop插件把HDFS系统或者Hive数据库中的数据导出到传统关系型数据库(mysql/oracle/sqlserver/db2)。
新增一条Sqoop连接记录,设置导出目标和源,配置数据导出规则。保存后可在工作流中以Sqoop脚本形式调用。
相关参数说明:
字段 | 说明 |
基本信息 | |
资源名称 | 数据导出的业务名称。 |
导出方式 | 数据从Hive或HDFS中导出。 |
导出目标 | 导出的数据源的类型,目前支持的类型包括Oracle、MySQL、SQLServer和DB2四种关系型数据库。 |
源 | |
数据源 | 加载出配置中心配置的类型为hive的资源名称。选择待导出数据存储的Hive源。 |
数据库 | 根据所选的Hive目标源,加载出该项目有权限的所有数据库名称。选择待导出数据存储的Hive库。 |
表名 | 根据选择的Hive目标库,加载出该库下有权限的所有表名。选择待导出数据存储的Hive表。 |
过滤规则 | Hive表导出数据时的过滤规则。支持动态参数,参数可由工作流传入。可用于分区表按分区导出数据,如:year=${yyyy} and month=${mm}。 |
源导出地址 | Hdfs的绝对路径,待导出数据存储的目录。 |
目标 | |
目标源 | 加载出配置中心配置的类型为hive的资源名称。 |
目标表 | 根据所选的Hive目标源,加载出该项目有权限的所有数据库名称。同时可以输入动态后缀,如日期变量${yyyy-mm-dd},导入以分表方式存储的源数据。 |
高级设置 | |
更新模式 | 选择更新方式“仅更新”、“允许插入”。仅更新:生成update语句然后执行;允许插入:生成upinsert语句然后执行。说明:SQLserver和DB2不支持允许插入选项。 |
更新属性 | 更新时的参考字段。 |
行分隔符 | 默认是\n,用户可自由更改。 |
列分隔符 | Hive默认是“\001”,hdfs默认是“,”,用户可自由更改。 |
扩展参数 | 执行sqoop时需要的参数,如-m1等。 |
队列 | 指定执行该数据导出任务的队列。 |
配置完成后,执行sqoop操作验证配置是否成功。当分区值为变量时,执行Sqoop时需要输入分区变量值。过程日志:点击执行按钮可以查看过程日志;结果日志:执行完成后查看结果日志。可以查看是否导出成功。
图 执行Sqoop导出数据
编辑数据导出DB
编辑数据导出DB的配置
删除数据导出DB
删除数据导出DB的配置。
查询数据导出DB
可以根据资源名称,数据源名称查询,支持模糊查询。
图 查询数据导出DB