Sqoop使用简介 - PDF 免费下载

Sqoop Intro... 2 Sqoop Tools... 2 Sqoop 可用工具... 3 Sqoop-import... 3 Common arguments... 4 Validation arguments More Details... 4 Import control arguments... 5 Parameters for overriding mapping... 6 Incremental import arguments... 6 Output line formatting arguments... 6 Input parsing arguments... 6 Hive arguments... 7 语法样例例... 7 Sqoop-import-all-tables... 8 语法样例例... 9 Sqoop-export... 9 Export control arguments... 10 INSERT vs UPDATE... 10 语法样例例... 11 Sqoop-eval... 11 SQL evaluation arguments... 11 语法样例例... 11 Sqoop-list-databases... 12 语法样例例... 12 Sqoop-list-tables... 12 语法样例例... 12 其他... 12

Sqoop Intro Sqoop 工具是设计用于在传统关系型数据库 (RDBMS) 或者大型机 (mainframe) 与 Hadoop 平台之间做数据传输你可以使用 Sqoop 从关系型数据库如 Oracle MySQL, 通过 MapReduce 框架, 将其导入数据到 Hadoop 分布式文件系统, 之后再导出数据到关系型数据库 Sqoop Tools Sqoop 是一组相关工具的集合使用 Sqoop, 需要指定工具名称和相关工具参数 sqoop tool-name [tool-arguments]

Sqoop 可用工具 codegen create-hive-table eval export help 生成与数据库记录交互的代码往 hive 中导入表定义执行行一条 SQL 语句句并显示结果将一个 HDFS 目录的内容导出到一张数据库表中列列出可用的命令 import 将一张表的内容从数据库导入到 HDFS 中 import-all-tables 将一个数据库的所有表导入到 HDFS 中 import-mainframe 将大型机的数据集导入到 HDFS 中 job list-databases list-tables merge metastore version 工作于已保存的作业列列出一台服务器器上所有可用的数据库列列出一个数据库中所有可用的表将增量量导入的结果进行行合并运行行一个独立的元数据库显示版本信息如果希望查询具体工具的帮助信息, 可以使用类似以下的命令 sqoop help codegen Sqoop-import Import 工具, 将一张单独的表从 RDBMS 中导入到 HDFS 表中的每行行数据, 在 HDFS 中显示为每一条单独的记录记录可以保存为文本文件 ( 一行行一条记录 ), 或者为二进制文件, 如 Avro 或者 SequenceFiles

Common arguments --connect <jdbc-uri> --connection-manager <class-name> --driver <class-name> --hadoop-mapred-home <dir> --help --password-file 指定 JDBC 连接串串指定使用的连接管理理类手动指定使用的 JDBC 驱动类使用指定的目录覆盖 $HADOOP_MAPRED_HOME 全局变量量打印使用帮助设置包含认证密码文件的路路径 -P 从控制台读取密码 --password <password> --username <username> --verbose --connection-param-file <filename> --relaxed-isolation 设定认证密码设定认证用户作业工作时打印更更多的详细信息设定一个包含 JDBC 连接串串参数的属性文件可选, 替代在命令行行中输入连接串串信息设置连接的事务隔离, 可以为 mapper 做未提交读 Validation arguments More Details --validate --validator <class-name> --validation-threshold <class-name> --validationfailurehandler <classname> 启动数据复制的校验功能, 仅支持单表拷贝指定使用的校验器器的类指定使用的校验器器阈值的类指定使用的校验器器错误处理理的类

Import control arguments --append --as-avrodatafile --as-sequencefile 往 HDFS 中已存在的目录中添加数据导入的数据保存为 Avro 数据文件导入的数据保存为 SequenceFiles 文件 --as-textfile 导入的数据保存为平面文件 ( 默认 ) --as-parquetfile --boundary-query <statement> --columns <col,col,col > --delete-target-dir --direct --fetch-size <n> --inline-lob-limit <n> -m,--num-mappers <n> -e,--query <statement> --split-by <columnname> --autoreset-to-onemapper --table <table-name> --target-dir <dir> --warehouse-dir <dir> --where <where clause> -z,--compress 导入的数据保存为 Parquet 文件边界查询用于创建分割具体来说, 根据指定的字段, 查询其最大最小值, 用来决定 import 的并发数指定表中需要导入的具体字段 Import 时不不指定该参数, 将导入全部字段导入过程中, 删除已存在的目标目录如果数据库支持, 采用直连的方式连接数据库从数据库一次性读取多大的实体数量量为一个内联的 LOB 大小设置最大值使用 N 个 map 进行行并发导入导入 SQL 语句句查询的结果集指定用于分割工作单元的字段字段一般为表的主键不不能与 --autoreset-to-one-mapper 同时使用当表不不存在主键, 也没有提供用于分割工作单元的字段时, 考虑使用该参数不不能与 --split-by 同时使用表名指定 HDFS 的目标目录指定 HDFS 目标的父级目录导入过程中指定的 where 子句句启用压缩 --compression-codec <c> 为 Hadoop 指定压缩用编码 ( 默认 gzip) --null-string <null-string> --null-non-string <nullstring> 为字符串串字段指定 null 值如果未指定, 默认用 null 字符串串表示空值为非字符串串字段指定 null 值如果未指定, 默认用 null 字符串串表示空值

Parameters for overriding mapping --map-column-java <mapping> --map-column-hive <mapping> 为配置的列列名, 自定义 SQL 到 Java 的数据类型为配置的列列名, 自定义 SQL 到 hive 的数据类型 Incremental import arguments --check-column (col) --incremental (mode) --last-value (value) 指定待检查的列列, 用于决定是否导入的依据不不能指定数据类型为字符串串 (CHAR/NCHAR/VARCHAR/VARNCHAR/ LONGVARCHAR/LONGNVARCHAR) 的字段指定 sqoop 以何种方法识别新的数据有效模式分别是 append 和 lastmodified 两种指定前次导入时, 检查列列的最大值 Output line formatting arguments Output 指数据保存在 HDFS 上的格式 --enclosed-by 设置字段封闭符 --escaped-by --fields-terminated-by --lines-terminated-by --mysql-delimiters --optionally-enclosed-by 设置转义符设置字段分隔符设置行行分隔符使用 MySQL 默认的分隔符设置 :fields:, lines: \n escapedby: \ optionally-enclosed-by: ' 设置可选的封闭符 Input parsing arguments 指输入流的数据格式

--input-enclosed-by --input-escaped-by --input-fieldsterminated-by --input-lines-terminatedby --input-optionallyenclosed-by 设置输入字段的封闭符设置输入流的转义符设置输入流的字段分隔符设置输入流的行行分隔符设置输入流的可选封闭符 Hive arguments --hive-home <dir> --hive-import --hive-overwrite --create-hive-table --hive-table <tablename> --hive-drop-importdelims --hive-delimsreplacement --hive-partition-key --hive-partition-value <v> --map-column-hive <map> 使用自定义目录路路径, 覆盖 $HIVE_HOME 全局变量量将表导入 hive( 如果没有指定分隔符, 则使用 hive 的默认设置 ) 覆盖 hive 表中已存在的数据创建 hive 表, 如果设置该参数, 那么当 hive 中已经存在相应表时, 作业会失败默认不不开启该参数设置导入 hive 时的表名导入 hive 时, 从字符串串字段中丢弃 \n \r 和 \01 字符导入 hive 时, 从字符串串字段中将 \n \r 和 \01 字符替换成用户指定的字符指定 hive 表的分区键指定本次作业中,hive 表的分区键的值为配置的列列名, 自定义 SQL 到 hive 的数据类型语法样例例一个基本导入操作, 将 crop 数据库中 employee 表导入 sqoop import --connect jdbc:mysql://db.foo.com/corp --table EMPLOYEES 一个包含登录的导入

--username SomeUser -P Enter password: (hidden) 从 employee 表中选择指定的字段 --columns "employee_id,first_name,last_name,job_title" 控制导入过程的并发度 ( 指定 8 个并行行任务 ) -m 8 将数据保存成 SequenceFiles, 并设置已生成的类名 com.foocorp.employee --class-name com.foocorp.employee --as-sequencefile 在文本模式导入中, 指定分隔符 --fields-terminated-by '\t' --lines-terminated-by '\n' \ --optionally-enclosed-by '\"' 将数据导入进 hive --hive-import 只导入新用户 --where "start_date > '2010-01-01'" 改变默认的分割字段 --split-by dept_id 执行行对新数据的增量量导入, 之前已导入表中的前 10 万数据 sqoop import --connect jdbc:mysql://db.foo.com/somedb --table sometable \ --where "id > 100000" --target-dir /incremental_dataset --append 对导入的表进行行校验, 校验表中的记录数和已复制到 HDFS 中的记录行行数 sqoop import --connect jdbc:mysql://db.foo.com/corp \ --table EMPLOYEES --validate Sqoop-import-all-tables Sqoop-import-all-tables 是从 RDBMS 中将一组表导入到 HDFS 的工具每张表的数据在 HDFS 中都会以单独文件夹保存要使用 Sqoop-import-all-tables 工具, 必须符合以下条件 : 每张表都必须有一个主键, 否则必须使用 --autoreset-to-one-mapper 参数必须导入每张表的所有字段不不能为表指定非默认的分割字段 ( 即主键以外的字段 ), 也不不能通过 where 子句句添加任何条件

Sqoop-import-all-tables 在参数设置上与 sqoop-import 工具基本一致, 但 --table, --splitby, --columns 和 --where 参数对 Sqoop-import-all-tables 无效另外,--exclude-tables 参数仅能在 Sqoop-import-all-tables 中使用语法样例例导入 crop 数据库中所有表 sqoop import-all-tables --connect jdbc:mysql://db.foo.com/corp Sqoop-export Sqoop-export 工具, 是用来将 HDFS 上一组数据导出到 RDBMS 中数据库中的目标表必须已经存在 HDFS 上输入文件会被读取, 并根据用户指定的分隔符进行行解析和生成一组对应的记录默认的操作是将这些源数据转换成一组 INSERT 语句句, 用以将记录插入到数据库中在 UPDATE MODE 中,Sqoop 将会生成 UPDATE 语句句用来替换数据库中已经存在的记录而在 CALL MODE 中,Sqoop 将会为每条记录调用数据库中的存储过程

Export control arguments --columns <col,col,col > --direct --export-dir <dir> -m,--num-mappers <n> --table <table-name> --call <stored-procname> --update-key <col-name> --update-mode <mode> --input-null-string <nullstring> --input-null-non-string <null-string> --staging-table <stagingtable-name> --clear-staging-table --batch 指定导出到表的字段使用直连快速导出的方式指定导出源的 HDFS 路路径指定并行行导出时的并行行度指定导出的目标表名调用存储过程指定用于做更更新的固定字段如果是多个字段组合, 可以用, 逗号进行行排列列指定更更新模式有效值为 updateonly( 默认 ) 和 allowinsert 指定字符串串字段的空值字符指定非字符串串字段的空值字符指定一张临时表数据会首先加载到临时表, 在插入到目标表是否清理理临时表中已有的数据为底层的执行行语句句使用批处理理模式 INSERT vs UPDATE 默认情况下,sqoop-export 会附加记录到目标表 ; 每一行行输入记录将会转换为 INSERT 语句句, 以便便为目标数据库表添加行行数如果表拥有约束 ( 如主键约束 ) 并包含了了数据, 那么必须小心对待这些插入语句句, 避免违反约束规则如果 INSERT 语句句失败, 那么导出进程也会失败这种模式的主要意图是将数据导出到一张新的空的表中如果指定 --update-key 参数,sqoop 将会修改数据库中已存在的数据集每一行行输入记录将被对待为 UPDATE 语句句, 用于修改存在的记录 UDATE 语句句将依据 --update-key 参数指定的字段来决定更更新与否如果 UPDATE 语句句没有修改任何记录, 这将不不会被考虑为一个错误, 导出过程将会持续 ( 换句句话说, 基于 UPDATE 模式的导出, 不不会将新数据插入到数据库中 ) 同样的, 如果 --update-key 指定的字段并非唯一的, 那么一条语句句可能更更新多条记录, 这种情况同样不不会被 sqoop 检测到指定的 --update-key 参数, 可以用逗号分隔的多个字段组合这种情况下,sqoop 只有匹配

上所有的关键字才会更更新存在的记录根据目标数据库的情况, 如果你希望在数据库中更更新存在的行行和插入未存在的行行, 那么你可能会为 --update-mode 指定 allowinsert 模式语法样例例一个基本的导出操作, 到表 bar sqoop export --connect jdbc:mysql://db.example.com/foo --table bar \ --export-dir /results/bar_data 在导出中为每行行数据调用名为 barproc 的存储过程 sqoop export --connect jdbc:mysql://db.example.com/foo --call barproc \ --export-dir /results/bar_data Sqoop-eval Sqoop-eval 工具允许向数据库执行行一条简单的查询, 并将结果打印到控制台这个功能允许用户预览将要导入的数据经实测, 只要是有效的 SQL 查询语句句都可以通过该工具执行行, 如 UPDATE INSERT DELETE TRUNCATE 等操作所以官网特此警告不不要将该工具用于生产环境 SQL evaluation arguments -e,--query <statement> 执行行一条 SQL 语句句语法样例例从 employee 表中查询 10 条语句句 sqoop eval --connect jdbc:mysql://db.example.com/corp \ --query "SELECT * FROM employees LIMIT 10" 往 foo 表中插入一条记录 sqoop eval --connect jdbc:mysql://db.example.com/corp \ -e "INSERT INTO foo VALUES(42, 'bar')"

Sqoop-list-databases 该工具用于列列出一台数据库服务器器上所有的数据库模式语法样例例列列出 MySQL 服务器器上的所有数据库模式 sqoop list-databases --connect jdbc:mysql://database.example.com/ information_schema employees Sqoop-list-tables 该工具类似 sqoop-list-databases 工具, 用于列列出数据库中的所有表语法样例例列列出 crop 数据库中的所有表 sqoop list-tables --connect jdbc:mysql://database.example.com/corp employees payroll_checks job_descriptions office_supplies 通过 --schema 参数, 列列出指定模式下的所有表 sqoop list-tables --connect jdbc:postgresql://localhost/corp --username name -P -- --schema payrolldept employees expenses 其他本文仅阐述了了工作中常用的 sqoop 功能与方法, 诸如其他的一些特性和方法, 如 HBASE 相关 HCATALOG 集成, 请自行行前往官网查询 http://sqoop.apache.org/docs/1.4.6/sqoopuserguide.html