PowerPoint Presentation - PDF Free Download

Oracle Hadoop 装载器 : 在线装载 1. 从数据库中读取目标表的表定义 ORACLE Hadoop 装载器 3. 通过 JDBC/OCI 驱动, 从 reducer 节点连接到数据库, 进行并行装载 SHUFFLE /SORT 2. 读取数据, 并进行分区, 排序, 格式转换 SHUFFLE /SORT 7 Copyright 2011, Oracle and/or its affiliates. All rights

Oracle Hadoop 装载器 : 离线装载 1. 读取目标表的表定义 4. 将生成的文件拷贝到数据库服务器 5. 通过外部表, 在数据库空闲时段进行并行的数据装载 SHUFFLE /SORT 2. 读取数据, 并进行分区, 排序, 格式转换 3. 在 reducer 节点生成 Oracle DataPump 格式文件 4.1 通过 Oracle HDFS 直接连接器访问 SHUFFLE /SORT 8 Copyright 2011, Oracle and/or its affiliates. All rights

Oracle Hadoop 装载器 : 优势相比起 SQOOP, OraOOP: 将数据库服务器的压力转移到 Hadoop 集群 : 把数据转换成数据库格式将数据分配到特定分区根据主键进行排序生成二进制的 datapump 格式文件根据 partition 对 reducer 进行负载均衡 9 Copyright 2011, Oracle and/or its affiliates. All rights

Oracle HDFS 直接连接器 : 优势直接访问 HDFS 上的文件 ( 不需要 FUSE 插件 ) 创建指向 HDFS 的外部表在数据库中直接通过 SQL 访问 HDFS 数据可以将数据通过 Insert/Select 或者 Create As Select 装载到数据库快速的数据访问 : 并行优化自动负载均衡数据文件可以是 : 含分隔符的文本文件 Oracle Hadoop 装载器产生的 Datapump 文件 14 Copyright 2011, Oracle and/or its affiliates. All rights

Oracle Data Integrator 简介 Oracle Data Integrator 是一个数据提取加载转换工具 (E-LT) 通过可插入的知识模块方式支持多种数据源和目标传统数据源数据仓库应用程序源在线数据库高效的图形化设计工具支持不同数据源和目标直接在原有机器上进行处理计划系统 16 Copyright 2011, Oracle and/or its affiliates. All rights

Oracle Data Integrator Hadoop 应用适配器 Oracle Data Integrator Hadoop 应用适配器主要功能将本地或者 HDFS 文件加载到 Hive 中知识模块 -- IKM File to Hive 在 Hive 中进行数据转化和校验知识模块 -- IKM Hive Control Append 知识模块 -- IKM Hive Transform 知识模块 -- RKM Hive 将处理过后的数据导入 Oracle 数据库中知识模块 -- IKM File/Hive to Oracle (OLH) 17 Copyright 2011, Oracle and/or its affiliates. All rights

Oracle Data Integrator Hadoop 适配器 : 示意图 1. 创建数据模型, 包括数据源文件,Hive 表,Oracle 表等 2. 将本地文件或者 HDFS 文件加载到 Hive 中 3. 调用 Hive 脚本, 进行数据转化以及校验 4. 将处理过的数据装载到 Oracle 数据库中 SHUFFLE /SORT ORACLE BASE HDFS ODCH SHUFFLE /SORT 18 Copyright 2011, Oracle and/or its affiliates. All rights

Oracle Data Integrator Hadoop 适配器 : 优势提高开发集成的效率使用统一的 ODI 程序界面使用与 SQL 类似的 HiveQL, 不需编写 Hadoop MapReduce 脚本自动协调和调度 Hadoop 的任务高性能的数据整合大部分工作在 Hadoop 集群中进行, 充分利用集群机器资源高性能的 Hive 知识模块调用高性能的 Oracle Hadoop 装载器 19 Copyright 2011, Oracle and/or its affiliates. All rights

Oracle R Hadoop 连接器 : 示意图客户端服务器 ( 如 : 大数据机 ) R 引擎 ORHC ORE 客户端包测试时在本地运行 MapReduce 任务 Hadoop 软件 Java VM R 引擎 ORHC ORHC 驱动包 ORE 客户端包 Java VM 访问 HDFS 文件访问 Oracle 数据库数据库服务器 ( 如 :Exadata) 在 Hadoop 集群中运行 MapReduce 任务 ORHC MapReduce 节点 JobTracker Hadoop 集群 HDFS 节点目录节点 R 引擎 ORE 包 Oracle 数据库任务节点数据节点 ORE 库任务节点数据节点 22 Copyright 2011, Oracle and/or its affiliates. All rights

Oracle R Hadoop 连接器 : 优势 R 可以直接访问 HDFS 上的文件支持超大数据量 R 可以获得更好的文件存取性能数据可以根据需要在以下地方随意存取和移动 Oracle 数据库 HDFS 文件本地文件在 R 中直接利用 Hadoop 集群运行 R 格式的 MapReduce 脚本 R 程序员以 R 的形式写 MapReduce 脚本不需要学习 Java 的 MapReduce 写法 R 程序员不需要了解 Hadoop 运行机制充分利用 Hadoop 集群的资源进行并行运算开发测试过程中可以直接使用本地 Hadoop 而不需要 Hadoop 集群 23 Copyright 2011, Oracle and/or its affiliates. All rights