简化开发与管理的全数据管理平台
议程 1 2 全数据管理平台的参考架构 ORACLE 全数据解决方案简介
我们进入了大数据时代 传统业务数据和新兴大数据并存 ERP SCM HR EPM CRM 新兴大数据非结构 / 半结构化海量高速增长多样性低价值密度 业务系统数据结构化数据不可丢失完整性和一致性安全存储高价值密度
企业需要融合多种类型数据以产生业务价值 客户行为 / 情感客户维修投诉 客户信息 / 购买维修花费 / 地区 ERP SCM 设备 / 传感器数据 生产线 / 产品检测 HR EPM CRM 事件 / 地理位置 产品 / 商家 / 库存 全数据 处理 / 分析 / 挖掘 通过全面挖掘和预测, 实现最大投资价值识别新的需求和商机, 支持产品创新和行动 基于预测和分析, 在问题恶化之前发现问题通过优化流程和资源来提升效率 对客户分群, 针对性的广告投放和推荐用质量更佳的营销数据增加收入 关注客户情感和话题来减少客户流失对客户交互提供全面的数据支撑 加快创新 改进运营 精准营销 提升体验
大数据的挑战与应对之道 挑战 : 传统 DW 系统不适用于大数据的分析 VOLUME---- 集中式存储难以管理庞大的数据 VELOCITY---- 海量数据批处理方式难以提供实时计算能力 VARIETY---- 大数据的多样化格式难以统一处理 VALUE---- 绝大部分大数据是无价值的, 如何提取价值 成本 应对 : 需要革新性的技术手段 VOLUME---- 海量数据 分而治之 ---- 分布式存储和批量并行计算 (HDFS 和 MapReduce),Infiniband 网络 VELOCITY---- 海量数据 实时计算 ---- 高并发 低延迟的流式计算 (OEP, Storm) VARIETY---- 海量数据 灵活多变 ---- 实时分布式高吞吐高并发数据存取处理 NoSQL DB VALUE---- 海量数据 价值挖掘 ---- 大数据的深度挖掘分析 (Data Mining)
大数据的处理技术 不同的技术适用于处理不同类型的数据 Hadoop NoSQL 关系型数据库 分而存之, 分而治之 分布式存储和处理批量非结构化数据 非实时, 离线计算, 全数据扫描 举例 : 影像, 日志文件, 社交网络数据, 分布式快速存取 随机快速读写数据, 类型多样, 可预测的延迟 轻量级, 灵活扩展 举例 : 实时传感器数据, 实时通讯, 点击流 满足业务的全面需求 高性能和高可用性, 事务性 成熟生态系统, 支持关键性任务 集成业务系统, 保护已有投资 举例 : 支付交易, 订单信息, 客户信息等
全数据管理平台参考架构 概念视图 实时流处理 实时应用 分布式大数据平台 离线应用 数据源 数据集成 传统数据仓库平台 开放平台 企业数据中心管理 基础设施 ( 服务器 存储 网络 )
全数据管理平台参考架构 逻辑功能视图 数据源业务系统 1 业务系统 2 业务系统 3 业务系统 n 系统日志社交网络 实时数据处理数据集成同步抽取清洗转换加载管理中心 基础数据区 原始数据区 xx xx xx xx 事件处理 xx 集成 xx 分布式大数据平台 分布式大数据平台预处理处理能力卸载 汇总加工区 集成 决策引擎 挖掘分析 访问与性能区 大数据访问 库内挖掘和分析 关系型数据库 / 数据仓库 元数据管理数据质量管理任务调度与管理信息安全信息生命周期 数据访问 业务监控业务应用欺诈控制业务应用实时精准营销与服务 可视化 报告与查询 统计分析 多维分析应用门户 预测 / 挖掘 仪表盘 / 预警 搜索 / 探索 开放目录 信息服务数据平台 应用门户 开放平台 基础设施 ( 服务器 存储 网络 ) 信息产品
分布式大数据平台 分布式大数据平台的功能主要包括 : 适用于低成本架构的数据存储, 例如原始数据, 归档数据和某些详细数据 ; 数据预处理, 例如数据的清洗, 匹配, 复杂转换等 ; 基于该平台内部的一些挖掘分析, 例如利用 R; 数据处理能力, 例如支持实时数据处理系统或者数据仓库 分布式大数据平台建设考虑 Hadoop 核心技术已经比较成熟, 基于 HDFS 来分布式存储数据, 基于 MapReduce 来进行批量数据的分布式预处理和加工, 基于 Hive/Pig 等来进行数据分析 平台需要支持 Hadoop 2.0 架构, 改善 Hadoop 的稳定性, 性能和可操作性 Hadoop 平台提供高速能力, 保证结果高速加载到关系型数据库中, 或者通过关系型数据库可以快速访问 在 Hadoop 平台上部署 R 等工具实现数据挖掘, 减少数据流转 Hadoop 平台的管理需要提供图形化界面, 易于维护 从长期维护和发展角度, 考虑采用商业化的 Hadoop 版本 安全集成 批处理 (MR/ Hive/Pi g) 交互式分析 HDFS 搜索引擎 机器学习 工作负载管理 (YARN) 数据存储 内存计算 NoSQL DB 第三方 统一管理 服务器 / 网络 / 操作系统
关系型数据库 / 数据仓库 需要分布式大数据平台和关系型数据库 / 数据仓库配合, 因为要结合大数据和结构化数据, 发挥信息最大价值 : 企业级应用数据储存在关系型数据库中, 易于集成和使用 企业基于关系型数据库之上构建了完善的商业智能体系 关系型数据库数据挖掘和分析, 展现等工具多, 易于使用 通过关系型数据库加强分布式大数据库平台的管控和访问 企业可以重复使用已有技能和经验, 保护投资, 加快上线 关系型数据库和数据仓库考虑 选择业界主流的关系型数据库, 具有成熟的生态系统, 支持存储关系型, 地理, 图形,XML, 文档 (Json) 等数据格式, 支持内存计算等技术 混合负载 : 支持 OLTP 和 OLAP, 支持高并发的数据访问, 提供给应用门户使用 支持通过 SQL 能够实现库内数据和分布式大数据平台中数据的联合查询, 实现分析和查询的统一入口 提供数据库内的数据挖掘组件和工具, 提供开箱即用的挖掘算法, 包括聚类, 分类, 文本挖掘等 支持主流的数据分析工具使用数据库的并行技术, 例如对 R, 支持能够利用数据库环境来执行 R 和存储结果 同样要考虑企业级特性, 例如高可用性, 安全性, 易于管理等 开源分析 Hadoop 外部数据微博 XML 媒体社交数据文本 NoSQL DB 并行引擎 数据层 R 数据挖掘 关系型数据库 / 数据仓库 地理分析 文本分析和搜索 内存并行计算 文档 XML 关系型 OLAP 地理信息 数据库云 图形 库内 MapReduce SQL 分析 媒体
分布式大数据平台与 DW 平台之间的集成 去噪 预处理 会话化 分布式文件 /NoSQL 库 MapReduce/Hive/R 2 分布式大数据平台 1 大数据经过预处理后进入数据仓库做分析 3 应用层需要实时整合访问大数据, 实现数据关联分析或下钻 1 3 4 xx xx 2 分布式大数据平台的离线分析结果进入数据仓库整合发布与二次分析 4 基于大数据的离线分布式分析可能需要参考到数据仓库中的数据 xx 传统数据仓库平台 行为分析 客户画像 模式挖掘 海量低密度的离线分析开放应用 开发复杂, 依赖于 Coding 实现算法 高密度数据分析 自服务 深度分析 开发简单 11
实时数据处理 实时数据处理是针对实时的数据流进行处理, 根据事先定义的规则, 对实时数据流进行过滤, 如果满足规则, 则根据配置进行相应的后续处理, 例如激发某些应用的流程, 发出通知或者警告等 实时数据处理的考虑 实时数据处理可以考虑采用分布式大数据平台或者关系型数据库作为数据存储, 保存处理过的数据, 也会与分布式大数据平台或者关系型数据库进行交互, 获得支撑规则的基础数据 对于比较复杂的处理, 可以考虑卸载到分布式大数据平台上进行, 充分利用分布式大数据平台的并行处理能力 实时数据处理需要考虑能够处理海量的实时事件, 具有高性能处理并发, 高效计算, 高可用性, 扩展性好等特点 考虑在实时数据处理中引入内存计算等技术, 加速处理效率 支持海量并发数据流处理, 闪电响应速度 支持多种数据对接 ; 支持灵活的数据定义, 滤除数据噪音 添加上下文, 丰富事件信息 事件处理规则 事件处理 ( 识别 过滤 合并 聚合 ) Hadoop/NoSQL 事件引擎 事件 / 上下文 客户标签 历史信息等决策依据 DB 事件响应 实时决策引擎 决策结果 配置决策学习 实时流处理 模式识别 / 预测模型 mod el 决策规则
议程 1 2 全数据管理平台的参考架构 ORACLE 全数据解决方案简介
集成灾备安全管理 Oracle 大数据解决方案支持企业级全数据管理 获取和组织 : 企业统一全数据池 获取和组织分析决策 商业智能数据发现数据池 Hadoop Oracle NoSQL DB Oracle R Big Data SQL Oracle Big Data Connectors Oracle Data Integrator 数据应用商业分析数据仓库 Oracle Database Oracle 数据库 Oracle Industry Models 内存选项 / 多租户 Oracle 高级分析 Oracle Advanced Analytics 地理和图形选件 Oracle Spatial & Graph 建立全数据池, 扩展企业传统数据仓库, 接纳新数据 从大数据中提取有价值信息, 与业务信息融合 分析 : 数据发现和数据挖掘 实现大数据和业务数据基于 SQL 的融合处理, 重用已有技能, 工具和经验 统一的企业级数据挖掘和数据探索能力 大数据一体机 Exadata 决策 : 商业智能和数据应用 数据源 丰富的图表和快如闪念的商业智能 重复利用现有的工具, 快速应用
如何搭建 Hadoop 分布式大数据平台? Applications Hadoop Distribution Integrated Tuned Optimized Identical OS Compute & Storage Networking Red Hat / CentOS CPU, RAM, Blade, Rack Cisco Different Platform Every Time 1 Big Data Appliance Unpack to production in days 120+ separate parts Months from start to production
大数据云服务器 (Big Data Appliance) 大数据计算平台的基础设施 初始版本 (1/3 配 ) 6 台 Sun X86 服务器 每台 2*18 核 E5 V3 处理器, 总 216 核 每台 128 GB 内存, 总 768GB 每台 12 块 4TB SAS 盘, 总 288T 存储容量 内置 40Gb InfiniBand 交换机和用于管理的万兆交换机 Oracle Linux / Oracle JDK Cloudera Hadoop Distribution Cloudera Manager EE Oracle NoSQL Database Oracle enterprise R distribution Oracle Enterprise Management Oracle Big Data Connector & Big data Sql* Oracle Audit Vault and Database Firewall for Hadoop Auditing* 软硬一体化集成设计, 规避开源自建高风险 全栈调优 最佳实践 性能卓越, 性能远远超出自建系统 完整的非结构化数据存储 / 计算 / 管理 / 分析 / 挖掘 / 整合的平台 快速上线部署, 缩短项目周期 全线商业支持, 包括开源软件 与数据库生态系统极佳融合 企业级的安全管控 方便的水平扩展, 适应长远发展 绿色环保, 高密度存储, 占地面积小
BDA 一体化的专业管理和运维 Oracle Enterprise 与 Cloudera Manager 深度集成 自动部署和 Hadoop 准备检查部署和配置 HDFS, MapReduce, Flume,Hbase,Hue,Oozie 和 Zookeeper Services 配置高可用性和联邦, 多集群管理审计跟踪, 智能日志管理工作流 ( 如增加主机, 重启服务等 ), 配置版本和历史监控 HDFS,MapReduce, MapReduce2,HBase,Hue, Flume,Hive,Hue,Oozie 和 Zookeeper 针对 HDFS 和 Hive 的备份 / 灾难恢复主动的健康状况检查, 状态和健康状况总结热图 (Heatmaps)/ 性能监控 LDAP 授权,Kerberos 配置, 运维报告, 事件管理和预警, 活动监控支持集成和定期诊断, 滚动更新
CDH 企业版 on Oracle Big Data Appliance File System Mount UI Framework SDK FUSE-DFS HUE HUE SDK Cloudera Manager Workflow Scheduling Metadata APACHE OOZIE APACHE OOZIE APACHE HIVE Data Integration APACHE FLUME, APACHE SQOOP Languages / Compilers APACHE PIG, HIVE, MAHOUT HDFS, MAPREDUCE Fast Read/Write Access APACHE HBASE Coordination APACHE ZOOKEEPER
Oracle Big Data Appliance 提供更多能力 Big Data Discovery Big Data SQL FUSE-DFS HUE HUE SDK File System Mount UI Framework SDK R Cloudera Manager EE APACHE OOZIE APACHE OOZIE APACHE HIVE Workflow Scheduling Metadata Data Integration APACHE FLUME, APACHE SQOOP Languages / Compilers APACHE PIG, HIVE, MAHOUT Coordination HDFS, MAPREDUCE Fast Read/Write Access APACHE HBASE APACHE ZOOKEEPER Big Data Security Oracle Big Data Connector Oracle NoSQL Database Oracle Enterprise Management
Oracle Big Data Connectors Hadoop 与 Oracle 数据库集成的利器 Hadoop 数据导入到 RDBMS, 高速易用 ORACLE LOADER FOR HADOOP 通过 RDBMS 直接访问 Hadoop 数据, 快速便捷 Oracle SQL Connector for HDFS 通过 ODI 配置执行 Hadoop 和 RDBMS 集成, 易用简便 R 访问 RDBMS 数据, 利用数据库服务器并行能力执行 R ODI Application Adaptor for Hadoop Oracle R Connector for Hadoop
Oracle Big Data Connectors 助力企业级数据获取和组织, 集成和管理 业务数据数据仓库 商业化 Hadoop Oracle R Oracle NoSQL DB 统一的数据资源池 Oracle Big Data Connectors 数据库 数据仓库 高级分析 Big Data Appliance + Hadoop 新数据大数据 15TB / hour 10x Faster Exadata + Oracle Database
Oracle Big Data SQL 支持数据发现和预测, 快速简单访问所有数据, 治理和保护所有数据安全 企业处理大数据的难点 技能 : 需要学习编程和新工具 集成 : 难于把大数据加入已有架构 安全 : 缺乏全面的治理和执行手段 性能 : 实时响应性和交互性不强 SQL Oracle Big Data SQL 丰富的 SQL 支持, 利用现有技能 同时查询大数据和关系型数据 利用数据库安全, 实现数据治理 性能优化 : 并行, 存储索引, 本地数据过滤, 最小化数据移动 Hadoop X MapReduce/Hive/ 其他计算框架 NoSQL X Java/C/Ruby/Python/PHP/Perl 编程 Relational 易于理解的 SQL 语句
基于 Oracle Big Data SQL 实现数据融合 Batch (MapReduce) Hadoop Big data SQL Plug In Other (Search) (In-Mem) 社交网络数据映射成表 S 热点情感 Oracle 数据库 外部表 V 位置状态 结构化数据 社交网络数据 YARN HDFS2 外部表 S 客户 360 度画像 C NoSQL 乘客乘机记录电商访问记录 Big data SQL Plug in 流水数据映射成数据表 V Big data SQL 举例 : 根据客户和流水记录等信息, 了解客户电商行为模式, 位置和客户关注点及对品牌的体验和情感 在客户电话咨询时进行产品推荐或客户关怀 Select S. 客户关注热点,S. 情感,S. 感受,V. 位置,V. 访问行为,C. 基本信息,C. 偏好 From 客户表 C, 记录 V, 社交网络表 S where C. 常旅客 ID=V. 电商 ID and C.sid = S.ID and V. 时段 = 时间 ;
强大的 Oracle Big Data SQL 横跨 Oracle, Hadoop 以及 NoSQL 的大规模并行的 SQL 查询 将查询卸载到数据节点 Smart Scan for HDFS. 返回 Oracle DB 之前过滤行列 Storage Indexing. 避免全数据扫描 只读取条件范围的数据 在数据节点上执行最耗费资源的 JSON/XML 分析 SQL 数据子集 SQL 快速返回满足条件的小的结果数据集 将查询卸载到 Exadata 存储服务器 Hadoop & NoSQL Oracle Database 12c
数据库云服务器 (Exadata) 面向大数据的混合型 RDBMS 为企业核心数据提供最佳平台 最快的数据仓库和 OLTP 性价比最高的数据仓库和 OLTP 优化的硬件 ( 满配机架 ) 8 计算节点 -- 处理器 288 个 Intel 内核,6TB 内存 ) 14 存储节点 --89.6TB 闪存, 179TB / 672TB 裸磁盘容量 40GB/s Infiniband 高速网络连接 多项 Oracle 独有的软件突破 Exadata 智能存储网格 智能闪存缓存 混合列压缩 并行横向扩展的数据库和存储 从 1/8 配到 18 个全机架的伸缩性 Oracle Exadata Oracle R Data Mining Parallel Engine XML Relational OLAP Spatial Data Layer Spatial Analytics Text Analytics and Search 智能架构优化数据管理 In-Memory Parallel Processing RDF 高吞吐 高性能 高可用性 高安全性 可扩展性 Oracle MapReduce SQL Analytics Media Smart Scan EHCC Flash Exadata Storage Layer
Oracle 数据库内存选项快速响应和高效, 支持数据驱动的实时决策 相同数据 / 表可以以行或者列的方式放入内存 100 倍更快的分析和报告 ( 列式 ),2 倍更快的 OLTP( 行式 ) 跨服务器扩展, 内存查询跨服务器并行访问本地列数据 对应用透明, 纯内存模式不会改变 Oracle 存储格式, 日志, 备份, 恢复 所有 Oracle 成熟的可用性技术透明工作, 提供失效保护 不限制底层硬件平台 OLTP Memory Sales Row Format Sales Memory Sales Column Format Analytics
Oracle 支持基于全数据的高级分析 合理的成本投入获得最佳业务受益 数据挖掘 图形化界面, 内置多种算法, 易于使用 Oracle 高级分析 Oracle Database NoSQL DB+Hadoop R 企业版 可编程的, 灵活, 提供企业级特性 可扩展的并行数据库内执行库内数据直接装载全线商业化支持集成商务智能展现工具 传统分析解决方案 数据导入 数据挖掘模型 计分 数据准备以及转换 数据挖掘模型构建 数据准备和转换 数据提取 数小时 数天或数周 Oracle 高级分析 模型 计分 嵌入式数据准备模型构建数据准备 节省 数秒 数分钟或数小时
数据分析和信息探索互补概念 技术相互结合, 功能更强大 预期的 数据分析已知或预期问题的可靠答案 新问题需要探索, 新信息 ; 利用现有投资 非预期的 洞察产生新的监控度量和集成数据 信息探索快速解答新问题
使信息探索成为业务创新能力 规范化 发展 咨询新问题 参阅新模式 咨询新问题 参阅新模式 快速组合发掘应用程序 利用预构建的导航 现成的搜索 直观分析可视化 详细记录特性 共享和协作 实施深层发掘应用程序 基于角色的互动 高度调优搜索 创建高级分析量度 调优和自定义 Text Enrichment 更大的用户规模 添加新数据 最终用户供应的数据和内容 添加新数据 创新型 ETL 非结构化爬取 更大数据规模 自助服务探索 IT 深化挖掘
需要一种新的基础性方法 比如一个单一直观的 可视化的用户界面来进行操作... 查找浏览转换探索分享 查找和浏览大数据, 理解数据的潜在意义 通过快速转换和完善, 使数据变得更加清晰 放开数据, 人人都可以从中探索和分享新的价值
Oracle Big Data Discovery: Hadoop 可视化界面 查找浏览转换探索分享
Oracle Big Data Discovery: Hadoop 上的技术创新 Hadoop Cluster (BDA or 标准商用硬件 ) Oracle 大数据探索工作 Studio 网页界面 : 查找 浏览 转换 探索 分享 其他 Hadoop 工作 MapReduce BDD 节点 In-Memory Discovery Indexes 数据图像 : 搜索 导向性指引 分析 Spark 命名节点数据节点数据节点 Hadoop 2.x 元数据 (HCatalog) 工作量管理 (YARN) Data Processing, Workflow & Monitoring 性能分析 : 目录登入生成, 数据类型 & 语言检测, 模式配置 取样 : 数图 ( 索引 ) 文件生成 语法转换功能 : >100 种功能方式 完善结果 : 定位 (geo), 文本 ( 清理, 情绪观点, 实际本质, 关键语句, 白名单标记 ) Hive Pig 数据节点数据节点 文件系统 (HDFS) Self-Service Provisioning & Data Transfer 个人数据 : 上载 CSV and XLS to HDFS Oracle Big Data SQL (BDA only)
快如闪念的商业智能和丰富的应用 分析结果的展现, 交互, 发布和应用于实践 预测性分析 情景分析 记分卡 交互式信息板 移动 即席分析 战略图 New RAM Flash storage Hard Disk 2 TB 2.4 TB 5.6 TB RTD / Siebel 呼叫中心集成 第三方呼叫中心集成 RTD Siebel 电子商务集成 第三方电子商务集成 第三方应用集成 第三方应用集成 地理位置可视化 安全搜索 Decision 交叉销售, 向上销售, 忠诚度决策逻辑 Service 自定制业务逻辑 ( 例如风险管理 生产报表 Office 集成 共享决策引擎 RTD: 可自学习的实时决策系统, 支持精准营销 嵌入应用中 业务流程
基于实时事件处理的大数据架构 商圈 Complex Event Processing Real Time Decision 精准营销 移动支付 交叉销售 收单 Coherence Social Social 新一代 清分 2 KVInputFormat 统计分析 结算 Hadoop 集群 交易行为分析 BMS 数据源 2 大数据平台 3 大数据链接器 4 Oracle 数据库 5数据展现 即席查询
Oracle 软硬件集成一体化的全数据解决方案端到端的解决方案加快上市时间和降低风险 Business Analytics Oracle Real-Time Decisions Endeca Information Discovery Oracle BI Foundation Suite Oracle Event Processing Apache Flume Oracle GoldenGate Cloudera Hadoop Oracle NoSQL Database Oracle Big Data SQL Oracle R Distribution Oracle Big Data Connectors Oracle Data Integrator Oracle Database Oracle Advanced Analytics Oracle Spatial & Graph Fast Data Big Data Platform DW/DB Platform 单项最佳和集成化 简化和企业级特性 单一客户服务支持 加速上线获得回报