Informatica Corporate Presentation

Save this PDF as:
 WORD  PNG  TXT  JPG

Size: px
Start display at page:

Download "Informatica Corporate Presentation"

Transcription

1 大数据大挑战整合是关键 但彬 Informatica 中国 1

2 技术突破带来互联时代 24 小时在线 (Connected 24 hours Era) 全方位网络覆盖 2

3 随之而来的数据爆炸 3

4 Big Data 成为流行语 大数据 (Big Data) 是大交易数据, 大交互数据和大数据处理的统称 大交易数据 大交互数据 在线交易处理 (OLTP) 在线分析处理 (OLAP) & 数据仓库设备 社交媒体数据 其他交互数据 详细呼叫记录 图像, 点击流数据 大数据集成 科学 基因 机器 / 设备 大数据处理 4

5 到 2015 年, 那些将高价值 多样和最新的信息类型及来源集成到统一连贯的信息管理基础设施的组织, 其财务表现将较业内同行优越 20% 以上, Neil Chandler, Gartner 当前部署的 85% 数据仓库项目, 都不能快速扩展规模以满足新的信息数量和复杂性要求, Mark Beyer, Gartner 5

6 您打算如何利用大数据来开发创新产品和服务? 欺诈侦查, 风险 & 投资组合分析投资推荐 基于位置的服务 实时数据审计医疗保险交易合规性国家安全 互联车辆 预测维护维修 治疗效果预测患者监护个性化医疗合规性 主动客户沟通交流 药物识别基因测序合规性 忠诚度计划游戏遥测 6

7 实施久经验证的创新之路 随着数据呈指数级增长, 降低大数据成本 7

8 大家都说大数据是座金山 谁来帮我?? 8

9 Hadoop 的特点 扩容能力 (Scalable) 能可靠地 (reliably) 存储和处理千兆字节 (PB) 数据 成本低 (Economical) 可以通过普通机器组成的服务器群来分发以及处理数据 这些服务器群总计可达数千个节点 高效率 (Efficient) 通过分发数据,hadoop 可以在数据所在的节点上并行地 ( parallel) 处理它们, 这使得处理非常的快速 可靠性 (Reliable) hadoop 能自动地维护数据的多份复制, 并且在任务失败后能自动地重新部署 (redeploy) 计算任务 HDFS 和 MapReduce 是核心 9

10 Informatica 数据集成行业翘楚 成立时间 : 年收入为 : 亿美元 7 年平均增长率 : 每年 17% 员工人数 : 2,810 多人 合作伙伴 : 450 多家 主要的系统集成商 独立软件供应商 原始设备制造商和按需生产的先驱 客户 : 超过 5,000 家 客户遍布全球 82 个国家 直接客户遍布全球 28 个国家 客户忠诚度排名位居榜首 ( 已连续 7 年获此殊荣 ) $900 $800 $700 $600 $500 $400 $300 $200 $100 $

11 数据量持续增长, 您如何降低 & 控制成本? 源数据 分析系统 数据库和数据仓库迅速增长力不从心 交易, OLTP, OLAP 企业数据仓库 批量 ETL 文档和电子邮件 社交媒体和网络日志 批量窗口已到极限, SLA 处于危险之中 数据集市 科学机器设备 原始数据或不经常使用的数据耗费能力 ODS 11

12 降低数据管理成本 将原始数据临时存储在低成本的商用硬件上 将 ETL/ELT 处理转移到低成本的商用硬件上 网格计算 传统 交易, OLTP, OLAP 企业数据仓库 12

13 降低数据管理成本 借助实时数据集成, 平滑实现 ETL 处理 借助高速数据复制, 从源系统中卸载处理 高速数据复制 大型机 实时数据集成 ODS 传统 交易, OLTP, OLAP 企业数据仓库 13

14 Common IDE (Build once, deploy anywhere + Rapid prototyping) 降低数据管理成本 借助通用的 IDE, 将生产效率提升两倍 开发人员通过一次开发, 即可实现随地部署 在低成本商用硬件上执行 Traditional Grid 企业数据仓库 在本地或云中部署 图形开发工具 ODS 下推至 RDBMS 主数据管理 14

15 降低数据管理成本 消除数据副本, 通过数据虚拟化提升数据仓库能力 BI 报告 / 报表 数据虚拟化 Data Mart Data Mart Data Mart Data Mart Data Mart Data Mart Data Mart Data Mart Data Mart ODS 企业数据仓库 主数据管理 15

16 监控和管理 (Hadoop 或非 Hadoop 作业 / 流程 ) 配置文件数据 编排工作流 (Hadoop 或非 Hadoop 作业 / 流程 ) 通过 Informatica 释放 Hadoop 的强大潜能 6. 提取 Hadoop 中的数据 5. 在 Hadoop 中调用自定义业务分析 销售和市场营销数据集市 客户服务门户 4. 在 Hadoop 中转换和清洗 / 标准化数据 (MapReduce) 3. 在 Hadoop 中解析和准备数据 (MapReduce) 2. 发现 Hadoop 数据的异常 关系和域类型 摄取数据到 Hadoop 帐户交易 提供产品和服务营销活动客户配置文件社会媒体 客户服务日志和调查 16

17 数据摄入和提取每小时交易 交互和数据流移动的数据量达到数十 TB 交易 OLTP,OLAP 批量加载 应用程序 文档, 电子邮件 复制 提取 数据仓库 社交媒体, 网络日志 流 MDM 科学机器设备 存档 提取 低成本存储 行业标准 17

18 释放 Hadoop 能力通过高性能的通用数据访问 打包的应用程序 传讯和 Web 服务 关系文件和展平文件 大型机和中型机 非结构化数据和文件 MPP 设备 WebSphere MQ JMS MSMQ SAP NetWeaver XI Oracle DB2 UDB DB2/400 SQL Server Sybase ADABAS Datacom DB2 IDMS IMS Word, Excel PDF StarOffice WordPerfect 电子邮件 (POP, IMPA) HTTP Web 服务 TIBCO webmethods Informix Teradata Netezza ODBC JDBC VSAM C-ISAM 二进制展平文件磁带格式 展平文件 ASCII 报告 HTML RPG ANSI LDAP JD Edwards Lotus Notes Oracle E- Business PeopleSoft SAP NetWeaver SAP NetWeaver BI SAS Siebel Salesforce CRM ADP Force.com Hewitt RightNow SAP By Design NetSuite Oracle OnDemand EDI X12 AST EDI-Fact FIX RosettaNet Cargo IMP HL7 MVR HIPAA XML ebxml LegalXML HL7 v3.0 IFX ACORD (AL3, XML) cxml SaaS/BPO 行业标准 XML 标准 EMC/Greenplum Vertica AsterData Facebook Twitter LinkedIn 社交媒体 18

19 PowerExchange for Hadoop HDFS 和 Hive 适配器 支持源和目标连接的下推, 确保获得最高性能和最大范围 与元数据的集成开发环境和预览支持 在吸收前执行任何所需要的预处理 本地 HDFS 和 Hive 来源 / 目标支持 19

20 网络文件系统 (NFS) hstream with MapR 持续摄取 交易, OLTP,OLAP 文档, 电子邮件 Informatica Ultra Messaging 社交媒体, 网络日志 实现连续数据流 科学机器设备 行业标准 20

21 Informatica 数据存档归档至 Hadoop 归档 还原 产品数据 优化的文件存档存储在 Hadoop 文件系统上 将数据存档为优化的文件格式以减少存储 压缩率 ( 高达 90%) 不可修改 可访问 (SQL, ODBC, JDBC) 21

22 Informatica 数据存档从 Hadoop 归档 文件存档 22

23 Informatica Hparser 处理各种各样的大数据 最广范围的大数据 平面文件和文 XML 档定位 名称 = 值 行业标准 交互数据 社交 ^/> 限定 <\^ 服务资料库 S 设备 / 传感器科学 生产力 Any DI/BI architecture 直观解析环境 预定义转换 PIG EDW MDM 23

24 在 Hadoop 上解析和准备数据工作原理是怎样的? hadoop dt-hadoop.jar My_Parser /input/*/input*.txt 1. 在 HParser 可视化工作室中定义解析器 2. 在 Hadoop 分布式文件系统 (HDFS) 上部署解析器 3. 运行 HParser 提取数据, 并在 Hadoop 产生表格格式 24

25 Informatica HParser 工作效率 : 数据转换工作台 金融 SWIFT MT SWIFT MX NACHA FIX Telekurs FpML BAI V2.0\Lockbox CREST DEX IFX TWIST UNIFI 增强的验证 (ISO 20022) SEPA 功能 FIXML MISMO 保险 DTCC-NSCC ACORD-AL3 ACORD XML 医疗保健 HL7 HL7 V3 HIPAA NCPDP CDISC B2B 标准 UN\EDIFACT EDI-X12 EDI ARR EDI UCS+WINS 和 EDI VICS 编辑功能 RosettaNet OAGI 基于简单示例的可视化增强 使用业务 ( 行业 ) 术语和定义做出的其他定义 IATA-PADIS PLMXML NEIM 所有版本的所有消息的现成转换 Informatica 交付的更新和新版本 25

26 Map-Reduce 发现 Hadoop 问题 / 异常 通过浏览器或 Eclipse 客户检查和共享结果 单一表格 / 数据对象 交叉表格 / 数据对象 数据域发现 3 1 通过到 Hadoop 的本地连接导入元数据 (Hive HDFS Hbase 等 ) Informatica Hadoop 资料库 HIVE HDFS HBase 2 创建 / 运行配置文件发现 Hadoop 数据属性 配置文件自动转换成 Hadoop 查询 / 代码 (Hive, MapReduce 等 ) 在 Hadoop 上本地执行 Beta 26

27 Hadoop 数据探查结果 Hadoop 数据探查结果 通过浏览器接触企业中的任何人员 值和模式频率与不一致的 / 脏数据或意外模式隔离 国家 / 地区代码示例 客户标识示例 1. 探查统计数据 : 最小值 / 最大值, 空值推导的数据类型等 2. 值和模式分析 Hadoop 数据 标识数据中的异常和反常现象的统计数据 3. 追溯分析 (Hadoop 数据 ) 邮政编码示例 追溯实际数据值来检验整个数据集中的结果, 包括可能的重复 Beta 27

28 Hadoop 数据域发现寻找 Hadoop 数据的功能意义 1. 利用 INFA 规则 /mapplet 识别 Hadoop 数据的功能意义 敏感数据 ( 例如 SSN 信用卡号等 ) 债务和合规性风险? PHI: 受保护的健康信息 PII: 个人识别信息可扩展到查找 / 发现任何域类型 2. 查看 / 共享 Hadoop 中包含的数据域 / 敏感数据的报告 追溯了解可疑数据值的能力 Beta 28

29 保护敏感数据 数据脱密 生产数据隔离 敏感信息屏蔽 通过数据变换的方法去除数据中的敏感信息 可以在数据抽取中批量完成, 也可以在应用和数据库之间做动态隔离 使企业信息资产得到保护, 同时满足合规要求 John Smith Cardinal way Redwood city Glen Carter th Street New York 29

30 数据集成和数据质量 Hadoop MapReduce 处理 Informatica 开发人员 1. Informatica 映射转换成优化的 Hive HQL 2. HQL 调用 Informatica DTM 中的自定义 UDF 进行某些特殊的数据转换 3. 优化的 HQL 转换为 MapReduce 4. 在 Hadoop 上执行的 MapReduce 和 UDF SELECT T1.ORDERKEY1 AS ORDERKEY2, T1.li_count, orders.o_custkey AS CUSTKEY, customer.c_name, customer.c_nationkey, nation.n_name, nation.n_regionkey FROM ( SELECT TRANSFORM (L_Orderkey.id) USING CustomInfaTx FROM lineitem GROUP BY L_ORDERKEY ) T1 JOIN orders ON (customer.c_orderkey = orders.o_orderkey) JOIN customer ON (orders.o_custkey = customer.c_custkey) JOIN nation ON (customer.c_nationkey = nation.n_nationkey) WHERE nation.n_name = 'UNITED STATES' ) T2 INSERT OVERWRITE TABLE TARGET1 SELECT * INSERT OVERWRITE TABLE TARGET2 SELECT CUSTKEY, count(orderkey2) GROUP BY CUSTKEY; Hive HQL UDF 数据节点数据节点数据节点数据节点 Informatica 数据转换库 MapReduce Beta 30

31 重复使用和导入 Hadoop 的 PC 元数据 将现有 PC 开发的产品导入到 Hadoop 开发环境中 在实际导入流程之前验证导入逻辑, 确保兼容性 Beta 31

32 与往常一样设计映射 图形和元数据驱动环境中的 Hadoop 设计集成和质量逻辑 配置应在何处运行集成逻辑 Hadoop 或本地 Beta 32

33 查看生成的 HiveQL 从 Hadoop 映射查看完整生成和向下推动的 Hive 或 MR 代码 Beta 33

34 混合工作流编排 Hadoop 和本地环境的单一工作流运行任务 MT_Load2Hadoop + 解析 MT_Data 分析 通知 Cmd_Choose 加载路径 Cmd_ProfileData MT_Cleanse Cmd_Load2 Hadoop MT_Parse 变量列表 : 名称类型默认值说明 $User.LoadOptionPath 整型 2 根据 cmd 任务的输出加载工作流路径 $User.DataSourceConnection 字符串 HiveSourceConnection 源连接对象 添加 编辑 移除 $User.ProfileResult 整型 100 从 探查 命令任务输出 34

35 监控 Hive 查询计划详情 开发人员工具中同样可用的 hive 查询 Beta 35

36 监控 Hive 查询追溯 M/R 查看 Hive 查询详情 单个 M/R 作业的可跟踪性 作业跟踪器链接 URL 作业跟踪器状态摘要 Beta 36

37 扩展数据集成并控制成本为大数据分析奠定基础 挑战 : 随着数据量和处理负荷的迅速增长, 对更快的数据驱动型决策的需求不断增加 解决方案 结果 RDBMS RDBMS RDBMS 近乎实时 传统网格 数据集市数据集市 经济高效地拓展性能 降低硬件成本 通过在统一数据集成平台上的标准化, 增加了灵活度 阶段 2 数据仓库 网络日志 大型国际金融机构 37

38 互联车辆项目开发创新产品和服务 挑战 : 为 互联车辆 计划, 在年底前实现实时收集汽车数据 解决方案 Power Center 企业数据仓库 业务报告 结果 助力实现互联车辆的目标 : 嵌入移动技术提升客户体验 预测维修维护和提高燃料效率 电话道路救援和自动调度服务 复杂事件处理 (CEP) 持续收集所有车辆的所有信息 所有车辆在年底时, 都将把数据传送到中央 Teradata 数据仓库 利用 PowerCenter, CDC 和 CEP 实现实时数据集成 大型国际汽车制造商 38

39 更多大数据解决方案 业务需求 提供分析洞见 提高业务灵活性 改善业务流程 提高效率 & 降低成本 兼并收购 & 资产剥离 获取及挽留客户 外包非核心职能 治理风险合规 提升合作伙伴网络效率 大数据仓库 & 运营商业智能 Ultra messaging 大数据服务 大数据存档 大数据整合 实时客户视图 社交 / 大数据 同步 复杂事件处理 大数据收集及汇总 通过数据源, 将客户 风险和投诉等各种来源的数据 ( 数据仓库 遗留数据 数据集市和 10M 投诉 ) 的访问迅速提高了 5 倍, 而成本仅是之前的 1/3 节省 25% 的数据中心空间 (100 万美元 ), 将延迟降低 83% 至 340 微秒, 将每天 10 亿交易的吞吐量提高 580%, 且还在持续提高 通过传感器 移动和地理空间数据, 改善货运业务并赋予业务 Hadoop 形式, 节省了数百万美元 合理化应用程序组合, 并在 6 个月内得到回报节省了 100 万美金 将用于服务监测和图案识别的大型数据年龄降低 87% 将源自 100 多个国家的 200 多个品牌的业务数据从五个系统中转移到一个系统中 每月插槽收入提高 4%, 并在社交数据和机器数据中, 实时从 500 个来源中将目标客户段从 40 扩大到 160 为全球 177 多个业务部门及 53,000,000 个联系人提供云访问 保持 360 应用程序与 LinkedIn 和 Twitter 的更新 通过地理空间和视频追踪, 将人工检查转换为以秒数计的自动提醒, 保证了航海安全 通过 On- Boarding New Data Sources Faster 将进入市场时间缩短 90%, 并可支持更多数据类型 39

40 从 Informatica 获取竞争优势 重复性 可预测 可重复的部署和方法 与快速的 Hadoop 变化隔离 经常推出新版本和项目 避免对错误的技术下注 现有资产的重复使用 应用现有集成逻辑向 Hadoop 加载数据 重新使用现有数据质量规则验证 Hadoop 数据 现有技能的重复使用 治理 使 ETL 开发人员能够利用 Hadoop 的功能 执行并验证数据安全性 数据质量和法规遵从政策 可管理 40

41 谢谢! 41