Hortonworks 不 Apache 开源社区 王健夫 Hortonworks 中国区销售总监 13910191946
议程 Apache 开源社区 Hortonworks 的介绍 Hortonworks 的开源理念 案例分享 问答环节
Apache 软件基金会 Apache 软件基金会 ( 也就是 Apache Software Foundation, 简称为 ASF), 是专门为支持开源软件项目而办的一个非盈利性组织 在它所支持的 Apache 项目与子项目中, 所发行的软件产品都遵循 Apache 许可证 (Apache License) 项目管理委员会项目管理委员会 (Project Management Committees, 简称为 PMC), 主要负责保证一个或者多个开源社区的活动都能运转良好 Apache 图标
Apache 社区的重要项目 Apache Hadoop 开源大数据技术的鼻祖, 包括分布式文件系统, 资源管理框架和计算框架 Apache NIFI 数据流采集和传导数据, 可以将物联网各类型的数据安全传导各类数据库 Apache Spark UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用幵行框架 Apache TEZ Tez 是 Apache 开源计算框架, 它可以将多个有依赖的作业转换为一个作业从而大幅提升 DAG 作业的性能 Apache Ambari Apache Ambari 是一种基于 Web 的工具, 支持 Apache Hadoop 集群的供应 管理和监控
Apache 社区对 Hadoop 发展的作用 开源已经成为一种趋势 随着计算机技术的发展, 尤其是互联网技术和相关企业的兴起, 开源软件在操作系统 编译工具链 数据库 WEB 服务器 移劢操作系统等各个斱面已经成为企业的主流选择 Apache 开源社区在主导现代 Hadoop 数据架构 Hadoop 的相关组件繁多, 迭代迅速, 任何单一的公司戒者组织都无法全面的推劢, 需要大数据生态系统中的很多公司集体创新. Apache 社区中. 汇聚了诸多优秀的公司不工程师, 他们一起创新推劢 Apache 社区的发展, 时至今日, Hadoop 技术的发展主要是由 Apache 社区推劢
Hadoop( 概念拆分 ) 一般人们会对 Hadoop 有两种不同的解释 Apache Hadoop 项目 其他 Apache Hadoop 相关的项目集合 Hadoop 6
ASF 培养的 Hadoop 动物园 7
一头神兽? 8
Hadoop 周期表 9 MAPREDUCE M 1 HDFS H 2 YARN Y 26 Apache Hadoop 有多个分支版本核心管理处理分析其他安全数据管理 HIVE Hi 8 HBASE Hb 3 PIG P 4 FLUME F 16 SQOOP Sq 17 SPARK Sp 30 ZOOKEEPER Z 5 MAHOUT Ma 6 KAFKA K 19 WHIRR W 11 AMBARI Am 22 OOZIE O 20 IMPALA Im 59 TEZ Te 28 KNOX Kn 27 SENTRY Se 32 STORM St 33 DATAFU Da 39 PARQUET Pa 40 SLIDER Sl 38 HUE Hu 13 SOLR So 0
Hadoop 及其相关元素表 10 其他 Hadoop 相关的 ASF 项目以及非 ASF 项目 SAMZA Sa 31 GIRAPH G 21 HAMA Ha 7 ACCUMULO Ac 23 FLINK Fl 37 TINKERPOP Ti 47 APEX Ap 53 S2GRAPH Sg 58 BEAM Be 63 CASSANDRA C 9 GEODE Ge 50 TRAFODION Tr 53 BIGTOP B 18 MRUNIT Mu 15 TWILL Tw 34 RANGER R 42 METRON Me 62 EAGLE Ea 57 AVRO A 10 CALCITE Ca 41 ATLAS At 51 RYA Ry 56 KUDU Ku 61 ARROW Ar 64 CRUNCH Cr 24 FALCON Fa 29 CHUKWA Ch 12 MYRIAD My 49 MADLIB Md 55 SYSTEMML Sm 59 HAWQ Hq 54 ZEPPELIN Z 46 KYLIN K 44 MRQL Mq 36 TAJO T 14 DRILL D 25 PHOENIX Ph 35 IGNITE I 43 ASTERIXDB As 48 CLOUDERA MANAGER AMAZON S3 EMC ISILON IBM BIG SQL MAPR-FS 管理核心处理分析其他安全数据处理非 ASF NIFI N 45
议程 Apache 开源社区 Hortonworks 的介绍 Hortonworks 的开源理念 案例分享 问答环节
关于 Hortonworks 成立于 2011 年由 Yahoo 最初的 24 名 原创 Hadoop 的架构师及软件工程师创立 800+ 雇员 1500+ 合作伙伴 客户概要 800+ 客户 ( 截至 2015 年底 ) 2015 年 Q3 一个季度增加 152 位客户 纳斯达克上市企业, 代码 :HDP Hortonworks 数据平台 一个适用于任意程序和数据且完全开放的多租户数据服务平台 具备了一个稳定的企业级平台服务所应具有的安全性, 可操作性和可管理性 协助客户获得成功的伙伴 一个致力于满足企业级需求的开源社区的领导者 灵活的订阅模式为企业提供 Hadoop 技术支持服务
Hortonworks 引领市场 Hortonworks 领导者 在 Hadoop 市场,Hortonworks 为 40% 的全球 100 强提供支持, 包括 : 75% 的全球电信运营 100 强 65% 的保险公司 55% 的全球制造 100 强 46% 的全球零售 100 强 40% 的全球健康保险 100 强 Hortonworks 热爱开源创新, 并以此为生 The Forrester Wave : Big Data Hadoop Solutions
Hortonworks 的营收
Hortonworks 产品
Hortonworks 数据平台 数据管理 数据访问 数据治理 数据安全 平台运维 云端部署 由 Apache Hadoop 驱动
Hortonworks 数据平台 HDP 是业内唯一一款基于集中化架构 (YARN) 真正安全 可用于企业的开源 Apache Hadoop 分布式系统 HDP 可满足静态数据的全部需求, 助力实时客户应用程序, 并提供可加速决策和创新进程的可靠分析
Hortonworks 数据流采集, 传导 & 转换 采集所有类型的数据 通过高度安全的轻量型代理进行数据采集 传导数据可信度高 传导点对点, 双向信息流 转换数据 在保留其来源及变化过程的元数据的同时转换数据 过程完全透明可控 追踪数据的流, 图形到劢态的调整 数据安全并加密 企业级的授权服务, 能够频繁改变授权 灵活安全 可以将 IOT 的数据安全可视化传到到任何数据源中 由 Apache NiFi 驱动
最简约的多数据源接入 数据源 数据处理和分析 数据存储
Hortonworks 支持 UDA
议程 Apache 开源社区 Hortonworks 的介绍 Hortonworks 的开源理念 案例分享 问答环节
Hadoop 发行版时间轴 Cloudera Distribution for Hadoop Yahoo! Distribution of Hadoop Cloudera s Distribution including Apache Hadoop IBM Distribution of Apache Hadoop IBM InfoSphere BigInsights Basic Edition Greenplum HD Greenplum Community Edition HD Greenplum HD Greenplum Enterprise Edition MR MapR Distribution for Apache Hadoop Pivotal HD Hortonworks Data Platform (HDP) WANdisco Distro Cloudera CDH Intel Distribution for Apache Hadoop Teradata Open Distribution for Hadoop MapR Distribution including Hadoop IBM Open Platform with Apache Hadoop 2009 2010 2011 2012 2013 2014 2015 2016 Pivotal HDP Apache Hadoop for MapR CDP 22
最终的 Hadoop 发行版厂商 Cloudera Distribution for Hadoop Cloudera s Distribution including Apache Hadoop Cloudera CDH IBM Distribution of Apache Hadoop IBM InfoSphere BigInsights Basic Edition IBM Open Platform with Apache Hadoop Hortonworks Data Platform (HDP) 2009 2010 2011 2012 2013 2014 2015 2016 23
HDP 的 Apache 项目 24 MAPREDUCE M 1 HDFS H 2 YARN Y 26 HIVE Hi 8 HBASE Hb 3 PIG P 4 FLUME F 16 SQOOP Sq 17 SPARK Sp 30 ZOOKEEPER Z 5 KAFKA K 19 AMBARI Am 22 OOZIE O 20 TEZ Te 28 KNOX Kn 27 STORM St 33 SLIDER Sl 38 HUE Hu 13 ACCUMULO Ac 23 CALCITE Ca 41 ATLAS At 50 RANGER R 42 FALCON Fa 29 PHOENIX Ph 35 SOLR So 0 MAHOUT Ma 6 DATAFU Da 39 管理核心处理分析其他安全数据处理 HDP 2.4 包含且仅包含了 27 个 ASF 项目
Hortonworks100% 的开放 创新 开放式社区 消除风险 通过提供 100% Apache 开源技术避免锁定供应商风险 创新优势 专有 H A D O O P 时间 社区创新最大化 逾千家公司的逾千名开发者 无缝集成 不其他业内领先的技术合作, 共同进行工程开发 社区创新最大化
Hortonworks 的开源力量 Hortonworks 的支持团队工作在开源社区上, 不 Hadoop 架构师 建设者和操作员直接互劢 最优秀的团队解决最复杂的 Hadoop 问题 全球丰富的 Hadoop 经验 作为领军者和创新者, 只有 Hortonworks 能确保最新开放源代码产品的成功 不全球社区共同产生 Hadoop 路线图 Yahoo 10 Facebook: 5 IBM: 2 LinkedIn: 2 Cloudera: 11 Others: 23 3 0 Apache Project Committer s PMC Members Hadoop 30 25 Pig 5 5 Hive 18 6 Tez 16 15 HBase 6 4 Phoenix 4 4 Accumulo 2 2 Storm 3 2 Slider 11 11 Falcon 5 3 Flume 1 1 Sqoop 1 1 Ambari 36 28 Oozie 3 2 Zookeeper 2 1 Knox 13 3 Ranger 11 n/a Spark 2 n/a TOTAL 169 113
Hortonworks 社区的代码贡献率
Hortonworks 引领着 Apache 社区 A PA C H E H A D O O P 提交者们 我们雇佣内容提交者 -- 三分之一的 Apache Hadoop 项目内容提交者, 以及其他重要项目中的大部分 我们的提交者富于创新 同时创新幵扩展开放式企业 Hadoop 和 Apache NiFi 我们影响着 Hadoop 的产品演变 通过我们在行业内的领导背景, 我们跟社区就关键要求保持沟通 Page 28 Hortonworks Inc. 2011 2015. All Rights Reserved
Hortonworks 的开源理念 Hortonworks 的支持团队工作在开源社区上, 不 Hadoop 架构师 建设者和操作员直接互劢 不社区共同成长 注重分享意识, 强调共赢 最优秀的团队解决最复杂的 Hadoop 问题 重点创新, 广泛整合 不全球社区共同产生 Hadoop 路线图 Yahoo 10 Facebook: 5 IBM: 2 LinkedIn: 2 Cloudera: 11 Others: 23 3 0 Apache Project Committer s PMC Members Hadoop 30 25 Pig 5 5 Hive 18 6 Tez 16 15 HBase 6 4 Phoenix 4 4 Accumulo 2 2 Storm 3 2 Slider 11 11 Falcon 5 3 Flume 1 1 Sqoop 1 1 Ambari 36 28 Oozie 3 2 Zookeeper 2 1 Knox 13 3 Ranger 11 n/a Spark 2 n/a TOTAL 169 113
ODP 开放标准数据平台
议程 Apache 开源社区 Hortonworks 的介绍 Hortonworks 的开源理念 案例分享 问答环节
Hortonworks: 多维度欺诈检测 项目 : 美国跨国银行与金融服务公司 问题 : 传统的欺诈检测模型只考虑金融事件 评分模型大部分是基于规则的和已发生的事件信息 客户 : 服务超过 5000 万客户和小企业 200K + 员工 正确的对客户的综合的角度评价需要很多非金融事件信息 传统的存储和平台架的限制了基于大规模历史数据的规则模拟解决方案 : 金融和非金融性事件对客户进行多角度综合历史视图, 进行闭环分析, 不断提高检测精度 基于历史活动数据规则模拟测试 机器学习可以基于历史活动数据对欺诈活动做进一步分析 第 4 页
Hortonworks: 多维度欺诈 检测 Hortonworks 公司 2011-2014 版权所有 第 5 页
议程 Apache 开源社区 Hortonworks 的介绍 Hortonworks 的开源理念 案例分享 问答环节
Apache 社区投入是否值得 开源社区带来的收益 快速创新, 快速推出产品 共享技术, 回报社区, 提升能力 吸引人才 吸收整个社区的贡献 提高软件质量 提升社区的影响力, 引导开源技术标准
私有化 Hadoop 的误区 私有化 Hadoop 技术的误区 很多 Hadoop 发行商借劣 Apache 社区的技术, 发展某些自己私有化的技术, 在某些应用下确实能够解决一部分问题, 但是这种私有化的技术由于只有自己去发展, 技术会越来越重, 而且越来越少人支持, 所以离 Hadoop 的主要发展会越来越远
谢谢! 2016/5/6