大数据技术的发展现状和最新趋势 孙元浩星环科技 Founder & CTO transwarp.io 1
Hadoop 的发展历程回顾 2
大数据技术的软件栈 ETL 数据装载工具 Workflow 工作流开发工具 数据质量管理工具 可视化报表工具 机器学习建模工具 统计挖掘开发工具 资源管理工具 分析管理工具 SQL 批处理 Batch Processing 交互式分析 OLAP Analysis 实时数据库 OLTP Transactional Processing 数据挖掘机器学习算法库 / 框架 Machine Learning 深度学习 Deep Learning 图分析引擎 Graph Analysis 流处理引擎 Streaming Processing 应用级引擎 批处理框架 Map/Reduce2, Tez 高性能处理框架 Spark 向量处理框架 TensorFlow 通用计算引擎 短时任务资源管理框架 YARN 长时任务资源管理框架 Mesos 资源隔离 / 调度 / 管理框架 Kubernetes 资源管理框架 分布式文件系统 HDFS 分布式大表 HBase 搜索引擎 Elastic Search 分布式缓存 Redis 消息队列 Kafka 分布式协作服务 Zookeeper 分布式存储引擎 3
分布式计算已逐渐成为主流计算方式 Traditional Data Analysis 星环 SQL on Hadoop 已经能够高效处理 100TB 数据的复杂分析 Transaction Relational Database Batch Data Warehouse Analyze 3000 Transwarp Inceptor s Performance TPC-DS Execution Time for 99 Queries (in minutes) 2500 2000 Test environment: 29 workernodes 2 CPUs, 12 Cores, E5-2620 v2 96GB memory Network: 2 X 1Gbps Disks: 12 X 3TB Big Data Analysis 1500 Unstructured Cluster 1000 Streaming Organize Analyze 500 0 Devices (MapReduce) 1TB 10TB 30TB 100TB 星环大数据集群已经可以在生产环境中处理 20PB 的数据 4
数据分析算法逐渐丰富, 工具普及化 R/Python 语言开发 => 算法工程师, 数据科学家 交互式挖掘 => 业务分析师, 数据科学家 数据预览 预处理 特征工程 模型训练 模型上生产 R 和 Midas 中可以连接 TDH 中数据表做数据预览 可以对列做 tag/feature 的管理 通过内置的分布式统计算法完成相关的预处理与数据分析 支持标准化, 归一化, 正则化, 缺失值填充, 数据分箱等 支持通过 Inceptor SQL 进行数据 ETL 处理 结合业务领域专家知识, 以及相关算法降维, 选择特征指标与维度 利用深度学习神经网络算法, 通过升维降低特征工程维度选取难度 用户通过 GUI 选择算法开发训练模型 模型编译成为 DAG, 由 Hubble 组件来调度任务 支持单机 R 算法和分布式算法训练模型 导出模型为 PMML PMML 模型可以转换成生产系统的代码, 部署到实际业务中 Dimension Reduction 主成分分析 Linear Regression 线性回归 Inceptor Deep Learning 深度学习 Discover Stream 5
实时流处理技术推动 IoT 数据分析能力 data mining on streams ATM 现场交易 POS POS 刷卡 人流信息 飞行参数 智能风机光伏发电 100k records/s/node 1KB/record 分布式队列 batch @ t batch @ t+1 SQL aggregation machine learning using java/scala/r 1. Streaming processing and batch processing are unified in one programming model 2. SQL and its extension is the unified declarative language for device monitoring and diagnostics. 3. ANSI SQL 2003 and PL/SQL are supported on streaming events. 4. Linear Algebra 5. Machine learning Usage cases in IoT & FS: Real-time event monitoring Real-time dashboard & statistics Real-time outlier detection Realt-ime fraud detection 客服 炼化厂 报警 transwarp stream 6
Hype Cycle for Information Infrastructure 7
Hype Cycle for Advanced Analytics and Data Science 8
后 Hadoop/Spark 时代的技术发展趋势 新技术在四个维度上加速创新 数据量 Volume 类型 Variety 速度 Velocity 价值 Value 驱动力来自结构化数据的不断增加, 企业需要性价比更高的技术方案 SQL on Hadoop 快速成熟,Big Data Database 将替代传统 relational database 传统的 MPP 分析型数据库将消失 驱动力来自对多种数据类型数据 ( 文本 图片 音频 视频 ) 的存储和分析需求 深度机器学习技术 ( 如 TensorFlow) 快速发展并得到应用, 基于 GPU/FPGA 的加速技术逐渐普及 从离线处理进步到实时数据处理, 特别是 IoT 的广泛部署, 推动了对实时计算的需求 Flink,Apex,SqlStream,Internana,ParStream, Transwarp Stream 等新技术, 融合了批处理和流处理, 提供强大易用的低延时实时计算能力, 将逐渐取代现有流处理技术 从历史统计发展到预测性分析 大数据的真正意义在于从数据中发现价值 数据挖掘 机器学习 图计算等产品和工具将日益普及, 使用门槛将极大降低, 普通业务人员很快能够自助进行分析建模 Stream real-time interactive batch RDBMS Guardian 安全管控 Inceptor PL/SQL 批处理交互式分析 Transwarp Proprietary 资源管理 YARN ( 内置 Transwarp Extension) 优化存储 HDFS ( 内置 Transwarp Erasure Code) TB Transwarp Manager Discover 数据挖掘机器学习 批处理 Pig 全文搜索 Elastic Search 批处理框架 MapReduce2 协作服务 Zookeeper PB Hyperbase NoSQL 数据库搜索 图计算 工作流 Oozie 数据集成 Sqoop Hyperbase 交互分析 Zeppelin 日志采集 Flume Discover Stream 流处理引擎 交互工具 HUE 消息队列 Kafka Apache Projects Data Alive 实时数据同步 Inceptor EB 9
Hadoop 及其生态系统将重构数据处理市场 BI / Visualizatio n Tools Big Data Predictive Real-time Vertical Sol n Data Analytics Forecast (IDC) >12bn $ Data Warehouse Platform Big Data Hadoop DW Generation DW Management >10bn $ Database Software Hadoop NoSQL NewSQL OLTP DBMS/NoSQL OLAP DBMS >29bn $ Extraction Tools Hadoop ETL Tools >2bn $ 10
大数据产业链日益繁荣 专业服务 定制开发 大数据应用软件 分析软件 模型可视化 工具等 大数据平台软件 11
2016 年是 Hadoop 技术大规模应用的战略转折点 Acceleration Point 未来五年大数据市场将以每年 30% 的速度增长 12
TRANSWARP 2014 13