AS北京2017-《美团点评用户行为分析系统的构建与优化》-孙业锐.key

美团点评用户行行为分析系统的构建与优化孙业锐美团点评数据平台团队

孙业锐美团点评高级技术专家 Apache Kylin PMC 美团点评数据平台查询引擎方向负责人负责数据生产和查询引擎的改进优化和落地应用专注于分布式计算,OLAP 分析,Adhoc 查询等领域包括但不不限于 Hive SparkSQL Presto Apache Kylin Druid 等

问题分析算法思路路工程实现性能优化总结

问题背景 Growth Hacking Acquisition Activation Retention Referral Revenue 用户获取激活注册活跃留留存推荐分享变现模式转化率

转化率分析 ( 有序漏漏斗 ) 路路径 : 首页 - 搜索 - 菜品 - 下单 - 支付 2017.11.11 1 小时北北京市 ios 日期 :2017-11-11 page = 首页时间窗口 :1 小时 page = 搜索页 and keyword = 中餐 page = 菜品页城市 : 北北京 page = 下单页 and price > 100 操作系统 :ios page = 支付成功

数据探查 UUID timestamp page city keyword AAA 100 首页北北京 AAA 102 搜索页北北京中餐 AAA 130 菜品页北北京 BBB 102 首页北北京 BBB 103 首页北北京 BBB 140 搜索页北北京西餐 CCC 101 首页上海海 CCC 110 菜品页上海海 CCC 151 搜索页上海海中餐

直观解法 1:Join 几亿条数据的多层 Join 代价很高, 时间很长 select count (distinct t1.id1), count (distinct t2.id2), count (distinct t3.id3) from (select uuid id1, timestamp ts1 from data where timestamp >= 1510329600 and timestamp < 1510416000 and page = 首页 ') t1 left join (select uuid id2, timestamp ts2 from data where timestamp >= 1510329600 and timestamp < 1510416000 and page = ' 搜索页 ' and keyword = ' 中餐 ') t2 on t1.id1 = t2.id2 and t1.ts1 < t2.ts2 and t2.ts2 - t1.ts1 < 3600 left join (select uuid id3, timestamp ts3 from data where timestamp >= 1510329600 and timestamp < 1510416000 and page = ' 菜品页 ') t3 on t1.id1 = t3.id3 and t2.ts2 < t3.ts3 and t1.ts1 < t3.ts3 and t3.ts3 - t1.ts1 < 3600

直观解法 2:UDAF 几亿个 UUID 的聚合没有高效的过滤条件 select funnel(timestamp, 3600, ' 首页 ') stage0, funnel(timestamp, 3600, ' 首页 ', ' 搜索页 ', keyword = ' 中餐 ') stage1, funnel(timestamp, 3600, ' 首页 ', ' 搜索页 ', ' 菜品页 ') stage2 from data where timestamp >= 1510329600 and timestamp < 1510416000 group by uuid

问题难点事件有序时间窗口丰富属性数据规模序列列匹配运算最大长度约束下的埋点完全开放单天日志数百亿条复杂度超过序列列匹配属性基数超百万时间跨度 6 个月普通的集合运算维度下钻分析

坏消息 1. 完全随机的漏漏斗定义 3. 规模与性能的矛盾 - 事件组合时间窗口完全随机 - 在海海量量数据下实现交互式分析 - 不不能实现完全预计算 2. 不不同粒度的深入分析 - 多个层次维度, 事件附加属性 - 需要 OLAP 下钻和筛选能力力

好消息 1. 支持能力力 : 模式相对确定 3. 数据特点 : 入库不不会修改 - 核心是集合运算和去重计数 - 可能构建索引 - 不不需要完整的 SQL 能力力 2. 使用场景 : 查询并发度低 4. 业务特点 : 指标收敛较快 - 主要是人工探索式分析 - 重点分析转化率偏低的场景 - 可以调度所有资源 - 可能快速过滤

问题本质多维分析和序列列匹配下的去重计数

实现目标实现多维分析和序列列匹配下的去重计数支持海海量量数据交互式响应可能利利用索引或有限预处理理等手段充分利利用资源的算法和系统

问题分析算法思路路工程实现性能优化总结

对应策略略根据多个维度做筛选 UUID 内事件按照时间排序漏漏斗每层节点符合条件的 UUID 计数实现多维分析和序列列匹配下的去重计数支持海海量量数据交互式响应可能利利用索引或有限预处理理等手段充分利利用资源的算法和系统

数据探查 UUID 的事件没有排序序列列匹配困难 UUID timestamp page city keyword AAA 100 首页北北京 AAA 102 搜索页北北京中餐 AAA 130 菜品页北北京 BBB 102 首页北北京 BBB 103 首页北北京 BBB 140 搜索页北北京西餐 CCC 101 首页上海海 CCC 110 菜品页上海海 CCC 151 搜索页上海海中餐

数据整理理需要遍历每个 UUID 维度筛选和序列列匹配都很慢 UUID event1 event2 event3 event n AAA ts = 100 page = 首页 city = 北北京 ts = 102 page = 搜索页 city = 北北京 keyword = 中餐 ts = 130 page = 菜品页 city = 北北京 BBB ts = 102 page = 首页 city = 北北京 ts = 103 page = 首页 city = 北北京 ts = 140 page = 搜索页 city = 北北京 keyword = 西餐 CCC ts = 101 page = 首页 city = 上海海 ts = 110 page = 菜品页 city = 上海海 ts = 151 page = 搜索页 city = 上海海 keyword = 中餐

构建索引维度对应的 UUID 集合需遍历序列列匹配更更困难 key value1 value2 value3 value n page = 首页 UUID = AAA ts = 100 UUID = BBB ts = 102 UUID = CCC ts = 101 UUID = BBB ts = 103 page = 搜索页 UUID = AAA ts = 102 UUID = BBB ts = 140 UUID = CCC ts = 151 page = 菜品页 UUID = CCC ts = 110 UUID = AAA ts = 130 city = 北北京 UUID = AAA ts = 100 UUID = AAA ts = 102 UUID = BBB ts = 102 UUID = BBB ts = 103 city = 上海海 UUID = CCC ts = 101 UUID = CCC ts = 110 UUID = CCC ts = 151 keyword =

索引优化基于 UUID 集合快速过滤, 迅速收敛 UUID 对应的时间序列列集中读取 key UUID collection sequence page = 首页 AAA,BBB,CCC AAA(100), BBB(102,103), CCC(101) page = 搜索页 AAA,BBB,CCC AAA(102), BBB(140), CCC(151) page = 菜品页 AAA,CCC AAA(130),CCC(110) city = 北北京 AAA,BBB AAA(100,102,130), BBB(102,103,140) city = 上海海 CCC CCC(101,110,151) keyword =

索引设计 0 12768 15162 page = bitmap:1,3,5,7,9, 1: 1493568000, 1493609880, 3: 1493696280, 1493699880, page = bitmap: 2, 4, 6, 8, 10,... 2: 1493568722, 1493609873,... 4: 1493620787, 1493669382,...... keyword = bitmap: 1, 2, 3, 5, 7,... 1: 1493568000, 1493609880,... 2: 1493568722, 1493609873,...... UUID Collection Bitmap UUID sequence Index File Trailer page = : 0, 12768 page = : 12768, 2394 keyword = : 15162, 379105...

组合索引 {"expr": "page = 首页 "}, {"expr": "page = 搜索页 and keyword in ( 中餐, 西餐 ) }, {"expr": "page = 菜品页 "} page = AND child = 2 page = page = OR child = 2 keyword = keyword =

查询过程 page = UUID page = UUID page = UUID

序列列匹配 starttimestamp : 100, endtimestamp : 130, maxwindow : 10 page = AAA 100 110 115 120 130 140 150 page = AAA 90 99 101 106 114 116 120 page = AAA 85 95 100 112 113 115 140

核心思路路查询条件索引构建维度筛选的表达基于 bitmap 快速过滤通过时间戳序列列匹配按照属性值分别构建索引包括 bitmap 和 sequence 两部分多个维度表达为 AND/OR 组合条件转换为索引树维度间的过滤节点间的过滤非常适合快速收敛匹配过程需要回溯

问题分析算法思路路工程实现性能优化总结

具体需求分布式 REST 服务计算框架文件系统

架构权衡简单成熟可控可调成熟稳定简单易易用掌控能力力工程优化应用广泛快速落地深度定制持续迭代生态活跃

实际选择 Spring Spark Alluxio 应用广泛文档丰富简单易易用分布式调度框架掌控力力强可高度定制专注逻辑部署简单相对轻量量级异构存储性能优化空间 Netty/Jetty MapReduce HDFS/HBase

整体架构 Master Query Request REST Server SparkContext Spark Master Alluxio Master Slave Spark Worker Slave Spark Worker Slave Spark Worker Alluxio Worker Alluxio Worker Alluxio Worker

工程要点属性表达树基于 Bitmap 通过时间戳查询条件的组合快速过滤序列列匹配采用 Json 格式使用采用差值存储 REST 服务接收 Antlr 解析条件 RoaringBitmap 平均长度由 8 字节请求生成表达树易易用, 快速降到 1.5 字节

问题分析算法思路路工程实现性能优化总结

核心关注眼镜尺子资源利利用率 JVM 有效 Profiling 手段 CPU 可量量化的指标内存内存 GC JStack/JStat 磁盘时延 / 吞吐方法热点 JMap/JHat 网络 MAT/JMC

基本优化 : 几分钟数据按照 UUID 分区 Master Spark 长作业 Query Request REST Server SparkContext Spark Master Alluxio Master Slave Spark Worker Slave Spark Worker Slave Spark Worker Alluxio Worker Alluxio Worker Alluxio Worker

本地化调度 : 分钟内 Master Master Spark Master Spark Master Alluxio Master Alluxio Master Slave Slave Slave Slave 2 3 1 4 1 2 3 4 1 2 3 4 1 2 3 4

内存映射 :10 秒内 Slave Slave 2 2 2 1 2 1 2

Unsafe 调用 :5 秒内 UserCode ByteBuffer.getInt() UserCode Slice.getIntUnchecked() JavaLibrary getint(ix(nextgetindex((1 << 2)))) NativeCode public native int getint(long var1) NativeCode public native int getint(long var1)

优化历程 10000 5000 1000 时间 ( 秒 ) 100 180 60 10 10 3 1 常规 UDAF 高效索引架构本地化调度内存映射 Unsafe 调用

问题分析算法思路路工程实现性能优化总结

发展现状超百万亿级 UV 属性埋点数百亿事件数百次查询 TP95 小于 5 秒

方法总结项目阶段方法要点实际应用需求分析理理解问题本质基于本质确定目标有序漏漏斗的本质理理解在此基础上确定实现目标算法设计正反分析, 确定边界问题拆解与转化, 方案借鉴坏消息和好消息直观解法入手, 逐步优化思路路工程实现选型权衡的原则和方法简单成熟可控可调优化迭代眼镜和尺子持续抓瓶颈 Profiling 手段和可量量化的指标常见的可能瓶颈和对应优化方法

未来规划代码开源, 社区共建功能与性能的迭代 - 留留存统计和路路径分析 - 更更高的执行行效率 - 更更紧凑的存储格式 - 更更合理理的系统架构

加入我们我们有近万台机器器, 数百 PB 数据数十业务线, 数百分析师业界突破 :HDFS 异地跨机房,YARN 调度百倍性能提升,Spark 核心性能优化我们要追求极致, 持续深耕的领域专家充满激情, 挑战自我的技术新兵联系方式 :sunyerui@{meituan.com, gmail.com, apache.org}