About Me 田亚信科技 - 田毅 Spark 社区 Contributor 北京 SparkMeetup 的发起人主要关注 SparkSQL 与 Spark Streaming

Spark 技术研究与实践分享

About Me 田毅 tianyi.asiainfo@gmail.com @ 亚信科技 - 田毅 Spark 社区 Contributor 北京 SparkMeetup 的发起人主要关注 SparkSQL 与 Spark Streaming

提纲为什么选择 Spark Spark 实践分享使用 Spark 的建议

为什么选择 Spark 多种计算场景的结合多数据源的计算中心活跃的社区支持

多种计算场景的结合 User Application 用户应用 SQL 批处理 Streaming 流处理 MLlib 机器学习 GraphX 图计算 Spark Core (SparkContext+RDD+DAG) 随着信息技术的发展, 越来越多的企业面临着复杂计算场景的考验 1 机器学习的不断发展和应用 2 信息时效性决定了流处理技术的重要性 3 传统业务人员操作熟练的 SQL 编写能力

多种计算场景的结合假设场景 : 与新浪微博合作, 通过一个消息队列实时接收微博信息, 根据指定关键字过滤消息消消微息息 Storm 博队队列列传统方案 : 使用 Storm 读取消息队列内容, 设定 Bolt 进行关键字过滤

多种计算场景的结合假设场景 : 与新浪微博合作, 通过一个消息队列实时接收微博信息, 根据指定关键字过滤消息, 再通过实时配置 SQL 对微博进行统计分析, 生成实时报表微博消息队列 Storm 传统方案 : 使用 Storm 读取消息队列内容, 设定 Bolt 进行关键字过滤, 将结果写入 HDFS 使用 Hive 或者 Impala 实现 SQL 统计分析 H D F S Hive/ Impala

多种计算场景的结合假设场景 : 与新浪微博合作, 通过一个消息队列实时接收微博信息, 根据指定关键字过滤消息, 通过机器学习, 对关键字不断进行调整, 再通过实时配置 SQL 对微博进行统计分析, 生成实时报表 ; 微博消息队列 Storm 传统方案 : 使用 Storm 读取消息队列内容, 设定 Bolt 进行关键字过滤, 将结果写入 HDFS 使用 Hive 或者 Impala 实现 SQL 统计分析使用 Mahout 实现机器学习算法, 将训练后的算法模型回传给 Storm H D F S Hive/ Impala Mahout

多种计算场景的结合 Spark 方案 : 微博消息队列 Spark Streaming + MLlib 消息队列优势 : 1 同一套架构, 学习成本较低 2 资源可统一规划 3 流计算与 Machine Learning 数据交互简单商业产品 :Databricks Cloud 开源产品 :zeppelin https://github.com/nflabs/ zeppelin

多数据源的计算中心对于大多数公司来说, 数据会根据应用场景被存储到多种数据源以我们熟悉的电信行业举例 : 数据类型举例应用场景存储方式单据类数据通信详单, 账单随机查询 HBase, Cassandra 日志类数据关系类数据信令数据, 应用日志用户资料, 订购关系汇总分析实时更新, 关联查询 HDFS RDBMS 但是, 这些数据单独应用只能满足企业内部若干独立的应用场景想要真正的从数据中获得最大的价值, 必须让所有数据关联到一起进行计算分析

多数据源的计算中心计算引擎 RDBMS ETL HDFS MR HBASE 复杂的数据同步流程极大消耗网络带宽和存储资源

多数据源的计算中心 Spark 1.1.0 通过扩展 RDD 实现外部数据访问 Spark HadoopFileRDD RDBMS HDFS HBASE 使用RDD 扩展存在的问题 : 只能全量获取, 网络压力大, 无用传输太多引用Cheng Lian@Databricks 在 Meetup 上的 slide

多数据源的计算中心 Spark 1.2.0 External Datasource API BaseRelation 尽可能将列过滤与行过滤在 Server 端进行, 降低传输大小可以更好的利用数据源的特性 TableScan 全量扫描 PrunedScan 指定列扫描 PrunedFilteredScan 根据 Filter 指定列扫描 (Parquet and ORC) 引用Cheng Lian@Databricks 在 Meetup 上的 slide

多数据源的计算中心查询所有开通 GPRS 用户中, 各项增值业务的用户数, 平均年龄, 总花费 select t2.businame, count(t2.user), avg(age), sum(t2.fee) from ( select businame, user, sum(fee) as fee from user_bill where busitype in ('sms','gprs') group by businame, user ) t1 left outer join ( select user, age from user_info where user_usegprs=1 ) t2 on t1.user = t2.user where t2.user is not null group by t2.businame requiredcolumns=(user,age) filter=( user_usegprs=1 ) SQL RDD DB2Relation ResultSet DB2 user_info SPARK RDD HBaseRelation RowSet requiredcolumns filter Hbase user_bill Filter

多数据源的计算中心企业级数据计算中心 SPARK HBase RMDBS HDFS Cassandra Json Parquet

活跃的社区支持 2013 年 6 月 2014 年 6 月 2014 年 12 月 Contributor 数量参与贡献的公司 68 255 368 17 50 未统计代码行数 63000 175000 239000

活跃的社区支持活跃的邮件列表 : user@spark.apache.org dev@spark.apache.org 日均 70+ 的邮件 JIRA 问题收集 : 日平均报告 / 解决 issue 15 个 Github Pull Request: 日平均 merge pull request 10 个

活跃的社区支持 11 月刚刚推出的模块维护人制度, 确保每个模块都有至少 2 个 committer 专门跟踪维护 - Spark core public API: Matei, Patrick, Reynold - Job scheduler: Matei, Kay, Patrick - Shuffle and network: Reynold, Aaron, Matei - Block manager: Reynold, Aaron - YARN: Tom, Andrew Or - Python: Josh, Matei - MLlib: Xiangrui, Matei - SQL: Michael, Reynold - Streaming: TD, Matei - GraphX: Ankur, Joey, Reynold

Spark 实践分享使用 Spark 实现信令数据的实时营销使用 Spark 实现广告竞价效果实时反馈平台

使用 Spark 实现信令数据的实时营销场景描述 : 输入数据用户信令数据 : 每秒钟 5w 条业务需求沉淀 : 形成用户实时位置信息和行为轨迹匹配 : 合适的业务, 对用户进行主动营销需要支持多业务的扩展输出数据用户实时位置信息用户历史行为轨迹需要进行业务营销的用户信息难点大量的数据查询更新

业务架构主流程业务流程 1 数据筛选业务判断数据清洗消息队列数据增强消息队列业务流程 2 数据筛选业务判断数据沉淀业务流程 3 数据筛选业务判断

技术架构 1.0 消息队列增量数据 Spark Streaming 预处理业务流程消息队列输出数据增量数据业务流程外围系统增量数据 HBase 输出数据增量数据 HDFS 输出数据关联数据 1 关联数据 2 关联数据关联数据 n

技术架构 1.0 实践优化 : Spark 优化 Kafka 接收数据优化 : 多 Topic, 多 Dstream,Repatition Task 并行数量优化 Hbase 优化预建多分区 balance 表现 : 集群处理吞吐能力无法满足要求分析 : 集群规模较小,Spark 最大并发任务数不到 300, 同时 Hbase 操作平均不到 150 Hbase 单次 request 处理时间 1-2ms, 每秒处理 700( 单线程 ) 总计处理 100000 每秒实际需求 :5w*4 =200000 每秒结论 : 机器数量有限时, 有限的任务并行度会限制 Hbase 的吞吐能力

技术架构 2.0 消息队列增量数据 Spark Streaming 预处理业务流程消息队列输出数据增量数据业务流程外围系统增量数据增量数据 RDD File HDFS 广播变量输出数据输出数据动态数据只读数据

实现信令数据的实时处理预处理流程业务 : 沉淀用户实时位置信息和行为轨迹在流数据上增加用户历史位置信息实现方式 : val cogroup = leftrdd.cogroup(rightrdd).map { (lout, rout) } cogroup.cache() cogroup.flatmap(_._1) cogroup.flatmap(_._2) 流入数据输出数据 COGroup 用户历史用户历史更新

实现信令数据的实时处理子流程业务 ( 举例 ): 判断是否校园用户 ( 根据校园基站列表 ) 判断是否营销对象 ( 根据用户资料表与营销规则表 ) 对比更新营销结果表 ( 避免重复营销 ) 数据通过 Kafka 发给营销系统实现方法 : inputdstream.foreachrdd(rdd=>{ rdd.. registerastable( inputtable") val temprs = sql( xxxxx ) temprs.. registerastable( temptable") val result = sql( xxxxx ) }) 流入数据关联表 1 SQL 临时数据 SQL 关联表 2 输出数据

使用 Spark 实现广告竞价效果实时反馈平台浏览网页竞价请求点击广告广告位 XX 网站广告交易平台出价竞价成功 DSP 平台报表系统跳转浏览记录目标网站购买记录

使用 Spark 实现广告竞价效果实时反馈平台业务需求 1: 1 实时收集所有出价记录, 竞价成功记录, 浏览记录和购买记录 2 按广告位统计 : 最近 2000 次的竞价成功次数最近 2000 次的平均成功价格最近 2000 次的点击比率 3 将实时统计结果反馈到竞价模块对竞价策略进行调整业务需求 2: 1 按广告主统计 : 出价次数花费金额转化率等等指标 2 将实时统计结果更新到报表模块展示技术难点 : 1 数据量较大, 每秒消息数量在 3-5 万 2 不按照常用的时间窗口统计, 而按照竞价次数统计

技术架构 HDFS Spark Streaming 消息队列 Spark Streaming 日志 1 日志 1 预处理竞价统计反馈 DSP 平台日志 2 日志 3 日志 2 预处理日志 3 预处理 Spark Streaming 日志 4 日志 4 预处理报表统计

技术架构 HDFS Spark Streaming 日志 1 日志 1 预处理竞价统计反馈 DSP 平台日志 2 日志 3 日志 2 预处理日志 3 预处理 UNION &CACHE 报表统计日志 4 日志 4 预处理

预处理数据获取数据清洗数据聚合格式转换数据清洗 : DStream.filter: 清洗非法格式数据 DStream.map: 清洗不使用的数据字段数据聚合 : DStream.reduceByKey: 对数据进行统计聚合维度 : 广告位广告主格式转换 : DStream.map: 将数据转换格式为统一格式

竞价统计反馈数据获取数据聚合数据输出数据获取 : DStream.filter: 按需获取需要的数据数据聚合 : DStream.updateStateByKey: 对每个广告位的状态 ( 统计信息 ) 进行更新其中 State 可以是自定义的 class 数据输出 : DStream.mapPartition: 将数据输出到指定的接口 (http 或者 JDBC)

SparkStreaming 实施中的问题 Hdfs 文件正在生成时文件后缀问题 java.io.filenotfoundexception: File does not exist: / user/streaming/tmp/test/bidinput/2bid.gz._copying_ 产生原因 : SparkStreaming 读取目录时没有过滤正在拷贝的文件 Patch: [SPARK- 4314]

SparkStreaming 实施中的问题 FileInputDStream 只能读取单级目录对于这样的目录层级, 无法使用 SparkStreaming 读取 --data --20141201 --20141202 --20141203 --20141204 Patch: [SPARK-3586]

SparkSQL 相关 Patch HashOuterJoin 优化 [SPARK-4483] 通过单表遍历的方式, 替换原有两边 HashMap 的 Join 方式 100 万 join 1 万性能对比, 性能提升 16%, 内存消耗减少 70% master: 耗时 : 12671 ms 耗时 : 9021 ms 耗时 : 9200 ms Current Mem Usage:787788984 after patch: 耗时 : 10382 ms 耗时 : 7543 ms 耗时 : 7469 ms Current Mem Usage:208145728

SparkSQL 相关 Patch BroadcastHashOuterJoin 优化 [SPARK-4485] 通过 Broadcast 实现小表在 Map 端实现 OuterJoin 性能对比, 性能提升 7 倍 Original: left outer join : 15439 ms right outer join : 9707 ms Optimized: left outer join : 1992 ms right outer join : 1288 ms

SparkSQL 相关 Patch 重要 Feature: 动态分区功能 [SPARK-3007] Window 函数功能 [SPARK-1442]

使用 Spark 的建议如何与社区互动参加 meetup 活动

如何与社区互动最简单的方法 : 加入 spark-user 邮件组发送邮件到 :user-subscribe@spark.apache.org ( 引用 @ 连城 404 在 beijingmeetup 上的分享 Spark 社区协作指南 ) 更多人关注, 可以及时得到丰富翔实的答案更易于积累, 供自己和他人日后检索篇幅不受限的富文本支持, 可以清晰详尽地描述问题英语? 不是问题 ( 惧怕英语才是问题 )

参加 meetup 活动 2014 年 8 月开始, 在北京组织了中国首个 Spark Meetup 小组, 活动的宗旨是 : 更好的推广 Spark 技术, 推进中国 Spark 使用者的技术交流 12 月 13 日刚刚举行了第 4 次 meetup(sparksql 专题 ) 活动活动得到 Databricks 公司的多名技术人员支持, 并且汇集了多名国内 Spark 技术专家国内 Spark Meetup 人数最多且最活跃的小组, 全世界 Spark Meetup 人数排名第 7 全国范围目前还有上海, 杭州, 深圳组织了各种活动 http://www.meetup.com/ 搜索 beijing spark

按照惯例加入我们的团队 Email to : tianyi@asiainfo.com 我们有大量的大数据项目实践机会 50+的Spark Patch提交记录请和我们一起把Spark做的更好

谢谢

About Me 田 亚 信 科 技 - 田 毅 Spark 社 区 Contributor 北 京 SparkMeetup 的 发 起 人 主 要 关 注 SparkSQL 与 Spark Streaming

About Me 田亚信科技 - 田毅 Spark 社区 Contributor 北京 SparkMeetup 的发起人主要关注 SparkSQL 与 Spark Streaming