目录 1 简介 SPARK 简介 SPARK 与 HADOOP 差异 SPARK 的适用场景 SPARK 演进时间表 SPARK 成功案例 SPARK 术语 Spark

Size: px
Start display at page:

Download "目录 1 简介 SPARK 简介 SPARK 与 HADOOP 差异 SPARK 的适用场景 SPARK 演进时间表 SPARK 成功案例 SPARK 术语 Spark"

Transcription

1 Spark 及其生态圈简介 第 1 页共 18 页

2 目录 1 简介 SPARK 简介 SPARK 与 HADOOP 差异 SPARK 的适用场景 SPARK 演进时间表 SPARK 成功案例 SPARK 术语 Spark 运行模式 Spark 常用术语 生态系统 SPARK CORE SPARKSTREAMING SPARK SQL BLINKDB MLBASE/MLLIB GRAPHX SPARKR TACHYON 第 2 页共 18 页

3 Spark 及其生态圈简介 1 简介 1.1 Spark 简介 Spark 是加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发通用内存并行计算框架 Spark 在 2013 年 6 月进入 Apache 成为孵化项目,8 个月后成为 Apache 顶级项目, 速度之快足见过人之处,Spark 以其先进的设计理念, 迅速成为社区的热门项目, 围绕着 Spark 推出了 Spark SQL Spark Streaming MLLib 和 GraphX 等组件, 也就是 BDAS( 伯克利数据分析栈 ), 这些组件逐渐形成大数据处理一站式解决平台 从各方面报道来看 Spark 抱负并非池鱼, 而是希望替代 Hadoop 在大数据中的地位, 成为大数据处理的主流标准, 不过 Spark 还没有太多大项目的检验, 离这个目标还有很大路要走 Spark 使用 Scala 语言进行实现, 它是一种面向对象 函数式编程语言, 能够像操作本地集合对象一样轻松地操作分布式数据集 (Scala 提供一个称为 Actor 的并行模型, 其中 Actor 通过它的收件箱来发送和接收非同步信息而不是共享数据, 该方式被称为 :Shared Nothing 模型 ) 在 Spark 官网上介绍, 它具有运行速度快 易用性好 通用性强和随处运行等特点 运行速度快 Spark 拥有 DAG 执行引擎, 支持在内存中对数据进行迭代计算 官方提供的数据表明, 如果数据由磁盘读取, 速度是 Hadoop MapReduce 的 10 倍以上, 如果数据从内存中读取, 速度可以高达 100 多倍 易用性好 Spark 不仅支持 Scala 编写应用程序, 而且支持 Java 和 Python 等语言进行编写, 特别是 Scala 是一种高效 可拓展的语言, 能够用简洁的代码处理较为复杂的处理工作 通用性强 Spark 生态圈即 BDAS( 伯克利数据分析栈 ) 包含了 Spark Core Spark SQL Spark 第 3 页共 18 页

4 Streaming MLLib 和 GraphX 等组件, 这些组件分别处理 Spark Core 提供内存计算框架 SparkStreaming 的实时处理应用 Spark SQL 的即席查询 MLlib 或 MLbase 的机器学习和 GraphX 的图处理, 它们都是由 AMP 实验室提供, 能够无缝的集成并提供一站式解决平台 随处运行 Spark 具有很强的适应性, 能够读取 HDFS Cassandra HBase S3 和 Techyon 为持久层读写原生数据, 能够以 Mesos YARN 和自身携带的 Standalone 作为资源管理器调度 job, 来完成 Spark 应用程序的计算 1.2 Spark 与 Hadoop 差异 Spark 是在借鉴了 MapReduce 之上发展而来的, 继承了其分布式并行计算的优点并改进了 MapReduce 明显的缺陷, 具体如下 : 首先,Spark 把中间数据放到内存中, 迭代运算效率高 MapReduce 中计算结果需要落地, 保存到磁盘上, 这样势必会影响整体速度, 而 Spark 支持 DAG 图的分布式并行计算的编程框架, 减少了迭代过程中数据的落地, 提高了处理效率 其次,Spark 容错性高 Spark 引进了弹性分布式数据集 RDD (Resilient Distributed Dataset) 的抽象, 它是分布在一组节点中的只读对象集合, 这些集合是弹性的, 如果数据集一部分丢失, 则可以根据 血统 ( 即充许基于数据衍生过程 ) 对它们进行重建 另外在 RDD 计算时可以通过 CheckPoint 来实现容错, 而 CheckPoint 有两种方式 :CheckPoint Data, 和 Logging The Updates, 用户可以控制采用哪种方式来实现容错 最后,Spark 更加通用 不像 Hadoop 只提供了 Map 和 Reduce 两种操作,Spark 提供的第 4 页共 18 页

5 数据集操作类型有很多种, 大致分为 :Transformations 和 Actions 两大类 Transformations 包括 Map Filter FlatMap Sample GroupByKey ReduceByKey Union Join Cogroup MapValues Sort 和 PartionBy 等多种操作类型, 同时还提供 Count, Actions 包括 Collect Reduce Lookup 和 Save 等操作 另外各个处理节点之间的通信模型不再像 Hadoop 只有 Shuffle 一种模式, 用户可以命名 物化, 控制中间结果的存储 分区等 1.3 Spark 的适用场景 目前大数据处理场景有以下几个类型 : 1. 复杂的批量处理 (Batch Data Processing), 偏重点在于处理海量数据的能力, 至于处理速度可忍受, 通常的时间可能是在数十分钟到数小时 ; 2. 基于历史数据的交互式查询 (Interactive Query), 通常的时间在数十秒到数十分钟之间 3. 基于实时数据流的数据处理 (Streaming Data Processing), 通常在数百毫秒到数秒之间目前对以上三种场景需求都有比较成熟的处理框架, 第一种情况可以用 Hadoop 的 MapReduce 来进行批量海量数据处理, 第二种情况可以 Impala 进行交互式查询, 对于第三中情况可以用 Storm 分布式处理框架处理实时流式数据 以上三者都是比较独立, 各自一套维护成本比较高, 而 Spark 的出现能够一站式平台满意以上需求 通过以上分析, 总结 Spark 场景有以下几个 : Spark 是基于内存的迭代计算框架, 适用于需要多次操作特定数据集的应用场合 需要反复操作的次数越多, 所需读取的数据量越大, 受益越大, 数据量小但是计算密集度较大的场合, 受益就相对较小 由于 RDD 的特性,Spark 不适用那种异步细粒度更新状态的应用, 例如 web 服务的存储或者是增量的 web 爬虫和索引 就是对于那种增量修改的应用模型不适合 数据量不是特别大, 但是要求实时统计分析需求 1.4 Spark 演进时间表 演进时间表 : 2009 年由 Berkeley's AMPLab 开始编写最初的源代码 2010 年开放源代码 2013 年 6 月进入 Apache 孵化器项目 2014 年 2 月成为 Apache 的顶级项目 (8 个月时间 ) 第 5 页共 18 页

6 2014 年 5 月底 Spark1.0.0 发布 2014 年 9 月 Spark1.1.0 发布 2014 年 12 月 Spark1.2.0 发布目前情况 : 目前已经有 30+ 公司 100+ 开发者在提交代码 Hadoop 最大的厂商 Cloudera 宣称加大 Spark 框架的投入来取代 Mapreduce Hortonworks Hadoop 厂商 MapR 投入 Spark 阵营 Apache Mahout 放弃 MapReduce, 将使用 Spark 作为后续算子的计算平台 1.5 Spark 成功案例 目前大数据在互联网公司主要应用在广告 报表 推荐系统等业务上 在广告业务方面需要大数据做应用分析 效果分析 定向优化等, 在推荐系统方面则需要大数据优化相关排名 个性化推荐以及热点点击分析等 这些应用场景的普遍特点是计算量大 效率要求高 Spark 恰恰满足了这些要求, 该项目一经推出便受到开源社区的广泛关注和好评 并在近两年内发展成为大数据处理领域最炙手可热的开源项目 本章将列举国内外应用 Spark 的成功案例 1. 腾讯广点通是最早使用 Spark 的应用之一 腾讯大数据精准推荐借助 Spark 快速迭代的优势, 围绕 数据 + 算法 + 系统 这套技术方案, 实现了在 数据实时采集 算法实时训练 系统实时预测 的全流程实时并行高维算法, 最终成功应用于广点通 pctr 投放系统上, 支持每天上百亿的请求量 基于日志数据的快速查询系统业务构建于 Spark 之上的 Shark, 利用其快速查询以及内存表等优势, 承担了日志数据的即席查询工作 在性能方面, 普遍比 Hive 高 2-10 倍, 如果使用内存表的功能, 性能将会比 Hive 快百倍 2. Yahoo Yahoo 将 Spark 用在 Audience Expansion 中的应用 Audience Expansion 是广告中寻找目标用户的一种方法 : 首先广告者提供一些观看了广告并且购买产品的样本客户, 据此进行 第 6 页共 18 页

7 学习, 寻找更多可能转化的用户, 对他们定向广告 Yahoo 采用的算法是 logistic regression 同时由于有些 SQL 负载需要更高的服务质量, 又加入了专门跑 Shark 的大内存集群, 用于取代商业 BI/OLAP 工具, 承担报表 / 仪表盘和交互式 / 即席查询, 同时与桌面 BI 工具对接 目前在 Yahoo 部署的 Spark 集群有 112 台节点,9.2TB 内存 3. 淘宝阿里搜索和广告业务, 最初使用 Mahout 或者自己写的 MR 来解决复杂的机器学习, 导致效率低而且代码不易维护 淘宝技术团队使用了 Spark 来解决多次迭代的机器学习算法 高计算复杂度的算法等 将 Spark 运用于淘宝的推荐相关算法上, 同时还利用 Graphx 解决了许多生产问题, 包括以下计算场景 : 基于度分布的中枢节点发现 基于最大连通图的社区发现 基于三角形计数的关系衡量 基于随机游走的用户属性传播等 4. 优酷土豆优酷土豆在使用 Hadoop 集群的突出问题主要包括 : 第一是商业智能 BI 方面, 分析师提交任务之后需要等待很久才得到结果 ; 第二就是大数据量计算, 比如进行一些模拟广告投放之时, 计算量非常大的同时对效率要求也比较高, 最后就是机器学习和图计算的迭代运算也是需要耗费大量资源且速度很慢 最终发现这些应用场景并不适合在 MapReduce 里面去处理 通过对比, 发现 Spark 性能比 MapReduce 提升很多 首先, 交互查询响应快, 性能比 Hadoop 提高若干倍 ; 模拟广告投放计算效率高 延迟小 ( 同 hadoop 比延迟至少降低一个数量级 ); 机器学习 图计算等迭代计算, 大大减少了网络传输 数据落地等, 极大的提高的计算性能 目前 Spark 已经广泛使用在优酷土豆的视频推荐 ( 图计算 ) 广告业务等 1.6 Spark 术语 Spark 运行模式 运行环境模式描述 Local Standalone On yarn On mesos 本地模式集群模式集群模式集群模式 常用于本地开发测试, 本地还分为 local 单线程和 local-cluster 多线程 ; 典型的 Mater/slave 模式, 不过也能看出 Master 是有单点故障的 ;Spark 支持 ZooKeeper 来实现 HA 运行在 yarn 资源管理器框架之上, 由 yarn 负责资源管理, Spark 负责任务调度和计算运行在 mesos 资源管理器框架之上, 由 mesos 负责资源管理,Spark 负责任务调度和计算 第 7 页共 18 页

8 On cloud 集群模式 比如 AWS 的 EC2, 使用这个模式能很方便的访问 Amazon 的 S3; Spark 支持多种分布式存储系统 :HDFS 和 S Spark 常用术语 术语 Application SparkContext Driver Program Executor Cluster Manager Worker Node Task Job Stage RDD DAGScheduler TaskScheduler Transformations Action 描述 Spark 的应用程序, 包含一个 Driver program 和若干 Executor Spark 应用程序的入口, 负责调度各个运算资源, 协调各个 Worker Node 上的 Executor 运行 Application 的 main() 函数并且创建 SparkContext 是为 Application 运行在 Worker node 上的一个进程, 该进程负责运行 Task, 并且负责将数据存在内存或者磁盘上 每个 Application 都会申请各自的 Executor 来处理任务在集群上获取资源的外部服务 ( 例如 :Standalone Mesos Yarn) 集群中任何可以运行 Application 代码的节点, 运行一个或多个 Executor 进程运行在 Executor 上的工作单元 SparkContext 提交的具体 Action 操作, 常和 Action 对应每个 Job 会被拆分很多组 task, 每组任务被称为 Stage, 也称 TaskSet 是 Resilient distributed datasets 的简称, 中文为弹性分布式数据集 ; 是 Spark 最核心的模块和类根据 Job 构建基于 Stage 的 DAG, 并提交 Stage 给 TaskScheduler 将 Taskset 提交给 Worker node 集群运行并返回结果是 Spark API 的一种类型,Transformation 返回值还是一个 RDD, 所有的 Transformation 采用的都是懒策略, 如果只是将 Transformation 提交是不会执行计算的是 Spark API 的一种类型,Action 返回值不是一个 RDD, 而是一个 scala 集合 ; 计算只有在 Action 被提交的时候计算才被触发 2 生态系统 Spark 生态圈也称为 BDAS( 伯克利数据分析栈 ), 是伯克利 APMLab 实验室打造的, 力图在算法 (Algorithms) 机器(Machines) 人(People) 之间通过大规模集成来展现大数据 第 8 页共 18 页

9 应用的一个平台 伯克利 AMPLab 运用大数据 云计算 通信等各种资源以及各种灵活的技术方案, 对海量不透明的数据进行甄别并转化为有用的信息, 以供人们更好的理解世界 该生态圈已经涉及到机器学习 数据挖掘 数据库 信息检索 自然语言处理和语音识别等多个领域 Spark 生态圈以 Spark Core 为核心, 从 HDFS Amazon S3 和 HBase 等持久层读取数据, 以 MESS YARN 和自身携带的 Standalone 为资源管理器调度 Job 完成 Spark 应用程序的计算 这些应用程序可以来自于不同的组件, 如 Spark Shell/Spark Submit 的批处理 Spark Streaming 的实时处理应用 Spark SQL 的即席查询 BlinkDB 的权衡查询 MLlib/MLbase 的机器学习 GraphX 的图处理和 SparkR 的数学计算等等 2.1 Spark Core 前面介绍了 Spark Core 的基本情况, 以下总结一下 Spark 内核架构 : 提供了有向无环图 (DAG) 的分布式并行计算框架, 并提供 Cache 机制来支持多次迭代计算或者数据共享, 大大减少迭代计算之间读取数据局的开销, 这对于需要进行多次迭代的数据挖掘和分析性能有很大提升 在 Spark 中引入了 RDD (Resilient Distributed Dataset) 的抽象, 它是分布在一组节点中的只读对象集合, 这些集合是弹性的, 如果数据集一部分丢失, 则可以根据 血统 对它们进行重建, 保证了数据的高容错性 ; 移动计算而非移动数据,RDD Partition 可以就近读取分布式文件系统中的数据块到各个节点内存中进行计算 使用多线程池模型来减少 task 启动开稍 采用容错的 高可伸缩性的 akka 作为通讯框架 第 9 页共 18 页

10 2.2 SparkStreaming SparkStreaming 是一个对实时数据流进行高通量 容错处理的流式处理系统, 可以对多种数据源 ( 如 Kdfka Flume Twitter Zero 和 TCP 套接字 ) 进行类似 Map Reduce 和 Join 等复杂操作, 并将结果保存到外部文件系统 数据库或应用到实时仪表盘 Spark Streaming 构架 计算流程 :Spark Streaming 是将流式计算分解成一系列短小的批处理作业 这里的批处理引擎是 Spark Core, 也就是把 Spark Streaming 的输入数据按照 batch size( 如 1 秒 ) 分成一段一段的数据 (Discretized Stream), 每一段数据都转换成 Spark 中的 RDD(Resilient Distributed Dataset), 然后将 Spark Streaming 中对 DStream 的 Transformation 操作变为针对 Spark 中对 RDD 的 Transformation 操作, 将 RDD 经过操作变成中间结果保存在内存中 整个流式计算根据业务的需求可以对中间的结果进行叠加或者存储到外部设备 下图显示了 Spark Streaming 的整个流程 图 Spark Streaming 构架 容错性 : 对于流式计算来说, 容错性至关重要 首先我们要明确一下 Spark 中 RDD 的容错机制 每一个 RDD 都是一个不可变的分布式可重算的数据集, 其记录着确定性的操作继承关系 (lineage), 所以只要输入数据是可容错的, 那么任意一个 RDD 的分区 (Partition) 出错或不可用, 都是可以利用原始输入数据通过转换操作而重新算出的 对于 Spark Streaming 来说, 其 RDD 的传承关系如下图所示, 图中的每一个椭圆形表示一个 RDD, 椭圆形中的每个圆形代表一个 RDD 中的一个 Partition, 图中的每一列的多个 RDD 表示一个 DStream( 图中有三个 DStream), 而每一行最后一个 RDD 则表示每一个 Batch Size 所产生的中间结果 RDD 我们可以看到图中的每一个 RDD 都是通过 lineage 相 第 10 页共 18 页

11 连接的, 由于 Spark Streaming 输入数据可以来自于磁盘, 例如 HDFS( 多份拷贝 ) 或是来自于网络的数据流 (Spark Streaming 会将网络输入数据的每一个数据流拷贝两份到其他的机器 ) 都能保证容错性, 所以 RDD 中任意的 Partition 出错, 都可以并行地在其他机器上将缺失的 Partition 计算出来 这个容错恢复方式比连续计算模型 ( 如 Storm) 的效率更高 Spark Streaming 中 RDD 的 lineage 关系图 实时性 : 对于实时性的讨论, 会牵涉到流式处理框架的应用场景 Spark Streaming 将流式计算分解成多个 Spark Job, 对于每一段数据的处理都会经过 Spark DAG 图分解以及 Spark 的任务集的调度过程 对于目前版本的 Spark Streaming 而言, 其最小的 Batch Size 的选取在 0.5~2 秒钟之间 (Storm 目前最小的延迟是 100ms 左右 ), 所以 Spark Streaming 能够满足除对实时性要求非常高 ( 如高频实时交易 ) 之外的所有流式准实时计算场景 扩展性与吞吐量 :Spark 目前在 EC2 上已能够线性扩展到 100 个节点 ( 每个节点 4Core), 可以以数秒的延迟处理 6GB/s 的数据量 (60M records/s), 其吞吐量也比流行的 Storm 高 2~5 倍, 图 4 是 Berkeley 利用 WordCount 和 Grep 两个用例所做的测试, 在 Grep 这个测试中,Spark Streaming 中的每个节点的吞吐量是 670k records/s, 而 Storm 是 115k records/s Spark Streaming 与 Storm 吞吐量比较图 第 11 页共 18 页

12 2.3 Spark SQL Shark 是 SparkSQL 的前身, 它发布于 3 年前, 那个时候 Hive 可以说是 SQL on Hadoop 的唯一选择, 负责将 SQL 编译成可扩展的 MapReduce 作业, 鉴于 Hive 的性能以及与 Spark 的兼容,Shark 项目由此而生 Shark 即 Hive on Spark, 本质上是通过 Hive 的 HQL 解析, 把 HQL 翻译成 Spark 上的 RDD 操作, 然后通过 Hive 的 metadata 获取数据库里的表信息, 实际 HDFS 上的数据和文件, 会由 Shark 获取并放到 Spark 上运算 Shark 的最大特性就是快和与 Hive 的完全兼容, 且可以在 shell 模式下使用 rdd2sql() 这样的 API, 把 HQL 得到的结果集, 继续在 scala 环境下运算, 支持自己编写简单的机器学习或简单分析处理函数, 对 HQL 结果进一步分析计算 在 2014 年 7 月 1 日的 Spark Summit 上,Databricks 宣布终止对 Shark 的开发, 将重点放到 Spark SQL 上 Databricks 表示,Spark SQL 将涵盖 Shark 的所有特性, 用户可以从 Shark 0.9 进行无缝的升级 在会议上,Databricks 表示,Shark 更多是对 Hive 的改造, 替换了 Hive 的物理执行引擎, 因此会有一个很快的速度 然而, 不容忽视的是,Shark 继承了大量的 Hive 代码, 因此给优化和维护带来了大量的麻烦 随着性能优化和先进分析整合的进一步加深, 基于 MapReduce 设计的部分无疑成为了整个项目的瓶颈 因此, 为了更好的发展, 给用户提供一个更好的体验,Databricks 宣布终止 Shark 项目, 从而将更多的精力放到 Spark SQL 上 Spark SQL 允许开发人员直接处理 RDD, 同时也可查询例如在 Apache Hive 上存在的外部数据 Spark SQL 的一个重要特点是其能够统一处理关系表和 RDD, 使得开发人员可以轻松地使用 SQL 命令进行外部查询, 同时进行更复杂的数据分析 除了 Spark SQL 外,Michael 还谈到 Catalyst 优化框架, 它允许 Spark SQL 自动修改查询方案, 使 SQL 更有效地执行 还有 Shark 的作者是来自中国的博士生辛湜 (Reynold Xin), 也是 Spark 的核心成员, 具体信息可以看他的专访 Spark SQL 的特点 : 引入了新的 RDD 类型 SchemaRDD, 可以象传统数据库定义表一样来定义 SchemaRDD,SchemaRDD 由定义了列数据类型的行对象构成 SchemaRDD 可以从 RDD 转换过来, 也可以从 Parquet 文件读入, 也可以使用 HiveQL 从 Hive 中获取 内嵌了 Catalyst 查询优化框架, 在把 SQL 解析成逻辑执行计划之后, 利用 Catalyst 包里的一些类和接口, 执行了一些简单的执行计划优化, 最后变成 RDD 的计算 在应用程序中可以混合使用不同来源的数据, 如可以将来自 HiveQL 的数据和来自 SQL 的数据进行 Join 操作 第 12 页共 18 页

13 Shark 的出现使得 SQL-on-Hadoop 的性能比 Hive 有了 倍的提高, 那么, 摆脱 了 Hive 的限制,SparkSQL 的性能又有怎么样的表现呢? 虽然没有 Shark 相对于 Hive 那样瞩 目地性能提升, 但也表现得非常优异, 如下图所示 : 为什么 sparksql 的性能会得到怎么大的提升呢? 主要 sparksql 在下面几点做了优化 : 1. 内存列存储 (In-Memory Columnar Storage) sparksql 的表数据在内存中存储不是采用原生态的 JVM 对象存储方式, 而是采用内存列存储 ; 2. 字节码生成技术 (Bytecode Generation) Spark1.1.0 在 Catalyst 模块的 expressions 增加了 codegen 模块, 使用动态字节码生成技术, 对匹配的表达式采用特定的代码动态编译 另外对 SQL 表达式都作了 CG 优化, CG 优化的实现主要还是依靠 Scala2.10 的运行时放射机制 (runtime reflection); 3. Scala 代码优化 SparkSQL 在使用 Scala 编写代码的时候, 尽量避免低效的 容易 GC 的代码 ; 尽管增加了编写代码的难度, 但对于用户来说接口统一 2.4 BlinkDB BlinkDB 是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎, 它允许用 户通过权衡数据精度来提升查询响应时间, 其数据的精度被控制在允许的误差范围内 为了达 第 13 页共 18 页

14 到这个目标,BlinkDB 使用两个核心思想 : 一个自适应优化框架, 从原始数据随着时间的推移建立并维护一组多维样本 ; 一个动态样本选择策略, 选择一个适当大小的示例基于查询的准确性和 ( 或 ) 响应时间需求 和传统关系型数据库不同,BlinkDB 是一个很有意思的交互式查询系统, 就像一个跷跷板, 用户需要在查询精度和查询时间上做一权衡 ; 如果用户想更快地获取查询结果, 那么将牺牲查询结果的精度 ; 同样的, 用户如果想获取更高精度的查询结果, 就需要牺牲查询响应时间 用户可以在查询的时候定义一个失误边界 2.5 MLBase/MLlib MLBase 是 Spark 生态圈的一部分专注于机器学习, 让机器学习的门槛更低, 让一些可能并不了解机器学习的用户也能方便地使用 MLbase MLBase 分为四部分 :MLlib MLI ML Optimizer 和 MLRuntime ML Optimizer 会选择它认为最适合的已经在内部实现好了的机器学习算法和相关参数, 来处理用户输入的数据, 并返回模型或别的帮助分析的结果 ; MLI 是一个进行特征抽取和高级 ML 编程抽象的算法实现的 API 或平台 ; MLlib 是 Spark 实现一些常见的机器学习算法和实用程序, 包括分类 回归 聚类 协同过滤 降维以及底层优化, 该算法可以进行可扩充 ; MLRuntime 基于 Spark 计算框架, 将 Spark 的分布式计算应用到机器学习领域 第 14 页共 18 页

15 总的来说,MLBase 的核心是他的优化器, 把声明式的 Task 转化成复杂的学习计划, 产出最优的模型和计算结果 与其他机器学习 Weka 和 Mahout 不同的是 : MLBase 是分布式的,Weka 是一个单机的系统 ; MLBase 是自动化的,Weka 和 Mahout 都需要使用者具备机器学习技能, 来选择自己想要的算法和参数来做处理 ; MLBase 提供了不同抽象程度的接口, 让算法可以扩充 MLBase 基于 Spark 这个平台 2.6 GraphX GraphX 是 Spark 中用于图 (e.g., Web-Graphs and Social Networks) 和图并行计算 (e.g., PageRank and Collaborative Filtering) 的 API, 可以认为是 GraphLab(C++) 和 Pregel(C++) 在 Spark(Scala) 上的重写及优化, 跟其他分布式图计算框架相比,GraphX 最大的贡献是, 在 Spark 之上提供一栈式数据解决方案, 可以方便且高效地完成图计算的一整套流水作业 GraphX 最先是伯克利 AMPLAB 的一个分布式图计算框架项目, 后来整合到 Spark 中成为一个核心组件 GraphX 的核心抽象是 Resilient Distributed Property Graph, 一种点和边都带属性的有向多重图 它扩展了 Spark RDD 的抽象, 有 Table 和 Graph 两种视图, 而只需要一份物理存储 两种视图都有自己独有的操作符, 从而获得了灵活操作和执行效率 如同 Spark,GraphX 的代码非常简洁 GraphX 的核心代码只有 3 千多行, 而在此之上实现的 Pregel 模型, 只要短短的 20 多行 GraphX 的代码结构整体下图所示, 其中大部分的实现, 都是围绕 Partition 的优化进行的 这在某种程度上说明了点分割的存储和相应的计算优化的确是图计算框架的重点和难点 第 15 页共 18 页

16 GraphX 的底层设计有以下几个关键点 1. 对 Graph 视图的所有操作, 最终都会转换成其关联的 Table 视图的 RDD 操作来完成 这样对一个图的计算, 最终在逻辑上, 等价于一系列 RDD 的转换过程 因此,Graph 最终具备了 RDD 的 3 个关键特性 :Immutable Distributed 和 Fault-Tolerant 其中最关键的是 Immutable( 不变性 ) 逻辑上, 所有图的转换和操作都产生了一个新图 ; 物理上,GraphX 会有一定程度的不变顶点和边的复用优化, 对用户透明 2. 两种视图底层共用的物理数据, 由 RDD[Vertex-Partition] 和 RDD[EdgePartition] 这两个 RDD 组成 点和边实际都不是以表 Collection[tuple] 的形式存储的, 而是由 VertexPartition/EdgePartition 在内部存储一个带索引结构的分片数据块, 以加速不同视图下的遍历速度 不变的索引结构在 RDD 转换过程中是共用的, 降低了计算和存储开销 3. 图的分布式存储采用点分割模式, 而且使用 partitionby 方法, 由用户指定不同的划分策略 (PartitionStrategy) 划分策略会将边分配到各个 EdgePartition, 顶点 Master 分配到各个 VertexPartition,EdgePartition 也会缓存本地边关联点的 Ghost 副本 划分策略的不同会影响到所需要缓存的 Ghost 副本数量, 以及每个 EdgePartition 分配的边的均衡程度, 需要根据图的结构特征选取最佳策略 目前有 EdgePartition2d EdgePartition1d RandomVertexCut 和 CanonicalRandomVertexCut 这四种策略 在淘宝大部分场景下, EdgePartition2d 效果最好 2.7 SparkR SparkR 是 AMPLab 发布的一个 R 开发包, 使得 R 摆脱单机运行的命运, 可以作为 Spark 的 job 运行在集群上, 极大得扩展了 R 的数据处理能力 第 16 页共 18 页

17 SparkR 的几个特性 : 提供了 Spark 中弹性分布式数据集 (RDD) 的 API, 用户可以在集群上通过 R shell 交互性的运行 Spark job 支持序化闭包功能, 可以将用户定义函数中所引用到的变量自动序化发送到集群中其他的机器上 SparkR 还可以很容易地调用 R 开发包, 只需要在集群上执行操作前用 includepackage 读取 R 开发包就可以了, 当然集群上要安装 R 开发包 2.8 Tachyon Tachyon 是一个高容错的分布式文件系统, 允许文件以内存的速度在集群框架中进行可靠的共享, 就像 Spark 和 MapReduce 那样 通过利用信息继承, 内存侵入,Tachyon 获得了高性能 Tachyon 工作集文件缓存在内存中, 并且让不同的 Jobs/Queries 以及框架都能内存的速度来访问缓存文件 因此,Tachyon 可以减少那些需要经常使用的数据集通过访问磁盘来获得的次数 Tachyon 兼容 Hadoop, 现有的 Spark 和 MR 程序不需要任何修改而运行 在 2013 年 4 月,AMPLab 共享了其 Tachyon Alpha 版本的 Tachyon, 其宣称性能为 HDFS 的 300 倍, 继而受到了极大的关注 Tachyon 的几个特性如下 : JAVA-Like File API Tachyon 提供类似 JAVA File 类的 API, 第 17 页共 18 页

18 兼容性 Tachyon 实现了 HDFS 接口, 所以 Spark 和 MR 程序不需要任何修改即可运行 可插拔的底层文件系统 Tachyon 是一个可插拔的底层文件系统, 提供容错功能 tachyon 将内存数据记录在底层文件系统 它有一个通用的接口, 使得可以很容易的插入到不同的底层文件系统 目前支持 HDFS,S3,GlusterFS 和单节点的本地文件系统, 以后将支持更多的文件系统 参考资料 : (1) Spark 官网 (2) Spark1.0.0 生态圈一览 (3) 大数据计算新贵 Spark 在腾讯雅虎优酷成功应用解析 (4) Spark Streaming : 大规模流式数据处理的新贵 (5) Spark SQL 介绍 sparksql1.1 入门 (6) 快刀初试:Spark GraphX 在淘宝的实践 (7) 基于 Spark 的图计算框架 GraphX 入门介绍 (8) Spark 专刊 Spark 最佳学习路径 ( 作者 : 黄忠 ) 第 18 页共 18 页

DPark MapReduce (Davies) davies@douban.com 2011/12/07 Velocity China 2011 Douban Douban 5500 Douban 5500 1000G, Douban 5500 1000G, 60+ Douban 5500 1000G, 60+ 200+ Douban 5500 1000G, 60+ 200+ > MooseFS

More information

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

培 训 机 构 介 绍  中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培 Hadoop 2.0 培 训 Hadoop 2.0Training Hadoop 2.0 运 维 与 开 发 实 战 培 训 邀 请 函 培 训 机 构 介 绍 www.zkpk.org 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开

More information

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示 完整的大数据解決方案 ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示 Dataframe Pig YARN Spark Stand Alone HDFS Spark Stand Alone Mesos Mesos Spark Streaming Hive Hadoop

More information

水晶分析师

水晶分析师 大数据时代的挑战 产品定位 体系架构 功能特点 大数据处理平台 行业大数据应用 IT 基础设施 数据源 Hadoop Yarn 终端 统一管理和监控中心(Deploy,Configure,monitor,Manage) Master Servers TRS CRYSTAL MPP Flat Files Applications&DBs ETL&DI Products 技术指标 1 TRS

More information

PowerPoint Presentation

PowerPoint Presentation MATLAB 与 Spark/Hadoop 相集成 : 实现大数据的处理和价值挖 马文辉 2015 The MathWorks, Inc. 1 内容 大数据及其带来的挑战 MATLAB 大数据处理 tall 数组 并行与分布式计算 MATLAB 与 Spark/Hadoop 集成 MATLAB 访问 HDFS(Hadoop 分布式文件系统 ) 在 Spark/Hadoop 集群上运行 MATLAB

More information

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI 电子科学技术第 02 卷第 06 期 2015 年 11 月 Electronic Science & Technology Vol.02 No.06 Nov.2015 年 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 李祥池 ( 杭州华三通信技术有限公司北京研究所, 北京,100085) 摘要 : 在大数据时代 对数据平台各组件的运行状态实时监控与运行分析具有重要意义

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 Apache Spark 与 多 数 据 源 的 结 合 田 毅 @ 目 录 为 什 么 会 用 到 多 个 数 据 源 Spark 的 多 数 据 源 方 案 有 哪 些 已 有 的 数 据 源 支 持 Spark 在 GrowingIO 的 实 践 分 享 为 什 么 会 用 到 多 个 数 据 源 从 数 据 本 身 来 看 大 数 据 的 特 性 之 一 :Variety 数 据 的 多 样

More information

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项 IT@Intel 白 皮 书 英 特 尔 IT 部 门 大 数 据 和 商 业 智 能 2013 年 10 月 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 要 点 概 述 仅 在 五 周 之 内, 我 们 就 实 施 了 基 于 Apache Hadoop* 英 特 尔 分 发 版 的 低 成 本 可 完 全 实 现 的 大 数

More information

Apache CarbonData集群模式使用指南

Apache CarbonData集群模式使用指南 我们在 Apache CarbonData 快速入门编程指南 文章中介绍了如何快速使用 Apache CarbonData, 为了简单起见, 我们展示了如何在单机模式下使用 Apache CarbonData 但是生产环境下一般都是使用集群模式, 本文主要介绍如何在集群模式下使用 Apache CarbonData 启动 Spark shell 这里以 Spark shell 模式进行介绍,master

More information

量通讯开销 MapReduce 模型简单, 且现实中很多问题都可用 MapReduce 模型来表示 因 此该模型公开后, 立刻受到极大的关注, 并在生物信息学 文本挖掘等领域得到广泛的应用 图 2.2 MapReduce 执行流程图 [3] 无论是流处理还是批处理, 都是大数据处理的可行思路 大数据

量通讯开销 MapReduce 模型简单, 且现实中很多问题都可用 MapReduce 模型来表示 因 此该模型公开后, 立刻受到极大的关注, 并在生物信息学 文本挖掘等领域得到广泛的应用 图 2.2 MapReduce 执行流程图 [3] 无论是流处理还是批处理, 都是大数据处理的可行思路 大数据 第二章大数据管理系统处理架构 2.1 概述 无论是工业界还是学术界, 都已经广泛使用高级集群编程模型来处理日益增长的数据, 如 MapReduce 这些系统将分布式编程简化为自动提供位置感知 (locality-aware) 调度 容 错以及负载均衡, 使得大量用户能够在商用集群上分析庞大的数据集 大多数现有的集群计算系统都是基于非循环的数据流模型 (acyclic data flow model)

More information

SDK 概要 使用 Maven 的用户可以从 Maven 库中搜索 "odps-sdk" 获取不同版本的 Java SDK: 包名 odps-sdk-core odps-sdk-commons odps-sdk-udf odps-sdk-mapred odps-sdk-graph 描述 ODPS 基

SDK 概要 使用 Maven 的用户可以从 Maven 库中搜索 odps-sdk 获取不同版本的 Java SDK: 包名 odps-sdk-core odps-sdk-commons odps-sdk-udf odps-sdk-mapred odps-sdk-graph 描述 ODPS 基 开放数据处理服务 ODPS SDK SDK 概要 使用 Maven 的用户可以从 Maven 库中搜索 "odps-sdk" 获取不同版本的 Java SDK: 包名 odps-sdk-core odps-sdk-commons odps-sdk-udf odps-sdk-mapred odps-sdk-graph 描述 ODPS 基础功能的主体接口, 搜索关键词 "odpssdk-core" 一些

More information

长 安 大 学 硕 士 学 位 论 文 基 于 数 据 仓 库 和 数 据 挖 掘 的 行 为 分 析 研 究 姓 名 : 杨 雅 薇 申 请 学 位 级 别 : 硕 士 专 业 : 计 算 机 软 件 与 理 论 指 导 教 师 : 张 卫 钢 20100530 长安大学硕士学位论文 3 1 3系统架构设计 行为分析数据仓库的应用模型由四部分组成 如图3 3所示

More information

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1 Business & Operation 业 务 与 运 营 大 数 据 技 术 在 精 准 营 销 中 的 应 用 王 小 鹏 北 京 东 方 国 信 科 技 股 份 有 限 公 司 北 京 100102 摘 要 简 要 介 绍 主 流 的 大 数 据 技 术 架 构 和 大 数 据 挖 掘 技 术 ; 阐 述 大 数 据 技 术 在 精 准 营 销 与 维 系 系 统 建 设 中 的 应 用,

More information

帝国CMS下在PHP文件中调用数据库类执行SQL语句实例

帝国CMS下在PHP文件中调用数据库类执行SQL语句实例 帝国 CMS 下在 PHP 文件中调用数据库类执行 SQL 语句实例 这篇文章主要介绍了帝国 CMS 下在 PHP 文件中调用数据库类执行 SQL 语句实例, 本文还详细介绍了帝国 CMS 数据库类中的一些常用方法, 需要的朋友可以参考下 例 1: 连接 MYSQL 数据库例子 (a.php)

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 Tachyon 存储系统的基本原理 以及与 Spark 的结合使用 顾荣 南京大学 PASA 大数据实验室 2015-10-25@Apache Roadshow(China) 内容 Tachyon 基本原理与实现 Tachyon 与 Spark 的结合使用 应用案例分析 3 什么是 Tachyon http://tachyon-project.org/ Tachyon /'tæki:ɔn/ 是以内存为中心的分布式文件系统,

More information

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式] Big Data RC Sharing 大數據掃盲 Service Planner of Enterprise Big Data 大 數 據 服 務 規 劃 師 企 業 大 數 據 課 程 規 劃 依 照 企 業 資 料 流 程 的 特 殊 性, 安 排 合 適 的 課 程 協 助 企 業 導 入 應 用 大 數 據 案 例 :Etu 資 策 會 平 安 保 險 湖 南 國 防 科 技 大 學 等

More information

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据...2 1.1 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架... 2 1.2 大 数 据 技 术 的 行 业 生 态 系 统... 2 2 在 关 键 组 件 中 实 现 平 衡...

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据...2 1.1 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架... 2 1.2 大 数 据 技 术 的 行 业 生 态 系 统... 2 2 在 关 键 组 件 中 实 现 平 衡... 白 皮 书 英 特 尔 固 态 硬 盘 英 特 尔 以 太 网 融 合 网 络 英 特 尔 Hadoop* 发 行 版 软 件 应 用 大 数 据 技 术 获 得 近 实 时 分 析 巨 大 成 效 1 平 衡 的 基 础 设 施 使 工 作 负 载 完 成 时 间 从 4 小 时 缩 短 为 7 如 今, 基 于 广 泛 可 用 的 计 算 存 储 和 网 络 组 件 的 改 进, 商 业 学 术

More information

合集

合集 Ver 1.0 版 本 目 录 第 一 章 当 大 数 据 遇 上 SSD 01 第 二 章 广 东 移 动 运 用 Hadoop 创 新 应 用 04 第 三 章 第 四 章 第 五 章 第 六 章 第 七 章 第 八 章 第 九 章 第 十 章 如 何 利 用 大 数 据 分 析 提 升 垃 圾 短 信 过 滤 效 果 广 东 电 信 用 大 数 据 重 构 室 内 网 优 大 数 据 提 升

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 Hadoop 生 态 技 术 在 阿 里 全 网 商 品 搜 索 实 战 阿 里 巴 巴 - 王 峰 自 我 介 绍 真 名 : 王 峰 淘 宝 花 名 : 莫 问 微 博 : 淘 莫 问 2006 年 硕 士 毕 业 后 加 入 阿 里 巴 巴 集 团 淘 及 搜 索 事 业 部 ( 高 级 技 术 与 家 ) 目 前 负 责 搜 索 离 线 系 统 团 队 技 术 方 向 : 分 布 式 计 算

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 大数据分析工具介绍 主讲 : 王建明 手机 :13940975206 QQ:564250480( 微信 ) 2/39 大数据的基本特征 特征 Volume 数据体量巨大 PB 级 -> EB 级 -> ZB 级 速度要求快数据输入输出的速度 Velocity Big Data Varity 数据类型多样文本 图像 视频 音频 Veracity 价值密度低商业价值高 Hadoop 生态系统介绍 ( 离线

More information

About Me 亚信科技 - 田毅 Spark 社区 Contributor 北京 SparkMeetup 的发起人 主要关注 SparkSQL 与 Spark Streaming

About Me 亚信科技 - 田毅 Spark 社区 Contributor 北京 SparkMeetup 的发起人 主要关注 SparkSQL 与 Spark Streaming Spark 应用案例分析 About Me 田毅 tianyi.asiainfo@gmail.com @ 亚信科技 - 田毅 Spark 社区 Contributor 北京 SparkMeetup 的发起人 主要关注 SparkSQL 与 Spark Streaming 目录 Spark 的优势和收益 Spark 与现有 Hadoop 生态的互操作性 Spark 实践分享 使用 Spark 的建议

More information

Transwarp Data Hub including Apache Hadoop 2.0

Transwarp Data Hub including Apache Hadoop 2.0 Transwarp Inceptor: 如何让 SQL 在 Spark 上运行的更快 从开源迈向商业产品 刘汪根 wayne.liu@transwarp.io 星环信息科技 ( 上海 ) 有限公司 www.transwarp.io 星环科技 来自于知名外企的创业团队 注册资金一千万元的高科技公司 成功完成近千万美元级别的 A 轮融资 中国最久的企业级 Hadoop 核心开发团队 比肩硅谷的企业级架构及功能模块

More information

About Me 田 亚 信 科 技 - 田 毅 Spark 社 区 Contributor 北 京 SparkMeetup 的 发 起 人 主 要 关 注 SparkSQL 与 Spark Streaming

About Me 田 亚 信 科 技 - 田 毅 Spark 社 区 Contributor 北 京 SparkMeetup 的 发 起 人 主 要 关 注 SparkSQL 与 Spark Streaming Spark 技 术 研 究 与 实 践 分 享 About Me 田 毅 tianyi.asiainfo@gmail.com @ 亚 信 科 技 - 田 毅 Spark 社 区 Contributor 北 京 SparkMeetup 的 发 起 人 主 要 关 注 SparkSQL 与 Spark Streaming 提 纲 为 什 么 选 择 Spark Spark 实 践 分 享 使 用 Spark

More information

分布式数据库期中作业说明

分布式数据库期中作业说明 厦门大学林子雨编著 大数据技术原理与应用 ( 版本号 :2016 年 4 月 20 日版本 ) ( 备注 :2015 年 8 月 1 日第一版教材中没有本章, 本章为 2016 年新增内容, 将被放入第二版教材中 ) ( 版权声明 : 版权所有, 请勿用于商业用途 ) 主讲教师 : 林子雨厦门大学数据库实验室二零一六年四月 中国高校大数据课程公共服务平台, 由中国高校首个 数字教师 的提出者和建设者

More information

站在hadoop上看hive

站在hadoop上看hive Hive 优化以及执行原理 数据平台杨新彦 2014-01-13 1. 整体架构优化 2. MR 阶段优化 3. JOB 优化 4. SQL 作业优化 5. 平台优化 开发量大 为什么要用 hive 简单 SELECT word, count(1) FROM ( select explode(split(line, \s )) AS word FROM article ) w GROUP BY word

More information

Presentation title goes here

Presentation title goes here ACP- 如何在微软 Azure HDInsight 优化 Hadoop 董乃文 Nevin Dong 资深技术顾问开发工具及平台事业部 (DX) 微软公司 朱晓勇 Xiaoyong Zhu 产品经理云计算与企业事业部 (C&E) 微软公司 Hadoop, HDInsight 及关键能力 HDInsight 性能及调优 典型应用场景 HDInsight 概述及关键能力 Hadoop as a Service,

More information

大数据技术原理与应用

大数据技术原理与应用 大数据技术原理与应用 ( 第 2 版 ) http://dblab.xmu.edu.cn/post/bigdata 温馨提示 : 编辑幻灯片母版, 可以修改每页 PPT 的厦大校徽和底部文字 第 9 章 Spark (PPT 版本号 :2017 年 2 月版本 ) 林子雨厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页 :http://www.cs.xmu.edu.cn/linziyu

More information

使用Spark SQL读取Hive上的数据

使用Spark SQL读取Hive上的数据 使用 Spark SQL 读取 Hive 上的数据 Spark SQL 主要目的是使得用户可以在 Spark 上使用 SQL, 其数据源既可以是 RDD, 也可以是外部的数据源 ( 比如 Parquet Hive Json 等 ) Spark SQL 的其中一个分支就是 Spark on Hive, 也就是使用 Hive 中 HQL 的解析 逻辑执行计划翻译 执行计划优化等逻辑, 可以近似认为仅将物理执行计划从

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 Fregata: 轻量级大规模机器学习算法库 Chief Data Scientist, TalkingData 大纲 大规模机器学习的挑战 Fregata 的优点 GSA 算法介绍 GSA 算法在 Spark 上的并行化与 MLLib 的对比如何使用 Fregata Fregata 的发展目标 大规模机器学习两个挑战 计算瓶颈 调参困难 经典算法的计算瓶颈 计算复杂度随数据规模超线性增长 Cheng

More information

Microsoft Word - CDA LⅡ大数据分析师考试大纲(第四届).docx

Microsoft Word - CDA LⅡ大数据分析师考试大纲(第四届).docx CDA LEVELⅡ 考试大纲 CERTIFIED DATA ANALYST LEVELⅡEXAMINATION OUTLINE CDA 考试大纲是 CDA 命题组基于 CDA 数据分析师等级认证标准而设定的一套科学 详细 系统的考试纲要 考纲规定并明确了 CDA 数据分析师认证考试的具体范围 内容和知识点, 考生可按照 CDA 考试大纲进行相关知识的复习 CDA 大数据分析师考试大纲 基础理论 (

More information

册子0906

册子0906 IBM SelectStack ( PMC v2.0 ) 模块化私有云管理平台 是跨主流虚拟化技术的统一资源云管理平台 01 亮点 : 快速可靠地实现集成化 私有云管理平台 02/03 丰富的功能支持企业数据中心云计算 扩展性强 : 简单易用 : 04/05 功能丰富 : 06/07 为什么选择 IBM SelectStack (PMC v2.0)? 快速实现价值 提高创新能力 降低 IT 成本 降低复杂度和风险

More information

Ioncube Php Encoder 8 3 Crack 4. llamaba octobre traslado General Search colony

Ioncube Php Encoder 8 3 Crack 4. llamaba octobre traslado General Search colony Ioncube Php Encoder 8 3 Crack 4 ->>->>->> DOWNLOAD 1 / 5 2 / 5 Press..the..General..Tools..category4Encrypt..and..protect..files..with..PHP..encoding,..encryption,..ob fuscation..and..licensing... 2016

More information

进击的巨人:基于Angel的高维度Online Learning_V3

进击的巨人:基于Angel的高维度Online Learning_V3 进击的巨人 基于 Angel 和 Spark Streaming 的高维度 Online Learning Andymhuang( 黄明 ) 腾讯 数据平台部 www.top100summit.com https://github.com/tencent/angel 源起 模型 网络 并行 局部性 分布式 机器 学习 同步 系统 调度 评估 优化 容错 MapReduce MPI Parameter

More information

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1 2016 2016, Vol. 37, No. 01 37 01 COMPUTER ENGINEERING & SOFTWARE IT 大数据在输变电设备状态评估中的研究 周广 1, 闫丹凤 1, 许光可 2, 李笋 1. 100876 2. 250001 2 摘要 : 电网的高速发展带来海量数据的存储和分析问题, 传统的数据管理和分析工具不再适用 本文主要对大数据分析的相关技术在输变电设备状态评估中的应用进行了研究

More information

KV-cache 1 KV-cache Fig.1 WorkflowofKV-cache 2.2 Key-value Key ; Key Mem-cache (FIFO) Value Value Key Mem-cache ( Value 256B 100 MB 20%

KV-cache 1 KV-cache Fig.1 WorkflowofKV-cache 2.2 Key-value Key ; Key Mem-cache (FIFO) Value Value Key Mem-cache ( Value 256B 100 MB 20% 38 11 2013 11 GeomaticsandInformationScienceofWuhanUniversity Vol.38No.11 Nov.2013 :1671-8860(2013)11-1339-05 :A GIS Key-value 1 1 1 1 (1 129 430079) : 设计了一种基于 Key-value 结构的缓存 KV-cache 旨在简化数据结构 高效管理缓存数据

More information

Reducing Client Incidents through Big Data Predictive Analytics

Reducing Client Incidents through Big Data Predictive Analytics IT@lntel 白 皮 书 英 特 尔 IT 部 门 IT 最 佳 实 践 大 数 据 预 测 分 析 2013 年 12 月 通 过 大 数 据 预 测 分 析 减 少 客 户 端 事 故 总 体 概 述 相 比 过 去 的 被 动 反 应, 我 们 现 在 能 够 更 容 易 主 动 找 出 客 户 端 问 题, 并 及 时 将 其 修 复 以 免 问 题 扩 大, 从 而 为 企 业 节 约

More information

基于 SQL-on-Hadoop 的 网络日志分析

基于 SQL-on-Hadoop 的 网络日志分析 1896 1920 1987 2006 基于 SQL-on-Hadoop 的 网络日志分析 章思宇, 姜开达, 韦建文, 罗萱, 王海洋 上海交通大学网络信息中心 2014 年 11 月 事后追查 校园网安全日志分析 已经发生, 已被发现的入侵 攻击检测 已经发生, 尚不知晓的攻击 正在进行的攻击 (APT) 漏洞挖掘 发现尚未被利用的漏洞 镜像流量抓包分析 网络流量日志采集 Internet 缓存加速系统

More information

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI 一般報導 大數據與 巨量資料分析 曾龍 我們需要你 資料科學家 來幫助國民建立更好的數位服務 幫助我們揭開更新的創意 幫助我們改善這個國家和全世界 美國總統歐巴馬 在 2012 年 10 月發行的 哈佛商業評 論 中 戴 文 波 特 湯 姆 斯 Thomas H. Davenport 及 帕 蒂 爾 D.J. Patil 發 表 了 一篇文章 描述 21 世紀最性感的職業 資料科學家 Data Scientist:

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 The BitCoin Scripting Language 交易实例 交易结构 "result": { "txid": "921a dd24", "hash": "921a dd24", "version": 1, "size": 226, "locktime": 0, "vin": [ ], "vout": [ ], "blockhash": "0000000000000000002c510d

More information

ChinaBI企业会员服务- BI企业

ChinaBI企业会员服务- BI企业 商业智能 (BI) 开源工具 Pentaho BisDemo 介绍及操作说明 联系人 : 杜号权苏州百咨信息技术有限公司电话 : 0512-62861389 手机 :18616571230 QQ:37971343 E-mail:du.haoquan@bizintelsolutions.com 权限控制管理 : 权限控制管理包括 : 浏览权限和数据权限 ( 权限部分两个角色 :ceo,usa; 两个用户

More information

<4D6963726F736F667420576F7264202D204861646F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

<4D6963726F736F667420576F7264202D204861646F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63> 关 于 举 办 Hadoop 大 数 据 及 海 量 数 据 挖 掘 应 用 工 程 师 培 训 班 的 通 知 随 着 云 时 代 的 来 临, 大 数 据 技 术 将 具 有 越 来 越 重 要 的 战 略 意 义 大 数 据 分 析 与 挖 掘 技 术 已 经 渗 透 到 每 一 个 行 业 和 业 务 职 能 领 域, 逐 渐 成 为 重 要 的 生 产 要 素, 人 们 对 于 海 量 数

More information

Spark 开发工程师 职位描述或者职位职责 2

Spark 开发工程师 职位描述或者职位职责 2 企业级 Spark 1.x 从菜鸟到高手精品进阶课程 Spark 市场需求 拉手招聘网站 Spark 工程师 薪资待遇 1 Spark 开发工程师 职位描述或者职位职责 2 3 课程优势 课程总览 4 5 课程特色 教学大纲 开课 网络课程开学典礼, 与大家进行互动交流, 彼此了解, 为后面讲师的授课 师生的互动做好前战准备 此外, 对本套课程大纲进行深入浅出的分析讲解, 让大家清楚的明白课程的内容,

More information

一 登录 crm Mobile 系统 : 输入 ShijiCare 用户名和密码, 登录系统, 如图所示 : 第 2 页共 32 页

一 登录 crm Mobile 系统 : 输入 ShijiCare 用户名和密码, 登录系统, 如图所示 : 第 2 页共 32 页 第 1 页共 32 页 crm Mobile V1.0 for IOS 用户手册 一 登录 crm Mobile 系统 : 输入 ShijiCare 用户名和密码, 登录系统, 如图所示 : 第 2 页共 32 页 二 crm Mobile 界面介绍 : 第 3 页共 32 页 三 新建 (New) 功能使用说明 1 选择产品 第 4 页共 32 页 2 填写问题的简要描述和详细描述 第 5 页共

More information

PowerPoint Presentation

PowerPoint Presentation 利用 Oracle Big Data Connectors 将 Hadoop 与 Oracle 集成 罗海雄甲骨文公司资深技术顾问 1 Copyright 2011, Oracle and/or its affiliates. All rights 以下内容旨在概述产品的总体发展方向 该内容仅供参考, 不可纳入任何合同 该内容不构成提供任何材料 代码或功能的承诺, 并且不应该作为制定购买决策的依据

More information

SparkR(R on Spark)编程指南

SparkR(R on Spark)编程指南 概论 SparkR 是一个 R 语言包, 它提供了轻量级的方式使得可以在 R 语言中使用 Apache Spark 在 Spark 1.4 中,SparkR 实现了分布式的 data frame, 支持类似查询 过滤以及聚合的操作 ( 类似于 R 中的 data frames:dplyr), 但是这个可以操作大规模的数据集 SparkR DataFrames DataFrame 是数据组织成一个带有列名称的分布式数据集

More information

第四章 102 图 4唱16 基于图像渲染的理论基础 三张拍摄图像以及它们投影到球面上生成的球面图像 拼图的圆心是相同的 而拼图是由球面图像上的弧线图像组成的 因此我 们称之为同心球拼图 如图 4唱18 所示 这些拼图中半径最大的是圆 Ck 最小的是圆 C0 设圆 Ck 的半径为 r 虚拟相机水平视域为 θ 有 r R sin θ 2 4畅11 由此可见 构造同心球拼图的过程实际上就是对投影图像中的弧线图像

More information

Tech Radar2015修改111

Tech Radar2015修改111 www.thoughtworks.com/radar/faq Canary Build http://martinfowler.com/bliki/datensparsamkeit.html Uber http://washingtonpost.com/blogs/the-switch/wp/2014/12/0 1/is-ubers-rider-database-a-sitting-duck-for-hackers

More information

Azure_s

Azure_s Azure ? Azure Azure Windows Server Database Server Azure Azure Azure Azure Azure Azure Azure Azure OpenSource Azure IaaS Azure VM Windows Server Linux PaaS Azure ASP.NET PHP Node.js Python MS SQL MySQL

More information

大数据关键技术发展趋势及产业构成

大数据关键技术发展趋势及产业构成 大数据技术的发展现状和最新趋势 孙元浩星环科技 Founder & CTO transwarp.io 1 Hadoop 的发展历程回顾 2 大数据技术的软件栈 ETL 数据装载工具 Workflow 工作流开发工具 数据质量管理工具 可视化报表工具 机器学习建模工具 统计挖掘开发工具 资源管理工具 分析管理工具 SQL 批处理 Batch Processing 交互式分析 OLAP Analysis

More information

拥抱大数据

拥抱大数据 25 The MathWorks, Inc. 拥抱大数据 陈建平 高级应用工程师 MathWorks 25 The MathWorks, Inc. 2 大数据? ENERGY Asset Optimization FINANCE Market Risk, Regulatory AUTO Fleet Data Analysis AERO Maintenance, reliability Medical

More information

教学输入与学习者的语言输出 温晓虹 本文从三个方面探讨了语言的输入与输出的关系 首先从理论研究的角度讨 论了从语言输入到语言输出的习得过程 实验研究表明 输入的语言素材必须被学习者所接收 即使接收了的内容也并不会自动进入中介语的体系 而是需要进一步对输入语言进行 分解 归类等分析性与综合性的处理 在语言 内化 的基础上 学习者的中介语系统才能 够不断地得到重新组合 趋于目的语 另外 学习者在语言输出前和输出时需要调节

More information

pdf

pdf i ii iii 1 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 QCon QCon InfoQ DNS StartRender Full load QPS 20% Dom html 26 URI Profile RT QPS URI profile InfoQ RT 50ms 40ms 10ms 20% RT Velocity

More information

FPGAs in Next Generation Wireless Networks WPChinese

FPGAs in Next Generation Wireless Networks WPChinese FPGA 2010 3 Lattice Semiconductor 5555 Northeast Moore Ct. Hillsboro, Oregon 97124 USA Telephone: (503) 268-8000 www.latticesemi.com 1 FPGAs in Next Generation Wireless Networks GSM GSM-EDGE 384kbps CDMA2000

More information

工程项目进度管理 西北工业大学管理学院 黄柯鑫博士 甘特图 A B C D E F G 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 甘特图的优点 : 直观明了 ( 图形化概要 ); 简单易懂 ( 易于理解 ); 应用广泛 ( 技术通用 ) 甘特图的缺点 : 不能清晰表示活动间的逻辑关系 WBS 责任分配矩阵 ( 负责〇审批

More information

思 想, 还 是 思 想 才 使 我 们 与 众 不 同 编 辑 部 : 工 业 和 信 息 化 部 赛 迪 研 究 院 通 讯 地 址 : 北 京 市 海 淀 区 万 寿 路 27 号 电 子 大 厦 4 层 邮 政 编 码 :100846 联 系 人 : 刘 颖 董 凯 联 系 电 话 :010

思 想, 还 是 思 想 才 使 我 们 与 众 不 同 编 辑 部 : 工 业 和 信 息 化 部 赛 迪 研 究 院 通 讯 地 址 : 北 京 市 海 淀 区 万 寿 路 27 号 电 子 大 厦 4 层 邮 政 编 码 :100846 联 系 人 : 刘 颖 董 凯 联 系 电 话 :010 大 数 据 发 展 白 皮 书 (2015 版 ) 中 国 电 子 信 息 产 业 发 展 研 究 院 工 业 和 信 息 化 部 赛 迪 智 库 二 一 五 年 四 月 思 想, 还 是 思 想 才 使 我 们 与 众 不 同 编 辑 部 : 工 业 和 信 息 化 部 赛 迪 研 究 院 通 讯 地 址 : 北 京 市 海 淀 区 万 寿 路 27 号 电 子 大 厦 4 层 邮 政 编 码 :100846

More information

Microsoft Word - CDA L2大数据分析师考试大纲(第六届).docx

Microsoft Word - CDA L2大数据分析师考试大纲(第六届).docx CDA LEVEL Ⅱ 大数据分析师考试大纲及解析 CERTIFIED DATA ANALYST LEVELⅡEXAMINATION OUTLINE CDA 考试大纲是 CDA 命题组基于 CDA 数据分析师等级认证标准而设定的一套科学 详细 系统的考试纲要 考纲规定并明确了 CDA 数据分析师资格考试的具体范围 内容和知识点, 考生可按照 CDA 考试大纲进行相关知识的复习 CDA LEVELⅡ

More information

分布式数据库期中作业说明

分布式数据库期中作业说明 厦 门 大 学 林 子 雨 编 著 大 数 据 技 术 原 理 与 应 用 ( 版 本 号 :2016 年 4 月 13 日 版 本 ) ( 备 注 :2015 年 8 月 1 日 第 一 版 教 材 中 没 有 本 章, 本 章 为 2016 年 新 增 内 容, 将 被 放 入 第 二 版 教 材 中 ) ( 版 权 声 明 : 版 权 所 有, 请 勿 用 于 商 业 用 途 ) 主 讲 教

More information

Spark读取Hbase中的数据

Spark读取Hbase中的数据 Spark 读取 Hbase 中的数据 Spark 和 Flume-ng 整合, 可以参见本博客 : Spark 和 Flume-ng 整合 使用 Spark 读取 HBase 中的数据 如果想及时了解 Spark Hadoop 或者 Hbase 相关的文章, 欢迎关注微信公共帐号 :iteblog_hadoop 大家可能都知道很熟悉 Spark 的两种常见的数据读取方式 ( 存放到 RDD 中 ):(1)

More information

¼ ½ ¾ ¼ ½ ¾

¼ ½ ¾ ¼ ½ ¾ 回归传统 历史学视野中的资本主义 刘光临 虽然明清资本主义萌芽研究和西方现代史学都使用了资本主义一词 但双方并无相同的理论背景 资本主义作为一个成熟的学科概念是由 世纪末 世纪初的历史学家和强调历史面向的政治经济学家 可简称为 德国历史学派 一起创造出来的 强调从历史而不是从抽象的理论中寻求社会变化的原因 资本主义萌芽这一概念的启用 实际上是对欧洲近代历史的严重误读 有鉴于此 在今后的中国历史研究中应该用资本主义来取代资本主义萌芽

More information

b. Java 基础 (4%) c. Python 基础 (4%) d. Linux & Ubuntu 基础 (2%) PART 2 Hadoop 理论占比 (15%) a. Hadoop 安装配置及运行机制解析 (3%) b. Hadoop 分布式文件系统 (2%) c. MapReduce 理论

b. Java 基础 (4%) c. Python 基础 (4%) d. Linux & Ubuntu 基础 (2%) PART 2 Hadoop 理论占比 (15%) a. Hadoop 安装配置及运行机制解析 (3%) b. Hadoop 分布式文件系统 (2%) c. MapReduce 理论 CDA LEVELⅡ 大数据分析师考试大纲 一 总则 CERTIFIED DATA ANALYST LEVEL Ⅱ EXAMINATION OUTLINE CDA 数据分析师人才行业标准 是面向全行业数据分析及大数据相关岗位的一套科学化 专业化 正规化 系统化的人才技能准则 经管之家 CDA 数据分析师认证考试是评判 标准化人才 的唯一考核路径 CDA 考试大纲规定并明确了数据分析师认证考试的具体范围

More information

静态分析 投放文件 行为分析 互斥量 (Mutexes) 执行的命令 创建的服务 启动的服务 进程 cmd.exe PID: 2520, 上一级进程 PID: 2556 cmd.exe PID: 2604, 上一级进程 PID: 2520 访问的文件 C:\Users\test\AppData\Lo

静态分析 投放文件 行为分析 互斥量 (Mutexes) 执行的命令 创建的服务 启动的服务 进程 cmd.exe PID: 2520, 上一级进程 PID: 2556 cmd.exe PID: 2604, 上一级进程 PID: 2520 访问的文件 C:\Users\test\AppData\Lo 魔盾安全分析报告 分析类型 开始时间 结束时间 持续时间 分析引擎版本 FILE 2016-11-25 00:20:03 2016-11-25 00:22:18 135 秒 1.4-Maldun 虚拟机机器名 标签 虚拟机管理 开机时间 关机时间 win7-sp1-x64 win7-sp1-x64 KVM 2016-11-25 00:20:03 2016-11-25 00:22:18 魔盾分数 0.0

More information

2013_6_3.indd

2013_6_3.indd 中 国 科 技 资 源 导 刊 ISSN 1674-1544 2013 年 11 月 第 45 卷 第 6 期 95-99, 107 CHINA SCIENCE & TECHNOLOGY RESOURCES REVIEW ISSN 1674-1544 Vol.45 No.6 95-99, 107 Nov. 2013 构 建 基 于 大 数 据 的 智 能 高 校 信 息 化 管 理 服 务 系 统

More information

Bluemix 从概念到应用CN改

Bluemix 从概念到应用CN改 IBM Bluemix 从概念到应用 平台即服务 1. 2. 3. 3.1. 3.2. 4. 4.1. 4.1.1. 4.1.2. 4.2. 5. 6. 7. 7.1. 7.2. 7.3. 8. 引言 开发者面临的挑战和障碍 Bluemix 在云格局中的定位 3.1. 云计算的各种模式 3.2. 以开发者为中心的 PaaS IBM Bluemix 简介 4.1. IBM Bluemix 架构 4.1.1.

More information

目录 计算广告简介 聚效数据架构 Spark 在聚效的应用实践

目录 计算广告简介 聚效数据架构 Spark 在聚效的应用实践 Spark 在计算广告领域的应用实践 朱广彬 / 刘忆智 @ 聚效广告 目录 计算广告简介 聚效数据架构 Spark 在聚效的应用实践 计算广告简介 计算广告学, 顾名思义是计算驱动广告的学科, 这是相对传统的广告而言的 计算广告学是一门以计算技术驱动的广告营销科学 传统广告 纸媒广告 电视广告 墙体广告 受众不够精准, 投放效果差 计算广告 网络受众体量大, 能够做到精准投放 更加关注效果 计算广告面临的挑战

More information

目录 1 GRAPHX 介绍 GRAPHX 应用背景 GRAPHX 的框架 发展历程 GRAPHX 实现分析 存储模式 图存储模式 GraphX 存储模式

目录 1 GRAPHX 介绍 GRAPHX 应用背景 GRAPHX 的框架 发展历程 GRAPHX 实现分析 存储模式 图存储模式 GraphX 存储模式 GraphX 介绍 第 1 页共 25 页 目录 1 GRAPHX 介绍... 3 1.1 GRAPHX 应用背景... 3 1.2 GRAPHX 的框架... 4 1.3 发展历程... 4 2 GRAPHX 实现分析... 5 2.1 存储模式... 6 2.1.1 图存储模式... 6 2.1.2 GraphX 存储模式... 7 2.2 计算模式... 8 2.2.1 图计算模式... 8

More information

深入理解otter

深入理解otter 深 入 理 解 otter 七 锋 2013-07-04 Agenda 1. 中 美 同 步 需 求 2. otter 架 构 & 设 计 o o o o o o o o 如 何 解 决 " 差 " 网 络 如 何 避 免 双 向 回 环 如 何 处 理 数 据 一 致 性 如 何 高 效 同 步 数 据 如 何 高 效 同 步 文 件 如 何 支 持 系 统 HA 如 何 处 理 特 殊 业 务

More information

PowerPoint Presentation

PowerPoint Presentation 1 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利 大数据技术概述 2 版权所有 2012,Oracle 和 / 或其分支机构 保留所有权利 以下内容旨在概述产品的总体发展方向 该内容仅供参考, 不可纳入任何合同 该内容不构成提供任何材料 代码或功能的承诺, 并且不应该作为制定购买决策的依据 此处所述有关 Oracle 产品的任何特性或功能的开发 发布以及相应的日程安排均由 Oracle

More information

器之 间 向一致时为正 相反时则为负 ③大量电荷的定向移动形成电 流 单个电荷的定向移动同样形成电流 3 电势与电势差 1 陈述概念 电场中某点处 电荷的电势能 E p 与电荷量 q Ep 的比值叫做该点处的电势 表达式为 V 电场中两点之间的 q 电势之差叫做电势差 表达式为 UAB V A VB 2 理解概念 电势差是电场中任意两点之间的电势之差 与参考点的选择无关 电势是反映电场能的性质的物理量

More information

年第 期

年第 期 年第 期 论虚拟实践的哲学意蕴 孙伟平 信息技术 虚拟技术 实践 实践形态 虚拟实践 所谓虚拟实践 是指人们按照一定的目的 通过数字化中介系统在虚拟时空进行的 主体与虚拟客体双向对象化的感性活动 它是人们有目的 有意识进行的能动的探索和改造 虚拟客体 同时也提升和改造自身的客观活动 是人类在当代技术革命推动下兴起的一种新型的实践活动形态 具有与传统实践迥然不同的特征 虚拟实在性 即时交互性 自由开放性

More information

IT168数据库技术大会-实时计算分会场叶炜晨0510版

IT168数据库技术大会-实时计算分会场叶炜晨0510版 爱奇艺实时采集计算平台 Venus 爱奇艺大事记 2010 2012 2014 2016 4 月 22 日视频网站 奇艺 正式上线 2011 6 月 23 日推出 奇艺出品 战略 11 月 26 日 品牌战略升级为 爱奇艺 11 月 2 日爱奇艺成为百度的全资子公司 2013 5 月 7 日爱奇艺与 PPS 合并提供更优质服务 9 月 2 日爱奇艺移动端流量首次超过 PC 端成为中国视频发展的标志性事件

More information

深度学习 + 大数据 TensorFlow on Yarn 李远策 2017 年 4 月 17 日

深度学习 + 大数据 TensorFlow on Yarn 李远策 2017 年 4 月 17 日 深度学习 + 大数据 TensorFlow on Yarn 李远策 2017 年 4 月 17 日 内容大纲 Ø TensorFlow 使用现状及痛点 Ø TensorFlow on Yarn 设计 Ø TensorFlow on Yarn 技术细节揭秘 Ø 深度学习平台演进及 SparkFlow 介绍 背景 坐标 :360- 系统部 - 数据团队 专业 :Yarn Spark MR HDFS 挑战

More information

背 景 概 述 企 业 需 要 一 种 灵 活 的 平 台 来 快 速 构 建 测 试 和 扩 展 新 的 应 用 程 序 服 务 并 对 市 场 中 发 生 的 数 字 化 变 革 作 出 反 应 数 字 化 变 革 正 在 加 快 步 伐, 因 为 流 程 和 信 息 的 日 益 融 合 带 来

背 景 概 述 企 业 需 要 一 种 灵 活 的 平 台 来 快 速 构 建 测 试 和 扩 展 新 的 应 用 程 序 服 务 并 对 市 场 中 发 生 的 数 字 化 变 革 作 出 反 应 数 字 化 变 革 正 在 加 快 步 伐, 因 为 流 程 和 信 息 的 日 益 融 合 带 来 白 皮 书 平 台 即 服 务 : 助 力 实 现 数 字 化 转 型 赞 助 商 :Oracle Robert P. Mahowald 2015 年 1 月 Larry Carvalho 执 行 概 要 传 统 业 务 模 式 正 在 受 到 为 客 户 提 供 多 渠 道 数 字 体 验 的 新 业 务 模 式 的 越 来 越 强 烈 的 冲 击 IDC 预 测, 到 2015 年, 在 营 销

More information

实践课堂成都站-0609.key

实践课堂成都站-0609.key 青云 QingCloud 容器器及 Kubernetes 实践 王渊命 青云 QingCloud 容器器平台负责 人 当我们谈论容器器时我们在谈论什什么? 容器器的两个视 角 资源隔离 应 用封装 容器器 生态圈现状 容器器技术 一家独 大百花 齐放 Docker, Rocket, Mesos Universal container, LXC, Hyper Container 调度系统三 足鼎 立

More information

Yita: 基于数据流的大数据计算引擎 郑龙,Ph.D., CTO 中兴飞流信息科技有限公司

Yita: 基于数据流的大数据计算引擎 郑龙,Ph.D., CTO 中兴飞流信息科技有限公司 Yita: 基于数据流的大数据计算引擎 郑龙,Ph.D., CTO 中兴飞流信息科技有限公司 数据流起源与发展 数据流的起源 数据流基础理论由 MIT 的 Jack Dennis 教授于上世纪七十 八十年代提出 ; Jack Dennis 教授是美国工程院院士, 由于其在数据流理论的贡献获得 2012 年的 IEEE 冯诺依曼奖章 数据流的发展 高光荣教授跟随 Jack, 坚持发展 30 余年, 并成为数据流技术的主要代表人物

More information

Microsoft Word - 在VMWare-5.5+RedHat-9下建立本机QTopia-2.1.1虚拟平台a.doc

Microsoft Word - 在VMWare-5.5+RedHat-9下建立本机QTopia-2.1.1虚拟平台a.doc 在 VMWare-5.5+RedHat-9 下建立 本机 QTopia-2.1.1 虚拟平台 张大海 2008-5-9 一 资源下载 1. 需要以下安装包 : tmake-1.13.tar.gz qtopia-free-source-2.1.1.tar.gz qt-embedded-2.3.10-free.tar.gz qt-x11-2.3.2.tar.gz qt-x11-free-3.3.4.tar.gz

More information

电子-12页

电子-12页 创建信息市场 实现智能城市价值挖掘 伸手触摸未来 中国车联网 发展现状与前瞻 序言 2 车联网掀开未来汽车新篇章 2013 2000 7% 2014 17.5 2016 2019 56 12,221 73.4% 76.8% 67.2% 48.3% 201 WeChat 39% 4.68 中国驾车者更加推崇个性化的联网服务 1 2 1. 2014 17.5 2014 1 21 2. 2014 06 04

More information

胡 鑫 陈兴蜀 王海舟 刘 磊 利用基于协议分析和逆向工程的主动测量方法对 点播系统进行了研究 通过对 点播协议进行分析 获悉该协议的通信格式和语义信息 总结出了 点播系统的工作原理 在此基础上设计并实现了基于分布式网络爬虫的 点播系统主动测量平台 并对该平台获取的用户数据进行统计分析 获得了 点播系统部分用户行为特征 研究结果对 点播系统的监控及优化提供了研究方法 点播 协议分析 爬虫 主动测量

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 流式计算在苏宁的发展历程 苏宁云商. 大数据平台研发中心 张毅 2016/9/26 苏宁云商. 大数据平台研发中心 1 关于我和我的小伙伴们 大数据平台研发中心 团队 职责 : 提供集团各个业务所需要的存储和计算能力 保证平台的稳定 高效运行 提高平台易用性 我 目标 : 打造稳定 易用 高效的平台, 提高数据分析效率, 实现人人都是数据分析师 大数据攻城狮 6 年工作经验,3 年半的流式计算领域相关经验

More information

(IBM) Dynamic Scale Out and FaultTolerant Seismic Imaging Solution on Spark.v5

(IBM) Dynamic Scale Out and FaultTolerant Seismic Imaging Solution on Spark.v5 Research on Dynamic Scale Out and Fault Tolerant Seismic Imaging Solution on Spark Agenda Background Seismic Imaging Solution over Spark Solution validation Further work 2 Use Scenario #1 地质成像 Step1: 装备铺设,

More information

燃烧器电子控制系统 目录 2

燃烧器电子控制系统 目录 2 聚焦 REC27 燃烧器电子控制系统 燃烧器电子控制系统 目录 2 REC27 燃烧器电子控制系统 2 概述 燃烧器电子控制系统 2 2 2 2 2 A B1 B2 C D E 22 2 2 系统图示 2 2 2 2 2 2 主要特征及优点 燃烧器电子控制系统 2 2 集成控制 2 2 节能 安全运行 运行模式 远程锁定复位 可根据需求提供特殊机型 无接合间隙及机械迟滞 简单的试运行及燃烧器设定 2

More information

版权声明 本文由加州大学伯克利分校计算机科学研究生部 Matei Alexandru Zaharia 博士著 委员会负责 :Scott Shenker 教授,Ion Stoica 首席教授,Alexandre Bayen 教授,Joshua Bloom 教授 本论文原文版权归 Matei Alexa

版权声明 本文由加州大学伯克利分校计算机科学研究生部 Matei Alexandru Zaharia 博士著 委员会负责 :Scott Shenker 教授,Ion Stoica 首席教授,Alexandre Bayen 教授,Joshua Bloom 教授 本论文原文版权归 Matei Alexa 大型集群上的快速和通用数据处理架构 An Architecture for Fast and General Data Processing on Large Clusters Matei Zaharia 著 CSDN CODE 翻译社区译 加州大学伯克利分校电气工程和计算机科学系技术报告编号 :UCB/EECS-2014-12 http://www.eecs.berkeley.edu/pubs/techrpts/2014/eecs-2014-12.html

More information

Microsoft Word - 正文.doc

Microsoft Word - 正文.doc 第 1 章 Python Spark 机器学习 与 Hadoop 大数据 本章将介绍机器学习 Spark 基本概念 使用 Python 开发 Spark 机器学习与大数据应用 Spark ML Pipeline 机器学习流程 大数据定义 Hadoop 基本概念 HDFS MapReduce 等基本原理 Python+Spark 2.0+Hadoop 机器学习与大数据实战 1.1 机器学习的介绍 机器学习技术不断进步,

More information

Slide 1

Slide 1 大数据主题交流 技术公司规划部 数据治理 目录 什么是大数据 大数据名词解释 大数据处理流程 大数据应用 数据治理 什么是数据治理 管理和治理 : 管理包括治理 治理是用来明确相关角色 工作责任和工作流程的 数据治理的目标 建立统一的主数据保证数据质量和数据安全提供更好的数据服务 数据治理体系 数据治理核心领域 数据模型 - 业务逻辑模型 数据标准 - 数据编码和数据字典 - 接口规范 数据生命周期

More information

ApacheEagle-陈浩-GOPS2016深圳大会_v1.0

ApacheEagle-陈浩-GOPS2016深圳大会_v1.0 Apache Eagle: 分布式实时监控预警框架 陈浩 ebay Inc. 关于我 Tech Lead, Sr. Software Engineer @ ebay Cloud Platform hchen9@ebay.com Co- creator, Committer and PMC @ Apache Eagle hao@apache.org Speaker @ Qcon / Hadoop Summit

More information

Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7.

Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7. Kubernetes 包管理理 工具 Helm 蔺礼强 Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7. Kubernetes

More information

天津天狮学院关于修订2014级本科培养方案的指导意见

天津天狮学院关于修订2014级本科培养方案的指导意见 目 录 天 津 天 狮 院 关 于 修 订 2014 级 本 科 培 养 方 案 的 指 导 意 见...1 金 融 类 专 业...9 金 融 专 业 培 养 方 案...9 保 险 专 业 培 养 方 案...14 人 力 资 源 管 理 专 业 培 养 方 案...19 劳 动 与 社 会 保 障 专 业 培 养 方 案...24 工 商 管 理 类 专 业...29 市 场 营 销 专 业

More information

大数据关键技术发展趋势及产业构成

大数据关键技术发展趋势及产业构成 大数据技术的最新进展和发展趋势 孙元浩星环科技 Founder & CTO transwarp.io 1 Hadoop 的发展历程回顾 2 大数据技术的软件栈 ETL 数据装载工具 Workflow 工作流开发工具 数据质量管理工具 可视化报表工具 机器学习建模工具 统计挖掘开发工具 资源管理工具 分析管理工具 SQL 批处理 Batch Processing 交互式分析 OLAP Analysis

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 广 和 天 下 iservice 企 业 内 刊 最 全 最 新 公 司 动 态, 各 部 门 各 分 / 子 公 司 信 息 分 享, 集 合 公 司 内 外 部 相 关 讯 息, 及 时 响 应 与 支 撑 业 务 发 展 见 证 狼 群 的 每 一 次 战 斗 与 成 果, 记 录 员 工 与 企 业 共 成 长 的 难 忘 片 段 与 回 忆, 让 每 一 颗 心 感 受 温 暖 如 家 云

More information

( 三 ) 我 国 发 展 大 数 据 产 业 发 展 的 建 议 以 大 数 据 供 需 两 端 ( 数 据 源 和 应 用 环 节 ) 为 抓 手 实 现 重 点 突 破, 大 力 推 动 全 社 会 的 数 据 开 放, 尤 其 是 政 府 数 据 的 开 放, 力 争 在 短 期 内 降 低

( 三 ) 我 国 发 展 大 数 据 产 业 发 展 的 建 议 以 大 数 据 供 需 两 端 ( 数 据 源 和 应 用 环 节 ) 为 抓 手 实 现 重 点 突 破, 大 力 推 动 全 社 会 的 数 据 开 放, 尤 其 是 政 府 数 据 的 开 放, 力 争 在 短 期 内 降 低 大 数 据 产 业 调 研 及 分 析 报 告 数 据 堂 ( 北 京 ) 科 技 股 份 有 限 公 司 大 数 据 的 出 现, 引 发 了 全 球 范 围 内 深 刻 的 技 术 与 商 业 变 革, 已 经 成 为 全 球 发 展 的 趋 势 以 及 国 家 和 企 业 间 的 竞 争 焦 点, 直 接 关 系 到 国 家 安 全 社 会 稳 定 经 济 发 展 和 民 生 幸 福 等 诸

More information

Microsoft Word - CDA LEVELⅡ大数据分析师模拟题.docx

Microsoft Word - CDA LEVELⅡ大数据分析师模拟题.docx 一 单选题 ( 每题 0.5 分, 共计 50 分 ) 1. 按下 ( A ) 键能终止当前运行的命令 A. Ctrl-C B. Ctrl-F C. Ctrl-B D. Ctrl-D 2. ls 命令有很多的参数, 显示所有文件, 包括隐藏文件的参数是 ( A ) A. -a B. -l C. r D. --help 3. 若要将鼠标从 VM 中释放出来, 可按 ( A ) 键来实现 A. Ctrl

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 Hortonworks 不 Apache 开源社区 王健夫 Hortonworks 中国区销售总监 13910191946 议程 Apache 开源社区 Hortonworks 的介绍 Hortonworks 的开源理念 案例分享 问答环节 Apache 软件基金会 Apache 软件基金会 ( 也就是 Apache Software Foundation, 简称为 ASF), 是专门为支持开源软件项目而办的一个非盈利性组织

More information

第 期 曹 源 等 形式化方法在列车运行控制系统中的应用

第 期 曹 源 等 形式化方法在列车运行控制系统中的应用 第 卷 第 期 年 月 交通运输工程学报 曹 源 唐 涛 徐田华 穆建成 为了确保列车运行控制系统设计和开发的正确性 比较了仿真 测试和形式化 种能够验证 系统设计正确性的方式 根据列车运行控制系统对安全的苛求性 提出了 个与系统安全相关的重要特性 即实时性 混成性 分布 并发 性 反应性 并分析了与这些特性相关的具体形式化方法 通 过对每种形式化方法的数学基础和应用范围的分析和归类 给出了各种方法的优势和不足

More information

Tutorial

Tutorial 以数据为中心的数据中心计算机系统 张立新中国科学院计算技术研究所 背景 数据中心是 IT 中发展最快的领域之一 大数据等新应用带来了改变 不是传统意义上的高性能计算系统 而是以数据处理为主的新型计算系统 使用模式的不同 规模的不同 系统栈的不同 一个巨大的市场 ( 千亿 $ 级 ) 呼唤新型计算技术 数据中心无处不在 银行医院政府运营商超市移动设备等等 搜索 电子商务 社交网络 流媒体 云计算 大数据

More information

<4D F736F F F696E74202D20B0A2C0EFB0CDB0CDB7D6B2BCCABDC1F7CAFDBEDDCAB5CAB1D3EBB3D6D0F8BCC6CBE32E BBCE6C8DDC4A3CABD5D>

<4D F736F F F696E74202D20B0A2C0EFB0CDB0CDB7D6B2BCCABDC1F7CAFDBEDDCAB5CAB1D3EBB3D6D0F8BCC6CBE32E BBCE6C8DDC4A3CABD5D> 分布式流数据实时与持续计算 强琦 hic2011 2011.12.3 提纲 背景 目标 传统方案与业界进展 设计理念 ( 重点 ) 技术架构 要点 例子 系统边界 计划 应用背景 数据量急剧增加 背景 Web 1.0 web 2.0, public ego net 电子商务 移动互联网 移动支付 欺诈 风控对海量交易实时性 用户体验的个性化和实时性 由点到面 实时搜索 个人实时信息服务 SNS 等

More information

雲端 Cloud Computing 技術指南 運算 應用 平台與架構 10/04/15 11:55:46 INFO 10/04/15 11:55:53 INFO 10/04/15 11:55:56 INFO 10/04/15 11:56:05 INFO 10/04/15 11:56:07 INFO

雲端 Cloud Computing 技術指南 運算 應用 平台與架構 10/04/15 11:55:46 INFO 10/04/15 11:55:53 INFO 10/04/15 11:55:56 INFO 10/04/15 11:56:05 INFO 10/04/15 11:56:07 INFO CHAPTER 使用 Hadoop 打造自己的雲 8 8.3 測試 Hadoop 雲端系統 4 Nodes Hadoop Map Reduce Hadoop WordCount 4 Nodes Hadoop Map/Reduce $HADOOP_HOME /home/ hadoop/hadoop-0.20.2 wordcount echo $ mkdir wordcount $ cd wordcount

More information

使用MapReduce读取XML文件

使用MapReduce读取XML文件 使用 MapReduce 读取 XML 文件 XML( 可扩展标记语言, 英语 :extensible Markup Language, 简称 : XML) 是一种标记语言, 也是行业标准数据交换交换格式, 它很适合在系统之间进行数据存储和交换 ( 话说 Hadoop H ive 等的配置文件就是 XML 格式的 ) 本文将介绍如何使用 MapReduce 来读取 XML 文件 但是 Had oop

More information

ebook 132-2

ebook 132-2 2 SQL Server 7.0 SQL Server SQL Server 7 SQL Server 7 5 2.1 SQL Server 7 SQL Server 7 SQL Server SQL Server SQL Server 2.1.1 SQL Server Windows NT/2000 Windows 95/98 ( r a n d o m access memory R A M )

More information

エスポラージュ株式会社 住所 : 東京都江東区大島 東急ドエルアルス大島 HP: ******************* * 关于 Java 测试试题 ******

エスポラージュ株式会社 住所 : 東京都江東区大島 東急ドエルアルス大島 HP:  ******************* * 关于 Java 测试试题 ****** ******************* * 关于 Java 测试试题 ******************* 問 1 运行下面的程序, 选出一个正确的运行结果 public class Sample { public static void main(string[] args) { int[] test = { 1, 2, 3, 4, 5 ; for(int i = 1 ; i System.out.print(test[i]);

More information

Microsoft Word - 11900電腦軟體設計.doc

Microsoft Word - 11900電腦軟體設計.doc 技 能 檢 定 規 範 之 一 一 九 電 腦 軟 體 行 政 院 勞 工 委 員 會 職 業 訓 練 局 編 印 軟 體 技 術 士 技 能 檢 定 規 範 目 錄 一 軟 體 技 術 士 技 能 檢 定 規 範 說 明... 1 二 丙 級 軟 體 技 術 士 技 能 檢 定 規 範... 3 三 乙 級 軟 體 技 術 士 技 能 檢 定 規 範... 5 四 甲 級 軟 體 技 術 士 技

More information