大数据技术基础

Size: px
Start display at page:

Download "大数据技术基础"

Transcription

1 获取教材和讲义 PPT 等各种课程资料请访问 = 课程教材由林子雨老师根据网络资料编著 = 厦门大学计算机科学系教师林子雨编著 年 9 月 1 / 28

2 前言 本教程由厦门大学计算机科学系教师林子雨编著, 可以作为计算机专业研究生课程 大数据技术基础 的辅助教材 本教程的主要内容包括 : 大数据概述 大数据处理模型 大数据关键技术 大数据时代面临的新挑战 NoSQL 数据库 云数据库 Google Spanner Hadoop HDFS HBase MapReduce Zookeeper 流计算 图计算和 Google Dremel 等 本教程是林子雨通过大量阅读 收集 整理各种资料后精心制作的学习材料, 与广大数据库爱好者共享 教程中的内容大部分来自网络资料和书籍, 一部分是自己撰写 对于自写内容, 林子雨老师拥有著作权 本教程 PDF 文档及其全套教学 PPT 可以通过网络免费下载和使用 ( 下载地址 : 教程中可能存在一些问题, 欢迎读者提出宝贵意见和建议! 本教程已经应用于厦门大学计算机科学系研究生课程 大数据技术基础, 欢迎访问 2013 班级网站 林子雨的 是 :ziyulin@xmu.edu.cn 林子雨的个人主页是 : 林子雨于厦门大学海韵园 2013 年 9 月 2 / 28

3 第 8 章流计算 厦门大学计算机科学系教师林子雨编著个人主页 : 课程网址 : 年 9 月 3 / 28

4 第 8 章流计算 随着大数据时代的到来, 数据量急剧膨胀, 业务也变得越加复杂 在业务中产生了源源不断的数据流, 而数据的价值又随着时间的流逝而降低, 如何实时处理海量流数据成为一大挑战 传统的数据库方案已不适合处理这样的数据, 而流计算则可以持续地对流数据进行分析, 实时得出有价值的信息 本章内容首先介绍了什么是流计算, 包括概念 处理模型和处理流程, 并详细介绍了当前热门的开源流计算框架 Storm, 内容要点如下 : 流计算概述 流计算处理流程 流计算应用 流计算框架 Storm 8.1 流计算概述 什么是流计算 近年来, 一种新的数据密集型应用已经得到了广泛的认同, 这类应用的特征是 : 数据不宜用持久稳定的关系型模型建模, 而适宜用瞬态数据流建模 这些应用的实例包括金融服务 网络监控 电信数据管理 Web 应用 生产制造 传感检测等等 在这种数据流模型中, 单独的数据单元可能是相关的元组, 例如网络测量 呼叫记录 网页访问等产生的数据 但是, 这些数据以大量 快速 时变 ( 可能是不可预知的 ) 的数据流形式持续到达, 由此产生了一些基础性的新的研究问题 互联网从诞生的第一时间起, 对世界的最大的改变就是让信息能够实时交互, 数据库和高速网络的发展更是给互联网业务带来了实时性的改变 对于实时性要求很高的应用, 若把持续到达的数据简单地放到 DBMS 中, 再在其中进行操作, 是不太现实的 传统的 DBMS 并不是为快速连续的存放单独的数据单元而设计的, 而且也并不支持 持续处理, 而 持续 处理 是数据流应用的典型特征 4 / 28

5 随着大数据时代的到来, 互联网业务的发展从初期数据量小 业务简单, 到过渡期数据有所膨胀 业务较复杂, 再到如今大数据时期数据量急剧膨胀, 业务很复杂的情况 面对大数据, 特别是流数据的实时化需求, 传统的数据库技术方案已不能满足需求, 成本高的同时并不能带来高效率, 急需针对流数据的实时计算 流计算 流计算, 即针对流数据的实时计算 要了解流计算, 就要了解两个概念 : 流数据和实时计算 流数据, 也称流式数据, 是指将数据看作数据流的形式来处理 数据流是在时间分布和数量上无限的一系列动态数据集合体 ; 数据记录是数据流的最小组成单元 数据流具有如下特征 : 数据连续不断 ; 数据来源众多, 格式复杂 ; 数据量大, 但是不十分关注存储 ; 注重数据的整体价值, 不要过分关注个别数据 ; 数据流顺序颠倒, 或者不完整 实时计算是针对大数据而言的 对于少量数据而言, 实时计算并不存在问题, 但随着数据量的不断膨胀, 实时计算就发生了质的改变, 数据的结构与来源越来越多样化, 实时计算的逻辑也变得越来越复杂 除了像非实时计算的需求 ( 如计算结果准确 ) 以外, 实时计算最重要的一个需求是能够实时响应计算结果, 一般要求为秒级 图 8-1 是一个流计算的示意图 : 实时获取来自不同终端的海量数据, 经过流计算平台的不断地分析处理, 整合获得有价值的信息 图 8-1 流计算示意图 5 / 28

6 总的来说, 流计算来自一个信念 : 数据的价值随着时间的流逝而降低 所以, 事件出现后必须尽快地对它们进行处理, 最好数据出现时便立刻对其进行处理 发生一个事件就进行一次处理, 而不是缓存起来成一批再处理 例如商用搜索引擎, 像 Google Bing 和 Yahoo! 等, 通常在用户查询响应中提供结构化的 Web 结果, 同时也插入基于流量的点击付费模式的文本广告 为了在页面上最佳位置展现最相关的广告, 就需要对用户数据进行实时分析, 通过一些算法来动态估算给定上下文中一个广告被点击的可能性, 从而能展示更佳的广告 为了及时处理用户反馈, 需要一个低延迟 可扩展 高可靠的处理引擎 数据流与传统的关系存储模型的区别 在数据流模型中, 需要处理的输入数据 ( 全部或部分 ) 并不存储在可随机访问的磁盘或内存中, 而是以一个或多个 连续数据流 的形式到达 数据流不同于传统的关系存储模型, 主要区别有如下几个方面 : 流中的数据元素在线到达 ; 系统无法控制将要处理的新到达的数据元素的顺序 ; 数据流的潜在大小也许是无穷无尽的 ; 一旦数据流中的某个元素经过处理, 要么被丢弃, 要么被归档存储 因此, 除非该数据被直接存储在内存中, 否则将不容易被检索 相对于数据流的大小, 这是一种典型的极小相关 流计算需求 对于一个流计算系统来说, 它应达到如下需求 : 高性能 : 处理大数据的基本要求, 如每秒处理几十万条数据 海量式 : 支持 TB 级甚至是 PB 级的数据规模 实时性 : 必须保证一个较低的延迟时间, 达到秒级别, 甚至是毫秒级别 分布式 : 支持大数据的基本架构, 必须能够平滑扩展 易用性 : 能够快速进行开发和部署 可靠性 : 能可靠地处理流数据 针对不同的应用场景, 相应的流计算系统会有不同的需求, 但是, 针对海量数据的流计算, 无论在数据采集 数据处理中都应达到秒级别的要求 6 / 28

7 8.1.4 流计算与 Hadoop 谈到大规模数据的处理, 很容易想到 Hadoop 和 MapReduce Hadoop 是大数据分析领域的王者, 那么 MapReduce 模式能否胜任实时流计算系统的需求呢? Hadoop 在本质上是一个批处理系统 数据被引入 Hadoop 文件系统 (HDFS) 并分发到各个节点进行处理 当处理完成时, 结果数据返回到 HDFS 供始发者使用 Hadoop 的批量化处理是人们喜爱它的地方, 但这在某些领域仍显不足, 尤其是在例如移动 Web 客户端或金融 网页广告等需要实时计算的领域 这些领域产生的数据量极大, 没有足够的存储空间来存储每个业务收到的数据 而流计算则可以实时对数据进行分析, 并决定是否抛弃无用的数据, 而这无需经过 Map/Reduce 的环节 为了保证实时性, 许多实时数据流处理系统都是专用系统, 它们不得不面对可靠性 扩展性和伸缩性方面的问题 使用 MapReduce 的好处在于 Hadoop 帮助业务屏蔽了底层处理, 上层作业不用关心容错和扩容方面的问题, 应用升级也很方便 不过基于 MapReduce 的业务不得不面对处理延迟的问题 有一种想法是将基于 MapReduce 的批量处理转为小批量处理, 将输入数据切成小的片段, 每隔一个周期就启动一次 MapReduce 作业, 这种实现需要减少每个片段的延迟, 并且需要考虑系统的复杂度 : 将输入数据分隔成固定大小的片段, 再由 MapReduce 平台处理, 缺点在于处理延迟与数据片段的长度 初始化处理任务的开销成正比 小的分段是会降低延迟, 但是, 也增加附加开销, 并且分段之间的依赖管理更加复杂 ( 例如一个分段可能会需要前一个分段的信息 ); 反之, 大的分段会增加延迟 最优化的分段大小取决于具体应用 为了支持流式处理,MapReduce 需要被改造成 Pipeline 的模式, 而不是 reduce 直接输出 ; 考虑到效率, 中间结果最好只保存在内存中等等 这些改动使得原有的 MapReduce 框架的复杂度大大增加, 不利于系统的维护和扩展 用户被迫使用 MapReduce 的接口来定义流式作业, 这使得用户程序的可伸缩性降低 MapReduce 框架为批处理做了高度优化, 系统典型地通过调度批量任务来操作静态数据, 任务不是常驻服务, 数据也不是实时流入 ; 而数据流计算的典型范式之一是不确定数据速率的事件流流入系统, 系统处理能力必须与事件流量匹配 数据流实时处理的模式决定了要和批处理使用非常不同的架构, 试图搭建一个既适合流式计算又适合批处理的通用平台, 7 / 28

8 结果可能会是一个高度复杂的系统, 并且最终系统可能对两种计算都不理想 如 Facebook 通过对 Hadoop/HBase 进行实时化改造, 使其具有了一定的实时处理能力 ( 可参阅 Facebook 发布的论文 Apache Hadoop Goes Realtime at Facebook ), 但这并不能算是一个较好的通用流计算解决方案 因此, 当前业界诞生了许多专门的数据流实时计算系统来满足各自需求, 当然除了延迟, 它们需要解决可靠性 扩展性和伸缩性等方面的挑战 8.2 流计算处理流程 传统的数据操作 ( 如图 8-2 所示 ), 首先将数据采集并存储在 DBMS 中, 然后通过查询和 DBMS 进行交互, 得到用户想要的结果 这样的一个流程隐含了两个前提 : 数据是旧的 当对数据做查询的时候, 里面数据已经是过去某一个时刻数据的一个快照, 这些数据可能已经过期了 ; 这样的流程需要人们主动发出查询 也就是说用户是主动的, 而 DBMS 系统是被动的 图 8-2 传统数据操作流程 对于流计算 ( 如图 8-3 所示 ), 其数据的处理流程一般有三个阶段 : 数据实时采集 数 据实时计算 实时查询服务 8 / 28

9 图 8-3 流计算的数据处理流程 数据实时采集 在数据实时采集阶段, 由于现在分布式集群得到广泛应用, 数据可能分散存储在不同的机器上, 要处理这些数据, 首先就要进行一个实时采集的过程, 汇总来自不同机器上的数据 数据的实时采集要保证实时性 低延迟与稳定可靠 目前有许多优秀的开源分布式日志收集系统均可满足每秒数百 MB 的数据采集和传输需求 如 Hadoop 的 Chukwa Facebook 的 Scribe LinkedIn 的 Kafka Cloudera 的 Flume 淘宝的 TimeTunnel 等 一般来说, 数据采集系统基本架构有三个部分 ( 如图 8-4 所示 ): Agent: 主动采集数据, 并把数据推送到 collector; Collector: 接收多个 Agent 的数据, 并实现有序 可靠 高性能的转发 ; Store: 存储 Collector 的数据 但对于流计算, 一般在 Store 部分不进行存储, 而是直接发送给流计算平台进行计算 9 / 28

10 图 8-4 数据实时采集系统基本架构 数据实时计算 如图 8-5 所示, 接收数据采集系统源源不断发来的实时数据后, 流计算系统在流数据不断变化的运动过程中实时地进行分析, 捕捉到可能对用户有用的信息, 并把结果发送出去 数据实时计算与传统的数据操作的不同之处包括以下两个方面 : 能对流数据做出实时回应 ; 用户是被动的, 而 DBMS 是主动的 图 8-5 数据实时计算流程 实时数据经过处理节点后, 产生的结果可作为另一个处理节点的输入数据, 直至获取所 需的计算结果 处理节点也可以将这些数据保存下来, 以便下一阶段使用 实时查询服务 理想情况下, 流计算会将对用户有价值的结果实时推送给用户, 这取决于应用场景 一 10 / 28

11 般而言, 流计算的第三个阶段是实时查询服务, 经由流计算框架得出的结果可供用户进行实时查询 展示或储存 8.3 流计算的应用 域 流计算是针对流数据的实时计算, 主要应用在产生大量流数据并对实时性要求很高的领 流计算的应用场景 如对于大型网站, 活跃的流式数据非常普遍, 这些数据包括网站的访问 PV(page view) /UV(unique visitor) 用户访问了什么内容 搜索了什么内容等 实时的数据计算和分析可以动态展示网站实时流量的变化情况, 分析每天各小时的流量和用户分布情况, 这对于大型网站来说具有重要的实际意义, 不仅可用于网站的实时业务监控, 也可以实现用户实时个性化内容推荐等 流计算的应用场景有很多, 总的来说, 流计算一方面可应用于处理金融服务如股票交易 银行交易等产生的大量实时数据 另一方面流计算主要应用于各种实时 Web 服务中, 如搜索引擎 购物网站的实时广告推荐,SNS 社交类网站的实时个性化内容推荐, 大型网站 网店的实时用户访问情况分析等 但从另一方面来说, 并不是每个应用场景都需要实时流计算的 需要考虑是否对数据的实时性有迫切需求 是否更关注对当前数据的分析与响应 若处理动态流程 ( 其特征更改得相当频繁 ) 非线性流程( 其计时和顺序不可预测 ) 和需要实时响应外部事件的流程, 则流计算是最适合的 流计算实例 (1) 量子恒道流计算的一大应用领域是分析系统 传统的分析系统都是分布式离线计算的方式, 即将数据全部保存起来, 然后每隔一定的时间进行离线分析, 从而得出结果 但这样必然会导致一定的延时, 这取决于离线计算的间隔时间和计算时长 特别是对于海量数据而言, 即使是短时间内就可计算出结果, 但离线计算间隔时间过长的话延时也相应增加 11 / 28

12 但是, 随着业务对实时性要求的提升, 这样的模式已不太适合对于流数据的分析, 也不太适用于需要实时响应的互联网应用场景 而通过流计算, 能在秒级别内得到实时的分析结果, 有利于根据当前所得到的分析结果及时地做出决策 调整 典型的搜索引擎 购物网站的广告推荐 社交网站的个性化推荐等, 都是基于对用户行为的分析系统实现的 典型的代表还有网站访问数据的分析 接下来我们将以量子恒道的例子来说明流计算给分析系统带来的改变 量子恒道是一家专业电子商务数据服务商, 致力于为网商提供精准实时的数据统计 多维的数据分析 权威的数据解决方案 目前为超过百万的淘宝卖家提供数据统计分析服务 随着用户和访问数据规模的不断增加, 量子恒道也面临着巨大的挑战 : 实时计算处理数据超过 3T/ 日, 分布式离线计算处理数据超过 20T/ 日 虽然分布式离线计算能满足大部分用户的需求, 小时级的统计延时是可以接受的 但随着实时性要求的不断提升, 特别是 双 11 双 12 这样需要实时数据分析支撑的应用场景, 商家希望通过实时的网店访问情况来及时调整促销策略 如何实现秒级别的实时分析响应成为量子恒道的一大挑战 网站访问数据是典型的流数据, 针对流数据, 量子恒道基于 Erlang( 一种通用的面向并发的编程语言 )+ZooKeeper( 针对大型分布式系统的可靠协调系统 ) 开发了海量数据实时流计算框架 Super Mario 2.0 该流计算框架具有低延迟 高可靠性的特点 与前面介绍的流计算的三个阶段相对应,Super Mario 2.0 的实时数据处理流程也可以用以下三个阶段来表示 ( 如图 8-6 所示 ): Log 数据由 TimeTunnel 在毫秒级别内实时送达 ; 实时数据经由 Super Mario 流计算框架进行处理 ; HBase 输出 存储结果 12 / 28

13 图 8-6 Super Mario 实时数据处理流程通过 Super Mario 流计算框架, 量子恒道可处理每天 TB 级的实时流数据, 并且从用户发出请求到数据展示, 整个延时控制在 2-3 秒内, 达到了实时性的要求 (2)IBM InfoSphere Streams 流计算不仅为互联网带来改变, 也能改变我们的生活 IBM 的流计算平台 InfoSphere Streams( 如图 8-7 所示 ), 能够广泛应用于制造 零售 交通运输 金融证券以及监管各行各业的解决方案之中, 使得实时快速做出决策的理念得以实现 以实时交通信息管理为例, Streams 应用于斯德哥尔摩的交通信息管理, 通过结合来自不同源的实时数据,Streams 可以生成动态的 多方位的看待交通流量的方式, 为城市规划者和乘客提供实时交通状况查看 图 8-7 Streams 可汇总来自不同源的实时数据通过实时流计算来分析交通信息是很有现实意义的 以提供导航路线为例, 一般的导航路线计算并没有考虑交通状况, 因为要处理如此庞大的实时信息就是一个极大的挑战 即便 13 / 28

14 计算路线时有考虑交通状况, 往往也只是参考了以往的交通状况 而借助于实时流计算, 不仅可以根据交通情况制定路线, 而且在行驶过程中, 也可以根据交通情况的变化实时更新路线, 始终为用户提供最佳的行驶路线, 如图 8-8 所示 图 8-8 通过 Streams 分析实时交通信息 8.4 流计算框架 Storm 自从数据流出现以来, 就有分析数据流并从中获取有用信息的需求 但是, 直到几年前, 仍然只有那些非常大的银行和政府机构能够通过昂贵的定制系统满足这种计算需求, 如 IBM 推出的商业流计算系统 InfoSphere Streams, 在政府部分与金融机构得以使用 早在 InfoSphere Streams 出现之前, 就有许多流计算技术的学术研究, 如 Aurora, 它是 MIT 等三所大学合作完成的项目 后来在 Aurora 的基础上开发了流式系统 Borealis, 但该项目在 08 年已经停止维护 流数据一般出现在金融行业或者互联网流量监控的业务场景, 由于这些场景中数据库应用占据主导地位, 因而造成了早期对于流数据研究多是基于对传统数据库处理的流式化, 而对流式框架本身的研究则偏少, 当时的工业界把更多的精力转向了实时数据库 2010 年 Yahoo! 开发的分布式流式处理系统 S4(Simple Scalable Streaming System) 的开源, 以及 2011 年 Twitter 开发的 Storm 的开源, 改变了这个情况 S4 和 Storm 相比 Hadoop 而言, 在流数据处理上更具优势 MapReduce 系统主要解决的是对静态数据的批量处理, 14 / 28

15 即当前的 MapReduce 系统实现启动计算时, 一般数据已经到位 而流式计算系统在启动时, 一般数据并没有完全到位, 而是源源不断地流入 批处理系统一般重视数据处理的总吞吐量, 而流处理系统则更加关注数据处理的延时, 即希望流入的数据越快处理越好 以往开发人员在做一个实时应用的时候, 除了要关注应用逻辑计算处理本身, 还要为了数据的实时传输 交互 分布大伤脑筋, 但是, 现在情况却大为不同 以 Storm 为例, 开发人员可以快速地搭建一套健壮 易用的实时流处理框架, 配合 SQL 产品或者 NoSQL 产品或者 MapReduce 计算平台, 就可以低成本地做出很多以前很难想象的实时产品 Yahoo! S4 与 Twitter Storm 是目前流行的开源流计算框架, 各有其架构特点, 相对而言, Storm 更为优秀 我们在此就以 Storm 为研究学习对象, 学习其设计理念与架构特点 Storm 简介 Twitter Storm 是一个免费 开源的分布式实时计算系统, 它可以简单 高效 可靠地处理大量的流数据 Storm 对于实时计算的意义类似于 Hadoop 对于批处理的意义, 这一说法也得到了业内人士的认同 Storm 是基于 Clojure 和 Java 开发的, 可以访问其官方网站 或 Github 项目主页 了解其更多信息 Twitter 开发这样一款系统也是为了应对其不断增长的数据和实时处理需求 为了处理最近的数据, 需要一个实时系统和批处理系统同时运行 当要计算一个查询时, 需要查询批处理视图和实时视图, 并把它们合并起来以得到最终的结果 在 Twitter 中进行实时计算的系统就是 Storm, 它在数据流上进行持续计算, 并且对这种流式数据处理提供了有力保障 同时,Twitter 采用分层的数据处理架构 ( 如图 8-9 所示 ), 由 Hadoop 和 ElephantDB( 专门用于从 Hadoop 中导出 key/value 数据的数据库 ) 组成批处理系统,Storm 和 Cassandra( 混合型的非关系的数据库 ) 组成实时系统, 实时系统处理的结果最终会由批处理系统来修正, 正是这个观点使得 Storm 的设计与众不同 15 / 28

16 图 8-9 Twitter 数据系统分层处理架构 Storm 主要特点 Storm 的主要特点如下 : 简单的编程模型 :Storm 降低了进行实时处理的复杂性 ; 支持各种编程语言 : 默认支持 Clojure Java Ruby 和 Python, 要增加对其他语言的支持, 只需实现一个简单的 Storm 通信协议即可 ; 容错性 :Storm 会自动管理工作进程和节点的故障 ; 水平扩展 : 计算是在多个线程 进程和服务器之间并行进行的 ; 可靠的消息处理 :Storm 保证每个消息至少能得到一次完整处理 ; 快速 : 系统的设计保证了消息能得到快速的处理 ; 本地模式 :Storm 有一个 本地模式, 可以在处理过程中完全模拟 Storm 集群, 这样可以快速进行开发和单元测试 ; 容易部署 :Storm 集群易于部署, 只需少量的安装和配置就可以运行 Storm 的这些特点, 特别是能可靠地处理消息, 保证每条消息都能得到处理的特点, 使其在目前的流计算应用中得到了广泛的使用 此外,Storm 支持本地模式, 在单机上就可以进行安装 使用, 大大降低了学习成本 Storm 应用领域 Twitter 列举了 Storm 的三大应用领域 : 信息流处理 (Stream Processing): Storm 可以用来实时处理新数据和更新数据库, 兼具容错性和可扩展性 ; 连续计算 (Continuous Computation):Storm 可以进行连续查询并把结果即时反馈给 16 / 28

17 客户, 比如将 Twitter 上的热门话题发送到客户端 ; 分布式远程过程调用 (Distributed RPC): Storm 可以用来并行处理密集查询,Storm 的拓扑结构 ( 后文会介绍 ) 是一个等待调用信息的分布函数, 当它收到一条调用信息后, 会对查询进行计算, 并返回查询结果 除了这些领域,Storm 也可以应用于各类实时计算的应用场景 Storm 设计思想 Storm 对一些概念进行了抽象化, 其主要术语和概念包括 Streams Spouts Bolts Topology 和 Stream Groupings (1) Streams 如图 8-10 所示, 在 Storm 对流 Stream 的抽象描述中, 流是一个不间断的无界的连续 Tuple ( 元组, 是元素有序列表 ) 这些无界的元组会以分布式的方式并行地创建和处理 图 8-10 Streams: 无界的 Tuples 序列 (2) Spouts Storm 认为每个 Stream 都有一个源头, 它将这个源头抽象为 Spouts Spouts 会从外部读取流数据并发出 Tuple, 如图 8-11 所示 图 8-6 Spouts 数据源 (3) Bolts 如图 8-12 所示,Storm 将流的中间状态转换抽象为 Bolts,Bolts 可以处理 tuples, 同时它也可以发送新的流给其他 Bolts 使用 Bolts 作为消息处理者, 所有的消息处理逻辑被封装 17 / 28

18 在 Bolts 里面, 处理输入的数据流并产生输出的新数据流 Bolts 中可执行过滤 聚合 查询数据库等操作 图 8-7 Bolts: 处理 tuples 并产生新的数据流 (4) Topology 为了提高效率, 在 Spout 源可以接上多个 Bolts 处理器 Storm 将这样的无向环图抽象为 Topology, 如图 8-13 所示 Topology 是 Storm 中最高层次的抽象概念, 它可以被提交到 Storm 集群执行, 一个拓扑就是一个流转换图 图中的边表示 Bolt 订阅了哪些流 当 Spout 或者 Bolt 发送元组到流时, 它就发送元组到每个订阅了该流的 Bolt 上进行处理 图 8-8 Topology 示意图在 Topology 的实现上,Storm 中拓扑定义仅仅是一些 Thrift 结构体 (Thrift 是基于二进制的高性能的通讯中间件 ), 这样一来就可以使用其他语言来创建和提交拓扑 Stream 中的每一个 Tuple 就是一个值列表 列表中的每个值都有一个名称, 并且该值可以是基本类型 字符类型 字节数组等, 当然也可以是其他可序列化的类型 Topology 中的每个节点都要说明它所发射出的元组的字段的名称, 这样其他节点只需 18 / 28

19 要订阅该名称就可以接收处理 (5) Stream Groupings 消息分发策略, 即定义一个 Stream 应该如何分配给 Bolts 目前 Stream Groupings 有如下几种方式 : Shuffle Grouping: 随机分组, 随机分发 Stream 中的 Tuple; Fields Grouping: 按字段分组, 具有相同值的 Tuple 会被分发到对应的 Bolts; All Grouping: 广播分发, 每个 Tuple 都会被分发到各个 Bolts 中 ; Global Grouping: 全局分组,Tuple 只会分发给 Bolt 中的一个任务 ; Non Grouping: 不分组, 与随机分组效果类似 ; Direct Grouping: 直接分组, 由 Tuple 的生产者来定义接收者 通过这些消息分发策略,Storm 解决了两个组件 (Spout 和 Bolt) 之间如何发送 Tuple 的问题 图 8-9 Stream grouping 示意图图 8-14 中的箭头表示 Tuple 的流向, 而圆圈则表示 Task,Task 就是具体的处理逻辑, 每一个 Spout 和 Bolt 会被当作很多 Task 在整个集群里面执行, 并且每一个 Task 对应到一个线程 通过一个完整的 Topology 示意图 ( 如图 8-15 所示 ), 可以了解 Stream Grouping 和 Task 在当中的作用 19 / 28

20 图 8-10 Topology 完整示意图 Storm 框架设计 Storm 运行于集群之上, 与 Hadoop 集群类似 但在 Hadoop 上运行的是 MapReduce Jobs, 而在 Storm 上运行的是 Topologies 两者大不相同, 一个关键不同是一个 MapReduce 的 Job 最终会结束, 而一个 Topology 永远处理消息 ( 或直到 kill 它 ) Storm 集群有两种节点 : 控制 (Master) 节点和工作者 (Worker) 节点 Master 节点运行一个称之为 Nimbus 的后台程序, 负责在集群范围内分发代码 为 worker 分配任务和故障监测 每个 Worker 节点运行一个称之 Supervisor 的后台程序, 监听分配给它所在机器的工作, 基于 Nimbus 分配给它的事情来决定启动或停止工作者进程 20 / 28

21 图 8-11 Storm 集群架构示意图从图 8-16 可以看出,Storm 采用了 Zookeeper 来作为分布式协调组件, 一个 Zookeeper 集群负责 Nimbus 和多个 Supervisor 之间的所有协调工作 ( 一个完整的拓扑可能被分为多个子拓扑, 并由多个 supervisor 完成 ) Nimbus 后台程序和 Supervisor 后台程序都是快速失败 (fail-fast) 和无状态的, 所有状态维持在 Zookeeper 或本地磁盘中 在这种设计中,master 节点并没有直接和 worker 节点通信, 而是借助中介 Zookeeper, 这样一来可以分离 master 和 worker 的依赖, 将状态信息存放在 Zookeeper 集群内以快速回复任何失败的一方 这意味着你可以 kill 杀掉 nimbus 进程和 supervisor 进程, 然后重启, 它们将恢复状态并继续工作, 这种设计使得 Storm 极其稳定 再来看看 Storm 的工作流程 ( 如图 8-17 所示 ): 首先定义 Topology, 由客户端提交 Topology 到 Storm 中执行 ; Nimbus 建立 Topology 本地目录, 将 Topology 分配到集群中进行处理 ( 将分配给 Supervisor 的任务写入 Zookeeper 中 ); Supervisor 从 Zookeeper 中获取所分配的任务, 启动任务 ; Worker 节点中的 Task 执行具体的任务逻辑 21 / 28

22 图 8-12 Storm 工作流程示意图 总的来说, 流计算任务的整体逻辑在 Topology 中定义, 然后便可提交到 Storm 中执行 Storm 实例 了解了 Storm 的设计思想和框架设计, 下面以一个单词统计的实例来加深对 Topology 的认识 Storm 编程模型非常简单, 如下 Topology 代码即定义了整个单词统计的逻辑 : 图 8-13 单词统计 Topology 代码代码中第一行新建了一个 Topology builder Builder.setSpout 是对 Spout 数据源的定义, 方法中有三个参数, 第一个参数定义 Spout 来源为 sentences, 表明要统计单词的来源 ; 第二个参数定义 Spout 数据源的处理函数 ; 参数三则定义了并发线程数 紧接着代码包含两个 builder.setbolt 定义, 同样有三个参数, 并且每个 setbolt 同时定义 22 / 28

23 了消息分发策略 第一个 setbolt 定义了单词的分割, 即从句子中提取出单词, 并以随机分发的方式将 Tuple 分发给每个 Bolt 而第二个 setbolt 则定义了对这些分割后单词的处理, 即计数, 分发方式为 按字段分组, 只有具有相同 field 值的 Tuple 才会发给同一个 Task 进行统计, 保证了统计的准确性 从代码中也可以看出,Bolts 是通过订阅 Tuple 的名称来接收相应的数据, 如第二个 setbolt 订阅了前一个 setbolt 分割后的单词数据 Topology 中只是定义了整个计算逻辑, 具体的处理函数则可以使用多种语言来完成 如 SplitSentence 方法中, 代码 super( python, splitsentence.py ) 说明这个方法是使用 Python 语言来实现的 图 8-19 SplitSentence 类定义方法中调用了 splitsentence.py 脚本 ( 如图 8-20 所示 ), 该脚本定义了一个简单的单词分割方法, 即通过空格来分割单词 当然真正的单词分割逻辑没有这么简单, 这里仅是通过这个简单的实例代码来快速了解其实现原理 分割后的单词通过 emit 的方法将 Tuple 发射出去, 以便订阅了该 Tuple 的 Bolts 进行接收 图 8-14 splitsentence.py 脚本 SplitSentence 类中的 declareoutputfields 方法定义了要输出的字段 进行 count 操作的 Bolts 接收其订阅的 Tuple 后, 调用 WordCount 类来进行下一步的处理, 如图 8-21 所示 23 / 28

24 图 8-15 WordCout 类定义图 8-21 的类定义中的 execute 方法说明了单词统计的逻辑, 即单词若已统计过, 则计数加 1, 否则置为 0 同时 declareoutputfields 方法定义了最终的输出字段 :( word, count ) 下图表示一个句子经过上面单词统计流程后的统计结果图 图 8-22 一个句子经单词统计后的统计结果示意图现在让我们再来总结一下整个流程 : 每个从 Spout 发送出来的消息 ( 英文句子 ) 都会触发很多的 Task 被创建 ; 用于分割单词的 Bolts 将句子分解为独立的单词, 然后发射包含这些单词的 Tuple; 24 / 28

25 用于计数的 Bolts 接收 Tuple, 并对其进行统计 ; 最后, 实时的输出每个单词以及它出现过的次数 这虽然是一个简单的单词统计, 但对其进行扩展, 便可应用在许多场景中, 如微博中的实时热门话题 Twitter 也正是使用了 Storm 来实现这一功能 图 Twitter 实时热门话题处理流程示意图 Twitter 实时热门话题的处理流程与单词统计流程是相近的 ( 如图 所示 ), 不过 Twitter 实时热门话题使用了更多级的 Bolts 首先, 以用户发布的 tweets 作为数据源, 经过 TwitterStreamingTopicSpout 处理后, 分发给 RollingCountsBolt( 用于实现滑动窗口计数和 Top N 排序, 网上有文章介绍了 Twitter 的这一 Rolling Count 算法 : ) ; 然后, 发出的 (word,count)tuple 再经过 IntermediateRankingsBolt 进行排序 ; 最后, 由 TotalRankingBolt 进行汇总得出总的热门话题排序 排序结果再交给 RankingsReportBolt 进行最后的处理, 如进行筛选 提取 输出等 图 中的 cometd 是一项 Ajax 推送技术, 表示处理后的排序结果以 JSON 的格式, 结合 JavaScript 前端技术实时推送给 Web 前端展示给用户 哪些公司在使用 Storm Storm 自 2011 年发布以来, 凭借其优良的实时流计算框架设计及开源特性, 如今已经 吸引了许多大型互联网公司的注意, 并将其应用到了自身的实际项目中 下图展示了部分使 25 / 28

26 用 Storm 的公司和项目, 典型用户如淘宝和阿里巴巴 图 使用 Storm 的公司和项目淘宝和阿里巴巴许多业务都需要实时流计算的支撑, 如业务监控 广告推荐 买家实时数据分析等业务场景 淘宝数据部门开发的新架构已把 Storm 作为当中重要的一部分 ( 如图 8-25 所示 ) 图 8-20 淘宝数据部门新架构示意图 26 / 28

27 8.4.8 流计算框架汇总 目前业内已涌现出许多的流计算框架与平台, 在此做一个小小的汇总 第一类是商业级的流计算平台, 代表如下 : IBM InfoSphere Streams: 商业级高级计算平台, 帮助用户开发的应用程序快速摄取 分析和关联来自数千个实时源的信息 IBM StreamBase:IBM 开发的另一款商业流计算系统, 在金融部门和政府部门使用 第二类是开源流计算框架, 代表如下 : Twitter Storm: 免费 开源的分布式实时计算系统, 可简单 高效 可靠地处理大量的流数据 ; Yahoo! S4(Simple Scalable Streaming System): 开源流计算平台, 是通用的 分布式的 可扩展的 分区容错的 可插拔的流式系统 第三类是公司为支持自身业务开发的流计算框架, 虽然未开源, 但有不少的学习资料可供了解 学习, 代表如下 : Facebook Puma:Facebook 使用 Puma 和 HBase 相结合来处理实时数据 ; DStream: 百度正在开发的属于百度的通用实时数据流计算系统 ; 银河流数据处理平台 : 淘宝开发的通用流数据实时计算系统 ; Super Mario: 基于 Erlang 语言和 Zookeeper 模块开发的高性能数据流处理框架 此外, 业界也涌现出了像 SQLstream 这样专门致力于实时大数据流处理服务的公司 本章小结 本章首先介绍了什么是流计算, 介绍了流计算产生的背景与流计算的基本概念, 接着介绍了流计算的处理模型与处理流程, 分析了 Hadoop 为代表的批处理能否胜任流计算的工作 接着对流计算的应用场景做了总结, 并通过具体的实例来说明当前流计算框架的重要性 接下来, 着重介绍了目前流行的开源流计算框架 Twitter Storm, 包括其主要特点 应用领域 设计思想和框架设计, 并且通过一个简单的实例来加深对 Storm 的认知 最后对当前流计算框架做了一个小小的汇总 27 / 28

28 参考文献 [1] Beyond MapReduce : 谈 2011 年风靡的数据流计算系统 [2] 对互联网海量数据实时计算的理解 [3] Storm - As deep into real-time data processing as you can get in 30 minutes. [4] Storm 实时流计算 实时流式数据处理及应用 附录 1: 任课教师介绍 林子雨 (1978-), 男, 博士, 厦门大学计算机科学系助理教授, 主要研究领域为数据库, 数据仓库, 数据挖掘. 主讲课程 : 大数据技术基础 办公地点 : 厦门大学海韵园科研 2 号楼 ziyulin@xmu.edu.cn 个人网页 : 28 / 28

PowerPoint Presentation

PowerPoint Presentation 大数据技术基础 厦门大学计算机科学系厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 2013 年新版 2013 年 9 月 厦门大学计算机科学系研究生课程 大数据技术基础 第 8 章流计算 (2013 年新版 ) 林子雨厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页 :http://www.cs.xmu.edu.cn/linziyu 课程提要 什么是流计算

More information

水晶分析师

水晶分析师 大数据时代的挑战 产品定位 体系架构 功能特点 大数据处理平台 行业大数据应用 IT 基础设施 数据源 Hadoop Yarn 终端 统一管理和监控中心(Deploy,Configure,monitor,Manage) Master Servers TRS CRYSTAL MPP Flat Files Applications&DBs ETL&DI Products 技术指标 1 TRS

More information

长 安 大 学 硕 士 学 位 论 文 基 于 数 据 仓 库 和 数 据 挖 掘 的 行 为 分 析 研 究 姓 名 : 杨 雅 薇 申 请 学 位 级 别 : 硕 士 专 业 : 计 算 机 软 件 与 理 论 指 导 教 师 : 张 卫 钢 20100530 长安大学硕士学位论文 3 1 3系统架构设计 行为分析数据仓库的应用模型由四部分组成 如图3 3所示

More information

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

培 训 机 构 介 绍  中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培 Hadoop 2.0 培 训 Hadoop 2.0Training Hadoop 2.0 运 维 与 开 发 实 战 培 训 邀 请 函 培 训 机 构 介 绍 www.zkpk.org 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开

More information

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI 电子科学技术第 02 卷第 06 期 2015 年 11 月 Electronic Science & Technology Vol.02 No.06 Nov.2015 年 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 李祥池 ( 杭州华三通信技术有限公司北京研究所, 北京,100085) 摘要 : 在大数据时代 对数据平台各组件的运行状态实时监控与运行分析具有重要意义

More information

大数据技术原理与应用

大数据技术原理与应用 大数据技术原理与应用 http://dblab.xmu.edu.cn/post/bigdata 温馨提示 : 编辑幻灯片母版, 可以修改每页 PPT 的厦大校徽和底部文字 第十一讲流计算 (PPT 版本号 :2016 年 4 月 27 日版本 ) 林子雨厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页 :http://www.cs.xmu.edu.cn/linziyu

More information

胡 鑫 陈兴蜀 王海舟 刘 磊 利用基于协议分析和逆向工程的主动测量方法对 点播系统进行了研究 通过对 点播协议进行分析 获悉该协议的通信格式和语义信息 总结出了 点播系统的工作原理 在此基础上设计并实现了基于分布式网络爬虫的 点播系统主动测量平台 并对该平台获取的用户数据进行统计分析 获得了 点播系统部分用户行为特征 研究结果对 点播系统的监控及优化提供了研究方法 点播 协议分析 爬虫 主动测量

More information

帝国CMS下在PHP文件中调用数据库类执行SQL语句实例

帝国CMS下在PHP文件中调用数据库类执行SQL语句实例 帝国 CMS 下在 PHP 文件中调用数据库类执行 SQL 语句实例 这篇文章主要介绍了帝国 CMS 下在 PHP 文件中调用数据库类执行 SQL 语句实例, 本文还详细介绍了帝国 CMS 数据库类中的一些常用方法, 需要的朋友可以参考下 例 1: 连接 MYSQL 数据库例子 (a.php)

More information

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示 完整的大数据解決方案 ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示 Dataframe Pig YARN Spark Stand Alone HDFS Spark Stand Alone Mesos Mesos Spark Streaming Hive Hadoop

More information

IDEO_HCD_0716

IDEO_HCD_0716 IDEO HCD Toolkit Tencent CDC ...? Tencent CDC Tencent CDC Tencent CDC Tencent CDC Tencent CDC Tencent CDC Tencent CDC Tencent CDC Tencent CDC Tencent CDC Tencent CDC Tencent CDC Tencent CDC Tencent CDC

More information

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项 IT@Intel 白 皮 书 英 特 尔 IT 部 门 大 数 据 和 商 业 智 能 2013 年 10 月 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 要 点 概 述 仅 在 五 周 之 内, 我 们 就 实 施 了 基 于 Apache Hadoop* 英 特 尔 分 发 版 的 低 成 本 可 完 全 实 现 的 大 数

More information

册子0906

册子0906 IBM SelectStack ( PMC v2.0 ) 模块化私有云管理平台 是跨主流虚拟化技术的统一资源云管理平台 01 亮点 : 快速可靠地实现集成化 私有云管理平台 02/03 丰富的功能支持企业数据中心云计算 扩展性强 : 简单易用 : 04/05 功能丰富 : 06/07 为什么选择 IBM SelectStack (PMC v2.0)? 快速实现价值 提高创新能力 降低 IT 成本 降低复杂度和风险

More information

大数据技术原理与应用

大数据技术原理与应用 大数据技术原理与应用 厦门大学计算机科学系厦门大学计算机科学系林子雨 2015 年版 ziyulin@xmu.edu.cn 大数据技术原理与应用 http://dblab.xmu.edu.cn/post/bigdata 温馨提示 : 编辑幻灯片母版, 可以修改每页 PPT 的厦大校徽和底部文字 第二章大数据处理架构 Hadoop (PPT 版本号 :2015 年 6 月第 1.0 版 ) 林子雨厦门大学计算机科学系

More information

教学输入与学习者的语言输出 温晓虹 本文从三个方面探讨了语言的输入与输出的关系 首先从理论研究的角度讨 论了从语言输入到语言输出的习得过程 实验研究表明 输入的语言素材必须被学习者所接收 即使接收了的内容也并不会自动进入中介语的体系 而是需要进一步对输入语言进行 分解 归类等分析性与综合性的处理 在语言 内化 的基础上 学习者的中介语系统才能 够不断地得到重新组合 趋于目的语 另外 学习者在语言输出前和输出时需要调节

More information

Chapter #

Chapter # 第三章 TCP/IP 协议栈 本章目标 通过本章的学习, 您应该掌握以下内容 : 掌握 TCP/IP 分层模型 掌握 IP 协议原理 理解 OSI 和 TCP/IP 模型的区别和联系 TCP/IP 介绍 主机 主机 Internet TCP/IP 早期的协议族 全球范围 TCP/IP 协议栈 7 6 5 4 3 应用层表示层会话层传输层网络层 应用层 主机到主机层 Internet 层 2 1 数据链路层

More information

论文,,, ( &, ), 1 ( -, : - ), ; (, ), ; ;, ( &, ),,,,,, (, ),,,, (, ) (, ),,, :. : ( ), ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ), ( ),,,, 1 原译作 修补者, 但在英译版本中, 被译作

论文,,, ( &, ), 1 ( -, : - ), ; (, ), ; ;, ( &, ),,,,,, (, ),,,, (, ) (, ),,, :. : ( ), ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ), ( ),,,, 1 原译作 修补者, 但在英译版本中, 被译作 * 夏传玲 : 本文简要回顾了国内外定性研究在最近 多年的发展概况, 总结 了定性研究的六个发展趋势和分析策略上的三种流派 在上述两种背景下, 本文探讨了计算机辅助的定性分析给定性研究带来的机遇和挑战, 特别是它和手工操作对比时的优势和劣势, 以及应用这种定性分析技术所可能面临的困难 : 定性研究定性分析 文化差异,, (, ),,,, ( - ) ( - ) ( - ) ( - ) ( - ) (

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 The BitCoin Scripting Language 交易实例 交易结构 "result": { "txid": "921a dd24", "hash": "921a dd24", "version": 1, "size": 226, "locktime": 0, "vin": [ ], "vout": [ ], "blockhash": "0000000000000000002c510d

More information

2010 2011316 !!!! 1 2010 2 2010 3 2010 1 2010 ! 7.3%! 24.7%! 5.8! 18.6%! 15.2%! 49.4% 3G! 3G2,000! 3G656! 2010 3.014! 2011 43% 2009 2010 52,228.3 58,401.7* 11.8% 4,521.03 4,852.31 7.3% EBITDA 2,290.23

More information

Microsoft Word - 《Hadoop大数据技术与应用》教学大纲.doc

Microsoft Word - 《Hadoop大数据技术与应用》教学大纲.doc Hadoop 大数据技术原理与应用 课程教学大纲 ( 课程英文名称 ) 课程编号 :201800522062 学分 :5 学分学时 :63 学时 ( 其中 : 讲课学时 51 上机学时 :12) 先修课程 : 后续课程 :Spark 适用专业 : 大数据应用技术开课部门 : 一 课程的性质与目标 Hadoop 大数据技术原理与应用 是互联网 + 创业教育学院软件工程 ( 大数据 人工智能 ) 专业的一门校定必修专业课

More information

第四章 102 图 4唱16 基于图像渲染的理论基础 三张拍摄图像以及它们投影到球面上生成的球面图像 拼图的圆心是相同的 而拼图是由球面图像上的弧线图像组成的 因此我 们称之为同心球拼图 如图 4唱18 所示 这些拼图中半径最大的是圆 Ck 最小的是圆 C0 设圆 Ck 的半径为 r 虚拟相机水平视域为 θ 有 r R sin θ 2 4畅11 由此可见 构造同心球拼图的过程实际上就是对投影图像中的弧线图像

More information

大数据技术原理与应用

大数据技术原理与应用 大数据技术原理与应用厦门大学计算机科学系 ( 第 2 版 ) 厦门大学计算机科学系林子雨 2017 年 2 月版本 ziyulin@xmu.edu.cn 大数据技术原理与应用 ( 第 2 版 ) http://dblab.xmu.edu.cn/post/bigdata 温馨提示 : 编辑幻灯片母版, 可以修改每页 PPT 的厦大校徽和底部文字 课程介绍 (PPT 版本号 :2017 年 2 月版本

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 大数据分析工具介绍 主讲 : 王建明 手机 :13940975206 QQ:564250480( 微信 ) 2/39 大数据的基本特征 特征 Volume 数据体量巨大 PB 级 -> EB 级 -> ZB 级 速度要求快数据输入输出的速度 Velocity Big Data Varity 数据类型多样文本 图像 视频 音频 Veracity 价值密度低商业价值高 Hadoop 生态系统介绍 ( 离线

More information

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据...2 1.1 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架... 2 1.2 大 数 据 技 术 的 行 业 生 态 系 统... 2 2 在 关 键 组 件 中 实 现 平 衡...

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据...2 1.1 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架... 2 1.2 大 数 据 技 术 的 行 业 生 态 系 统... 2 2 在 关 键 组 件 中 实 现 平 衡... 白 皮 书 英 特 尔 固 态 硬 盘 英 特 尔 以 太 网 融 合 网 络 英 特 尔 Hadoop* 发 行 版 软 件 应 用 大 数 据 技 术 获 得 近 实 时 分 析 巨 大 成 效 1 平 衡 的 基 础 设 施 使 工 作 负 载 完 成 时 间 从 4 小 时 缩 短 为 7 如 今, 基 于 广 泛 可 用 的 计 算 存 储 和 网 络 组 件 的 改 进, 商 业 学 术

More information

<4D6963726F736F667420576F7264202D204861646F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

<4D6963726F736F667420576F7264202D204861646F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63> 关 于 举 办 Hadoop 大 数 据 及 海 量 数 据 挖 掘 应 用 工 程 师 培 训 班 的 通 知 随 着 云 时 代 的 来 临, 大 数 据 技 术 将 具 有 越 来 越 重 要 的 战 略 意 义 大 数 据 分 析 与 挖 掘 技 术 已 经 渗 透 到 每 一 个 行 业 和 业 务 职 能 领 域, 逐 渐 成 为 重 要 的 生 产 要 素, 人 们 对 于 海 量 数

More information

上海现代设计集团建筑协同设计平台研究与应用

上海现代设计集团建筑协同设计平台研究与应用 邓雪原 苏 昶 孙 朋 王国俭 上海交通大学土木工程系 上海 上海现代建筑设计 集团 有限公司 上海 本文首先分析了建筑 协同设计发展过程中存在的问题 指出建筑 协同设计的发展需要经过二维协同设计向三维协同设计的过渡 接着对适合于大型建筑设计企业的建筑 协同设计平台的关键问题进行了阐述 通过上海现代建筑设计集团一个实际工程项目 详细描述了建筑工程协同设计的方法与过程 然后对建筑协同设计的标准统一 工种协同等特点和高效沟通及超大项目的应用优势进行了讨论

More information

第 期 曹 源 等 形式化方法在列车运行控制系统中的应用

第 期 曹 源 等 形式化方法在列车运行控制系统中的应用 第 卷 第 期 年 月 交通运输工程学报 曹 源 唐 涛 徐田华 穆建成 为了确保列车运行控制系统设计和开发的正确性 比较了仿真 测试和形式化 种能够验证 系统设计正确性的方式 根据列车运行控制系统对安全的苛求性 提出了 个与系统安全相关的重要特性 即实时性 混成性 分布 并发 性 反应性 并分析了与这些特性相关的具体形式化方法 通 过对每种形式化方法的数学基础和应用范围的分析和归类 给出了各种方法的优势和不足

More information

SDK 概要 使用 Maven 的用户可以从 Maven 库中搜索 "odps-sdk" 获取不同版本的 Java SDK: 包名 odps-sdk-core odps-sdk-commons odps-sdk-udf odps-sdk-mapred odps-sdk-graph 描述 ODPS 基

SDK 概要 使用 Maven 的用户可以从 Maven 库中搜索 odps-sdk 获取不同版本的 Java SDK: 包名 odps-sdk-core odps-sdk-commons odps-sdk-udf odps-sdk-mapred odps-sdk-graph 描述 ODPS 基 开放数据处理服务 ODPS SDK SDK 概要 使用 Maven 的用户可以从 Maven 库中搜索 "odps-sdk" 获取不同版本的 Java SDK: 包名 odps-sdk-core odps-sdk-commons odps-sdk-udf odps-sdk-mapred odps-sdk-graph 描述 ODPS 基础功能的主体接口, 搜索关键词 "odpssdk-core" 一些

More information

课程设置—国民经济学

课程设置—国民经济学 课程设置 国民经济学 序号 课程类型 课程名称 学期 学分 总学时 授课语言 任课教师 ( 职称 ) 1 科学社会主义理论与实践 秋季学期 2 32 中文 学校统开 2 资本论 选读秋季学期 1.5 28 中文经院统开公共学位 3 经济思想史秋季学期 1.5 28 中文经院统开 4 英语 秋季 春季学期 4 64 英文 学校统开 5 高级宏观经济学 Ⅰ 秋季学期 3 56 中文 经院统开 6 高级计量经济学

More information

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1 Business & Operation 业 务 与 运 营 大 数 据 技 术 在 精 准 营 销 中 的 应 用 王 小 鹏 北 京 东 方 国 信 科 技 股 份 有 限 公 司 北 京 100102 摘 要 简 要 介 绍 主 流 的 大 数 据 技 术 架 构 和 大 数 据 挖 掘 技 术 ; 阐 述 大 数 据 技 术 在 精 准 营 销 与 维 系 系 统 建 设 中 的 应 用,

More information

幻灯片 1

幻灯片 1 2015 年 8 月 22 日星期六 StreamCQL 构建在分布式流处理 平台上的查询语言 1 2 3 4 5 个人简介 StreamCQL 简介 StreamCQL 与流处理平台 StreamCQL 功能 StreamCQL 后期开发计划 2 个人简介 何志强,StreamCQL 核心作者之一, 实时处理资深架构师 2011 年 4 月加入华为, 目前在华为进行实时分析开发 一直从事大数据分析

More information

年第 期

年第 期 年第 期 论虚拟实践的哲学意蕴 孙伟平 信息技术 虚拟技术 实践 实践形态 虚拟实践 所谓虚拟实践 是指人们按照一定的目的 通过数字化中介系统在虚拟时空进行的 主体与虚拟客体双向对象化的感性活动 它是人们有目的 有意识进行的能动的探索和改造 虚拟客体 同时也提升和改造自身的客观活动 是人类在当代技术革命推动下兴起的一种新型的实践活动形态 具有与传统实践迥然不同的特征 虚拟实在性 即时交互性 自由开放性

More information

Reducing Client Incidents through Big Data Predictive Analytics

Reducing Client Incidents through Big Data Predictive Analytics IT@lntel 白 皮 书 英 特 尔 IT 部 门 IT 最 佳 实 践 大 数 据 预 测 分 析 2013 年 12 月 通 过 大 数 据 预 测 分 析 减 少 客 户 端 事 故 总 体 概 述 相 比 过 去 的 被 动 反 应, 我 们 现 在 能 够 更 容 易 主 动 找 出 客 户 端 问 题, 并 及 时 将 其 修 复 以 免 问 题 扩 大, 从 而 为 企 业 节 约

More information

DPark MapReduce (Davies) davies@douban.com 2011/12/07 Velocity China 2011 Douban Douban 5500 Douban 5500 1000G, Douban 5500 1000G, 60+ Douban 5500 1000G, 60+ 200+ Douban 5500 1000G, 60+ 200+ > MooseFS

More information

Office Office Office Microsoft Word Office Office Azure Office One Drive 2 app 3 : [5] 3, :, [6]; [5], ; [8], [1], ICTCLAS(Institute of Computing Tech

Office Office Office Microsoft Word Office Office Azure Office One Drive 2 app 3 : [5] 3, :, [6]; [5], ; [8], [1], ICTCLAS(Institute of Computing Tech - OfficeCoder 1 2 3 4 1,2,3,4 xingjiarong@mail.sdu.edu.cn 1 xuchongyang@mail.sdu.edu.cn 2 sun.mc@outlook.com 3 luoyuanhang@mail.sdu.edu.cn 4 Abstract. Microsoft Word 2013 Word 2013 Office Keywords:,, HTML5,

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 流式计算在苏宁的发展历程 苏宁云商. 大数据平台研发中心 张毅 2016/9/26 苏宁云商. 大数据平台研发中心 1 关于我和我的小伙伴们 大数据平台研发中心 团队 职责 : 提供集团各个业务所需要的存储和计算能力 保证平台的稳定 高效运行 提高平台易用性 我 目标 : 打造稳定 易用 高效的平台, 提高数据分析效率, 实现人人都是数据分析师 大数据攻城狮 6 年工作经验,3 年半的流式计算领域相关经验

More information

孙 蓝等 基于目标导向的研究生英语学习模式创新

孙 蓝等 基于目标导向的研究生英语学习模式创新 第 期 总第 期 年 月 研究生教育研究 以中国科技大学研究生英语学习公共服务平台建设为例 孙 蓝 陈纪梁 邢鸿飞 刘海清 万洪英 中国科学技术大学外语系 安徽合肥 中国科学技术大学研究生院 安徽合肥 研究生英语教学的使命是培养学生在当今多元社会中进行有效沟通的能力 英语语言教育者的任务不是去寻求更好的教学法 而是要探索一套能够满足学生需求且与学生学习体验相一致的教与学的策略 为此 有必要构建研究生英语学习公共服务平台

More information

OOP with Java 通知 Project 4: 4 月 18 日晚 9 点 关于抄袭 没有分数

OOP with Java 通知 Project 4: 4 月 18 日晚 9 点 关于抄袭 没有分数 OOP with Java Yuanbin Wu cs@ecnu OOP with Java 通知 Project 4: 4 月 18 日晚 9 点 关于抄袭 没有分数 复习 类的复用 组合 (composition): has-a 关系 class MyType { public int i; public double d; public char c; public void set(double

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 Hadoop 生 态 技 术 在 阿 里 全 网 商 品 搜 索 实 战 阿 里 巴 巴 - 王 峰 自 我 介 绍 真 名 : 王 峰 淘 宝 花 名 : 莫 问 微 博 : 淘 莫 问 2006 年 硕 士 毕 业 后 加 入 阿 里 巴 巴 集 团 淘 及 搜 索 事 业 部 ( 高 级 技 术 与 家 ) 目 前 负 责 搜 索 离 线 系 统 团 队 技 术 方 向 : 分 布 式 计 算

More information

中国证券业协会远程培训系统

中国证券业协会远程培训系统 中 国 证 券 业 协 会 远 程 培 训 系 统 学 员 使 用 手 册 中 国 证 券 业 协 会 培 训 中 心 二 零 一 六 年 六 月 1 目 录 1 概 述... 1 1.1 系 统 通 用 功 能 介 绍... 1 2 系 统 登 陆... 1 2.1 学 员 首 次 登 陆... 1 2.2 学 员 登 陆 个 人 主 页... 2 3 公 告 列 表... 3 4 账 户 管 理...

More information

PowerPoint Presentation

PowerPoint Presentation MATLAB 与 Spark/Hadoop 相集成 : 实现大数据的处理和价值挖 马文辉 2015 The MathWorks, Inc. 1 内容 大数据及其带来的挑战 MATLAB 大数据处理 tall 数组 并行与分布式计算 MATLAB 与 Spark/Hadoop 集成 MATLAB 访问 HDFS(Hadoop 分布式文件系统 ) 在 Spark/Hadoop 集群上运行 MATLAB

More information

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1 2016 2016, Vol. 37, No. 01 37 01 COMPUTER ENGINEERING & SOFTWARE IT 大数据在输变电设备状态评估中的研究 周广 1, 闫丹凤 1, 许光可 2, 李笋 1. 100876 2. 250001 2 摘要 : 电网的高速发展带来海量数据的存储和分析问题, 传统的数据管理和分析工具不再适用 本文主要对大数据分析的相关技术在输变电设备状态评估中的应用进行了研究

More information

合集

合集 Ver 1.0 版 本 目 录 第 一 章 当 大 数 据 遇 上 SSD 01 第 二 章 广 东 移 动 运 用 Hadoop 创 新 应 用 04 第 三 章 第 四 章 第 五 章 第 六 章 第 七 章 第 八 章 第 九 章 第 十 章 如 何 利 用 大 数 据 分 析 提 升 垃 圾 短 信 过 滤 效 果 广 东 电 信 用 大 数 据 重 构 室 内 网 优 大 数 据 提 升

More information

获取 Access Token access_token 是接口的全局唯一票据, 接入方调用各接口时都需使用 access_token 开发者需要进行妥善保存 access_token 的存储至少要保留 512 个字符空间 access_token 的有效期目前为 2 个小时, 需定时刷新, 重复

获取 Access Token access_token 是接口的全局唯一票据, 接入方调用各接口时都需使用 access_token 开发者需要进行妥善保存 access_token 的存储至少要保留 512 个字符空间 access_token 的有效期目前为 2 个小时, 需定时刷新, 重复 获取 Access Token access_token 是接口的全局唯一票据, 接入方调用各接口时都需使用 access_token 开发者需要进行妥善保存 access_token 的存储至少要保留 512 个字符空间 access_token 的有效期目前为 2 个小时, 需定时刷新, 重复 获取将导致上次获取的 access_token 失效 接入方可以使用 AppID 和 AppSecret

More information

拥抱大数据

拥抱大数据 25 The MathWorks, Inc. 拥抱大数据 陈建平 高级应用工程师 MathWorks 25 The MathWorks, Inc. 2 大数据? ENERGY Asset Optimization FINANCE Market Risk, Regulatory AUTO Fleet Data Analysis AERO Maintenance, reliability Medical

More information

為民服務不定期考核項目及評分表...附表1

為民服務不定期考核項目及評分表...附表1 中 華 郵 政 公 司 為 民 服 務 不 定 期 考 核 工 作 計 畫 壹 依 據 : 交 通 部 為 民 服 務 不 定 期 考 核 工 作 計 畫 貳 目 標 : 提 升 本 公 司 服 務 品 質, 建 立 為 民 服 務 工 作 自 行 考 核 制 度 參 實 施 對 象 : 各 等 郵 局 及 所 轄 各 級 郵 局 肆 實 施 方 式 : 各 等 郵 局 應 自 行 考 核 所 屬

More information

.... 1....2..3....4...6...7...8..10. 11...14..15...16..17.19

.... 1....2..3....4...6...7...8..10. 11...14..15...16..17.19 V1.0 2003/08/24 1 .... 1....2..3....4...6...7...8..10. 11...14..15...16..17.19 - 4 4 3 3 3 1 ( ) 3 ( ) 4 4 3 4 7/28~7/31 7/287/297/30 7/314 7/28 7/31 18:00 Web 18:00 2 2 1. ( ) 3/20~3/24 2 ( ) 92 3 92

More information

義 守 大 學 100 年 度 學 生 事 務 與 輔 導 工 作 成 效 報 告 表 填 表 日 期 :100 年 5 月 18 日 填 表 人 : 孫 淑 芬 工 作 目 標 2-4: 促 進 適 性 揚 才 與 自 我 實 現 工 作 項 目 編 號 29: 提 升 學 生 職 涯 規 劃 能

義 守 大 學 100 年 度 學 生 事 務 與 輔 導 工 作 成 效 報 告 表 填 表 日 期 :100 年 5 月 18 日 填 表 人 : 孫 淑 芬 工 作 目 標 2-4: 促 進 適 性 揚 才 與 自 我 實 現 工 作 項 目 編 號 29: 提 升 學 生 職 涯 規 劃 能 3-6 國 考 講 座 成 果 報 告 書 ( 目 錄 ) 項 目 名 稱 PDF 之 頁 數 1 100.05.11 第 一 梯 次 國 家 考 試 講 座 2 2 100.11.16 第 二 梯 次 國 家 考 試 講 座 3 3 101.05.02 第 一 梯 次 國 家 考 試 講 座 4 4 101.10.24 第 二 梯 次 國 家 考 試 講 座 7 5 102.05.29 第 一 梯

More information

《人员招聘与任用》

《人员招聘与任用》 人 员 招 聘 与 任 用 课 程 整 体 教 学 设 计 ( 03~ 04 学 年 第 一 学 期 ) 课 程 名 称 : 人 员 招 聘 与 任 用 所 属 系 部 : 管 理 系 制 定 人 : 合 作 人 : 王 舜 华 张 桂 清 张 俊 娜 制 定 时 间 : 03 年 0 月 河 北 政 法 职 业 学 院 课 程 整 体 教 学 设 计 一 课 程 基 本 信 息 课 程 名 称 :

More information

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI 一般報導 大數據與 巨量資料分析 曾龍 我們需要你 資料科學家 來幫助國民建立更好的數位服務 幫助我們揭開更新的創意 幫助我們改善這個國家和全世界 美國總統歐巴馬 在 2012 年 10 月發行的 哈佛商業評 論 中 戴 文 波 特 湯 姆 斯 Thomas H. Davenport 及 帕 蒂 爾 D.J. Patil 發 表 了 一篇文章 描述 21 世紀最性感的職業 資料科學家 Data Scientist:

More information

2011_中国私人财富报告_PDF版

2011_中国私人财富报告_PDF版 211 l l l l l l l l l l 1 l l l l l 2 3 4 5 6 8 6 52 62 72 CAGR ( 8-9) 39% 16% 16% 9% 13% 16% CAGR (9-1) 19% 49% 44% 17% 26% 17% CAGR ( 1-11E ) 16% 28% 27% 26% 2% 18% 4 38 63% 21% 7% 2 19% 16% 16% 28 29

More information

一 登录 crm Mobile 系统 : 输入 ShijiCare 用户名和密码, 登录系统, 如图所示 : 第 2 页共 32 页

一 登录 crm Mobile 系统 : 输入 ShijiCare 用户名和密码, 登录系统, 如图所示 : 第 2 页共 32 页 第 1 页共 32 页 crm Mobile V1.0 for IOS 用户手册 一 登录 crm Mobile 系统 : 输入 ShijiCare 用户名和密码, 登录系统, 如图所示 : 第 2 页共 32 页 二 crm Mobile 界面介绍 : 第 3 页共 32 页 三 新建 (New) 功能使用说明 1 选择产品 第 4 页共 32 页 2 填写问题的简要描述和详细描述 第 5 页共

More information

Bluemix 从概念到应用CN改

Bluemix 从概念到应用CN改 IBM Bluemix 从概念到应用 平台即服务 1. 2. 3. 3.1. 3.2. 4. 4.1. 4.1.1. 4.1.2. 4.2. 5. 6. 7. 7.1. 7.2. 7.3. 8. 引言 开发者面临的挑战和障碍 Bluemix 在云格局中的定位 3.1. 云计算的各种模式 3.2. 以开发者为中心的 PaaS IBM Bluemix 简介 4.1. IBM Bluemix 架构 4.1.1.

More information

Compressing Encrypted Rules

Compressing Encrypted Rules 非全研究生分布式系统专题报告 大数据处理系统简介 金熠波 2019 年 5 月 15 日 逸夫楼 C-115, 18:30 2019/5/29 1 提纲 大数据处理系统发展 集群化处理 基于内存的数据处理 大数据处理系统应用 MapReduce 型范式 DAG 型范式 大数据处理系统剖析 Hadoop Spark 异构硬件加速大数据系统 2019/5/29 2 大数据处理系统发展 2019/5/29

More information

工程项目进度管理 西北工业大学管理学院 黄柯鑫博士 甘特图 A B C D E F G 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 甘特图的优点 : 直观明了 ( 图形化概要 ); 简单易懂 ( 易于理解 ); 应用广泛 ( 技术通用 ) 甘特图的缺点 : 不能清晰表示活动间的逻辑关系 WBS 责任分配矩阵 ( 负责〇审批

More information

计算机网络实验说明

计算机网络实验说明 计算机网络实验说明 龚旭东 电三楼 420 lzgxd@mailustceducn 2011 年 11 月 1 日 龚旭东 (TA) 计算机网络实验说明 2011 年 11 月 1 日 1 / 20 Outline 1 实验系统介绍 实验环境实验流程 2 实验内容编程实验交互实验观察实验 3 一些控制台命令 4 实验报告说明 龚旭东 (TA) 计算机网络实验说明 2011 年 11 月 1 日 2

More information

电子-12页

电子-12页 创建信息市场 实现智能城市价值挖掘 伸手触摸未来 中国车联网 发展现状与前瞻 序言 2 车联网掀开未来汽车新篇章 2013 2000 7% 2014 17.5 2016 2019 56 12,221 73.4% 76.8% 67.2% 48.3% 201 WeChat 39% 4.68 中国驾车者更加推崇个性化的联网服务 1 2 1. 2014 17.5 2014 1 21 2. 2014 06 04

More information

【附件:社群─申請表】(社群層級) 【四-四-五-1】

【附件:社群─申請表】(社群層級) 【四-四-五-1】 附 件 : 社 群 申 請 表 ( 社 群 層 級 ) 四 - 四 - 五 -1 高 雄 市 辦 理 十 二 年 國 民 基 本 教 育 精 進 國 中 小 教 學 品 質 計 畫 湖 內 區 明 宗 國 小 辦 理 103 年 度 教 師 專 業 學 習 社 群 ---- 環 境 教 育 議 題 社 群 名 稱 環 境 教 育 議 題 -- 風 華 再 現 的 二 仁 溪 召 集 人 或 聯 絡

More information

エスポラージュ株式会社 住所 : 東京都江東区大島 東急ドエルアルス大島 HP: ******************* * 关于 Java 测试试题 ******

エスポラージュ株式会社 住所 : 東京都江東区大島 東急ドエルアルス大島 HP:  ******************* * 关于 Java 测试试题 ****** ******************* * 关于 Java 测试试题 ******************* 問 1 运行下面的程序, 选出一个正确的运行结果 public class Sample { public static void main(string[] args) { int[] test = { 1, 2, 3, 4, 5 ; for(int i = 1 ; i System.out.print(test[i]);

More information

( 一 ) 外来农民进入城市的主要方式, %,,,,,, :., 1,, 2., ;,,,,,, 3.,,,,,, ;,,, ;.,,,,,,,,,,,,,,,,,,,,,, :,??,?? ( 二 ) 浙江村 概况.,,,,,, 1,, 2,, 3

( 一 ) 外来农民进入城市的主要方式, %,,,,,, :., 1,, 2., ;,,,,,, 3.,,,,,, ;,,, ;.,,,,,,,,,,,,,,,,,,,,,, :,??,?? ( 二 ) 浙江村 概况.,,,,,, 1,, 2,, 3 : 王汉生刘世定孙立平项飚 本文从农村人口进入城市的方式这一新的视角, 对北京著名的外来农村人口聚 居区 浙江村 的形成过程和基本状况进行了生动描述和深入分析 指出 : 浙江村的独特之处在于它不同于一般意义上的 劳动力 的流动, 它是带着综合性资源的 经营者的流动 浙江村村民进入城市的过程是不断寻找市场和开拓市场的过程, 并 在城市中形成了一个以聚居为基础的产业加工基地, 作者将这种类型的流动称为产

More information

旅游科学

旅游科学 旅 游 科 学 王春雷 会展专业人才培养模式是一个院校对于会展办学的整体设计 因而需要进行系统性的构建 但目前这方面的研究成果不多 更缺乏实证性的研究 本 文基于文献综述的发现和会展专业的特点 从理论上构建了一个项目驱动型会展 专业人才培养模式的基本框架 进而以上海师范大学会展经济与管理专业为例 侧重从教育理念 培养目标 培养过程 培养制度和培养评价等方面进行了实证研究 项目驱动型 会展专业 人才培养模式

More information

%!

%! 黑龙江社会科学 李春玲 经济改革以来 随着中国经济稳定发展 一个被称之为中产阶级! 的社会群体逐步增长 尤其 自本世纪开始以来 由于连续多年的高速经济增长和城市化的迅速推进以及物质文化水平的提高 中产人群 数量增长更为明显 它已成为一个具有相当规模并有极大社会影响的社会群体 不过 中国社会目前还是以农民和工人占绝大多数的社会结构 要发展成为以中产阶级为主体的社会还需要一个相当长的时期 另外 作为一个正在形成的社会阶层

More information

vi JSON JSON API XML JSON JSON JavaScript RESTful JSON Douglas Crockford JSON / RESTful API JavaScript Node.js Ruby on Rails Java Groovy

vi JSON JSON API XML JSON JSON JavaScript RESTful JSON Douglas Crockford JSON   / RESTful API JavaScript Node.js Ruby on Rails Java Groovy JavaScript Object Notation JSON RESTful JSON AJAX XML JSON JSON JSON / API 2007 JSON Rebecca Riordan Head First AJAX O Reilly AJAX XML View Head First AJAX JSON Java JSON JUnit API Java JSON RESTful API

More information

大数据技术基础(2013版)

大数据技术基础(2013版) 大数据技术基础 厦门大学计算机科学系厦门大学计算机系林子雨 ziyulin@xmu.edu.cn 2013 年新版 2013 年 9 月第一版 厦门大学计算机科学系研究生课程 大数据技术基础 第 2 章大数据关键技术与挑战 (2013 年新版 ) 林子雨 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页 :http://www.cs.xmu.edu.cn/linziyu

More information

赵燕菁 #!!!

赵燕菁 #!!! 赵燕菁 城市规划在灾后重建中对于工程技术的关注 很容易掩盖城市灾后重建中看不见的制度因素!!! 产权 城市最基本的制度 原型 # 就是公共产品交易的存在 城市 发达 # 与否 取决于公共产品提供的范围和水平 现代城市和传统城市的最大差别 就是可以以信用的方式 抵押未来的收益 获得公共产品建设所需要的原始资本 市场经济与计划经济最大的差别 就在于高度复杂的产权制度 因此 未来灾区规划中 产权的恢复和重建

More information

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式] Big Data RC Sharing 大數據掃盲 Service Planner of Enterprise Big Data 大 數 據 服 務 規 劃 師 企 業 大 數 據 課 程 規 劃 依 照 企 業 資 料 流 程 的 特 殊 性, 安 排 合 適 的 課 程 協 助 企 業 導 入 應 用 大 數 據 案 例 :Etu 資 策 會 平 安 保 險 湖 南 國 防 科 技 大 學 等

More information

Ioncube Php Encoder 8 3 Crack 4. llamaba octobre traslado General Search colony

Ioncube Php Encoder 8 3 Crack 4. llamaba octobre traslado General Search colony Ioncube Php Encoder 8 3 Crack 4 ->>->>->> DOWNLOAD 1 / 5 2 / 5 Press..the..General..Tools..category4Encrypt..and..protect..files..with..PHP..encoding,..encryption,..ob fuscation..and..licensing... 2016

More information

社会科学战线 年第 期跨学科研究 ( ),, (, ),,, 1 ( ), ( -, ),,,,,,,,, (, ) ( ),,,,,,,,,,,, ( ) ( ),,,, ;,,,,,,, ( ),,,,,,,, ( ), ( ),,,,, :,,, (,, ),,, :,, ( % ),,,,,

社会科学战线 年第 期跨学科研究 ( ),, (, ),,, 1 ( ), ( -, ),,,,,,,,, (, ) ( ),,,,,,,,,,,, ( ) ( ),,,, ;,,,,,,, ( ),,,,,,,, ( ), ( ),,,,, :,,, (,, ),,, :,, ( % ),,,,, : 汪丁丁贾拥民 (, ) 本文是一个从理论出发, 最终又回到理论的 案例研究 在特定的社会网络中, 人与人之间的交互作用形成习俗 习俗如果能够经受住不断发生的独僻性冲击, 就可以成为传统 这是对梅纳德史密斯的演化稳定策略概念的拓展 独僻性相当于变异或者突变, 演化稳定策略只经受了一次独僻性的冲击, 只有在随机地不断出现的冲击下保持稳定的习俗, 才能成为培顿杨所定义的传统, 这就是随机稳定均衡 义乌市场的发展,

More information

2009 年第 6 期 高清总动员 35

2009 年第 6 期 高清总动员 35 要说 08 年最成功的高清机, 非三合一 F1/F2 莫属 它集中了国内不同的高清接收需求, 整合了当时能想到的各种功能, 为欣赏高清奥运, 满足高端发烧人士, 做出了贡献 F1/F2 的成功, 说明不依赖进口, 我们也有能力打造顶级的高清机, 并且更适合国内的使用习惯 不过, 即使 F1/F2 的终极版, 也不兼容 ABS-S 或 ISDB-S, 没有网络功能, 不能 USB 录像等等, 有一定的局限性

More information

ChinaBI企业会员服务- BI企业

ChinaBI企业会员服务- BI企业 商业智能 (BI) 开源工具 Pentaho BisDemo 介绍及操作说明 联系人 : 杜号权苏州百咨信息技术有限公司电话 : 0512-62861389 手机 :18616571230 QQ:37971343 E-mail:du.haoquan@bizintelsolutions.com 权限控制管理 : 权限控制管理包括 : 浏览权限和数据权限 ( 权限部分两个角色 :ceo,usa; 两个用户

More information

報 告 議 員, 本 局 對 臺 北 市 列 管 的 地 下 加 油 站, 大 部 分 都 已 取 締 完 畢 目 前 只 剩 下 1 處, 我 們 還 在 持 續 觀 察 其 是 否 有 復 業 的 跡 象 臺 北 市 的 地 下 加 油 站 只 剩 下 1 處 而 已? 王 科 長 三 中 :

報 告 議 員, 本 局 對 臺 北 市 列 管 的 地 下 加 油 站, 大 部 分 都 已 取 締 完 畢 目 前 只 剩 下 1 處, 我 們 還 在 持 續 觀 察 其 是 否 有 復 業 的 跡 象 臺 北 市 的 地 下 加 油 站 只 剩 下 1 處 而 已? 王 科 長 三 中 : 答 覆 單 位 : 臺 北 市 政 府 環 境 保 護 局 問 : 日 前 東 勢 鄉 居 民 抗 議 台 朔 興 建 堆 肥 廠, 導 致 本 市 之 堆 肥 廚 餘 有 2 日 無 法 進 東 勢 廠 堆 肥, 依 環 保 局 與 台 朔 公 司 簽 訂 之 契 約 上 明 訂, 台 朔 公 司 不 得 拒 收 我 們 的 廚 餘, 因 此, 請 問 台 朔 公 司 是 否 應 賠 償 本 市

More information

Tech Radar2015修改111

Tech Radar2015修改111 www.thoughtworks.com/radar/faq Canary Build http://martinfowler.com/bliki/datensparsamkeit.html Uber http://washingtonpost.com/blogs/the-switch/wp/2014/12/0 1/is-ubers-rider-database-a-sitting-duck-for-hackers

More information

大数据关键技术发展趋势及产业构成

大数据关键技术发展趋势及产业构成 大数据技术的发展现状和最新趋势 孙元浩星环科技 Founder & CTO transwarp.io 1 Hadoop 的发展历程回顾 2 大数据技术的软件栈 ETL 数据装载工具 Workflow 工作流开发工具 数据质量管理工具 可视化报表工具 机器学习建模工具 统计挖掘开发工具 资源管理工具 分析管理工具 SQL 批处理 Batch Processing 交互式分析 OLAP Analysis

More information

1 1 大概思路 创建 WebAPI 创建 CrossMainController 并编写 Nuget 安装 microsoft.aspnet.webapi.cors 跨域设置路由 编写 Jquery EasyUI 界面 运行效果 2 创建 WebAPI 创建 WebAPI, 新建 -> 项目 ->

1 1 大概思路 创建 WebAPI 创建 CrossMainController 并编写 Nuget 安装 microsoft.aspnet.webapi.cors 跨域设置路由 编写 Jquery EasyUI 界面 运行效果 2 创建 WebAPI 创建 WebAPI, 新建 -> 项目 -> 目录 1 大概思路... 1 2 创建 WebAPI... 1 3 创建 CrossMainController 并编写... 1 4 Nuget 安装 microsoft.aspnet.webapi.cors... 4 5 跨域设置路由... 4 6 编写 Jquery EasyUI 界面... 5 7 运行效果... 7 8 总结... 7 1 1 大概思路 创建 WebAPI 创建 CrossMainController

More information

FPGAs in Next Generation Wireless Networks WPChinese

FPGAs in Next Generation Wireless Networks WPChinese FPGA 2010 3 Lattice Semiconductor 5555 Northeast Moore Ct. Hillsboro, Oregon 97124 USA Telephone: (503) 268-8000 www.latticesemi.com 1 FPGAs in Next Generation Wireless Networks GSM GSM-EDGE 384kbps CDMA2000

More information

大数据技术基础(2013版)

大数据技术基础(2013版) 大数据技术基础 厦门大学计算机科学系厦门大学计算机系林子雨 ziyulin@xmu.edu.cn 2013 年新版 2013 年 9 月修订版 厦门大学计算机科学系研究生课程 大数据技术基础 第 3 章 Hadoop (2013 年新版 ) 林子雨 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页 :http://www.cs.xmu.edu.cn/linziyu 提纲

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 SOFAJRaft 蚂蚁金服基于 RAFT 一致性算法的 生产级高性能 Java 实现 力鲲 蚂蚁金服 SOFAJRaft 核心成员 0/ 总页数 目录 目录 contents Part 1 - Raft 算法 Part 2 SOFAJRaft 介绍 Part 3 SOFAJRaft 优化 1/25 Part 1-Raft 算法 Part 1 - Raft 算法 2/25 Part 1-Raft 算法

More information

PowerPoint 演示文稿

PowerPoint 演示文稿 Apache Spark 与 多 数 据 源 的 结 合 田 毅 @ 目 录 为 什 么 会 用 到 多 个 数 据 源 Spark 的 多 数 据 源 方 案 有 哪 些 已 有 的 数 据 源 支 持 Spark 在 GrowingIO 的 实 践 分 享 为 什 么 会 用 到 多 个 数 据 源 从 数 据 本 身 来 看 大 数 据 的 特 性 之 一 :Variety 数 据 的 多 样

More information

OB1

OB1 SIMATIC 克索稳定杆淬火机 20150813\ 2018-06-14 09:29: 30 OB1 - < 离线 > Cycle Execution 名称 : 系列 : 作者 : 版本 : 0.1 块版本 : 2 时间标志代码 : 2018-02-10 14:06:32 接口 : 1996-02-15 16:51:12 长度 ( 块 / 逻辑 / 数据 ): 11154 10520 00030

More information

5 2. 过程与方法 情感 态度与价值观 三 知识结构图 四 教学内容和教学要求 课 程 教学要求 课时安排

5 2. 过程与方法 情感 态度与价值观 三 知识结构图 四 教学内容和教学要求 课 程 教学要求 课时安排 单元教学综述 一 内容概述 2 IE 5 5 10 11 12 13 14 二 教学目标 1. 知识与技能 1 2 3 4 5 2. 过程与方法 1 2 3 4 3. 情感 态度与价值观 1 2 3 三 知识结构图 四 教学内容和教学要求 课 程 教学要求 课时安排 1 10 1 2 11 1 1 2 12 1 2 3 4 1 小学信息技术第 3 册教师用书 续表 课 程 教学要求 课时安排 13

More information

untitled

untitled : 36 236 : (025)52121888 : (025)52121555/800 8289722 : 211100 h t t p://www.phoenixcontact.com.cn e-mail: phoenix@phoenixcontact.com.cn MNR 52005577/07.04.2010-01 Printed in China PHOENIX CONTACT 2010

More information

大数据技术基础(2013版)

大数据技术基础(2013版) 大数据技术基础 厦门大学计算机科学系厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 2013 年新版 2013 年 9 月第一版 厦门大学计算机科学系研究生课程 大数据技术基础 第 11 章云数据库 (2013 年新版 ) 林子雨 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页 :http://www.cs.xmu.edu.cn/linziyu 提纲

More information

附件2

附件2 附 件 2 辽 宁 省 普 通 高 等 学 校 本 科 优 势 特 色 专 业 申 报 书 专 业 名 称 : 软 件 工 程 专 业 代 码 : 080902 推 荐 学 校 ( 公 章 ): 大 连 交 通 大 学 推 荐 学 校 代 码 : 10150 专 业 带 头 人 : 梁 旭 联 系 电 话 ( 手 机 ): 13842899132 辽 宁 省 教 育 厅 制 2015 年 6 月 一

More information

标题

标题 中国电子政务年鉴 2013 全监管体系更加系统化 科学化 能更好地服务于普通消费者 生产企业和相关职能监管 机构 武汉市信息产业办公室 武汉市科技信息资源服务平台 一 引言 十二五 时期 是武汉市全面推动国家创新型试点城市 东湖国家自主创新示范区和 两型社会 建设的关键时期 科学制定和有效实施科技发展 十二五 规划 对于抓住新 一轮国家战略调整带来的历史机遇 全面提高武汉自主创新能力和科技竞争能力

More information

大数据技术原理与应用

大数据技术原理与应用 分布式数据库厦门大学云计算与大数据研究中心 HBase 厦门大学云计算与大数据研究中心林子雨 2015 ziyulin@xmu.edu.cn 年版 大数据技术公开课 大数据概念 技术与应用 2015 年 10 月 13 日山东大学 第 4 讲分布式数据库 HBase 林子雨博士 / 助理教授厦门大学计算机科学系厦门大学云计算与大数据研究中心 E-mail: ziyulin@xmu.edu.cn 山东大学公开课主页

More information

案例分享产品文档

案例分享产品文档 消 息 队 列 案 例 分 享 产 品 文 档 版 权 声 明 2015-2016 腾 讯 云 版 权 所 有 本 文 档 著 作 权 归 腾 讯 云 单 独 所 有, 未 经 腾 讯 云 事 先 书 面 许 可, 任 何 主 体 不 得 以 任 何 形 式 复 制 修 改 抄 袭 传 播 全 部 或 部 分 本 文 档 内 容 商 标 声 明 及 其 它 腾 讯 云 服 务 相 关 的 商 标 均

More information

科学出版社职教技术出版中心 www.aboo 科学出版社职教技术出版中心 www.aboo 科学出版社职教技术出版中心 www.aboo 科学出版社职教技术出版中心 www.aboo 科学出版社职教技术出版中心 www.aboo 科学出版社职教技术出版中心 www.aboo 科学出版社职教技术出版中心 www.aboo 科学出版社职教技术出版中心 www.aboo 科学出版社职教技术出版中心

More information

Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7.

Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7. Kubernetes 包管理理 工具 Helm 蔺礼强 Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7. Kubernetes

More information

Presentation title goes here

Presentation title goes here ACP- 如何在微软 Azure HDInsight 优化 Hadoop 董乃文 Nevin Dong 资深技术顾问开发工具及平台事业部 (DX) 微软公司 朱晓勇 Xiaoyong Zhu 产品经理云计算与企业事业部 (C&E) 微软公司 Hadoop, HDInsight 及关键能力 HDInsight 性能及调优 典型应用场景 HDInsight 概述及关键能力 Hadoop as a Service,

More information

gta 5 serial key number pciker

gta 5 serial key number pciker Gta 5 Serial Key Number Pciker >>> http://shurll.com/7nott 1 / 5 2 / 5 Keep..rea... 2016 年 1 月 3 日 - download..gta..5..serial..number..of..the..most..exclusive..pageviews..selforganizing..ngos,..live..stories..and..easy..policies..regarding..to..containing..my...

More information

Fig1 Theforceappliedtothetrainwhenrunning :w = w j +w q (3) :w = w = w 0 +w j (4) w i 121 基本阻力 w r = 600 R ( N/kN) (8) :R : [2] w s [3] w s =0

Fig1 Theforceappliedtothetrainwhenrunning :w = w j +w q (3) :w = w = w 0 +w j (4) w i 121 基本阻力 w r = 600 R ( N/kN) (8) :R : [2] w s [3] w s =0 31 4 2012 8 JournalofLanzhouJiaotongUniversity Vol31No4 Aug2012 :1001-4373(2012)04-0097-07 * 张友兵 张 波 ( 100073) : 分析了列车运行过程中的受力情况 给出了制动过程中减速度的计算方法 并采用正向 反向两种迭代方式计算列车制动曲线 两种方式计算出的制动曲线一致 证明了计算制动曲线的方法是正确的

More information

唐后期五代宋初敦煌寺院财产管理研究

唐后期五代宋初敦煌寺院财产管理研究 南京师范大学博士学位论文唐后期五代宋初敦煌寺院财产管理研究姓名 : 明成满申请学位级别 : 博士专业 : 专门史指导教师 : 刘进宝 20080509 唐后期五代宋初敦煌寺院财产管理研究

More information

目录 1 IPv6 快速转发 IPv6 快速转发配置命令 display ipv6 fast-forwarding aging-time display ipv6 fast-forwarding cache ipv6 fas

目录 1 IPv6 快速转发 IPv6 快速转发配置命令 display ipv6 fast-forwarding aging-time display ipv6 fast-forwarding cache ipv6 fas 目录 1 IPv6 快速转发 1-1 1.1 IPv6 快速转发配置命令 1-1 1.1.1 display ipv6 fast-forwarding aging-time 1-1 1.1.2 display ipv6 fast-forwarding cache 1-1 1.1.3 ipv6 fast-forwarding aging-time 1-3 1.1.4 ipv6 fast-forwarding

More information

Apache CarbonData集群模式使用指南

Apache CarbonData集群模式使用指南 我们在 Apache CarbonData 快速入门编程指南 文章中介绍了如何快速使用 Apache CarbonData, 为了简单起见, 我们展示了如何在单机模式下使用 Apache CarbonData 但是生产环境下一般都是使用集群模式, 本文主要介绍如何在集群模式下使用 Apache CarbonData 启动 Spark shell 这里以 Spark shell 模式进行介绍,master

More information

大数据技术原理与应用

大数据技术原理与应用 大数据技术原理与应用 厦门大学计算机科学系厦门大学计算机科学系林子雨 2015 年版 ziyulin@xmu.edu.cn 大数据技术原理与应用 http://dblab.xmu.edu.cn/post/bigdata 温馨提示 : 编辑幻灯片母版, 可以修改每页 PPT 的厦大校徽和底部文字 第一章大数据概述 (PPT 版本号 :2015 年 6 月第 1.0 版 ) 林子雨厦门大学计算机科学系

More information

X713_CS_Book.book

X713_CS_Book.book / / /USB ) ; ; C D ; ; B B 1 >> 2 3 B 1 ( > > ) 了解显示屏上显示的图标 Wap 信箱收到一条 Wap push 信息 GSM GPS ( ) 手机已连接到 GSM 网络 指示条越多, 接收质量越好 GPS 2 ...........................4.............................. 4 Micro SD (

More information

OOP with Java 通知 Project 4: 4 月 19 日晚 9 点

OOP with Java 通知 Project 4: 4 月 19 日晚 9 点 OOP with Java Yuanbin Wu cs@ecnu OOP with Java 通知 Project 4: 4 月 19 日晚 9 点 复习 类的复用 组合 (composition): has-a 关系 class MyType { public int i; public double d; public char c; public void set(double x) { d

More information

Slide 1

Slide 1 大数据主题交流 技术公司规划部 数据治理 目录 什么是大数据 大数据名词解释 大数据处理流程 大数据应用 数据治理 什么是数据治理 管理和治理 : 管理包括治理 治理是用来明确相关角色 工作责任和工作流程的 数据治理的目标 建立统一的主数据保证数据质量和数据安全提供更好的数据服务 数据治理体系 数据治理核心领域 数据模型 - 业务逻辑模型 数据标准 - 数据编码和数据字典 - 接口规范 数据生命周期

More information

信 息 化 研 究

信 息 化 研 究 信 息 化 研 究 2014 年 第 21 期 总 第 70 期 国 家 信 息 中 心 信 息 化 研 究 部 2014 年 12 月 17 日 大 数 据 在 电 子 政 务 中 的 应 用 研 究 杨 道 玲 1 摘 要 大 数 据 技 术 的 发 展, 对 政 府 治 理 和 公 共 服 务 正 产 生 广 泛 而 深 刻 的 影 响 欧 美 发 达 国 家 已 经 开 展 电 子 政 务

More information