大数据技术基础(2013版)

Similar documents
大数据技术基础

PowerPoint Presentation

PowerPoint Presentation

【附件:社群─申請表】(社群層級) 【四-四-五-1】

大数据技术基础(2013版)

大数据技术原理与应用

分布式数据库技术(2011版)

<4D F736F F D2039A3A D0C25FC1D6D7D3D3EA2C3139D2B35F2DD3C5CFC8B3F6B0E6434E4B492E646F63>

背 景 概 述 企 业 需 要 一 种 灵 活 的 平 台 来 快 速 构 建 测 试 和 扩 展 新 的 应 用 程 序 服 务 并 对 市 场 中 发 生 的 数 字 化 变 革 作 出 反 应 数 字 化 变 革 正 在 加 快 步 伐, 因 为 流 程 和 信 息 的 日 益 融 合 带 来

大数据技术基础(2013版)


臺銀人壽「98年九至十一職等人員甄試」

2009年挑战乔戈里

第6章  数据库技术基础

2011-论文选集-2.cdr

大数据技术原理与应用

支付宝2011年 IT资产与费用预算

幻灯片 1

展 的 关 键 2015 年 国 内 资 本 市 场 持 续 活 跃, 市 场 交 易 规 模 大 幅 增 长, 带 动 投 资 者 规 模 快 速 增 长 (2) 大 资 管 时 代 到 来, 资 产 管 理 业 务 将 井 喷 式 增 长 自 2012 年 起, 监 管 政 策 放 开, 证 券

報 告 議 員, 本 局 對 臺 北 市 列 管 的 地 下 加 油 站, 大 部 分 都 已 取 締 完 畢 目 前 只 剩 下 1 處, 我 們 還 在 持 續 觀 察 其 是 否 有 復 業 的 跡 象 臺 北 市 的 地 下 加 油 站 只 剩 下 1 處 而 已? 王 科 長 三 中 :

目錄

册子0906

Azure_s

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

大数据技术基础(2013版)

水晶分析师

中華民國青溪協會第四屆第三次理監事聯席會議資料

目 录 第 五 部 分 第 六 部 分 第 七 部 分 第 八 部 分 投 标 邀 请 投 标 人 须 知 附 表 评 标 方 法 和 评 分 细 则 项 目 需 求 和 技 术 方 案 要 求 1

Partition Key: 字 符 串 类 型, 表 示 当 前 Entity 的 分 区 信 息 这 个 Property 对 于 Table Service 自 动 纵 向 和 横 向 扩 展 至 关 重 要 Row Key: 字 符 串 类 型, 在 给 定 Partition Key 的


2

KV-cache 1 KV-cache Fig.1 WorkflowofKV-cache 2.2 Key-value Key ; Key Mem-cache (FIFO) Value Value Key Mem-cache ( Value 256B 100 MB 20%

工程施工招标

PowerPoint Presentation

大数据技术原理与应用

大数据技术原理与应用

大数据技术原理与应用

根 据 我 们 9 月 份 对 22 个 上 市 公 司 的 调 研 和 行 业 总 体 增 速 判 断, 2014 年 多 数 计 算 机 公 司 增 速 将 在 20% 左 右, 目 前 公 布 的 公 司 基 本 在 20% 以 上 投 资 建 议 计 算 机 目 前 整 体 估 值 水 平

<4D F736F F D F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>


《米开朗琪罗传》

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1

《教育信息化前沿》


<4D F736F F D C4EAA1B6B1CFD2B5C2DBCEC4D6B8B5BCCAD6B2E1A1B7A3A8B3F5B8E5A3A92E646F63>

zt

<4D F736F F D20C8EDBCFEA1B A1B33136BAC5A3BAB9D8D3DAB7A2B2BC C4EAC8EDBCFEB9A4B3CCCAB5D1B5D6AED0A3C4DABFC6D1D0CFEEC4BFB5C4CDA8D6AA2E646F63>

试卷

逢甲大學實習工場

大数据技术基础(2013版)

(Microsoft Word - \244g\246a\247B\244\275\253H\245\365\244\247\275\325\254d\254\343\250s doc)

北化大校发[2001]28号 签发人:王子镐


天仁期末個人報告1.PDF

untitled

Untitiled

中艺华海修改1.7.indd

北 京 蓝 皮 书 公 共 服 务 相 比 而 言, 养 老 医 疗 失 业 等 保 险 都 早 已 经 由 国 务 院 颁 布 了 相 应 的 立 法 条 例, 在 全 国 范 围 内 形 成 了 统 一 的 制 度 党 的 十 八 届 四 中 全 会, 首 次 以 依 法 治 国 为 主 题,

2006年中央、国家机关公务员录用考试


01政治.doc

因 這 將 成 為 你 一 生 中 最 珍 貴 也 最 難 得 的 資 產 在 本 系 徐 主 任 積 極 努 力 安 排 之 下, 東 海 大 學 國 貿 系 與 南 京 大 學 國 貿 系 簽 定 交 換 計 畫, 系 上 開 放 四 個 名 額 到 南 京 大 學 進 行 為 期 一 學 期

目 录 简 介.3 ` 体 系 结 构...4 数 据 层...5 数 据 连 接 器...6 Tableau Server 组 件...7 网 关 / 负 载 平 衡 器...8 客 户 端 :Web 浏 览 器 和 移 动 应 用 程 序...8 客 户 端 :Tableau Desktop..

簡 述 所 有 參 與 教 案 編 寫 人 員 之 學 經 歷 及 負 責 內 容 參 與 教 案 編 寫 人 員 魏 俊 陽 學 歷 經 歷 負 責 內 容 國 立 臺 灣 師 範 新 北 市 閩 南 語 教 案 編 寫 大 學 課 程 與 教 輔 導 團 教 學 者 學 研 究 所 博 士 新

支撑材料4.4.doc

课程整体教学设计指导意见

天天星期三

党 政 投 资 基 金 落 户 上 城 区 曰 全 年 新 批 外 商 投 资 项 目 30 个 袁 实 际 利 用 外 资 万 美 元 曰 引 进 市 外 内 资 项 目 598 个 袁 实 际 到 位 资 金 亿 元 曰 推 进 区 市 协 作 工 程 袁 出 台 实 施

社 工 系 师 生 继 续 服 务 金 竹 林 儿 童 之 家.7 专 业 技 能 训 练 动 员 大 会..7 顶 岗 实 习 动 员 会 级 本 科 班 专 业 技 能 训 练...9 保 山 学 院 盈 江 青 爱 小 屋 支 教 行 级 政 本 班 德 育

信工学生工作简报 第四期.doc

教学设计方案

2009杭州市小学地方课程

任 务 单 一 ~2: 文 具 书 本 摆 整 齐, 争 得 自 理 星 争 星 要 求 : 文 具 用 品 摆 放 好, 书 本 叠 叠 放 整 齐 探 秘 任 务 一 ~2: 文 具 书 本 摆 整 齐, 争 得 自 理 星 任 务 1: 跟 小 辅 导 员 一 起 参 观 高 年 级 的 教

???h?????????W??????

大数据技术基础(2013版)


11 天 山 区 区 环 卫 清 运 队 机 械 工 程 师 4011 C 1 不 限 不 限 机 电 具 有 两 以 工 作 经 12 天 山 区 乌 鲁 木 齐 市 第 15 小 会 计 4012 C 1 不 限 不 限 会 计 财 会 财 电 算 化 临 床 医 预 防 医 公 共 卫 生 与

學 科 100% ( 為 單 複 選 題, 每 題 2.5 分, 共 100 分 ) 1. 請 參 閱 附 圖 作 答 : (A) 選 項 A (B) 選 項 B (C) 選 項 C (D) 選 項 D Ans:D 2. 下 列 對 於 資 料 庫 正 規 化 (Normalization) 的 敘

校园之星

目 录 第 一 部 分 档 案 局 概 况 一 主 要 职 责 二 部 门 决 算 单 位 构 成 第 二 部 分 档 案 局 2016 年 度 部 门 预 算 表 一 2016 年 度 市 级 部 门 收 支 预 算 总 表 二 2016 年 度 市 级 部 门 支 出 预 算 表 三 2016

2015 年 度 收 入 支 出 决 算 总 表 单 位 名 称 : 北 京 市 朝 阳 区 卫 生 局 单 位 : 万 元 收 入 支 出 项 目 决 算 数 项 目 ( 按 功 能 分 类 ) 决 算 数 一 财 政 拨 款 一 一 般 公 共 服 务 支 出 二

PowerPoint 演示文稿

大连理工大学专业学位硕士学位论文

目 录 教 学 简 讯 快 报. 1 青 少 年 工 作 系..5 社 会 工 作 学 院...10 法 学 院.14 经 济 管 理 学 院 17 新 闻 与 传 播 系 19 公 共 管 理 系.21 中 国 语 言 文 学 系.25 外 国 语 言 文 学 系.28

國立屏東教育大學化學生物系

<4D F736F F D20C540A468BAC2BFEFB3F8A657B6B7AABE2E646F63>

第1章 计算机网络体系结构概述

PowerPoint 演示文稿

OHSMS考试大纲 终.doc

广东省海外高层次人才需求信息表.xlsx

untitled

PowerPoint Presentation

软 件 工 程 专 业 习 指 南 目 录 一 软 件 工 程 专 业 设 置 背 景 与 发 展 前 景... 3 二 软 件 工 程 专 业 实 践 教 条 件... 4 三 软 件 工 程 专 业 课 程 类 型 及 核 方 式 软 件 工 程 专 业 课 程 类 型...7

untitled

:,,?,?,,,,,,, 1 ( ) (. ) ( ) :,?? :,,,,, ( ) (. ) : (. ) ( ),,, ( ) ( ), (. ), ( ) ( ) - (. - ) (. ) ;, (. ) ( ),, ( ),,, : ( - ), ( - - ) ( ) (. ),,,

ChinaBI企业会员服务- BI企业

第 二 章 鉴 证 业 务 的 定 义 和 目 标 第 五 条 鉴 证 业 务 是 指 注 册 会 计 师 对 鉴 证 对 象 信 息 提 出 结 论, 以 增 强 除 责 任 方 之 外 的 预 期 使 用 者 对 鉴 证 对 象 信 息 信 任 程 度 的 业 务 鉴 证 对 象 信 息 是 按

A 单 位 负 责 人 B 会 计 机 构 负 责 人 C 会 计 主 管 人 员 D 会 计 人 员 多 选 题 : 1. 单 位 伪 造 变 造 会 计 凭 证 会 计 账 簿, 编 制 虚 假 财 务 会 计 报 告 的, 县 级 以 上 人 民 政 府 财 政 部 可 以 依 法 行 使 的


记 忆 155 期 北 京 大 学 文 革 专 辑 (9) 目 录 专 稿 章 铎 从 高 云 鹏 的 遭 遇, 看 迟 群 之 流 的 专 制 附 : 高 云 鹏 给 胡 宗 式 章 铎 的 信 (2015 年 11 月 19 日 ) 评 论 马 云 龙 王 复 兴 抢 救 记 忆 : 一 个 北

Transcription:

大数据技术基础 厦门大学计算机科学系厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 2013 年新版 2013 年 9 月第一版 厦门大学计算机科学系研究生课程 大数据技术基础 第 11 章云数据库 (2013 年新版 ) 林子雨 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页 :http://www.cs.xmu.edu.cn/linziyu

提纲 云数据库概述 云数据库的特性 云数据库是海量存储需求的必然选择 云数据库与传统的分布式数据库 云数据库的影响 云数据库产品 数据模型 数据访问方法 编程模型 本讲义 PPT 存在配套教材, 由林子雨通过大量阅读 收集 整理各种资料后编写而成下载配套教材请访问 大数据技术基础 2013 班级网站 :http://dblab.xmu.edu.cn/node/423

云数据库概念和特点 云数据库概念 云数据库是部署和虚拟化在云计算环境中的数据库 云数据库特点 动态可扩展 高可用性 云数据库应用示意图 在云数据库应用中, 客户端不需要了解云数据库的底层细节, 所有的底层硬件都已经被虚拟化, 对客户端而言是透明的, 它就像在使用一个运行在单一服务器上的数据库一样, 非常方便容易, 同时又可以获得理论上近乎无限的存储和处理能力 较低的使用代价 易用性 大规模并行处理 Cloud Database 海量存储需求的必然选择

云数据库与传统的分布式数据库 DB1 服务器 1 网络 客户 服务器 2 服务器 3 DB2 DB3 客户客户 图分布式数据库系统示意图 ---------------------------------------------------------------- 分布式数据库概念 ---------------------------------------------------------------- 分布式数据库是计算机网络环境中各场地或节点上的数据库的逻辑集合 逻辑上它们属于同一系统, 而物理上它们分散在用计算机网络连接的多个节点 / 场地, 并统一由一个分布式数据库管理系统管理 ---------------------------------------------------------------- 云数据库和分布式数据库的共同点 ---------------------------------------------------------------- 云数据库和传统的分布式数据库有着相似的地方, 比如, 都把数据存放到不同的节点上 ---------------------------------------------------------------- 云数据库和分布式数据库的区别 ---------------------------------------------------------------- 分布式数据库在可扩展性方面是无法和云数据库相比的 : 由于需要考虑数据同步和分区失败等开销, 前者随着节点的增加, 会导致 DDB 性能快速下降 而云数据库则具有很好的可扩展性, 因为后者在设计的时候, 就已经避免了许多会影响到可扩展性的因素, 比如采用更加简单的数据模型 对元数据和应用数据进行分离以及放松对一致性的要求等等

云数据库的影响 Cloud 影响 Database 1 极大地改变企业管理数据的方式 3 数据库市场份额面临重新分配 2 催生新一代的数据库技术 Forrester Research 分析师 Noel Yuhanna 指出,18% 的企业正在把目光投向云数据库 中小企业会更多地采用云数据库产品, 但是, 对于大企业而言, 云数据库并非首选, 因为大企业通常自己建造数据中心 第一代是 20 世纪 70 年代的早期关系数据库 第二代是 80 到 90 年代的更加先进的关系模型 第三代的数据库技术, 要求数据库能够灵活处理各种类型的数据, 而不是强制让数据去适应预先定制的数据结构 从数据模型设计方式来看, 已经有些产品 ( 比如 SimpleDB HBase Dynamo BigTable) 放弃传统的行存储方式, 而采用键 / 值存储, 从而可以在分布式的云环境中获得更好的性能 此前,Teradata Oracle IBM DB2 Microsoft SQL Server Sybase 等传统数据库厂商垄断市场 Amazon 和 Google 扮演引领者角色 新的云数据库厂商开始出现 Vertica 和 EnterpriseDB

云数据库产品 传统的数据库厂商 :Teradata Oracle IBM DB2 和 Microsoft SQL Server; 涉足数据库市场的云供应商 :Amazon Google 和 Yahoo; 新兴小公司 :Vertica LongJump 和 EnterpriseDB 企业 Amazon Google Microsoft Oracle Yahoo! Vertica EnerpriseDB 开源项目 SimpleDB RDS BigTable FusionTable GoogleBase Microsoft SQL Azure Oracle Cloud PNUTS Analytic Database v3.0 for the Cloud Postgres Plus in the Cloud HBase Hypertable 产品 其他 EnerpriseDB FathomDB ScaleDB Objectivity/DB M/DB:X

云数据库产品 云数据库市场先行者 云数据库市场主力军 提供著名的 S3 存储服务和 EC2 计算服务, 提供基于云的数据库服务 SimpleDB Amazon EC2 应用托管服务可以部署多种数据库产品, 如 SQL Server Oracle 11g MySQL 和 IBM DB2 等数据库平台 云数据库产品 Amazon Google Google BigTable 是一种满足弱一致性要求的大规模数据库系统 Google 开发的另一款云计算数据库产品是 Fusion Tables, 采用了基于数据空间的技术 云数据库市场重要参与者 开源 Microsoft 云数据库市场主力军 HBase[CryansAA08] 和 Hypertable 利用开源 MapReduce 平台 Hadoop 提供了类似于 BigTable 的可伸缩数据库实现 甲骨文开源数据库产品 BerkelyDB 也提供了云计算环境中的实现 SQL AZure 可以允许用户通过网络在云中创建 查询和使用 SQL SERVER 数据库 属于关系型数据库 支持云中的事务 ( 局部事务 ) 支持存储过程

云数据库领域的研究问题 数据模型 体系结构 云数据库的重点研究问题 事务一致性 编程模型

云数据库领域的研究问题 - 数据模型 键 / 值模型 BigTable 行键列键时间戳 一个 BigTable 实际上就是一个稀疏的 分布的 永久的多维排序图, 它采用行键 (row key) 列键 (column key) 和时间戳 (timestamp) 对图进行索引 图中的每个值都是未经解释的字节数组 BigTable 在行键上根据字典顺序对数据进行维护 对于一个表而言, 行区间是根据行键的值进行动态划分的 每个行区间称为一个 Tablet, 它是负载均衡和数据分发的基本单位, 这些 Tablet 会被分发到不同的数据服务器上 被分组成许多 列家族 的集合, 它是基本的访问控制单元 存储在一个列家族当中的所有数据, 通常都属于同一种数据类型, 这通常意味着具有更高的压缩率 数据可以被存放到列家族的某个列键下面, 但是, 在把数据存放到这个列家族的某个列键下面之前, 必须首先创建这个列家族 在创建完成一个列家族以后, 就可以使用同一个家族当中的列键 在 BigTable 中的每个单元格当中, 都包含相同数据的多个版本, 这些版本采用时间戳进行索引 BitTable 时间戳是 64 位整数 一个单元格的不同版本是根据时间戳降序的顺序进行存储的, 这样, 最新的版本可以被最先读取

云数据库领域的研究问题 - 数据模型 BigTable Row Key t9 t8 Timestamp Column Family contents: anchor:cnnsi.com anchor:my.look.ca CNN CNN.com t7 com.cnn.www t6 t5 <html> <html> t4 t3 <html>

云数据库领域的研究问题 - 数据模型 关系模型 表 : 一个表是一个逻辑关系, 它包含一个分区键, 用来对表进行分区 表组 : 具有相同分区键的多个表的集合, 称为表组 行组 : 在表组中, 具有相同分区键值的多个行的集合, 称为行组 一个行组中包含的行, 总是被分配到同一个数据节点上 每个表组会包含多个行组, 这些行组会被分配到不同的数据节点上 数据分区 : 一个数据分区包含了多个行组 因此, 每个数据节点都存储了位于某个分区键值区间内的所有行

云数据库领域的研究问题 - 体系架构 数据访问方法 1 客户端首先向管理器请求一份分区映射图 2 管理器向客户端发送分区映射图 3 客户端在映射图中根据键值找到所需数据的存储位置 4 客户端到指定的数据节点请求数据 5 由该数据节点把数据返回给客户端 实际上, 为了改进性能, 同时也为了避免管理器的性能瓶颈, 通常会在客户端缓存常用的分区映射图, 这样, 客户端在很多情况下不用与管理器交互就可以直接访问相应的数据节点

云数据库领域的研究问题 - 编程模型 MapReduce Map/Reduce 计算流程

云数据库领域的研究问题 - 编程模型 MapReduce 在 MapReduce 环境下执行两个关系的联接操作 假设关系 R(A,B) 和 S(B,C) 都存储在一个文件中 为了联接这些关系, 必须把来自每个关系的各个元组都和一个 key 关联, 这个 key 就是属性 B 的值 可以使用一个 Map 进程集合, 把来自 R 的每个元组 (a,b) 转换成一个 key-value 对, 其中的 key 就是 b, 值就是 (a,r) 注意, 这里把关系 R 包含到 value 中, 这样做使得我们可以在 Reduce 阶段, 只把那些来自 R 的元组和来自 S 的元组进行匹配 类似地, 可以使用一个 Map 进程集合, 把来自 S 的每个元组 (b,c ), 转换成一个 key-value 对,key 是 b,value 是 (c,s) 这里把关系名字包含在属性值中, 可以使得在 Reduce 阶段只把那些来自不同关系的元组进行合并 Reduce 进程的任务就是, 把来自关系 R 和 S 的具有共同属性 B 值的元组进行合并 这样, 所有具有特定 B 值的元组必须被发送到同一个 Reduce 进程 假设使用 k 个 Reduce 进程 这里选择一个哈希函数 h, 它可以把属性 B 的值映射到 k 个哈希桶, 每个哈希值对应一个 Reduce 进程 每个 Map 进程把 key 是 b 的 key-value 对, 都发送到与哈希值 h(b) 对应的 Reduce 进程 Reduce 进程把联接后的元组 (a,b,c), 写到一个单独的输出文件中

主讲教师和助教 主讲教师 : 林子雨 单位 : 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 个人网页 :http://www.cs.xmu.edu.cn/linziyu 数据库实验室网站 :http://dblab.xmu.edu.cn 助教 : 赖明星 单位 : 厦门大学计算机科学系数据库实验室 2011 级硕士研究生 ( 导师 : 林子雨 ) E-mail: mingxinglai@gmail.com 个人主页 :http://mingxinglai.com 欢迎访问 大数据技术基础 2013 班级网站 :http://dblab.xmu.edu.cn/node/423 本讲义 PPT 存在配套教材 大数据技术基础, 请到上面网站下载

Department of Computer Science, Xiamen University, Sep, 2013 大数据技术基础 厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 2013 年 9 月第一版