大数据技术原理与应用

Similar documents
大数据技术原理与应用

大数据技术原理与应用

大数据技术原理与应用

大数据技术基础(2013版)

<4D F736F F D F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

大数据技术原理与应用

大数据技术原理与应用

大数据技术原理与应用

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培


大数据技术原理与应用

PowerPoint Presentation

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1

PowerPoint 演示文稿

Reducing Client Incidents through Big Data Predictive Analytics

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

《80后职场新鲜人生存手册》

厦门大学辅助国内高校开设大数据课程公益项目 一 项目名称厦门大学辅助国内高校开设大数据课程公益项目二 项目介绍大数据时代的到来, 迫切需要高校及时建立大数据技术课程体系, 为社会培养和输送一大批具备大数据专业素养的高级人才, 满足社会对大数据人才日益旺盛的需求 本项目旨在为高校教师开设入门级大数据课

合集

大数据技术原理与应用

大数据技术基础(2013版)

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

幻灯片 1

Azure_s

大数据技术原理与应用

PowerPoint Presentation



天津天狮学院关于修订2014级本科培养方案的指导意见

水晶分析师

01政治.doc

因 這 將 成 為 你 一 生 中 最 珍 貴 也 最 難 得 的 資 產 在 本 系 徐 主 任 積 極 努 力 安 排 之 下, 東 海 大 學 國 貿 系 與 南 京 大 學 國 貿 系 簽 定 交 換 計 畫, 系 上 開 放 四 個 名 額 到 南 京 大 學 進 行 為 期 一 學 期

大数据技术基础(2013版)

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

分布式数据库技术(2011版)

2013_6_3.indd

考试时间课程名称级人数考试地点 机械工程 17 级卓越 1 30 D-386 机械工程 17 级卓越 2 30 D-386 自动化 17 级 1 30 D-3108 自动化 17 级 2 30 D-3108 电子信息工程 17 级 1 32 C-170 电子信息工程 17 级 2 32 C-242

附件三

公 司 年 度 大 事 记 2015 年 10 月 -11 月, 公 司 完 成 股 份 制 改 造 10 月 13 日, 百 灵 有 限 临 时 股 东 会 作 出 决 议, 同 意 各 发 起 人 将 其 在 百 灵 有 限 拥 有 的 截 至 2015 年 8 月 31 日 经 审 计 的 原

天仁期末個人報告1.PDF

大数据技术原理与应用

Presentation title goes here

PowerPoint Presentation

Microsoft Word 電腦軟體設計.doc

電機工程系認可證照清單 /7/1

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

提纲 2 / 1

信 息 化 研 究

1406.indd

上图专刊2006-3AAA.doc

衡山靈學創始人 超越時代的靈學明師 許衡山 老師 許衡山老師 出生於西元 1942 年 於 1980 年代啟發先天眼竅 自證其道 了悟真理 許 老師首先發現 人人皆可開發出第三眼能力與靈性能量 並藉由系統化的研究 將種種 生命現象與宇宙真理做深入淺出的剖析 並為生命的最終意義指出一條明路 現代文明昌

슬로시티번역,더빙 등 보고서(중문)_두현.hwp


?



EP.pdf

第53期内页.cdr

untitled

大数据技术原理与应用

省份 科类 本一线 出档线 人数 最高分 最低分 平均分 理 青海 文 理 山东 文 理

仅 中 方 证 书 学 历 证 书 学 位 证 书 仅 外 方 证 书 学 位 证 书 文 凭 颁 发 证 书 中 外 双 方 证 书 中 方 证 书 学 历 证 书 学 位 证 书 外 方 证 书 学 位 证 书 文 凭 其 他 证 书 证 书 名 称 说 明 : 请 参 照 学 位 授 予 和

中北中学 ( 初中 ) 大寺中学 ( 初中 ) 富力中学 ( 初中 ) 富力中学 ( 初中 ) 06 中学历史教师 0 07 中学物理教师 0 08 中学信息技术教师 0 08 中学物理教师 0 中等专业学校 09 中学语文教师 0 中等专业学校 09 中学英语教师 0 中等专业学校 09 中学美术

数学与应用数学 3 3 物理学 2 2 普通本科 电子信息科学与技术 3 3 俄语 3 3 国际事务与国际关系 3 3 海事管理 4 4 海洋技术 2 2 海洋渔业科学与技术 4 4 海洋资源与环境 2 2 汉语国际教育 3 3 汉语言文学 3 3 化学 2 2 环境工程 3 3 旅游管

《教育信息化前沿》

大数据技术基础

福建 本科一批 文史 国际商务 ( 厦门大学马来西亚分校 ) 福建本科一批文史汉语言文学 ( 厦门大学马来西亚分校 ) 福建本科一批文史会计学 ( 厦门大学马来西亚分校 ) 福建本科一批文史金融学 ( 厦门大学马来西


89SQSY.s92

國立屏東教育大學化學生物系

<4D F736F F D20C540A468BAC2BFEFB3F8A657B6B7AABE2E646F63>

【附件:社群─申請表】(社群層級) 【四-四-五-1】

省份 批次 文科 重点线出档线最高分最低分平均分录取人数重点线出档线最高分最低分平均分录取人数 备注 山东 本一批 本一批

一 我国部分研究型大学 大学生创新性实验计划 实施的现状 莙政基 莙政基金 外 在学生中有

1. 标准学制 :4 年 2. 修业年限 : 可根据学生具体情况适当缩短或延长, 修业年限最短为 3 年, 最长不得超过 7 年 五 毕业要求及授予学位条件毕业要求 : 本专业学生在校期间必须修满本培养方案所规定的 167 学分, 方能毕业 授予学位 : 取得毕业资格并符合学校规定的学士学位授予条件

大数据技术原理与应用

个人介绍 思考数据分析系统的基本指标 Hadoop 史前和史后的数据仓库流程 Hadoop 史前和史后的数据分析流程 思考 Hadoop 解决了什么样的根本问题 演讲大纲 Python 如何在构建数据仓库系统的作用 1. 使用 Python 快速构建数据分析模块 ComETL 2. 基于 Pytho

PowerPoint 演示文稿

文档 1

大数据技术基础(2013版)

<4D F736F F F696E74202D20B5DA3131D5C25FBAA3C1BFD0C5CFA2B4E6B4A276312E312E BBCE6C8DDC4A3CABD5D>

杭师大党字〔2011〕15号中共杭州师范大学委员会关于进一步加强和改进发展党员工作的意见

<4D F736F F D B2C431A6B8A4A4A4DFA8C6B0C8B77CC4B3ACF6BFFD E646F63>

untitled

<4D F736F F D A67EAF64BEC7BCFABEC7AAF7C2B2B3B95FA5FEB3A1AAA95F2D31312E31362E646F63>

得 依 法 召 集 股 東 臨 時 會 第 十 一 條 : 股 東 常 會 之 召 集 應 於 開 會 三 十 日 前, 股 東 臨 時 會 之 召 集 應 於 開 會 十 五 日 前, 將 開 會 日 期 地 點 及 召 集 事 由 通 知 各 股 東 並 公 告 之 第 十 二 條 : 本 公

同 時, 那 些 百 萬 富 翁 們 正 乘 坐 着 私 家 噴 射 機 駛 往 歐 洲, 甘 願 花 大 把 的 鈔 票 接 受 替 代 療 法 並 且 重 獲 了 健 康 替 代 療 法 總 是 很 靈 嗎? 不, 當 然 不 是 在 這 世 界 上 没 有 盡 善 盡 美 的 事 物 但 是

高校发展动态

省份批次科类录取专业招生数 录取 最低分 备注 艺术 音乐学 ( 地方免费师范生 ) 专业成绩 美术学 ( 地方免费师范生 ) 综合成绩 提前艺术体育本 科 提前一批本科 体育 ( 文 ) 体育 ( 理 ) 文史 体育教育 ( 地方免费师范生 ) 专

册子0906

大数据技术原理与应用

5 2. 过程与方法 情感 态度与价值观 三 知识结构图 四 教学内容和教学要求 课 程 教学要求 课时安排

计算机科学与技术学院 2016 级通信工程 学年教学计划 班级 : 通信 1601, 通信 1602 人数 :67 第一学期 课程性质课程名称学分总学时讲课实验实践上机讨论开课学院备注 选修 选修 通信类专业写作 计算机科学与技术学院 选修通信系统实验 3.0

Tech Radar2015修改111

SDK 概要 使用 Maven 的用户可以从 Maven 库中搜索 "odps-sdk" 获取不同版本的 Java SDK: 包名 odps-sdk-core odps-sdk-commons odps-sdk-udf odps-sdk-mapred odps-sdk-graph 描述 ODPS 基

PowerPoint Presentation

基于 SQL-on-Hadoop 的 网络日志分析

Transcription:

分布式数据库厦门大学云计算与大数据研究中心 HBase 厦门大学云计算与大数据研究中心林子雨 2015 ziyulin@xmu.edu.cn 年版 大数据技术公开课 大数据概念 技术与应用 2015 年 10 月 13 日山东大学 第 4 讲分布式数据库 HBase 林子雨博士 / 助理教授厦门大学计算机科学系厦门大学云计算与大数据研究中心 E-mail: ziyulin@xmu.edu.cn 山东大学公开课主页 主页 :http://www.cs.xmu.edu.cn/linziyu

提纲 4.1 概述 4.2 HBase 访问接口 4.3 HBase 数据模型

4.1 概述 4.1.1 从 BigTable 说起 4.1.2 HBase 简介 4.1.3 HBase 与传统关系数据库的对比分析 分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn

4.1.1 从 BigTable 说起 BigTable 是一个分布式存储系统 利用谷歌提出的 MapReduce 分布式并行计算模型来处理海量数据 使用谷歌分布式文件系统 GFS 作为底层数据存储 采用 Chubby 提供协同服务管理 可以扩展到 PB 级别的数据和上千台机器, 具备广泛应用性 可扩展性 高性能和高可用性等特点 谷歌的许多项目都存储在 BigTable 中, 包括搜索 地图 财经 打印 社交网站 Orkut 视频共享网站 YouTube 和博客网站 Blogger 等

Zookeeper 分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn Avro 4.1.2HBase 简介 HBase 是一个高可靠 高性能 面向列 可伸缩的分布式数据库, 是谷歌 BigTable 的开源实现, 主要用来存储非结构化和半结构化的松散数据 HBase 的目标是处理非常庞大的表, 可以通过水平扩展的方式, 利用廉价计算机集群处理由超过 10 亿行数据和数百万列元素组成的数据表 Hadoop 生态系统 ETL 工具 BI 报表 RDBMS Pig Hive Sqoop MapReduce HBase HDFS (Hadoop Distributed File System) 图 4-1 Hadoop 生态系统中 HBase 与其他部分的关系

4.1.2HBase 简介 表 4-1 HBase 和 BigTable 的底层技术对应关系 BigTable HBase 文件存储系统 GFS HDFS 海量数据处理 MapReduce Hadoop MapReduce 协同服务管理 Chubby Zookeeper

4.1.3HBase 与传统关系数据库的对比分析 HBase 与传统的关系数据库的区别主要体现在以下几个方面 : (1) 数据类型 : 关系数据库采用关系模型, 具有丰富的数据类型和存储方式,HBase 则采用了更加简单的数据模型, 它把数据存储为未经解释的字符串 (2) 数据操作 : 关系数据库中包含了丰富的操作, 其中会涉及复杂的多表连接 HBase 操作则不存在复杂的表与表之间的关系, 只有简单的插入 查询 删除 清空等, 因为 HBase 在设计上就避免了复杂的表和表之间的关系 (3) 存储模式 : 关系数据库是基于行模式存储的 HBase 是基于列存储的, 每个列族都由几个文件保存, 不同列族的文件是分离的

4.1.3HBase 与传统关系数据库的对比分析 HBase 与传统的关系数据库的区别主要体现在以下几个方面 : (4) 数据索引 : 关系数据库通常可以针对不同列构建复杂的多个索引, 以提高数据访问性能 HBase 只有一个索引 行键, 通过巧妙的设计,HBase 中的所有访问方法, 或者通过行键访问, 或者通过行键扫描, 从而使得整个系统不会慢下来 (5) 数据维护 : 在关系数据库中, 更新操作会用最新的当前值去替换记录中原来的旧值, 旧值被覆盖后就不会存在 而在 HBase 中执行更新操作时, 并不会删除数据旧的版本, 而是生成一个新的版本, 旧有的版本仍然保留 (6) 可伸缩性 : 关系数据库很难实现横向扩展, 纵向扩展的空间也比较有限 相反,HBase 和 BigTable 这些分布式数据库就是为了实现灵活的水平扩展而开发的, 能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩

4.2 HBase 访问接口 表 4-2 HBase 访问接口 类型特点场合 Native Java API 最常规和高效的访问方式 适合 Hadoop MapReduce 作业 并行批处理 HBase 表数据 HBase Shell HBase 的命令行工具, 最简单的接口 Thrift Gateway 利用 Thrift 序列化技术, 支持 C++ PHP Python 等多种语言 适合 HBase 管理使用 适合其他异构系统在线访问 HBase 表数据 REST Gateway 解除了语言限制 支持 REST 风格的 Http API 访问 HBase Pig 使用 Pig Latin 流式编程语言来处理 HBase 中的数据 适合做数据统计 Hive 简单 当需要以类似 SQL 语言方式来 访问 HBase 的时候

4.3 HBase 数据模型 4.3.1 数据模型概述 4.3.2 数据模型相关概念 4.3.3 数据坐标 4.3.4 概念视图 4.3.5 物理视图 4.3.6 面向列的存储 分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn

4.3.1 数据模型概述 HBase 是一个稀疏 多维度 排序的映射表, 这张表的索引是行键 列族 列限定符和时间戳 每个值是一个未经解释的字符串, 没有数据类型 用户在表中存储数据, 每一行都有一个可排序的行键和任意多的列 表在水平方向由一个或者多个列族组成, 一个列族中可以包含任意多个列, 同一个列族里面的数据存储在一起 列族支持动态扩展, 可以很轻松地添加一个列族或列, 无需预先定义列的数量以及类型, 所有列均以字符串形式存储, 用户需要自行进行数据类型转换 HBase 中执行更新操作时, 并不会删除数据旧的版本, 而是生成一个新的版本, 旧有的版本仍然保留

4.3.1 数据模型概述 行键 时间戳 列族 contents 列族 anchor t5 anchor:cnnsi.com= CNN t4 anchor:my.look.ca="cnn.com" "com.cnn.www" t3 t2 contents:html="< html>..." contents:html="< html>..." t1 contents:html="< html>..."

4.3.2 数据模型相关概念 表 :HBase 采用表来组织数据, 表由行和列组成, 列划分为若干个列族 行 : 每个 HBase 表都由若干行组成, 每个行由行键 (row key) 来标识 访问表中的行只有三种方式 :(1) 通过单个行键访问 ;(2) 通过一个行键的区间来访问 ;(3) 全表扫描 列族 : 一个 HBase 表被分组成许多 列族 的集合, 它是基本的访问控制单元 列限定符 : 列族里的数据通过列限定符 ( 或列 ) 来定位 单元格 : 在 HBase 表中, 通过行 列族和列限定符确定一个 单元格 (cell), 单元格中存储的数据没有数据类型, 总被视为字节数组 byte[] 时间戳 : 每个单元格都保存着同一份数据的多个版本, 这些版本采用时间戳进行索引

4.3.2 数据模型相关概念 图 4-2 HBase 数据模型的一个实例

4.3.3 数据坐标 HBase 中需要根据行键 列族 列限定符和时间戳来确定一个单元格, 因此, 可以视为一个 四维坐标, 即 [ 行键, 列族, 列限定符, 时间戳 ] 键 值 [ 201505003, Info, email, 1174184619081] xie@qq.com [ 201505003, Info, email, 1174184620720] you@163.com

4.3.4 概念视图 表 4-4 HBase 数据的概念视图 行键 时间戳 列族 contents 列族 anchor t5 anchor:cnnsi.com= CNN t4 anchor:my.look.ca="cnn.com" "com.cnn.www" t3 t2 contents:html="< html>..." contents:html="< html>..." t1 contents:html="< html>..."

4.3.5 物理视图 行键 "com.cnn.ww w" 表 4-5 HBase 数据的物理视图列族 contents 时间戳 t3 t2 t1 列族 contents contents:html="<html>..." contents:html="<html>..." contents:html="<html>..." 列族 anchor 行键 "com.cnn.www" 时间戳 t5 t4 列族 anchor anchor:cnnsi.com= CNN anchor:my.look.ca="cnn.co m"

4.3.6 面向列的存储 图 4-3 行式数据库和列式数据库示意图

4.3.6 面向列的存储 图 4-4 行式存储结构和列式存储结构

本讲小结 详细介绍了 HBase 数据库的知识 HBase 数据库是 BigTable 的开源实现, 和 BigTable 一样, 支持大规模海量数据, 分布式并发数据处理效率极高, 易于扩展且支持动态伸缩, 适用于廉价设备 HBase 可以支持 Native Java API HBase Shell Thrift Gateway REST Gateway Pig Hive 等多种访问接口, 可以根据具体应用场合选择相应访问方式 HBase 实际上就是一个稀疏 多维 持久化存储的映射表, 它采用行键 列键和时间戳进行索引, 每个值都是未经解释的字符串 介绍了 HBase 数据在概念视图和物理视图中的差别

主讲教师 主讲教师 : 林子雨 单位 : 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 个人网页 :http://www.cs.xmu.edu.cn/linziyu 数据库实验室网站 :http://dblab.xmu.edu.cn 扫一扫访问个人主页 林子雨, 男,1978 年出生, 博士 ( 毕业于北京大学 ), 现为厦门大学计算机科学系助理教授 ( 讲师 ), 曾任厦门大学信息科学与技术学院院长助理 晋江市发展和改革局副局长 中国高校首个 数字教师 提出者和建设者, 厦门大学数据库实验室负责人, 厦门大学云计算与大数据研究中心主要建设者和骨干成员,2013 年度厦门大学奖教金获得者 主要研究方向为数据库 数据仓库 数据挖掘 大数据 云计算和物联网, 编著出版中国高校第一本系统介绍大数据知识的专业教材 大数据技术原理与应用 并成为畅销书籍 ; 主讲厦门大学计算机系本科生课程 数据库系统原理 和研究生课程 分布式数据库 大数据技术基础 具有丰富的政府和企业信息化培训经验, 曾先后给中国移动通信集团公司 福州马尾区政府 福建省物联网科学研究院 石狮市物流协会 厦门市物流协会等多家单位和企业开展信息化培训, 累计培训人数达 2000 人以上

大数据学习教材推荐 大数据技术原理与应用 概念 存储 处理 分析与应用, 由厦门大学计算机科学系林子雨博士编著, 是中国高校第一本系统介绍大数据知识的专业教材 扫一扫访问教材官网 全书共有 13 章, 系统地论述了大数据的基本概念 大数据处理架构 Hadoop 分布式文件系统 HDFS 分布式数据库 HBase NoSQL 数据库 云数据库 分布式并行编程模型 MapReduce 流计算 图计算 数据可视化以及大数据在互联网 生物医学和物流等各个领域的应用 在 Hadoop HDFS HBase 和 MapReduce 等重要章节, 安排了入门级的实践操作, 让读者更好地学习和掌握大数据关键技术 本书可以作为高等院校计算机专业 信息管理等相关专业的大数据课程教材, 也可供相关技术人员参考 学习 培训之用 欢迎访问 大数据技术原理与应用 概念 存储 处理 分析与应用 教材官方网站 : http://dblab.xmu.edu.cn/post/bigdata

Department of Computer Science, Xiamen University, October, 2015 分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn