大数据技术原理与应用

分布式数据库厦门大学云计算与大数据研究中心 HBase 厦门大学云计算与大数据研究中心林子雨 2015 ziyulin@xmu.edu.cn 年版大数据技术公开课 ( 专题技术型 ) 第 2 讲分布式数据库 HBase 林子雨博士 / 助理教授厦门大学计算机科学系厦门大学云计算与大数据研究中心 E-mail: ziyulin@xmu.edu.cn 主页 :http://www.cs.xmu.edu.cn/linziyu

提纲 4.1 概述 4.2 HBase 访问接口 4.3 HBase 数据模型 4.4 HBase 的实现原理 4.5 HBase 运行机制 4.6 HBase 编程实践本 PPT 是如下教材的配套讲义 : 21 世纪高等教育计算机规划教材大数据技术原理与应用概念存储处理分析与应用 (2015 年 6 月第 1 版 ) 厦门大学林子雨编著, 人民邮电出版社 ISBN:978-7-115-39287-9 欢迎访问大数据技术原理与应用教材官方网站 : http://dblab.xmu.edu.cn/post/bigdata

4.1 概述 4.1.1 从 BigTable 说起 4.1.2 HBase 简介 4.1.3 HBase 与传统关系数据库的对比分析分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn

4.1.1 从 BigTable 说起 BigTable 是一个分布式存储系统利用谷歌提出的 MapReduce 分布式并行计算模型来处理海量数据使用谷歌分布式文件系统 GFS 作为底层数据存储采用 Chubby 提供协同服务管理可以扩展到 PB 级别的数据和上千台机器, 具备广泛应用性可扩展性高性能和高可用性等特点谷歌的许多项目都存储在 BigTable 中, 包括搜索地图财经打印社交网站 Orkut 视频共享网站 YouTube 和博客网站 Blogger 等

Zookeeper 分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn Avro 4.1.2HBase 简介 HBase 是一个高可靠高性能面向列可伸缩的分布式数据库, 是谷歌 BigTable 的开源实现, 主要用来存储非结构化和半结构化的松散数据 HBase 的目标是处理非常庞大的表, 可以通过水平扩展的方式, 利用廉价计算机集群处理由超过 10 亿行数据和数百万列元素组成的数据表 Hadoop 生态系统 ETL 工具 BI 报表 RDBMS Pig Hive Sqoop MapReduce HBase HDFS (Hadoop Distributed File System) 图 4-1 Hadoop 生态系统中 HBase 与其他部分的关系

4.1.2HBase 简介表 4-1 HBase 和 BigTable 的底层技术对应关系 BigTable HBase 文件存储系统 GFS HDFS 海量数据处理 MapReduce Hadoop MapReduce 协同服务管理 Chubby Zookeeper

4.1.3HBase 与传统关系数据库的对比分析 HBase 与传统的关系数据库的区别主要体现在以下几个方面 : (1) 数据类型 : 关系数据库采用关系模型, 具有丰富的数据类型和存储方式,HBase 则采用了更加简单的数据模型, 它把数据存储为未经解释的字符串 (2) 数据操作 : 关系数据库中包含了丰富的操作, 其中会涉及复杂的多表连接 HBase 操作则不存在复杂的表与表之间的关系, 只有简单的插入查询删除清空等, 因为 HBase 在设计上就避免了复杂的表和表之间的关系 (3) 存储模式 : 关系数据库是基于行模式存储的 HBase 是基于列存储的, 每个列族都由几个文件保存, 不同列族的文件是分离的

4.1.3HBase 与传统关系数据库的对比分析 HBase 与传统的关系数据库的区别主要体现在以下几个方面 : (4) 数据索引 : 关系数据库通常可以针对不同列构建复杂的多个索引, 以提高数据访问性能 HBase 只有一个索引行键, 通过巧妙的设计,HBase 中的所有访问方法, 或者通过行键访问, 或者通过行键扫描, 从而使得整个系统不会慢下来 (5) 数据维护 : 在关系数据库中, 更新操作会用最新的当前值去替换记录中原来的旧值, 旧值被覆盖后就不会存在而在 HBase 中执行更新操作时, 并不会删除数据旧的版本, 而是生成一个新的版本, 旧有的版本仍然保留 (6) 可伸缩性 : 关系数据库很难实现横向扩展, 纵向扩展的空间也比较有限相反,HBase 和 BigTable 这些分布式数据库就是为了实现灵活的水平扩展而开发的, 能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩

4.2 HBase 访问接口表 4-2 HBase 访问接口类型特点场合 Native Java API 最常规和高效的访问方式适合 Hadoop MapReduce 作业并行批处理 HBase 表数据 HBase Shell HBase 的命令行工具, 最简单的接口 Thrift Gateway 利用 Thrift 序列化技术, 支持 C++ PHP Python 等多种语言适合 HBase 管理使用适合其他异构系统在线访问 HBase 表数据 REST Gateway 解除了语言限制支持 REST 风格的 Http API 访问 HBase Pig 使用 Pig Latin 流式编程语言来处理 HBase 中的数据适合做数据统计 Hive 简单当需要以类似 SQL 语言方式来访问 HBase 的时候

4.3 HBase 数据模型 4.3.1 数据模型概述 4.3.2 数据模型相关概念 4.3.3 数据坐标 4.3.4 概念视图 4.3.5 物理视图 4.3.6 面向列的存储分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn

4.3.1 数据模型概述 HBase 是一个稀疏多维度排序的映射表, 这张表的索引是行键列族列限定符和时间戳每个值是一个未经解释的字符串, 没有数据类型用户在表中存储数据, 每一行都有一个可排序的行键和任意多的列表在水平方向由一个或者多个列族组成, 一个列族中可以包含任意多个列, 同一个列族里面的数据存储在一起列族支持动态扩展, 可以很轻松地添加一个列族或列, 无需预先定义列的数量以及类型, 所有列均以字符串形式存储, 用户需要自行进行数据类型转换 HBase 中执行更新操作时, 并不会删除数据旧的版本, 而是生成一个新的版本, 旧有的版本仍然保留

4.3.2 数据模型相关概念表 :HBase 采用表来组织数据, 表由行和列组成, 列划分为若干个列族行 : 每个 HBase 表都由若干行组成, 每个行由行键 (row key) 来标识访问表中的行只有三种方式 :(1) 通过单个行键访问 ;(2) 通过一个行键的区间来访问 ;(3) 全表扫描列族 : 一个 HBase 表被分组成许多列族的集合, 它是基本的访问控制单元列限定符 : 列族里的数据通过列限定符 ( 或列 ) 来定位单元格 : 在 HBase 表中, 通过行列族和列限定符确定一个单元格 (cell), 单元格中存储的数据没有数据类型, 总被视为字节数组 byte[] 时间戳 : 每个单元格都保存着同一份数据的多个版本, 这些版本采用时间戳进行索引

4.3.2 数据模型相关概念图 4-2 HBase 数据模型的一个实例

4.3.3 数据坐标 HBase 中需要根据行键列族列限定符和时间戳来确定一个单元格, 因此, 可以视为一个四维坐标, 即 [ 行键, 列族, 列限定符, 时间戳 ] 键 [ 201505003, Info, email, 1174184619081] [ 201505003, Info, email, 1174184620720] 值 xie@qq.com you@163.com

4.3.4 概念视图表 4-4 HBase 数据的概念视图行键时间戳列族 contents 列族 anchor t5 anchor:cnnsi.com= CNN t4 anchor:my.look.ca="cnn.com" "com.cnn.www" t3 t2 contents:html="< html>" contents:html="< html>" t1 contents:html="< html>"

4.3.5 物理视图行键 "com.cnn.ww w" 表 4-5 HBase 数据的物理视图列族 contents 时间戳 t3 t2 t1 列族 contents contents:html="<html>" contents:html="<html>" contents:html="<html>" 列族 anchor 行键 "com.cnn.www" 时间戳 t5 t4 列族 anchor anchor:cnnsi.com= CNN anchor:my.look.ca="cnn.co m"

4.3.6 面向列的存储图 4-3 行式数据库和列式数据库示意图

4.3.6 面向列的存储图 4-4 行式存储结构和列式存储结构

4.4 HBase 的实现原理 4.4.1 HBase 功能组件 4.4.2 表和 4.4.3 的定位分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn

4.4.1HBase 功能组件 HBase 的实现包括三个主要的功能组件 : (1) 库函数 : 链接到每个客户端 (2) 一个 Master 主服务器 (3) 许多个服务器服务器负责存储和维护分配给自己的, 处理来自客户端的读写请求主服务器 Master 负责管理和维护 HBase 表的分区信息 ; 维护服务器列表, 实时监测集群中的服务器客户端并不是直接从 Master 主服务器上读取数据, 而是在获得的存储位置信息后, 直接从服务器上读取数据 ;HBase 客户端并不依赖于 Master, 而是借助于 Zookeeper 获得位置信息分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn

4.4.2 表和表开始只有一个, 后来不断分裂按照行键字典序... 表分裂表图 4-5 一个 HBase 表被划分成多个图 4-6 一个会分裂成多个新的

4.4.2 表和每个默认大小是 100MB 到 200MB 同一个不会被分拆到多个服务器每个服务器存储 10-1000 个表 1 表 2 服务器图 4-7 不同的可以分布在不同的服务器上

4.4.3 的定位元数据表, 又名.META. 表, 存储了和服务器的映射关系当 Hbase 表很大时,.META. 表也会被分裂成多个根数据表, 又名 -ROOT- 表, 记录所有元数据的具体位置 -ROOT- 表只有唯一一个, 名字是在程序中被写死的 Zookeeper 文件记录了 -ROOT- 表的位置 ZooKeeper 文件 -ROOT- 表.META. 表用户数据表用户数据表图 4-8 HBase 的三层结构分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn

4.4.3 的定位表 4-6 HBase 的三层结构中各层次的名称和作用层次名称作用第一层 Zookeeper 文件记录了 -ROOT- 表的位置信息第二层 -ROOT- 表记录了.META. 表的位置信息 -ROOT- 表只能有一个通过-ROOT- 表, 就可以访问.META. 表中的数据第三层.META. 表记录了用户数据表的位置信息,.META. 表可以有多个, 保存了 HBase 中所有用户数据表的位置信息

4.4.3 的定位为了加快访问速度,.META. 表的全部都会被保存在内存中假设.META. 表的每行 ( 一个映射条目 ) 在内存中大约占用 1KB, 并且每个限制为 128MB, 那么, 上面的三层结构可以保存的用户数据表的数目的计算方法是 : (-ROOT- 表能够寻址的.META. 表的个数 ) ( 每个.META. 表的可以寻址的用户数据表的个数 ) 一个 -ROOT- 表最多只能有一个, 也就是最多只能有 128MB, 按照每行 ( 一个映射条目 ) 占用 1KB 内存计算,128MB 空间可以容纳 128MB/1KB=2 17 行, 也就是说, 一个 -ROOT- 表可以寻址 2 17 个.META. 表的同理, 每个.META. 表的可以寻址的用户数据表的个数是 128MB/1KB=2 17 最终, 三层结构可以保存的数目是 (128MB/1KB) (128MB/1KB) = 2 34 个

4.4.3 的定位客户端访问数据时的三级寻址为了加速寻址, 客户端会缓存位置信息, 同时, 需要解决缓存失效问题寻址过程客户端只需要询问 Zookeeper 服务器, 不需要连接 Master 服务器 ZooKeeper 文件 -ROOT- 表.META. 表用户数据表用户数据表分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn

4.5 HBase 运行机制 4.5.1 HBase 系统架构 4.5.2 服务器工作原理 4.5.3 Store 工作原理 4.5.4 HLog 工作原理分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn

4.5.1HBase 系统架构客户端 Zookeeper Master 服务器服务器 HBase HDFS Hadoop 数据节点数据节点数据节点数据节点图 4-9 HBase 的系统架构

4.5.1HBase 系统架构 1. 客户端客户端包含访问 HBase 的接口, 同时在缓存中维护着已经访问过的位置信息, 用来加快后续数据访问过程 ; 通过 RPC 机制沟通 2. Zookeeper 服务器 Master 可以通过 Zookeeper 随时感知各个服务器的工作状态 Zookeeper 可以帮助选举出一个 Master 作为集群的总管, 并保证在任何时刻总有唯一一个 Master 在运行, 这就避免了 Master 的单点失效问题 Zookeeper 保存了 ROOT 表地址 3. Master 主服务器 Master 主要负责表和的管理工作 : 管理用户对表的增加删除修改查询等操作实现不同服务器之间的负载均衡在分裂或合并后, 负责重新调整的分布对发生故障失效的服务器上的进行迁移 4. 服务器服务器是 HBase 中最核心的模块, 负责维护分配给自己的, 并响应用户的读写请求 ; 服务器向 HDFS 读写数据分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn

4.5.2 服务器工作原理服务器集群服务器服务器服务器 1. 用户读写数据过程 2. 缓存的刷新 3. StoreFile 的合并 Store Store Store MemStore MemStore MemStore HLog StoreFile StoreFile StoreFile StoreFile StoreFile StoreFile StoreFile StoreFile StoreFile StoreFile StoreFile StoreFile HFile HFile HFile HFile HFile 图 4-10 服务器向 HDFS 文件系统中读写数据分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn

4.5.2 服务器工作原理 1. 用户读写数据过程用户写入数据时, 被分配到相应服务器去执行用户数据首先被写入到 MemStore 和 Hlog 中只有当操作写入 Hlog 之后,commit() 调用才会将其返回给客户端当用户读取数据时, 服务器会首先访问 MemStore 缓存, 如果找不到, 再去磁盘上面的 StoreFile 中寻找

4.5.2 服务器工作原理 2. 缓存的刷新系统会周期性地把 MemStore 缓存里的内容刷写到磁盘的 StoreFile 文件中, 清空缓存, 并在 Hlog 里面写入一个标记每次刷写都生成一个新的 StoreFile 文件, 因此, 每个 Store 包含多个 StoreFile 文件每个服务器都有一个自己的 HLog 文件, 每次启动都检查该文件

4.5.2 服务器工作原理 3. StoreFile 的合并每次刷写都生成一个新的 StoreFile, 数量太多, 影响查找速度调用 Store.compact() 把多个合并成一个合并操作比较耗费资源, 只有数量达到一个阈值才启动合并

4.5.3Store 工作原理 Store 是服务器的核心多个 StoreFile 合并成一个单个 StoreFile 过大时, 又触发分裂操作,1 个父被分裂成两个子 StoreFile1:64M StoreFile2:64M StoreFile3:64M 合并 StoreFile5:256M 分裂 StoreFile5A:128M StoreFile5B:128M StoreFile6:128M StoreFile7:128M StoreFile4:64M 图 4-11 StoreFile 的合并和分裂过程

4.5.4HLog 工作原理分布式环境必须要考虑系统出错 Hbase 采用 Hlog 保证系统恢复 HBase 系统为每个服务器配置了一个 HLog 文件, 它是一种预写式日志 (Write Ahead Log) 用户更新数据必须首先写入日志后, 才能写入 MemStore 缓存, 并且, 直到 MemStore 缓存内容对应的日志已经写入磁盘, 该缓存内容才能被刷写到磁盘

4.5.4HLog 工作原理 Zookeeper 会实时监测每个服务器的状态, 当某个服务器发生故障时,Zookeeper 会通知 Master Master 首先会处理该故障服务器上面遗留的 HLog 文件, 这个遗留的 HLog 文件中包含了来自多个对象的日志记录系统会根据每条日志记录所属的对象对 HLog 数据进行拆分, 分别放到相应对象的目录下, 然后, 再将失效的重新分配到可用的服务器中, 并把与该对象相关的 HLog 日志记录也发送给相应的服务器服务器领取到分配给自己的对象以及与之相关的 HLog 日志记录以后, 会重新做一遍日志记录中的各种操作, 把日志记录中的数据写入到 MemStore 缓存中, 然后, 刷新到磁盘的 StoreFile 文件中, 完成数据恢复共用日志优点 : 提高对表的写操作性能 ; 缺点 : 恢复时需要分拆日志

本章小结本章详细介绍了 HBase 数据库的知识 HBase 数据库是 BigTable 的开源实现, 和 BigTable 一样, 支持大规模海量数据, 分布式并发数据处理效率极高, 易于扩展且支持动态伸缩, 适用于廉价设备 HBase 可以支持 Native Java API HBase Shell Thrift Gateway REST Gateway Pig Hive 等多种访问接口, 可以根据具体应用场合选择相应访问方式 HBase 实际上就是一个稀疏多维持久化存储的映射表, 它采用行键列键和时间戳进行索引, 每个值都是未经解释的字符串本章介绍了 HBase 数据在概念视图和物理视图中的差别 HBase 采用分区存储, 一个大的表会被分拆许多个, 这些会被分发到不同的服务器上实现分布式存储 HBase 的系统架构包括客户端 Zookeeper 服务器 Master 主服务器服务器客户端包含访问 HBase 的接口 ;Zookeeper 服务器负责提供稳定可靠的协同服务 ;Master 主服务器主要负责表和的管理工作 ; 服务器负责维护分配给自己的, 并响应用户的读写请求

主讲教师主讲教师 : 林子雨单位 : 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 个人网页 :http://www.cs.xmu.edu.cn/linziyu 数据库实验室网站 :http://dblab.xmu.edu.cn 扫一扫访问个人主页林子雨, 男,1978 年出生, 博士 ( 毕业于北京大学 ), 现为厦门大学计算机科学系助理教授 ( 讲师 ), 曾任厦门大学信息科学与技术学院院长助理晋江市发展和改革局副局长中国高校首个数字教师提出者和建设者, 厦门大学数据库实验室负责人, 厦门大学云计算与大数据研究中心主要建设者和骨干成员,2013 年度厦门大学奖教金获得者主要研究方向为数据库数据仓库数据挖掘大数据云计算和物联网, 编著出版中国高校第一本系统介绍大数据知识的专业教材大数据技术原理与应用并成为畅销书籍, 编著并免费网络发布 40 余万字中国高校第一本闪存数据库研究专著闪存数据库概念与技术 ; 主讲厦门大学计算机系本科生课程数据库系统原理和研究生课程分布式数据库大数据技术基础具有丰富的政府和企业信息化培训经验, 曾先后给中国移动通信集团公司福州马尾区政府福建省物联网科学研究院石狮市物流协会厦门市物流协会等多家单位和企业开展信息化培训, 累计培训人数达 2000 人以上

大数据学习教材推荐大数据技术原理与应用概念存储处理分析与应用, 由厦门大学计算机科学系林子雨博士编著, 是中国高校第一本系统介绍大数据知识的专业教材扫一扫访问教材官网全书共有 13 章, 系统地论述了大数据的基本概念大数据处理架构 Hadoop 分布式文件系统 HDFS 分布式数据库 HBase NoSQL 数据库云数据库分布式并行编程模型 MapReduce 流计算图计算数据可视化以及大数据在互联网生物医学和物流等各个领域的应用在 Hadoop HDFS HBase 和 MapReduce 等重要章节, 安排了入门级的实践操作, 让读者更好地学习和掌握大数据关键技术本书可以作为高等院校计算机专业信息管理等相关专业的大数据课程教材, 也可供相关技术人员参考学习培训之用欢迎访问大数据技术原理与应用概念存储处理分析与应用教材官方网站 : http://dblab.xmu.edu.cn/post/bigdata

课程建设单位分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn

Department of Computer Science, Xiamen University, Nov, 2015 分布式数据库 HBase 厦门大学云计算与大数据研究中心林子雨 ziyulin@xmu.edu.cn