第 1 期马志强, 等 : SQL 鄄 DFS: 一种基于 HDFS 的海量小文件存储系统 135 式文件系统 ( Hadoop distributed file system,hdfs) 作为 Hadoop 的关键技术之一, 其原型来自

第 42 卷第 1 期 2016 年 1 月北京工业大学学报 JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGY Vol. 42 No. 1 Jan. 2016 SQL 鄄 DFS: 一种基于 HDFS 的海量小文件存储系统马志强, 杨双涛, 闫瑞, 张泽广 ( 内蒙古工业大学信息工程学院, 呼和浩特 010080) 摘要 : 针对 Hadoop 分布式文件系统 (Hadoop distributed file system,hdfs) 进行小文件存储时 NameNode 内存占用率高的问题, 通过分析 HDFS 基础架构, 提出了基于元数据存储集群的 SQL 鄄 DFS 文件系统. 通过在 NameNode 中加入小文件处理模块实现了小文件元数据由 NameNode 内存到元数据存储集群的迁移, 借助关系数据库集群实现了小文件元数据的快速读写, 并对小文件读取过程进行优化, 减少了文件客户端对 NameNode 的请求次数 ; 通过将部分 DataNode 文件块的校验工作交由元数据存储集群完成, 进一步降低了 NameNode 节点的负载压力. 最终通过搭建 HDFS 和 SQL 鄄 DFS 实验平台, 对 HDFS 和 SQL 鄄 DFS 2 种架构进行了小文件读写的对比测试, 实验结果表明 :SQL 鄄 DFS 在文件平均耗时 (file average cost,fac) 和内存占用率方面均明显优于原 HDFS 架构, 具有更好的小文件存储能力, 可用于海量小文件的存储. 关键词 : Hadoop 分布式文件系统 (HDFS); 元数据存储集群 ; 小文件 ; 元数据 ; 内存占用率中图分类号 : TP 391 文献标志码 : A 文章编号 : 0254-0037(2016)01-0134 - 08 doi: 10. 11936 / bjutxb2015060040 SQL 鄄 DFS: A Massive Small File Storage System Based on HDFS MA Zhiqiang, YANG Shuangtao, YAN Rui, ZHANG Zeguang ( School of Information Engineering, Inner Mongolia University of Technology, Hohhot 010080, China) Abstract: In order to solve the problem of high occupancy rate of NameNode memory while using Hadoop distributed file system ( HDFS) to store massive small files, this paper analyzed the HDFS storage structure and presented a SQL 鄄 DFS file system based on metadata storage cluster. In SQL 鄄 DFS, in order to move small file metadata from NameNode memory to metadata storage cluster a small file processing module was added in NameNode. In order to improve the reading and writing speed of the metadata, relational database cluster was used, and in order to reduce the time of request for NameNode the reading process of the small file was optimized. To further reduce the load pressure of NameNode, the checking of file block from DataNode was completed by metadata storage cluster. Finally the contrast experiments were carried out between HDFS and SQL 鄄 DFS experimental platform. The experimental results show that SQL 鄄 DFS in the file average cost (FAC) and memory occupancy rate are significantly better than that of the original HDFS architecture and has better small file storage capacity. It can be used for the storage of massive small files. Key words: Hadoop distributed file system ( HDFS); metadata storage clusters; small files; metadata; memory occupancy Hadoop [1] 在云计算领域内的广泛使用, 使得其已经成为海量数据并行处理的标准. Hadoop 分布收稿日期 : 2015 鄄 06 鄄 12 基金项目 : 国家自然科学基金资助项目 (61363052); 内蒙古自治区自然科学基金资助项目 (2014MS0608); 内蒙古自治区高等学校科学研究项目 (NJZY12052) 作者简介 : 马志强 (1972 ), 男, 副教授, 主要从事机器学习数据挖掘搜索引擎方面的研究, E 鄄 mail: mzq_bim@ 163. com

第 1 期马志强, 等 : SQL 鄄 DFS: 一种基于 HDFS 的海量小文件存储系统 135 式文件系统 ( Hadoop distributed file system,hdfs) 作为 Hadoop 的关键技术之一, 其原型来自于谷歌公司 (Google) 的 GFS 文件系统, 可用于构建大规模可扩展高容错的分布式存储平台. HDFS 开源的特性允许用户根据自身的业务需求对 HDFS 进行开发和扩展, 使得其在雅虎 ( Yahoo) 百度阿里巴巴 FaceBook 及 Twitter 等公司内得到广泛应用. HDFS 在设计之初目的就是为了解决大文件的存储与处理, 取得的结果也令人满意. 然而在实际的应用系统中存在着大量的小文件, 直接采用 HDFS 进行存储存在以下问题 : 加载小文件的元数据信息需要占用 NameNode 节点的大量内存 ; 用户在读取大量小文件时需要频繁地访问 NameNode, 严重影响 NameNode 节点的 IO 性能. 为解决上述问题, 本文提出了一种基于关系数据库集群的海量小文件存储方案, 通过将集群内小文件的元数据文件转化成数据库记录存储到数据库集群中, 可以很大程度减少 NameNode 节点上元数据文件大小, 降低节点的内存使用率, 并且通过采用数据库主从复制读写分离技术, 实现元数据存储集群请求的负载均衡, 缩短小文件元数据记录的查询时间, 进一步提高小文件的读写效率. 1 相关工作 1 郾 1 HDFS 文件系统 HDFS 分布式文件系统采用 Master / Slave 架构, 集群内通常由一个名称节点 ( NameNode) 和多个数据节点 ( DataNode ) 组成, 主要包括 3 个部分 : NameNode DataNode 和客户端, 具体如图 1 所示. 其中 NameNode 是整个分布式文件系统的管理者, 主要负责管理文件系统的命名空间集群配置信息文件元数据信息和文件块的复制工作. DataNode 负责存储文件块以及文件块的元数据信息, 并定期向 NameNode 发送心跳和块报告. 客户端则封装了文 [2 鄄件的基本操作, 是用户访问集群文件的接口 3]. HDFS 这种主从式的设计很大程度上简化了分布式文件系统的结构, 用户在读写文件时无需经过 NameNode, 直接与 DataNode 通信即可, 并且集群内采用流式文件读写, 在大文件的存储及处理上表现出优越的性能. 然而也是这种架构设计导致了 HDFS 对海量小文件存储支持不足. 首先 HDFS 集群在运行期间, 所有文件的元数据都保存在 NameNode 的内存中, 即使元数据的存储结构十分紧凑, 但海量小文件的元数据信息仍占用大量的 Fig. 1 图 1 HDFS 架构 Architecture of HDFS NameNode 内存, 导致了 NameNode 节点内存占用率高的问题. 其次客户端在读取大量小文件时需要频繁地访问 NameNode 节点, 以获取文件的元数据信息, 严重影响 NameNode 节点的 IO 性能. 而且 DateNode 节点文件块报告的检测同样需要占用 NameNode 节点资源. 因此,HDFS 集群内海量小文件的存在给 HDFS 的可扩展性和性能带来一定负面影响. 1 郾 2 小文件解决方案目前针对 HDFS 小文件存储效率低的问题, 研究的总体思路是将小文件合并为大文件, 减少文件的个数, 从而降低 NameNode 节点的内存占用率, 同时利用索引和缓存技术提高文件的读取速率. 主要研究方法分为基于 HAR SequenceFile 与 MapFile 技术的小文件合并和基于数据库技术的小文件合并 2 类. 1) 基于 HAR SequenceFile 和 MapFile 的小文件合并方法 [4] Mackey 等最早采用 Hadoop Archive 技术实现将小文件合并为大文件, 有效地降低了 HDFS 中小文件的数量, 然而 Hadoop Archive 不支持文件删除修改和追加, 当发生文件更改时需要重新创建归档文件, 然而创建归档文件的过程需要占用大量的机器资源, 频繁地创建归档文件将严重影响集群系 [5] 统的性能. 赵晓永等将 SequenceFile 技术应用到了海量 MP3 音频文件的存储, 很好地解决了小文件过多时 NameNode 的内存瓶颈问题, 提高了 MP3 文 [6] 件的访问效率 ; 刘高军等利用 Redis 缓存和 SequenceFile 技术实现了 HDFS 中小文件的快速合并存储, 并通过缓存保证了小文件的读写效率 ; 余思 [7] 等采用 SequenceFile 技术将小文件以队列的形式合并为大文件, 从而实现了节省 NameNode 节点所占内存空间的目的, 同时也实现了对合并之后的小

136 北京工业大学学报 2016 年 [8] 文件的透明操作. 洪旭升等通过将序列化后的小文件存储至 MapFile 容器, 对小文件进行合并, 并通过建立索引, 有效降低了文件总数量和提高了文件的访问效率. 上述方案主要思路是通过将小文件合并成大文件同时对小文件索引, 然后再将合并的大文件存储到 HDFS 中, 通过这种合并的方式能够很大程度地减少 NameNode 节点上元数据文件的大小, 有效降低 NameNode 的内存使用率, 但难以满足低延迟要求, 即使借助索引缓存技术文件随机读写性能仍无法让人满意. 2) 基于数据库的小文件合并 [9] 张海等提出了一种基于关系数据库的小文件合并策略, 通过 append 操作将小文件内容按用户追加到用户文件中, 利用关系数据库记录小文件在用户文件中的位置, 再通过 seek 操作实现小文件的读取. 但目前 HDFS 对 append 和 seek 操作支持不 [10] 足. 刘小俊等将小文件首先集中存储到关系库, 当数据库文件达到一定大小再将数据库文件转存至 HDFS, 而当用户读取文件时, 根据用户的请求信息 RDBMS 将动态地加载数据库文件, 然后根据文件的位置信息再读取文件. 上述 2 种解决方案都是借用传统的关系数据库去解决小文件的存储问题, 其本 [11] 质上还是文件合并的过程. 朱晓丽等利用新兴的列式数据库 HBase 进行海量图片的存储, 实现了系统层对图片的合并全局命名, 并通过对 HFile 的 Key 鄄 Value 字节数组结构的完善, 实现了图片读取时的自动纠错, 提高了系统可靠性, 然而基于 HBase 存储支持的文件大小范围极其有限. 基于上述研究基础, 本文跳出小文件合并的思 [12 鄄 13] 路, 提出一种基于关系数据库集群的海量小文件存储方案. 通过在 HDFS 中加入小文件处理模块, 对集群内的大小文件区分处理, 小文件写入时产生的元数据信息转化成记录存储到元数据存储集群, 避免了 NameNode 节点需要加载维持大量的小文件元数据文件, 同时利用主从复制读写分离技术构建高效的元数据存储集群进一步提高了元数据记录的查询速率, 使得小文件的读写速率得到了提升. 2 SQL 鄄 DFS 文件系统 SQL 鄄 DFS 文件系统模型的核心思想 : 通过将小文件的元数据信息由 NameNode 内存迁移到元数据存储集群, 从而降低 NameNode 节点的内存消耗 ; 通过优化小文件读取过程, 减少文件客户端对 NameNode 节点的访问次数 ; 通过将 DataNode 块报告校验工作转移到元数据存储集群, 降低 NameNode 节点的负载压力 ; 通过建立元数据存储集群实现对小文件元数据记录的快速查询, 提高小文件的读写效率. 2 郾 1 SQL 鄄 DFS 系统模型 SQL 鄄 DFS 的整体架构设计如图 2 所示, 与 HDFS 架构相比在 NameNode 节点上新增加了小文件处理模块, 整个集群附加了一个关系数据库集群. SQL 鄄 DFS 包括如下 4 个部分 : 客户端 NameNode 元数据存储集群和 DataNode. 客户端与 NameNode DataNode 以及元数据存储集群进行通信来访问 SQL 鄄 DFS 文件系统. 客户端与 NameNode 通信可访问集群内的元数据信息, 图 2 Fig. 2 SQL 鄄 DFS 文件系统架构 Architecture of SQL 鄄 DFS

第 1 期马志强, 等 : SQL 鄄 DFS: 一种基于 HDFS 的海量小文件存储系统 137 SQL 鄄 DFS 中对文件的读取和查找操作进行了如下优化 : 当用户进行文件读取和查找时, 如果通过文件类型判定客户端请求的文件为小文件, 本次元数据请求将不再经过 NameNode, 直接查询元数据存储集群, 从而减少了客户端对 NameNode 的请求次数, 减轻了 NameNode 的负载压力. 在得到文件元数据信息的前提下, 客户端与 DataNode 通信完成文件的读写. NameNode 仍是整个文件系统的决策者和全部元数据的持有者, 只是将元数据由内存转存到了元数据存储集群, 元数据转存的工作是由新增的小文件处理模块完成的. 小文件处理模块的处理过程如下 : 1) 根据配置文件中的文件块大小设置, 对用户写入的文件进行大小性质的判断, 即是否属于小文件 ; 2) 小文件写入时, 接收 NameNode 返回的元数据信息并返回到客户端, 待文件上传完成后将元数据信息同步到元数据存储集群 ; 3) 文件读取时, 如果读取的文件是小文件, 则向元数据存储集群中的元数据管理模块请求元数据信息, 并返回到客户端 ; 4) 接收来自 DataNode 的心跳和块报告, 将其中小文件相关的部分转发的元数据存储集群的元数据管理模块进行下一步处理. 关系数据库集群主要负责存储小文件的元数据记录, 通过配置文件可以指定不同类型的关系型数据库. 元数据存储集群通过元数据管理模块向上层提供元数据访问服务, 具体处理过程为 : 1) 接收来自客户端的元数据查询请求 ; 2) 接收 NameNode 的元数据记录同步请求 ; 3) 接收来自 NameNode 的部分块报告, 与数据库集群中的记录匹配对比, 并将结果返回到 NameNode. 2 郾 2 元数据存储集群元数据存储集群的架构设计如图 3 所示, 主要存储小文件信息小文件与 Block 的对应关系和 Block 与 DataNode 节点的对应关系. 集群通过元数据管理模块将数据库接口提供给客户端和 NameNode, 接收二者的访问请求. 在接收到访问请求后, 根据数据库语句的关键字判断该访问请求是读操作还是写操作. 如果是读操作, 则将该请求分发到相对空闲的从数据库处理 ; 如果是写操作, 则该请求只能由主数据库处理, 而且必须以事务方式进行, 主数据库在完成请求后对从数据库进行 [14 鄄同步 15]. 图 3 关系数据库集群 Fig. 3 Relational database cluster 2 郾 3 SQL 鄄 DFS 文件操作在改进后的 HDFS 架构中, 提供了对文件全面的操作支持, 如文件上传下载查找删除等常规操作. 以文件上传和文件下载过程为例, 分步骤对改进后的 HDFS 工作流程进行详细说明. 2 郾 3 郾 1 写文件操作客户端在写入文件时,NameNode 首先根据文件大小对写入的文件进行判断, 如果写入的文件属于小文件, 则执行图 4 中的 A B C D E 和 F 步骤. 否则, 将执行 A G H D 和 I 步骤. 各个步骤如下 : 步骤 A 文件写入请求由文件判别模块进行判别处理, 如果文件大小小于配置文件中设定的文件阈值, 则判定该文件为小文件, 否则判定为普通文件. 步骤 B 将小文件转交由小文件存储模块进行存储,NameNode 节点将为该文件分配空间. 步骤 C 小文件存储模块元数据信息返回到客户端, 完成文件写入的准备工作. 步骤 D 客户端根据元数据信息将文件写入到指定的 DataNode. 步骤 E 客户端返回文件写入确认信息. 步骤 F 小文件存储模块将小文件信息元数据信息数据写入到数据库集群. 步骤 G 普通文件由通用文件存储模块进行存储,NameNode 节点将为该文件分配空间, 并将产生的元数据信息写入到元数据文件. 步骤 H 通用文件存储模块将元数据信息返回到客户端, 完成文件写入的准备工作. 步骤 I 客户端返回文件写入确认信息. 2 郾 3 郾 2 读文件操作文件读取时,NameNode 首先根据请求信息对该请求进行判断, 如果请求的文件属于小文件, 则执行

138 2016 年北京工业大学学报分别搭建了原 HDFS 文件系统和 SQL鄄DFS 文件系统,并将 2 种文件系统中的文件块大小均设置为 64 MB,副本数为 3,硬件配置情况如表 1 所示. 实验所需的测试文件由程序生成得到,总数为 500 000 个, 文件的大小在 1 KB ~ 5 MB 之间, 文件总大小为 150郾 68 GB,文件平均大小为 316 KB. 表 1 实验环境配置 Table 1 Experimental environment configuration 图 4 文件写入过程服务器数量软件版本 Web 服务器 1 Centos 6郾 5,JDK1郾 6,Tomcat 7郾 0郾 55 图 5 中 A B C D 和 E 步骤,否则将执行 A F G 和 Mysql 集群 3 Centos 6郾 5,JDK1郾 6,MySql 5郾 5郾 16 Fig. 4 Small file writing process E 步骤. 各个步骤解释如下: 步骤 A 文件读取请求信息交由文件判别模块进行判别处理,如果文件大小小于配置文件中设定的文件阈值,则判定该文件为小文件,否则判定为普通文件. 步骤 B 小文件存储模块接收文件请求信息, 解析得到小文件的相关信息. 步骤 C 从数据库集群查询得到小文件的元数据信息. 步骤 D 将小文件元数据信息返回到客户端. Hadoop 集群 8 在上述环境中本文共进行了 3 组实验,分别是: 文件写入实验文件读取实验以及空闲时内存占用对比实验,并在每组实验内分别进行 5 次不同文件数量下的实验,文件数量依次为:100 000 200 000 300 000 400 000 和 500 000,文件均从测试文件中随机抽取得到. 本文将文件平均耗时( file average cost,fac) 和空闲时 NameNode 内存占用率指标作为实验的评价标准,其中文件平均耗时具体定义为步骤 E 客户端根据名称节点返回的元数据记录到指定的数据节点上读取文件. 步骤 F 将文件请求信息转发到常规文件处理 Centos 6郾 5,JDK1郾 6,Hadoop鄄2郾 2郾 0 FAC = sum t i / sum 移 i =1 (1) 式中:sum 为测试文件的总个数;t i 为完成第 i 个文模块进行处理. 件处理所用时间. FAC 代表集群对小文件处理操作录,并返回到客户端. 能力越好. 而空闲时 NameNode 内存占用率通过步骤 G 从名称节点内存中查询得到元数据记的平均用时,FAC 值越小说明集群对小文件的处理 free 命令即可得到,由于 NameNode 机器仅安装运行 HDFS 和 SQL鄄DFS,所以本指标可直接说明 2 种平台下的内存占用情况. 3郾 2 文件写入实验在文件写入实验中分别将不同数量的文件写入到 HDFS 和 SQL鄄DFS 文件系统中上传,并测得完成写入所需的总时间,表 2 中给出了实验测得的具体数据. 表 2 不同平台下文件的写入耗时图 5 小文件读取过程 Fig. 5 Small file reading process 3 实验设计与结果分析 3郾 1 实验环境与评价指标为了验证 SQL鄄DFS 文件系统模型的性能,本文 Table 2 Writing time of the file on different platforms 文件数量 / 个 HDFS / s SQL鄄DFS / s 200 000 24 904 26 742 100 000 300 000 400 000 500 000 12 214 46 746 75 231 109 034 13 231 39 324 54 342 70 115

第 1 期马志强, 等 : SQL 鄄 DFS: 一种基于 HDFS 的海量小文件存储系统 139 将表 2 中的实验结果, 按照式 (1) 处理可得到不同数量的文件写入时的 FAC 值, 将文件数量作为横轴,FAC 作为纵轴, 便可得到不同平台上传文件时随着文件数量的增加 FAC 的变化情况, 如图 6 所示. 测得读取全部文件所需的总时间, 表 3 给出了实验测得的具体数据. 其中 HAR 列指的是对 HDFS 中的文件执行归档命令以后再进行文件读取的耗时. 表 3 不同平台下文件的读取耗时 Table 3 Reading time of the file on different platforms 文件数量 / 个 HDFS / s HAR / s SQL 鄄 DFS / s 100 000 4 082 5 141 2 066 200 000 8 766 11 212 4 402 300 000 10 272 17 869 6 906 400 000 20 964 30 174 9 580 500 000 29 055 43 042 12 890 图 6 小文件写入平均耗时 Fig. 6 Average time cost of the small file while writing on different platforms 表 2 表明随着写入文件数量的增多,HDFS 上传同样数量的小文件所需时间明显要多于 SQL 鄄 DFS,HDFS 耗时增长更显著. 通过图 6 同样可以发现在 SQL 鄄 DFS 中随着上传文件数量的增加,FAC 值变化极为平缓, 增速远低于 HDFS, 说明在 SQL 鄄 DFS 中新写入的文件对集群性能不会产生明显的负面影响, 而在 HDFS 中, 新写入的小文件对集群性能产生了明显的负面影响, 如当文件达到 50 万时, SQL 鄄 DFS 的 FAC 为 0 郾 140 23 s, 而 HDFS 的 FAC 已达 0 郾 218 07 s, 高出 SQL 鄄 DFS 0 郾 077 8 s. SQL 鄄 DFS 架构设计在文件数量少的情况下, 文件写入性能并没有提高, 相比原 HDFS 架构反而耗时更多, 这是由于改进后的架构中加入了小文件判别模块, 需要对用户上传的文件进行统一判别, 但随着上传文件数量的增多,SQL 鄄 DFS 架构表现出更好的性能, 这是因为原 HDFS 的架构设计需要在 NameNode 节点的内存中加载并维持文件的元数据信息, 随着文件的增多元数据占据消耗更多的内存空间, 使得系统整体性能下降. 而在 SQL 鄄 DFS 中, NameNode 节点的内存占用几乎没有变化, 所有的元数据信息都转化成表记录存储到了数据库集群内. 当上传的小文件约 240 000 个时,SQL 鄄 DFS 架构在文件写入时的表现已经优于原 HDFS 架构, 此时原 HDFS 架构中元数据文件大小为 206 郾 7 MB, 而 SQL 鄄 DFS 架构中元数据文件大小为 32 郾 5 MB. 3 郾 3 文件读取实验在文件读取实验中, 分别从 HDFS HDFS 鄄 HAR 以及 SQL 鄄 DFS 文件系统中读取不同数量的文件, 并将表 3 中的实验结果, 按照式 (1) 处理可得到不同数量文件读取时的 FAC 值, 将文件数量作为横轴,FAC 作为纵轴, 便可得到不同平台读取文件时随着文件数量的增加 FAC 值的变化情况, 如图 7 所示. 图 7 小文件读取平均耗时 Fig. 7 Average time cost of the small file while reading on different platforms 通过图 7 可以发现,SQL 鄄 DFS 在文件读取方面性能有了显著的提高, 用时明显低于同等文件数量下的 HDFS 以及归档操作后的 HDFS. 归档操作后的 HDFS 虽然节省了 NameNode 节点内存, 但由于需要读取 2 层索引文件导致其在文件读取性能上表现是最差的. 在图 7 中,SQL 鄄 DFS 的 FAC 变化最为平缓, 测试文件数量由 100 000 增加到 500 000,FAC 值仅增加 0 郾 005 1 s,fac 均值约为 0 郾 023 1 s, 相比 HDFS 均值 (0 郾 048 6 s) 降低了 0 郾 025 5 s, 比 HDFS 鄄 HAR 均值 (0 郾 065 9 s) 低了 0 郾 042 8 s. 3 郾 4 空闲时内存占用对比实验每次实验后, 通过执行 free 命令查看到系统的内存占用率情况, 具体如图 8 所示. 通过图 8 可以发现,SQL 鄄 DFS 在 NameNode 内存消耗上表现也是最好的, 当文件数目达到了 500 000 时, 原 HDFS 中 NameNode 节点内存使用率

140 北京工业大学学报 2016 年图 8 NameNode 节点内存使用情况 Fig. 8 Usage of NameNode node memory 达 33 郾 4%, 而 SQL 鄄 DFS 中 NameNode 节点内存使用率仅有 12 郾 5%. 3 郾 5 普通文件与大文件读写对比实验为了验证 SQL 鄄 DFS 在存储普通文件与大文件时的性能, 在实验平台上进行了 SQL 鄄 DFS 与 HDFS 文件系统的对比实验, 分别为文件写入实验和文件读取实验. 其中实验数据为 50 个视频文件, 文件总大小为 62 郾 65 GB, 文件平均大小为 1 郾 253 GB, 过程同小文件对比实验过程一致. 由表 4 可知, 当普通文件与大文件写入时,SQL 鄄 DFS 上传同等数量的文件所需时间比原 HDFS 文件系统耗时要多, 二者的差值仅占总上传时间的 2% 左右, 这是由于 SQL 鄄 DFS 文件系统上传普通文件时, 所有上传文件需要统一经由文件判别模块进行文件大小的判定, 从而导致了耗时差值. 表 4 不同平台下普通文件的写入耗时 Table 4 Writing time of the ordinary file on different platforms 数量大小 / GB HDFS / s SQL 鄄 DFS / s 耗时差值 / s 10 11 郾 47 344 郾 83 352 郾 65 7 郾 82 20 26 郾 54 759 郾 09 774 郾 56 15 郾 47 30 37 郾 90 1 142 郾 80 1 165 郾 86 23 郾 06 40 51 郾 26 1 557 郾 11 1 586 郾 23 29 郾 12 50 62 郾 65 1 918 郾 03 1 952 郾 90 34 郾 87 将表 4 中的实验结果, 按照式 (1) 处理可得到不同数量的文件读取时的 FAC 值, 将文件数量作为横轴,FAC 作为纵轴, 便可得到不同平台写入普通文件时随着文件数量的增加 FAC 的变化情况, 如图 9 所示. 由图 9 可知, 文件数量的增多及文件系统中文件块的增多, 导致 SQL 鄄 DFS 和 HDFS 写入普通文件图 9 普通文件写入平均耗时 Fig. 9 Average time cost of the ordinary file while writing on different platforms 的平均耗时均有所增加, 增加速度都极为平缓, 并且二者的差值极小, 说明 SQL 鄄 DFS 文件系统中的文件判别模块对普通文件以及大文件的写入带来了极小的负面影响, 可忽略不计. 在普通文件以及大文件读取时, 文件判别模块带来了同样的负面影响, 在读取实验的结果中也得到了验证, 本文不另作陈述. 4 结论 1) 通过在 HDFS 的 NameNode 中加入小文件处理模块, 将 HDFS 中部分 DataNode 文件块的校验工作交由元数据存储集群完成, 给出了一种基于元数据存储集群的 SQL 鄄 DFS 文件系统, 实现了海量小文件的快速读写. 2) 构建了 SQL 鄄 DFS 文件系统, 并与 HDFS 系统进行了多组对比实验, 实验结果表明 :SQL 鄄 DFS 文件系统在小文件的读写性能上表现均优于 HDFS, 可以用于海量小文件的存储. 参考文献 : [1] Apache. Welcome to apache hadoop[eb / OL]. (2010 鄄 02 鄄 27)[2015 鄄 04 鄄 12]. http: 椅 hadoop. apache. org. [2] BORTHAKUR D. The hadoop distributed file system: architecture and design [ J ]. Hadoop Project Website, 2007, 11(11): 1 鄄 10. [3] SHVACHKO K, KUANG H, RADIA S, et al. The hadoop distributed file system [ C] 椅 Mass Storage Systems and Technologies ( MSST), 2010 IEEE 26th Symposium on. Incline Village: IEEE, 2010: 1 鄄 10. [4] MACKEY G, SEHRISH S, WANG J. Improving metadata management for small files in HDFS [ C ] 椅 Cluster Computing and Workshops, 2009. CLUSTER 蒺 09. IEEE International Conference on. New Orleans: IEEE, 2009: 1 鄄 4. [5] 赵晓永, 杨扬, 孙莉莉, 等. 基于 Hadoop 的海量 MP3 文件存储架构研究 [ J]. 计算机应用, 2012, 32 (6): 1724 鄄 1726.

第 1 期马志强, 等 : SQL 鄄 DFS: 一种基于 HDFS 的海量小文件存储系统 141 ZHAO X Y, YANG Y, SUN L L, et al. Hadoop 鄄 based storage architecture for mass MP3 files [ J ]. Journal of Computer Applications, 2012, 32 (6): 1724 鄄 1726. ( in Chinese) [6] 刘高军, 王帝澳. 基于 Redis 的海量小文件分布式存储方法研究 [J]. 计算机工程与科学, 2013, 35(10): 58 鄄 64. LIU G J, WANG D A. Research of Redis based distributed storage method for massive small file [ J ]. Computer Engineering & Science, 2013, 35(10): 58 鄄 64. ( in Chinese) [7] 余思, 桂小林, 黄汝维, 等. 一种提高云存储中小文件存储效率的方案 [ J]. 西安交通大学学报, 2011, 45 (6): 59 鄄 63. YU S, GUI X L, HUANG R W, et al. Improving the storage efficiency of small files in cloud storage [ J ]. Journal of Xi 蒺 an Jiaotong University, 2011, 45 (6): 59 鄄 63. (in Chinese) [8] 洪旭升, 林世平. 基于 MapFile 的 HDFS 小文件存储效率问题 [ J]. 计算机系统应用, 2012, 21 (11): 179 鄄 182. HONG X S, LIN S P. Efficiency of storaging small files in HDFS based on MapFile [ J ]. Computer Systems & Applications, 2012, 21(11): 179 鄄 182. (in Chinese) [9] 张海, 马建红. 基于 HDFS 的小文件存储与读取优化策略 [J]. 计算机系统应用, 2014, 23(5): 167 鄄 171. ZHANG H, MA J H. Optimizational strategy of small files stored and readed on HDFS [ J ]. Computer Systems & Applications, 2014, 23(5): 167 鄄 171. (in Chinese) [10] 刘小俊, 徐正全, 潘少明. 一种结合 RDBMS 和 Hadoop 的海量小文件存储方法 [ J]. 武汉大学学报 ( 信息科学版 ), 2013, 38(1): 113 鄄 115. LIU X J, XU Z Q, PAN S M. A massive small file storage solution combination of RDBMS and hadoop[ J]. Geomatics and Information Science of Wuhan University, 2013, 38(1): 113 鄄 115. (in Chinese) [11] 朱晓丽, 赵志刚. 一种基于 HBase 的海量图片存储技术 [J]. 信息系统工程, 2013 (8): 22 鄄 24. ZHU X L, ZHAO Z G. A massive image storage technology based on HBase [ J ]. Information System Engineering, 2013 (8): 22 鄄 24. (in Chinese) [12] MONTANER H, SILLA F, FR 魻 NING H, et al. A new degree of freedom for memory allocation in clusters[ J]. Cluster Computing, 2012, 15(2): 101 鄄 123. [13] 谷震离. 关系数据库查询优化方法研究 [ J]. 微计算机信息, 2006 (15): 162 鄄 164. GU Z L. Research on optimization method for queries in relational database [ J ]. Control & Automation, 2006 (15): 162 鄄 164. (in Chinese) [14] AKAL F, B 魻 HM K, SCHEK H J. OLAP query evaluation in a database cluster: a performance study on intra 鄄 query parallelism[ C] 椅 Advances in Databases and Information Systems. Berlin: Springer, 2002: 218 鄄 231. [15] CATTELL R. Scalable SQL and NoSQL data stores[ J]. Acm Sigmod Record, 2011, 39(4): 12 鄄 27. ( 责任编辑吕小红 )

第 1 期 马 志 强, 等 : SQL 鄄 DFS: 一 种 基 于 HDFS 的 海 量 小 文 件 存 储 系 统 135 式 文 件 系 统 ( Hadoop distributed file system,hdfs) 作 为 Hadoop 的 关 键 技 术 之 一, 其 原 型 来 自

第 1 期马志强, 等 : SQL 鄄 DFS: 一种基于 HDFS 的海量小文件存储系统 135 式文件系统 ( Hadoop distributed file system,hdfs) 作为 Hadoop 的关键技术之一, 其原型来自