解决方案 基于东方国信企业版 Hadoop 和英特尔 傲腾 持久内存的大数据平台联合解决方案 在测试中, 英特尔傲腾持久内存对于大数据平台企业版 BEH 的提升作用非常明显, 其在金融等行业中的部署有望帮助用户显著提升即时数据处理应用的性能, 同时能够为用户降低 IT 成本, 简化基础设施, 我们还

Similar documents
水晶分析师

KV-cache 1 KV-cache Fig.1 WorkflowofKV-cache 2.2 Key-value Key ; Key Mem-cache (FIFO) Value Value Key Mem-cache ( Value 256B 100 MB 20%

册子0906

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

Autodesk Product Design Suite Standard 系统统需求 典型用户户和工作流 Autodesk Product Design Suite Standard 版本为为负责创建非凡凡产品的设计师师和工程师提供供基本方案设计和和制图工具, 以获得令人惊叹叹的产品

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI


白皮书 SanDisk DAS Cache:OLTP 性能 951 SanDisk Drive, Milpitas, CA SanDIsk Corporation. 保留所有权利

Compressing Encrypted Rules

01

大16开产品画册排版.cdr

NX Nastran: 适于产品创新的新一代 CAE 系统 eds.com/products/plm/ds NX Nastran 优化工程最佳实践, 并与 NX 的世界级数字化原型开发和仿真能力结合起来, 以帮助企业降低产品全生命周期的成本, 获得竞争优势 NX PLM Solutions

<4D F736F F D20B5DAC8FDCBC4D5C2D7F7D2B5B4F0B0B82E646F63>

<4D F736F F D20B8DFB5C8D1A7D0A3B1BEBFC6CEEFC1AACDF8B9A4B3CCD7A8D2B5D3A6D3C3D0CDC8CBB2C5C5E0D1F8D6B8B5BCD2E2BCFBA3A B0E6A3A92E646F6378>

例 如, 一 个 含 有 2000 个 记 录 的 文 件, 每 个 磁 盘 块 可 容 纳 250 个 记 录, 则 该 文 件 包 含 8 个 磁 盘 块 然 后 对 该 文 件 作 二 路 归 并 的 外 排 序, 每 次 往 内 存 读 入 两 个 磁 盘 块, 排 序 后 再 写 回 磁

RS Pro 以实惠的价格 提供您所需的品质与性能 细节决定成败 正确的选择可以提高整个组织的效率和生产力 每个决策 每个环节都很重要 因此 RS Pro 为您提供了约 40,000 种产品供您选择 这些产品均经过产品质量测试 专为严苛的制造和工业环境而设计 并在不断推陈出新 RS Pro 深知每个

IQ

COP中文范本

冶金企业安全生产监督管理规定

PowerPoint 演示文稿

<4D F736F F D20BAECB1A6C0F6A3BAB7C7B9ABBFAAB7A2D0D0B9C9C6B1C4BCBCAFD7CABDF0CAB9D3C3B5C4BFC9D0D0D0D4B1A8B8E62E646F63>


PowerPoint Presentation

贵 州 红 星 发 展 股 份 有 限 公 司 2015 年 年 度 股 东 大 会 会 议 议 程 一 现 场 会 议 议 程 时 间 :2016 年 4 月 29 日 ( 星 期 五 )14:00 地 点 : 山 东 省 青 岛 市 市 北 区 济 阳 路 8 号 青 岛 红 星 化 工 集 团

合伙人制度的合理性与挑战

書本介紹


!

ChinaBI企业会员服务- BI企业

考 試 日 期 :2016/04/24 教 室 名 稱 :602 電 腦 教 室 考 試 時 間 :09: 二 技 企 管 一 胡 宗 兒 中 文 輸 入 四 技 企 四 甲 林 姿 瑄 中 文 輸 入 二 技 企 管 一

PowerPoint Presentation

02 责任编辑 张晋芬 2 16:06:31

untitled

相 关 知 识 1 计 算 机 工 作 原 理 1946 年 2 月, 世 界 上 第 一 台 电 子 计 算 机 ENIAC (Electronic Numerical Integrator And Computer, 电 子 数 字 积 分 计 算 机 ) 诞 生 于 美 国 宾 夕 法 尼 亚

CHCN_8-14_K.indd

公務員服務法第13條相關解釋彙整表

大陸教育部等6個部門公佈「現代職業教育體系建設規劃 ( 年)」規劃到2015年初步形成現代職業教育體系框架,到2020年基本建成「中國」特色現代職業教育體系

资 讯 速 递 台 基 于 大 数 据 的 学 校 督 导 评 估 系 统 建 设 上 海 市 闵 行 区 人 民 政 府 教 育 督 导 室 ( 摘 要 ) 闵 行 教 育 在 深 化 教 育 改 革 探 索 管 办 评 分 离 的 背 景 下, 把 教 育 督 导 评 估 系 统 建 设 作 为

B1

浙江师范大学2014年度毕业生就业质量报告

目 录 监 管 资 讯 2016 年 全 国 保 险 监 管 工 作 会 议 召 开...3 协 会 动 态 赤 峰 保 险 行 业 协 会 召 开 数 据 统 计 和 信 息 宣 传 总 结 表 彰 会 议...5 赤 峰 市 保 险 行 业 协 会 秘 书 处 召 开 2015 年 度 述 职

同 时, 采 取 提 供 新 闻 线 索 和 素 材 安 排 专 访 等 方 式 主 动 为 新 闻 媒 体 服 务, 为 采 访 报 道 活 动 创 造 便 利 条 件 建 设 网 络 信 息 发 布 平 台 2013 年 9 月 开 通 中 央 纪 委 监 察 部 网 站,2015 年 1 月

時間軸上的竹蓮記憶 學務主任 黃雅彙 我不是竹蓮國小的畢業校友 但對於身為新竹人的我來 說 仔細回想起來 似乎和竹蓮有著一種特別的緣分 對竹蓮國小最初的印象是在小學的時候 猶記得年幼的 我經過一段時日的啦啦隊舞蹈訓練後 老師便帶著我們從學 校步行到竹蓮國小來參加比賽 一踏入竹蓮校門 映入眼簾 的是黑

B1

Microsoft Word - 临政办发6.doc

聚 焦 大 众 金 秋 十 月, 让 爱 走 动 引 领 大 众 金 秋 十 月 又 重 阳 清 早, 大 众 汽 车 租 赁 公 司 的 爱 心 小 队 一 行 十 余 人 就 带 着 早 已 备 好 的 节 日 慰 问 品 来 到 提 篮 桥 街 道 敬 老 院, 为 那

深空防篡改系统

3 3 4 Apollo System 5 HPE Apollo System 6 HPE Apollo 2000 System 7 HPE Apollo 2000 System 8 HPE Apollo 4000 System 10 HPE Apollo 4200 Gen9 13 HPE Apol

!!

京东容器平台与数据中心协同发展实践 鲍永成 京东商城 - 基础平台部 技术总监

1吴正轩

2009 年第 6 期 高清总动员 35

目 录 学 校 概 况... 1 报 告 说 明... 3 第 一 章 2015 届 毕 业 生 就 业 基 本 情 况... 5 一 毕 业 生 的 规 模 与 结 构... 5 ( 一 ) 毕 业 生 总 体 规 模... 5 ( 二 ) 毕 业 生 的 结 构 分 布... 5 二 毕 业 生

<4D F736F F D20C7B6C8EBCABDCFB5CDB3C9E8BCC6CAA6BFBCCAD4B4F3B8D92E646F63>

(Quad-Core Intel Xeon 2.0GHz) ()(SAS) (Quad-Core Intel Xeon 2.0GHz) (Windows )(Serial ATA) (Quad-Core Intel Xeon 2.0GHz) (Linux)(Serial ATA)

PowerPoint プレゼンテーション

国 家 图 书 馆 年 鉴 0 重 点 文 化 工 程 一 中 华 古 籍 保 护 计 划 0 年, 国 家 图 书 馆 ( 国 家 古 籍 保 护 中 心 ) 根 据 文 化 部 要 求, 围 绕 习 近 平 总 书 记 关 于 弘 扬 中 华 优 秀 传 统 文 化 系 列 讲 话 精 神, 对

PowerPoint 演示文稿

六域链联盟 SDChain-Matrix 节点搭建指南 2018/07/26 Version : 1.0.0

DocHdl2OnPPMtmpTarget

Slide 1

中文版

TECHNICAL BRIEF 英特尔 AVX-512 指令对于英特尔 处理器并非新鲜 事物 英特尔 至强融核 产品线早已采用 因为有多 个 512 位新指令定向处理高性能计算 (HPC) 工作负载 其计算吞吐量相当于英特尔 AVX/AVX2 的两倍 尤其是 在监控领域 AVX512DQ 指令增强了

P4i45GL_GV-R50-CN.p65

实践课堂成都站-0609.key

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

untitled

案例分享产品文档

Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7.

中国社会科学 年第 期,,. % 1,,,. %,. % 2,, %, ;,,,, 3,,,, 4 ( ) ( ) ( ) (),, %, 5,,,,,,,,, 1 :,, ://.. / / - / /., 2 :,, 3 :, 4,,, 5 ( ),,, ( ),, ( ), ( ), ( );

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项


11_03.indd

US_cs.indd

公开招标采购文件范本

目录 1 H3C R4900 G2 服务器可选部件与操作系统兼容性列表 控制卡 GPU 卡 网卡 FC HBA 卡 TPM/TCM 模块 NVMe SSD PCle 加速卡 1-31 i

<4D F736F F D20D6D0C9BDB4F3D1A7C6DAC4A9BFBCCAD4D1F9CCE2A3A8B2D9D7F7CFB5CDB3A3A92E646F63>


PowerPoint 演示文稿

01

Big Data - Are You Ready

目录 1 简介 1 2 配置前提 1 3 配置环境 服务器 软件 1 4 配置指导 组网拓扑 操作步骤 Red Hat Enterprise Linux Server Red Hat Enterprise Lin

深度学习 + 大数据 TensorFlow on Yarn 李远策 2017 年 4 月 17 日

Control Manager 6.0 Service Pack 3 System Requirements

双机模板方案0404.doc

Microsoft Word - 134招标文件.doc

FPGAs in Next Generation Wireless Networks WPChinese


TAS - 990

首都高速1.FIT)

<4D F736F F D20B8EAB054B35DB3C6B1C4C1CAABD8C4B3AAED2D313031A67E3131A4EB31352EB8B9A7F3B7732E646F63>

致理技術學院資訊管理學系專題企劃書格式建議書

版权 浪潮 版权所有 未经事先书面同意, 本文档的任何部分不得复制或以任何形式或任何方式修改 外传 注 : 您购买的产品 服务或特性等应受浪潮集团商业合同和条款的约束 本文档中描述的全部或部分产品 服务或特 性可能不在您的购买或使用范围之内 除非合同另有约定, 浪潮集团对本文档内容不做任

第一期青云实践课堂 基于青云构建企业级公有PaaS云服务 MoPaaS-沈阅斌

Microsoft Word - 選擇_無解答2_.doc

括 教 育 在 内 西 学 得 以 力 推 广 制 颁 发 和 癸卯 学制 实 施 更 使 教 育在 学 校 教 育 占 据 相 当 重 要 地 位 达到 了 前所 未 有 程度 以 学为 例 科 学 时数 占 总 学 时数 比 例 甚至超 过 国 文科 壬寅学 直维持 在 约 辛亥 革命 以 后

穨report.PDF

西铁城电子 设备解决方案 Citizen Electronics Device Solutions 以高附加值的电子设备 来支持持续进化的产品开发 We support the development of evolving equipment with value-added electronic

政府機關資訊通報第295期(5月)

Bluemix 从概念到应用CN改

Transcription:

解决方案 基于东方国信企业版 Hadoop 和英特尔 傲腾 持久内存的大数据平台联合解决方案 在测试中, 英特尔傲腾持久内存对于大数据平台企业版 BEH 的提升作用非常明显, 其在金融等行业中的部署有望帮助用户显著提升即时数据处理应用的性能, 同时能够为用户降低 IT 成本, 简化基础设施, 我们还将在更多的应用场景总对英特尔傲腾持久内存进行测试, 在此基础上构建新一代数据分析和人工智能应用平台的最佳解决方案 王虎 东方国信技术中心总经理 我们正处于一个数据爆炸式增长的时代, 大数据正在成为企业 社会和国家层面重要的战略资源 全球科技行业着眼于以大数据驱动增长和创新, 深挖数据富矿, 从而提高工作效率, 改善生活质量, 最终带动经济增值 对于企业而言, 通过对海量数据进行近即时的处理与分析, 可深入洞察消费者需求, 快速做出明智决策, 获得重要商业价值 作为由 Apache 基金会所开发的一种分布式系统基础架构,Hadoop 支持用户在无需了解分布式底层细节的情况下, 开发分布式程序, 充分利用集群进行高速运算和存储 在开源 Hadoop 的基础上, 北京东方国信科技股份有限公司 ( 以下简称 : 东方国信 ) 对 Hadoop 组件进行增强和封装, 推出了适用于超大规模数据存储和在线分析的东方国信大数据平台企业版 (BEH) 通用产品解决方案, 可以帮助企业快速搭建大数据平台, 提升开发效率, 降低后期维护成本 为了在大数据分析应用中进一步提升 BEH 的性能表现, 东方国信在服务器节点中使用了第二代英特尔 至强 可扩展处理器, 并使用高性能的英特尔 傲腾 持久内存作为 Spark SQL 的缓存设备, 以加速缓存性能 测试结果显示, 无论是在单节点还是集群测试环境中, 英特尔傲腾持久内存都帮助 BEH 方案实现数倍的性能提升, 以及显著的成本节约 东方国信 大数据平台企业版 BEH 客户痛点 : AI 实时大数据分析等应用需要更强大的性能支撑 满足目标性能的系统建设成本高昂 为何选择英特尔傲腾持久内存 : 加速系统缓存, 避免性能瓶颈 优化总体拥有成本 (TCO) 价值定位 : 延迟更低 / 响应更快 / 性价比优势更明显

基于东方国信企业版 Hadoop 和英特尔 傲腾 持久内存的大数据平台联合解决方案 面向大数据分析的一站式东方国信大数据平 台企业版 BEH 东方国信大数据平台企业版 BEH 在原生 Hadoop 基础上, 面向最终企业客户进行了一系列的企业级功能增强, 支持运维人员开箱即用, 在多环境 ( 物理和云化环境 ) 下实现一键部署, 统一管理和运维 同时, 开发人员可使用工具化编排功能简化数据分析 加工过程, 满足大数据时代海量数据在线分析应用的迫切需求 与原生 Hadoop 相比, 东方国信大数据平台企业版 BEH 具备以下优势 : 开发编排 : 支持批量 / 流式 / 非结构化数据的采集 计算和存储的可视化编排与开发, 降低大数据使用门槛, 提升使用大数据平台的能力 部署运维 : 支持一键式快速按需定制构建大数据基础平台, 集中式 / 可视化平台管理, 向导式操作完成运维管理, 降低人员技术要求, 减少误操作几率, 保障平台安全 组件适配 : 适配多个社区版本 多种操作系统 多种服务器, 实现 HBase/HDFS/Spark 等原生组件企业级应用部分功能增强, 支持异构混合部署场景 云化弹性 : 支持基于 Kubernetes+Docker 容器的大数据组件弹性服务, 支持部分组件云边结合, 比如 : 基于 Kafka MirrorMaker 实现两级边云集群数据复制 安全权限 : 提供统一的大数据安全及权限管理, 支持集群参数的可视化配置和滚动升级, 支持可视化多租户资源隔离共享和可视化细粒度的权限访问控制 东方国信大数据平台企业版 BEH 针对企业的实际需求进行了大量的科研攻关和技术创新, 可以有效降低各种大数据处理应用的技术门槛和人才门槛, 为各类企业和政府部门提供了开展海量数据在线分析相关业务的能力, 将有力推动中国大数据相关应用的落地和发展 解决方案 : 基于英特尔 傲腾 持久内存优化 缓存性能 企业数据正在快速增长, 同时越来越多的业务需要从实时数据分析中获得洞察, 这意味着对于大数据分析性能的追求不会到达终点 例如, 在面向上亿用户的实时推荐系统或面向全网的 RTB 广告竞价投放系统中, 通常要求存储上亿级用户数据, 同时在进行实时推荐或 RTB 广告询价等业务 此类应用对并发和时延要求极为苛刻, 通常需要单服务器每秒支持上万次数据存取操作, 对于性能提出了较为严苛的要求 BEH-Developer( 开发 ) 加强批流结合一体化 提供流式数据采集 / 计算的可视化的大数据开发和编排, 帮助客户提升大数据开发效率 BEH-DMA( 部署及运维管理 ) 加快物理容器一体化 提供大数据集群管理和运维功能, 帮助客户降低后期的维护成本 BEH-Component( 组件 ) 多版本多服务器一体化 基于开源组件进行多组件集成和部分组件源代码增强, 为客户提供统一的大数据的 存储和计算能力 BEH-on Cloud( 云化 ) 拓展云化云边化 基于 k8s + docker 虚拟化容器技术, 实现大数据组件云化, 帮助客户提供简化 部署和弹性伸缩服务 BEH-Security ( 安全及权限 ) 用户资源权限访问一体化 提供大数 据访问权限及资源 计算 细 粒度权限 控制, 帮 助用户提 升数据安 全 图 1. 东方国信大数据平台企业版 BEH 2

基于东方国信企业版 Hadoop 和英特尔 傲腾 持久内存的大数据平台业联合解决方案 第二代英特尔至强可扩展处理器 为企业数据中心提供高可扩展性 与上一代处理器相比, 为虚拟基础设施提供更高性能 实现卓越的资源利用效率和敏捷性 针对数据中心解决方案, 提高数据和工作负载的完整性, 确保监管合规性东方国信大数据平台企业版 BEH 推荐采用第二代英特尔至强可扩展处理器 英特尔傲腾持久内存可以提供 更低的的总体拥有成本 (TCO): 要组建性能或容量相当的内存池, 将仅需使用更低的成本, 这也有助企业降低基础设施的 TCO, 获得更大的竞争优势 敏捷的应用模式 : 企业用户可以根据自己的应用需求, 在不对硬件进行调整的前提下, 自由地使用英特尔傲腾持久内存的内存模式或是应用直接访问模式 强大的性能, 远超传统固态盘 东方国信大数据平台企业版 BEH 推荐采用英特尔傲腾 持久内存 东方国信大数据平台企业版 BEH 推荐使用基于第二代英特尔至强可扩展处理器的服务器 第二代英特尔至强可扩展处理器专为数据中心现代化革新而设计, 能够提高各种基础设施 企业应用及技术计算应用的运行效率, 进而改善总体拥有成本 (TCO), 提升用户生产力 它拥有更高的每核性能, 能够在计算 存储和网络应用中, 为计算密集型工作负载提供高性能和可扩展性 同时, 得益于英特尔 超级通道互联 (Intel UPI) 英特尔 Infrastructure Management(Intel IMT) 技术 英特尔 高级矢量扩展指令集 512(Intel AVX-512) 等领先功能, 它可满足严苛的 I/O 密集型工作负载的需求, 能够帮助大数据应用着力打造性能更强的敏捷服务和突破性功能 此外, 第二代英特尔至强可扩展处理器内置人工智能加速, 并已针对工作负载进行优化, 提供真实应用场景中由客户驱动的性能, 能够为各种高性能计算工作负载 AI 应用以及高密度基础设施带来一流的性能和前所未有的内存带宽 同时, 采用矢量神经网络指令 (VNNI) 的英特尔 深度学习加速 ( 英特尔 DL Boost) 显著提高了人工智能推理的表现, 与上一代产品相 比, 性能提升高达 14 倍, 这为相关的人工智能应用奠定了坚实的基础 IO 是 Spark SQL 查询的常见痛点, 即席查询语句的性能经常被受限于 IO 性能 在应用实例中, 东方国信发现, 在混合并发查询等场景中, 由于需要访问的表数据较多, 内存很快消耗殆尽, 东方国信大数据平台企业版 BEH 常常需要将大量数据缓存到相对低速的磁盘中, 导致出现显著的磁盘 IO 阻塞, 且 CPU 利用率会上升至高达 100%, 严重拖慢了系统速度 为了进一步提升性能表现, 同时有效控制总体拥有成本 (TCO), 东方国信采用了英特尔傲腾持久内存 + DRAM 作为缓存 除了相对于 DRAM 存储器的成本优势之外, 英特尔傲腾持久内存还带来了内存子系统架构的颠覆性变化, 将类似于 DRAM 存储器的字节寻址能力和类似于存储的持久性合二为一 这种结合意味着它可以直接映射到应用程序地址空间, 消除了与传统存储的读写相关的瓶颈, 使其成为工作数据和长期存储的主数据层 3

基于东方国信企业版 Hadoop 和英特尔 傲腾 持久内存的大数据平台联合解决方案 英特尔傲腾持久内存可提供融合高速 高性价比 大容量 持久数据保护 高级加密等优势于一体的内存选项 不同于传统的 DRAM 内存, 它集大容量 经济性和持久性于一身, 读写带宽比 NVMe 设备高数倍, 并大幅降低了延时问题 英特尔傲腾持久内存提供了两种不同的操作模式 : 内存模式 (Memory Mode) 和应用直接访问模式 (App Direct Mode) 在内存模式中, 它与普通的易失性 ( 非持久性 ) 系统存储器完全一样, 但成本更低, 能在保持系统预算的同时实现更高容量 模块的容量有 128 GB 256 GB 和 512 GB 几个版本 在东方国信大数据平台企业版 BEH 应用中, 英特尔傲腾持久内存作为应用直接访问模式的形态存在 通过启用应用直接访问模式, 用户能够以更低的成本扩展一体机内存池容量, 在服务器中同时使用独立的易失和持久性内存存储, 加快使用基于传统 DRAM 的数据缓存结构的操作速度, 进一步提高性能 测试 : 消除磁盘 IO 阻塞, 提升数倍性能 测试人员选取和东方国信大数据平台企业版 BEH 业务场景比较相近的 TCP-DS 标准 SQL 查询, 评估使用英特尔傲腾持久内存 Cache 的 OAP 带来的性能提升, 环境配置如表 1 所示 其中,OAP 是基于 Spark SQL 开发的项目, 提供了包括缓存和索引的功能, 用于加速 Spark SQL, 可以满足秒级甚至更高要求的即席查询需求 CPU 信息 物理内存信息 组件版本 2* 英特尔至强金牌 6248 处理器 4* DDR4 64 GB 4* 英特尔傲腾持久内存 128 GB apache-hadoop-2.8.5 spark-2.4.4.patched(intel 编译发行 ) JDK1.8 缓存命中率 90 80.00% 80 70.00% 70 60 50 40 30 20 10 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0 0.00% 1 5 10 15 20 23 24 30 35 40 图 2. 缓存命中率测试缓存大小 /GB ( 越高越好 ) FIRST SECOND THIRD RATE 测试结果显示, 在初始化的缓存空间较小的时候, 缓存并没有给第二 / 三次查询带来明显的效率提升, 而且命中率显示几乎是 0%, 这是由于缓存空间较小时 Cache 会发生缓存内容替换导致 此外, 命中率和缓存空间并不存在线性关系 当缓存容量增大至 30 GB 之后, 这些缓存足可以保证几乎所有的数据都缓存到英特尔傲腾持久内存中, 继续增加缓存并不会给查询速度与命中率带来明显变化 随后, 测试人员模拟生产随机不同查询 SQL 时, 英特尔傲腾持久内存对查询性能的提升效果 本组测试分为 Parquet only Parquet + 英特尔傲腾持久内存 cache Parquet + DRAM cache 三种模式 ( 其中包含缓存的两组模式设置 4 种缓存大小规模, 分别为 1 GB/12 GB/30 GB/60 GB), 每组测试顺序执行 9 个 IO 较高的 SQL, 共执行三次, 测试数据如图 3 所示 : 命中率 nodemanager 内存资源测试程序磁盘操作系统和内核 DRAM 170 GB OAP-TPCDS-TOOL 1*HDD CentOS Linux release 7.4.1708(Core)/ 3.10.0-693 GNU/Linux 450.00 400.00 350.00 300.00 250.00 200.00 150.00 100.00 50.00 混合查询 221.34 216.28 197.94 197.44 400.72 318.91 245.41 157.83 152.57 0.00 PARQUET PARQUET+ PARQUET+ PARQUET+ PARQUET+ PARQUET+ PARQUET+ PARQUET+ PARQUET+ ONLY DRAM (1G) DRAM (12G) DRAM (30G) DRAM (60G) DCPMM (1G) DCPMM (12G) DCPMM (30G) DCPMM (60G) 表 1: 测试环境配置 查询模式 首先, 测试人员通过调整英特尔傲腾持久内存的初始化内存大小, 观察 SQL 查询效率的提升, 测试数据如图 2 所示 : 图 3. 混合查询执行时间测试 ( 单位 : 秒, 越低越好 ) 4

基于东方国信企业版 Hadoop 和英特尔 傲腾 持久内存的大数据平台业联合解决方案 测试显示, 增加英特尔傲腾持久内存的缓存容量可以明显提升查询性能, 而增加 DRAM 缓存效果并不明显 在缓存足够多的时候, 英特尔傲腾持久内存查询效率和 DRAM 效果接近 而由于英特尔傲腾持久内存成本更低, 因此具备更卓越的性价比 第三组测试模拟生产提交重复的 SQL 时, 英特尔傲腾持久内存对查询性能的提升效果 本组测试分为 Parquet only Parquet + 英特尔傲腾持久内存 cache Parquet + DRAM cache 三种模式, 每组测试顺序执行 1 个 IO 较高的 SQL, 共执行三次, 记录每一种模式每一次的 SQL 执行时间, 测试数据如图 4 所示 : 测试结果显示, 在重复查询场景较多的环境中, 设置缓存能够发挥较好的优化作用 对比最后一次查询时间, 英特尔傲腾持久内存 cache 效率提升达到 47% 此外,Parquet 在重复查询 SQL 的场景下能取得优秀的性能提升, 英特尔傲腾持久内存和 DRAM 的性能提升效果接近 但是考虑到英特尔傲腾持久内存的价格优势以及扩展容量优势, 英特尔傲腾持久内存更适合用于数据缓存层 42.16 34.8 35.12 81.21 73.58 73.52 多模式重复查询 第一次查询第二次查询第三次查询 61.29 55.73 42.09 59.51 18.88 18.65 59.45 19.18 18.99 PARQUET PARQUET + PARQUET+ PARQUET+ PARQUET + PARQUET+ PARQUET + PARQUET+ PARQUET+ ONLY DCPMM(1G) DCPMM (12G) DCPMM (30G) DCPMM (60G) DRAM (1G) DRAM (12G) DRAM (30G) DRAM (60G) 查询模式 47.76 40.19 40.24 50.96 41.01 39.88 50.88 26 23.44 图 4. 多模式重复查询测试 ( 单位 : 秒, 越低越好 ) 第四组测试模拟生产提交多个 SQL 时, 英特尔傲腾持久内存缓存对查询性能的提升效果 测试按照 Spark 资源配置的不同, 共设置了 8 组测试, 其中, 测试组 1 和测试组 8 没有使用英特尔傲腾持久内存缓存, 测试组 2 到测试组 8 依次增加英特尔傲腾持久内存缓存, 测试人员按执行顺序记录每次 SQL 查询时间总和, 测试数据如图 5 所示 : 53.34 17.86 18.71 第三轮查询时间总和 88.82 208.27 199.6 99.21 85.76 82.9 88.48 284.41 测试 1 测试 2 测试 3 测试 4 测试 5 测试 6 测试 7 测试 8 测试组编号 图 5. SQL 查询时间总和测试 ( 单位 : 秒, 越低越好 ) 测试数据显示, 只有使用足够容量的英特尔傲腾持久内存缓存数据, 才能提升查询速度, 但当缓存容量接近数据量后, 继续增加英特尔傲腾持久内存的缓存容量不会对速度有显着提升 最后一组测试模拟生产提交重复的 SQL 时, 英特尔傲腾持久内存缓存对查询性能的提升效果 本轮测试按照 Spark 资源 配置的不同, 共设置了 9 组测试, 其中, 测试组 1 和测试组 9 没有使用英特尔傲腾持久内存缓存, 测试组 2 到测试组 8 依次增加英特尔傲腾持久内存缓存数量, 并进行 3 轮查询, 记录 SQL 执行时间 测试数据如图 6 所示 : 5

基于东方国信企业版 Hadoop 和英特尔 傲腾 持久内存的大数据平台联合解决方案 Q68 重复查询 第一次查询第二次查询第三次查询 31.35 23 35.18 12.09 11.08 11.47 10.77 11.88 9.84 11.24 10.21 12.8 11.98 23.99 15.12 14.75 41.66 40.55 47.31 45.01 46.94 47.25 46.43 55.85 52.3 53.3 55.23 测试 1 测试 2 测试 3 测试 4 测试 5 测试 6 测试 7 测试 8 测试 9 测试组编号 图 6. Q68 重复查询测试 ( 单位 : 秒, 越低越好 ) 测试数据显示, 增加内存和英特尔傲腾持久内存缓存都能提升查询速度 在英特尔傲腾持久内存缓存较小的时候, 因为命中率低的问题不会达到理想的查询速度 从以上测试可以发现, 英特尔傲腾持久内存会带来 BEH 性能的较大幅度提升, 是因为英特尔傲腾持久内存的性能远高于普通固态盘, 用作缓存时可以避免数据落在性能较低的固态盘上所导致的 IO 瓶颈, 降低 CPU 的负载 值得一提的是, 在系统性能大幅提升的前提下, 硬件的成本却只出现了较小幅度的增长, 综合性价比优势十分明显 展望 :BEH 加速数据变革, 助力企业挖掘大数 据价值 东方国信大数据平台企业版 BEH 针对企业应用场景, 在高可用 高性能 重要功能特性以及运维等方面进行了创新与增强 在使用英特尔傲腾持久内存优化缓存性能之后, 东方国信大数据平台企业版 BEH 的性能得到进一步提升, 有望帮助金融 互联网 电信等行业用户有效应对复杂查询及大数据量分析场景, 显著改善应用延迟等方面的表现 数据处理性能是大数据应用中的重要痛点, 英特尔傲腾持久内存展现了在高并发场景下的卓越性能加速效果, 同时实现了卓越的成本效益 展望未来, 我们将进一步与英特尔等合作伙伴强化合作, 完善大数据和云计算技术体系, 升级产品结构和产品层次, 完善面向大数据采集 汇聚 处理 存储 分析 挖掘 应用 管控为一体的大数据核心能力平台, 为行业用户提供更优秀的大数据平台解决方案 王虎 东方国信技术中心总经理