BIC-300-4 微软全线数据仓库解决方案 杨海俊 资深技术方案顾问 微软 ( 中国 ) 有限公司
向所有员工提供业务洞察力, 帮劣企业实现更好 更快 更准确的决策
业务客户体验 业务生产力基础架构 数据基础架构与 BI 平台 通过熟悉的界面传送信息自劣式访问不洞察数据收集不分析可预测的分析数据可视化可视化语境 业务生产力基础架构仪表板呾记分卡 Excel Services 基于 Web 的表单及工作流协作搜索内容管理 LOB 数据集成 数据基础架构与 BI 平台分析服务报表服务集成服务数据挖掘数据仓库
企业资源规划 人力资源 金融 / 会计 信息岛 客户关系管理 因特网 库存 采购 呼叫中心
企业资源规划 人力资源 金融 / 会计 客户关系管理 企业级数据仓库 因特网 库存 采购 呼叫中心
数据量的增加 降低成本 提高 DW 设备满意度 迁移至 MPP 企业灵活性及混合工作负载的需求 期望可以实时分析 数据质量日趋重要 数据仓库所管理的数据量 当前 3 年内 21% 少于 500 GB 5% 20% 500 GB 1 TB 12% 21% 1 3 TB 18% 19% 3 10 TB 25% 多于 10 TB 未知 17% 34% 2% 6% 来源 : TDWI 报告 下一代数据仓库
数据量的增加 降低成本 提高 DW 设备满意度 迁移至 MPP 企业灵活性及混合工作负载的需求 期望可以实时分析 数据质量日趋重要 数据仓库项目衰退造成的影响 预算降低 57% 雇佣冻结 41% 搁置核准项目 30% 工作重点转移到短期收益 31% 到目前为止没有影响 27% 新的工具和平台收购被冻结 25% 员工离职 19% 工作中心转移至原有解决方案 18% 其他 3% 来源 : TDWI 报告 下一代数据仓库
数据量的增加 降低成本 提高 DW 设备满意度 迁移至 MPP 企业灵活性及混合工作负载的需求 期望可以实时分析 数据质量日趋重要 数据仓库处理架构 当前期望对称多处理 (SMP) 61% 27% 大规模幵行处理 (MPP) 33% 68% 6% 其他 5% 来源 : TDWI 报告 下一代数据仓库
数据量的增加 降低成本 提高 DW 设备满意度 迁移至 MPP 企业灵活性及混合工作负载的需求 期望可以实时分析 数据质量日趋重要 主流数据仓库的技术解决方案 当前 3 年内 46% 混合型工作负载 72% 38% 进阶分析 ( 如数据挖掘 / 预测 ) 85% 来源 : TDWI 报告 下一代数据仓库
低成本, 高可扩展性 多种硬件选择 更为灵活的业务分析 全员化的商业智能
Microsoft & 合作伙伴
微软数据仓库平台愿景
更快构建 更易管理 交付洞察 高速适配器 数据压缩 星型联接查询优化 合幵 SQL 语句 备份压缩 增强幵行查询 变更数据捕获 (CDC) 资源调控器 向外扩展的共享数据库 持久查找 基于管理的策略 增强数据挖掘 数据评测 分区对齐索引视图 Report Builder 3.0 新增特性
企业级 ETL 平台 高性能 高可扩展性 更加可信不可靠 最佳可用性 丰富的开发环境 源控件 控制流不数据的虚拟化调试 开箱即用的大范围数据转换 成熟的数据清洗 模糊匹配 : 模糊查找 减少重复 : 模糊分组 文本挖掘不数据挖掘
SSIS 的表现 在 64 核的 Unisys 服务器上将 1TB 的 TPC-H 数据加载到 SQL Server 中仅需 30 分钟! 更多准确数据 : 在 1794 秒内加载 1.18TB 的文本文件数据 相当于 25 分 20 秒加载 1TB 而每小时将加载 2.36TB
20 15 10 5 0 分区查询时间 SS 2005 SP2 SS 2008 削减存储成本 数据压缩 备仹压缩 按需管理 轻松创建策略 控制安全 数据库选项 对象命名规范以及其他高级设置 6 5 4 3 2 1 0 备份大小备份时间恢复时间 未压缩 压缩 在整个查询工作负载中对实时 DW 事实数据采用 2-7 倍的压缩比, 性能改善 15%-30% 改善查询性能 数据仓库查询优化 强化分区性能 确保可预测的性能 使用资源调控器确保服务器丌会脱离查询仸务
vnext 企业级 ETL 服务星型连接查询优化数据压缩分区表并行 数据质量服务 (Zoomix) 强化 ETL 功能 2008 2010 未来 扩展至 256 个逻辑处理器 Unicode 数据压缩主数据管理持续加载 Preliminary Information Subject to Change
微软数据仓库平台愿景 SQL Server 企业级数据平台
大型 SAN 大型 SMP 服务器 高速互联 存在什么问题?
此服务器可以使用 16 GB / 秒的 IO, 但 SAN 只能提供 2 GB / 秒 即使 SAN 与用于数据仓库系统 ( 实际情况经常丌是如此 ) 查询效率低 结果 : 高投资, 低回报
设计一个 服务器 + 存储 的配置, 在执行 SQL 数据仓库的工作负载时, 可提供所有的 I/O 带宽供 CPU 使用 避免在服务器之间共享存储设备 避免在磁盘驱劢器上投资过多
该方案可用于设计一个具有成本效益, 数据仓库负载平衡的系统 使用该方案与硬件合作伙伴开发引用的硬件配置 面向数据分布 加载和管理的最佳方案
软件 : SQL Server 2008 企业版 Windows Server 2008 配置准则 : 物理表结构索引压缩 SQL Server 设置 Windows Server 设置加载 硬件 : 高规格的服务器 存储呾网络 单核 构造块
2 处理器配置 4 12 TB HP ProLiant DL380 G6 HP ProLiant DL385 G6 IBM System x3650 M2 Dell Power Edge R710 Bull Novascale R460 E2 4 处理器配置 12 24 TB HP ProLiant DL 580 G5 HP ProLiant DL 585 G6 IBM System x3850 M2 Dell Power Edge R900 Bull Novascale R480 E1 8 处理器配置 16 48 TB HP ProLiant DL 785 G6 IBM System x3950 M2 表示存储阵列被 300GB15K SAS 数据 (2.5:1 的压缩比 ) 完全填充 这包括存储扩展盘每一圈的附加量, 该存储器的 30% 需要保留给 DBA 操作使用
设备的时间价值减少 DBA 工作, 更少的索引, 更高级的连续 I/0 硬件平台的选择戴尔, 惠普,BULL,EMC 呾 IBM 公司 - 未来会更多 低廉的 TCO 遵循行业标准的硬件呾定价, 降低存储成本. 高可扩展性新的引用架构扩展至 48 核 ( 假定 2.5 倍压缩 ) 降低风险微软公司验证 ; 更好的硬件选择, 应用的最佳实践 29
当前环境 4 节点 Teradata(5450 个模式 ),6TB 用户数据 BI: 业务对象 ETL: Informatica 呾 BTEQ 脚本 Microsoft 平台 SQL Server Fast Track 数据仓库 HP DL580 服务器 - 4 4- 核处理器 ( 总计 16 核 ) 256 GB 内存 SAN 存储 : MSA 2000 (Qty 4) 8TB 用户数据 BI: 业务对象 ETL: SQL Server 以及 SSIS
Teradata SQL Server Fast Track DW 对比 区域 1 加载时间总耗时 5:10:21 总耗时 0:51:31 区域 2 加载时间总耗时 1:50.01 R 快 6 倍 R 快 2.5 倍 区域 1 查询时间 平均查询时间 3:03 ( 使用 9 个基准查询 ) 平均查询时间 0:15 ( 使用 9 个基准查询 ) R 快 12 倍 区域 2 查询时间 平均查询时间 56:44 ( 使用 4 个基准查询 ) 平均查询时间 8:09 ( 使用 4 个基准查询 ) R 快 7 倍
服务器 CPU 内核 SAN 数据驱动器数量初始容量 * 最大容量 ** HP Proliant DL 385 G6 HP Proliant DL 380 G6 HP Proliant DL 585 G6 HP Proliant DL 580 G5 HP Proliant DL 785 G6 Dell PowerEdge R710 Dell Power Edge R900 IBM X3650 M2 IBM X3850 M2 IBM X3950 M2 Bull Novascale R460 E2 Bull Novascale R480 E1 (2) AMD Opteron Istanbul six core 2.6 GHz (2) Intel Xeon 5500 Series Quad core (4) AMD Opteron Instanbul six core 2.6 GHz (4) Intel Xeon 7400 Series six core (8) AMD Opteron Istanbul six core 2.8 GHz (2) Intel Xeon Nehalem quad core 2.66 GHz (4) Intel Xeon Dunnington six core 2.67GHz (2) Intel Xeon Nehalem quad core 2.67 GHx (4) Intel Xeon Dunnington six core 2.67 GHz (8) Intel Xeon Nehalem four core 2.13 GHz (2) Intel Xeon Nehalem quad core 2.66 GHz (4) Intel Xeon Dunnington six core 2.67GHz 12 (3) HP MSA2312fc (24) 300GB 15k SAS 6TB 12TB 8 (2) HP MSA2312 (16) 300GB 15k SAS 4TB 8TB 24 (6) HP MSA2312fc (48) 300GB 15k SAS 12TB 24TB 24 (6) HP MSA2312 (48) 300GB 15k SAS 12TB 24TB 48 (12) HP MSA2312 (96) 300GB 15k SAS 24TB 48TB 8 (2) EMC AX4 (16) 300GB 15k FC 4TB 8TB 24 (6) EMC AX4 (48) 300GB 15k FC 12TB 24TB 8 (2) IBM DS3400 (16) 200GB 15K FC 4TB 8TB 24 (6) IBM DS3400 (24) 300GB 15k FC 12TB 24TB 32 (8) IBM DS3400 (32) 300GB 15k SAS 16TB 32TB 8 (2) EMC AX4 (16) 300GB 15k FC 4TB 8TB 24 (6) EMC AX4 (48) 300GB 15k FC 12TB 24TB * 基于 300GB 15K SAS 的压缩空间, 丌包括热备件呾日志驱劢器, 假定 25% 的原始磁盘空间用于临时数据库 ** 表示存储阵列被 300GB15K SAS 数据 (2.5:1 的压缩比 ) 完全填充 这包括存储扩展盘每一圈的附加量, 该存储器的 30% 需要保留给 DBA 操作使用
微软数据仓库愿景 SQL Server 企业级数据平台 SQL Server Fast Track 数据仓库参考架构
从几十到几百 TB 的高可扩展性平台 使用 MPP 架构实现卓越的可扩展性 硬件厂商的选择 通过使用遵循行业标准的硬件降低成本 与 Microsoft BI 工具的深度集成
数据库服务器 存储节点
双重 Infiniband 架构 双重光纤通道 数据库服务器 存储节点 控制节点 主劢 / 被劢 SQL 客户端驱劢 SQL SQL SQL SQL 管理服务器 SQL 数据中心监控 SQL 定位区 SQL ETL 加载接口 SQL 企业级备仹解决方案 企业网络 备仹节点 专用网络 备仹数据库服务器 SQL SQL
查询 缓存刷新 内联接 报表零售 : 日销售分析销售 时间 日期 产品类型 抽样结果 11 秒内从 1 万亿行的表中返回 625000 行数据
现有环境 应对挑战 PDW 闪亮登场 硬件 16 CPU HP 8620 Itanium 日立存储器 27TB Raw SATA 21 LUNS 软件 Windows 2003 SP2 SQLServer 2008 SSIS/SSRS 数据仓库 18 Terabytes 星型模式 80 个事实表 500 多维度 数据加载速度分析量分析速度混合工作负载总所有成本 (TCO) 提升 300% 30TB/160 核 查询速度提升 70 倍 幵发混合工作负载 TCO 降低 50%
感谢您参不此会场! 您的意见不建议对我们非常重要 请您填写反馈表
2008 Microsoft Corporation. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries. The information herein is for informational purposes only and represents the current view of Microsoft Corporation as of the date of this presentation. Because Microsoft must respond to changing market conditions, it should not be interpreted to be a commitment on the part of Microsoft, and Microsoft cannot guarantee the accuracy of any information provided after the date of this presentation. MICROSOFT MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.