银行大数据解决方案

Similar documents
水晶分析师

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI


册子0906

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

合集

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

Azure_s

PowerPoint 演示文稿

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

执 照 该 次 股 权 转 让 时, 谢 序 均 持 有 的 10.00% 股 权 交 易 价 格 为 6,500 万 元 股 权 转 让 作 价 系 参 照 谢 序 均 入 股 启 创 卓 越 6,000 万 元 价 格, 由 交 易 各 方 协 商 议 定 本 次 资 产 购 买 中, 启 创

ChinaBI企业会员服务- BI企业

PowerPoint Presentation

背 景 概 述 企 业 需 要 一 种 灵 活 的 平 台 来 快 速 构 建 测 试 和 扩 展 新 的 应 用 程 序 服 务 并 对 市 场 中 发 生 的 数 字 化 变 革 作 出 反 应 数 字 化 变 革 正 在 加 快 步 伐, 因 为 流 程 和 信 息 的 日 益 融 合 带 来

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1

温州市政府分散采购

目 录 第 五 部 分 第 六 部 分 第 七 部 分 第 八 部 分 投 标 邀 请 投 标 人 须 知 附 表 评 标 方 法 和 评 分 细 则 项 目 需 求 和 技 术 方 案 要 求 1

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

Contents Viewpoint Application Story 05 News & Events 06 Technology Forum Customer Partnership Cover Story Advisory Board Inside Advantech Beautiful L

PowerPoint 演示文稿

天津天狮学院关于修订2014级本科培养方案的指导意见

幻灯片 1



目 录 简 介.3 ` 体 系 结 构...4 数 据 层...5 数 据 连 接 器...6 Tableau Server 组 件...7 网 关 / 负 载 平 衡 器...8 客 户 端 :Web 浏 览 器 和 移 动 应 用 程 序...8 客 户 端 :Tableau Desktop..

声 明 本 公 司 及 全 体 董 事 监 事 高 级 管 理 人 员 承 诺 不 存 在 虚 假 记 载 误 导 性 陈 述 或 重 大 遗 漏, 并 对 其 真 实 性 准 确 性 完 整 性 承 担 个 别 和 连 带 的 法 律 责 任 本 公 司 负 责 人 和 主 管 会 计 工 作 的

银行大数据解决方案

思 想, 还 是 思 想 才 使 我 们 与 众 不 同 编 辑 部 : 工 业 和 信 息 化 部 赛 迪 研 究 院 通 讯 地 址 : 北 京 市 海 淀 区 万 寿 路 27 号 电 子 大 厦 4 层 邮 政 编 码 : 联 系 人 : 刘 颖 董 凯 联 系 电 话 :010

电子-12页

未标题-4

<4D F736F F D F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

应 用 为 先, 统 筹 规 划 摘 要 : 总 体 上 看, 我 国 的 云 计 算 还 没 有 进 入 良 性 发 展 的 轨 道 目 前 的 形 势 是 政 府 比 企 业 积 极, 企 业 比 用 户 积 极, 大 企 业 比 中 小 企 业 积 极, 建 设 数 据 中 心 比 推 广 应

untitled

PowerPoint 簡報

第6章  数据库技术基础

第 期 曹 源 等 形式化方法在列车运行控制系统中的应用

根 据 我 们 9 月 份 对 22 个 上 市 公 司 的 调 研 和 行 业 总 体 增 速 判 断, 2014 年 多 数 计 算 机 公 司 增 速 将 在 20% 左 右, 目 前 公 布 的 公 司 基 本 在 20% 以 上 投 资 建 议 计 算 机 目 前 整 体 估 值 水 平

电信行业网上营业厅

Microsoft Word - 13院21号.doc

广东省海外高层次人才需求信息表.xlsx

PowerPoint 演示文稿

工程施工招标

展 的 关 键 2015 年 国 内 资 本 市 场 持 续 活 跃, 市 场 交 易 规 模 大 幅 增 长, 带 动 投 资 者 规 模 快 速 增 长 (2) 大 资 管 时 代 到 来, 资 产 管 理 业 务 将 井 喷 式 增 长 自 2012 年 起, 监 管 政 策 放 开, 证 券

《教育信息化前沿》

PowerPoint 演示文稿

目 录 目 录 平 台 概 述 技 术 架 构 技 术 特 点 基 于 统 一 平 台 的 多 产 品 线 支 撑 先 进 性 安 全 性 开 放 性 高 性 能 和

F4

PowerPoint Presentation

Reducing Client Incidents through Big Data Predictive Analytics

02 责任编辑 张晋芬 2 16:06:31

个人介绍 思考数据分析系统的基本指标 Hadoop 史前和史后的数据仓库流程 Hadoop 史前和史后的数据分析流程 思考 Hadoop 解决了什么样的根本问题 演讲大纲 Python 如何在构建数据仓库系统的作用 1. 使用 Python 快速构建数据分析模块 ComETL 2. 基于 Pytho

FAQ -PowerDesigner9.5.DOC

SDK 概要 使用 Maven 的用户可以从 Maven 库中搜索 "odps-sdk" 获取不同版本的 Java SDK: 包名 odps-sdk-core odps-sdk-commons odps-sdk-udf odps-sdk-mapred odps-sdk-graph 描述 ODPS 基

员理论结合实践, 切实感受到大数据的魅力及价值 2. 结合目前大数据应用的互联网和金融两大重点行业, 剖析如何利用大数据进行产品创新 设计 研发及推广的整个流程 3 结合自身实践让大家认识到如何利用大数据为企业创造出价值 主训导师 : 方长青简介 专家介绍 : 方长青 : 金融大数据专家 金融经济分






Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

幻灯片 1

handsome-招股书-新规则-final-version-0422.PDF

附录八:验收监测表格式

是 证 券 市 场 的 后 来 者, 但 在 前 景 广 阔 的 道 路 上 前 行, 终 将 成 为 这 个 市 场 的 领 先 者, 这 里 会 给 你 一 个 巨 大 的 舞 台, 这 里 有 你 需 要 的 机 会, 这 里 欢 迎 优 秀 的 你! 二 招 收 条 件 1. 遵 守 国 家

Conductix-Wampfler Inductive Power Transfer IPT 2


總行總務室

目录 1 H3C R4900 G2 服务器可选部件与操作系统兼容性列表 控制卡 GPU 卡 网卡 FC HBA 卡 TPM/TCM 模块 NVMe SSD PCle 加速卡 1-31 i

PowerPoint 演示文稿

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

untitled

信 息 化 研 究

电感-中文单页

光 环 新 网 研 究 报 告 一 公 司 简 介 北 京 光 环 新 网 科 技 股 份 有 限 公 司, 成 立 于 1999 年,2009 年 整 体 变 更 为 股 份 有 限 公 司,2014 年 1 月 在 创 业 板 上 市 公 司 主 营 业 务 为 向 客 户 提 供 宽 带 接

Microsoft Word - 临政办发31.doc


Oracle大数据解决方案介绍

KV-cache 1 KV-cache Fig.1 WorkflowofKV-cache 2.2 Key-value Key ; Key Mem-cache (FIFO) Value Value Key Mem-cache ( Value 256B 100 MB 20%

温 馨 提 示 一 如 无 另 行 说 明, 投 标 / 报 价 文 件 递 交 时 间 为 投 标 / 报 价 文 件 递 交 截 止 时 间 之 前 30 分 钟 内 二 为 避 免 因 迟 到 而 失 去 投 标 / 报 价 资 格, 请 适 当 提 前 到 达 三 投 标 / 报 价 供 应

第 05 期 董房等 : 一种卫星遥测在线状态监测及分析系统的设计 WEB 1 2 总体功能及组成 2.1 总体功能 1 2 3Web 2.2 结构组成 Web WEB WEB 2.3 系统各模块接口关系

Slide 1

营 销 策 划 岗 部 门 招 聘 职 位 招 聘 人 数 岗 位 职 责 基 本 要 求 岗 位 任 职 要 求 6 参 与 项 目 产 品 研 究 客 户 需 求 研 究 竞 争 环 境 研 究 价 格 研 究 等 项 目 市 场 研 究 ; 7 公 司 经 纪 业 务 的 品 牌 管 理, 对


Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7.

PowerPoint 演示文稿

collateral 1.doc

如 何 使 档 案 工 作 减 少 在 普 通 老 百 姓 心 中 的 神 秘 色 彩, 使 档 案 工 作 更 好 地 为 人 民 群 众 服 务, 各 地 档 案 系 统 一 直 在 探 索 不 同 的 手 段 近 年 来, 随 着 信 息 技 术 的 不 断 发 展, 加 强 信 息 化 建

目 录 数 据 化 管 理 :... 3 分 析 师 层 级... 3 数 据 运 营 流 程... 4 分 析 师 未 来 发 展... 4 你 是 否 适 合 做 分 析 师... 5 企 业 对 分 析 师 的 要 求... 5 制 定 分 析 师 学 习 规 划... 7 数 据 分 析 师

投影片 1

网上路演公告-final.PDF


第一章

案例分享产品文档

政府機關資訊通報第295期(5月)

内 容 目 录 一 深 耕 IT 基 础 设 施 服 务, 客 户 结 构 不 断 优 化... 3 ( 一 )IT 基 础 设 施 服 务 收 入 增 速 领 先 行 业 平 均 水 平... 3 ( 事 ) 植 根 银 行 业, 丌 断 拓 展 政 府 和 电 信 业 客 户... 5 二 IT

基于 SQL-on-Hadoop 的 网络日志分析

<4D F736F F D20C8EDBCFEA1B A1B33136BAC5A3BAB9D8D3DAB7A2B2BC C4EAC8EDBCFEB9A4B3CCCAB5D1B5D6AED0A3C4DABFC6D1D0CFEEC4BFB5C4CDA8D6AA2E646F63>

11_03.indd

untitled

Transcription:

联想大数据平台 -LEAP 联想大数据

目录 目 录 CONTENT 01 联想大数据概述 02 联想大数据平台 -LEAP 03 行业大数据解决方案 2016 Lenovo Internal. All rights reserved. 2 2

大数据时代企业面临的挑战 随着移动互联网飞速发展, 催生 大数据时代 的到来 各种新型智能移动设备的迅速普及 工业互联网概念的兴起及其实践, 带来了海量数据的爆炸式增长 数据存储 传统烟囱 管理未充分融 缺乏统一 小机 + 数据库 的碎片化 式 IT 架构 入企业运营中 运维管控 技术单一 大数据时代, 企业如何管理海量大数据, 如何分析应用大数据成为重要的机遇和挑战 3

数据资产价值不断增长 通过账面资产来确定企业的价值的方 式, 已经无法充分反映公司的真实价 值 ; 投资者开始注意到数据的潜在价值 ; Facebook 2012/05/18 日上市, 其公司公布的账面资产为 66 亿美元 Facebook IPO 定价为 38 美元 / 股, 价值 1040 亿美元 Gartner 研究表明 :Facebook 收集了 2.1 万亿条 获利信息, 每条信息约为 4 美分价值, 即每个 Facebook 用户的价值为 100 美元 数据的价值并不仅限于特定的用途, 它可以为了同一目的而被多次使用, 也可以用于其它目的 数据的价值并不仅限于特定的用途, 它可以为了同一目的而被多次使用, 也可以用于其它目的 数据的真实价值就像漂浮在海洋中的冰山, 第一眼只能看到冰山一角, 而绝大部分则隐藏在表面之下 数据就像一个神奇的钻石矿, 是 取之不尽, 用之不竭 的 拥有数据或者具有数据收集和分析能力的企业, 其公司价值会上升 ; 给数据的潜在价值贴上价格标签会给金融部门带来无限的商机 4

大数据分析应用的价值越来越受到企业重视 竞争优势 大数据分析就是企业智能商务的导航系统, 因为它通过前所未有的前瞻性分析, 带领企业寻找和获取最大化商业价值, 并且在瞬息万变的伤害, 永不迷航! 大数据分析 优化 预测 & 行动 已经发生的为何发生?( 经验决策 ) 已经发生了什么?( 史实 ) 领域经验 多维分析 怎样于预测到的未来, 为企业寻求利益最大化? ( 以数据为依据的前瞻性决策, 将引领企业 ) 常规报表 即将发生什么?( 前瞻 ) 清洗后数据 感知 & 响应 原始数据 分析成熟度 构建面向海量数据的管理与分析能力 实现数据的价值体现正逐渐成为提高企业竞争能力的核心要素之一 联想企业级数据分析平台正是处理企业级大数据场景的高性能一站式分析平台 5

早在 2011 年 8 月, 联想就启动了大数据建设 技术融合 深度优化 持续演进 工匠情怀 5 年! 300+ 研发人员持续投入 300 名开发工程师 60 名运维工程师 30 名数据科学家 LEAP 全球部署的超大规模集群 全球 8 个数据中心 2000 台服务器 3000 名操作用户 海量数据分析与持续性业务支撑 12Pb 数据容量规模 9Pb 数据量 150 亿条记录 / 天 30TB/ 天 在战斗中成长! 6

联想大数据提供端到端的企业级大数据产品与服务 联想大数据 服务 : 业务咨询服务高级分析服务 IT/DT 规划服务数据管理服务软件 : 工具与应用软件能力开放平台大数据计算平台硬件 : 服务器 存储技术支持 运维 形成端到端的整体解决方案, 将处于技术底层的企业数据资产, 通过软硬件平台和专业化服务, 一步步转化为上层业务价值 当客户需要将数据资产转化为业务洞察和商业价值时 我们提供大数据分析及业务应用的咨询服务 我们拥有强大的数据科学家团队, 已经支撑了联想全 集团 全产品线 全业务流的大数据分析支撑, 同时还在制造 零售 能源等行业的大数据分析领 域针对客户痛点问题进行数学建模和业务分析, 最终实现业务优化 当客户难以管理自己多源 异构 海量的大数据资产时 我们提供数据科学管理的咨询与实施 包含了数据质量管理 数据架构咨询 数据安全与隐私 元 数据管理, 通过一系列业务咨询 软件工具 和技术实施, 确保客户数据资产的完整性 正确性 可用性 以及业务连续性 当客户需要一个成熟的 高性能的大数据平台及解决方案时 我们提供联想企业级大数据分析平台 (LEAP) 产品以及运维服务 LEAP 是软件化平台, 整合了最 先进的大数据开源技术, 实现了基于 IaaS 层联想服务器面向大数据分析的深度优化, 同时也包含了 面向数据及分析能力开放的各类数据工具组件 7

联想大数据已具备多方面的能力 专业的分析能力超大的部署规模 联想大数据专家 数据科学家 行业顾问 50+ 余人 80% 海外留学背景, 博士占比近 70% 在顶级期刊和会议中发表学术论文近百篇, 获得国内和美国专利数十项 全球化多中心部署 2000 台的集群规模 3000 名操作用户 总容量 12PB 数据总量 9PB 日新增数据 30TB 日处理数据 4.3PB 强大的研发实力 完善的运维体系 300+ 研发人员的持续投入 多年来不断向开源社区做出技术贡献 被北京市发改委于 2011 年评为 移动互联网系统软件及服务工程北京市工程实验室 全面完整的技术支持保障 贯通一致的针对产品功能的高质量技术支持 高级服务包含与售后及升级, 迁移的咨询服务 提供完善的产品文档及自助服务选项 8

目录 目 录 CONTENT 01 联想大数据概述 02 联想大数据平台 -LEAP 03 行业大数据解决方案 2016 Lenovo Internal. All rights reserved. 9 9

联想大数据 LEAP 核心解决的问题 LEAP, 联想集团基于开源架构自研的业内领先平台级大数据产品, 旨在为企业客户提供端到端的完整大数据解决方案, 使企业能够快速构建强大的大数据平台, 便捷的部署基于自身业务的大数据分析应用, 通过挖掘大数据潜在价值打造企业面向未来的核心竞争力 01 数据 数据 : 整合各方数据, 沉淀业务知识,LEAP 将为客户提供 丰富的数据接口与强大的数据资源整合能力 平台 :LEAP 将为客户提供安全可靠的分布式的大数据平 05 价值 020 平台 台, 解决了海量数据的计算, 存储实时数据计算等问题 管理 : 参与到企业运营的各环节, 通过对业务数据的分析, 发现各种规律趋势, 为策略制定提供参考依据 运维 :LEAP 提供集中的运维管控组件, 实现从设备到服务 04 运维 03 管理 的全方位监控 管理和扩展 价值 : 联想提供端到端的大数据服务, 旨在发现数据潜在价 值, 帮助客户通过大数据解决商业问题, 与客户共同成长 10

联想大数据 LEAP6 大产品线全景图 数据分析应用套件 Nash 为企业级数据中心提供数据存储和数据处理能力, 提供统一的 数据能力开放平台 Gauss Big Data as a Service 资源开放分析武库数据工厂 Riemann Bayes Fourier 大数据计算平台 Descartes 大数据技术整合与深度优化 数据资产管理平台 系统运维监控中心 集成平台环境, 将硬件和平台软件做有效的集成 为企业级数据中心提供多域的数据模型 标准的元数据 数据处理调度任务 后台处理程序和前台应用程序, 以及数据产品 ; 实现对环境中系统资源 软件 Euler Architon 资源 业务应用 参与人员等各 数据采集转换套件 Euclid 种资源统一管理, 综合监控 11

联想企业级大数据分析平台 (LEAP) 功能架构 应用套件 可视化报表工具 多维分析工具 可视化自助查询 业务分析应用 第三方工具 数据资产管理 平台运维管理 分析武库 业务模型 挖掘算法 机器学习 数据 API 数据产品 数据服务管理 数据工厂 元数据管理 监控告警 资源开放 资源调度 任务调度 访问控制 多租户管理 数据模型管理 安全管理 批处理 / 交互式计算引擎 数据仓库工具 多维分析引擎 分布式计算框架 NoSQL 数据库 统一资源调度管理 Yarn 分布式存储系统 HDFS SQL 引擎 内存计算框架 流计算引擎 实时计算流处理消息队列 第三方 RDBMS 图计算引擎 数据标准 / 质量管理 数据生命周期管理 用户与权限管理 日志与审计管理 基于 X86 平台的集成与调优 数据转换与处理 终端数据采集流式数据采集批量数据采集网络爬虫 数据安全与隐私 集群管理 12

联想企业级大数据分析平台 (LEAP) 技术架构 分析应用套件 Echarts Caravel LEAP-SQL Qlik/Tableau 数据资产管理 平台运维管理 分析武库 业务模型 R 算法包 MLib/Python 数据 API 数据产品数据服务管理 数据工厂 LEAP- Metadata 资源开放 LEAP-Process 批处理 / 交互式计算引擎 Hive Kylin MapReduce Yarn Hbase Spark SQL Spark 流计算引擎 Storm Spark- Streaming MYSQL GraphX LEAP- DataQual ity LEAPmanager HDFS Kafaka 基于 X86 平台的集成与调优 SDK Flume-NG Sqoop Scrapy Kettle LEAP- DataSecu rity 13

各组件清单列表 (1) 组件描述版本 Apache Hadoop HDFS MapReduce2(YARN) Hbase Hive LEAP SQL Sqoop Flume 稳定可靠并具有高可扩展性的分布式存储于技术级别架构 Hadoop 分布式文件系统 - 可扩展 分布式的 高容错性和高吞吐量的数据存储 新一代 Apache Hadoop 分布式计算框架, 引入统一资源管理器 YARN 分布式的 面向列的 NoSQL 数据库, 在 Hadoop 之上提供类似于 Bigtable 的能力 基于 Hadoop 的一个数据仓库工具, 可以将结构化的数据文件映射为一张数据库表, 并提供简单的 SQL 查询功能, 可以将 SQL 语句转换为 MapReduce 任务进行运行 可以在浏览器端的 Web 控制台上与 Hadoop 集群进行交互来分析处理数据, 例如操作 HDFS 上的数据, 运行 MapReduce Job 等等 将 Haddoop 与关系型数据库集成的书籍传输引擎 高可用的 高可靠的 分布式的海量日志采集 聚合和传输的系统, 并具有写到各种数据接受方 ( 可定制 ) 的能力 hadoop-2.6.0 hdfs-2.6.0 yarn+mr2-2.1.0 hbase-1.2.0 hive-1.1.0 Priest -SQL- 2.0.1 sqoop-1.4.6 flume-ng-1.6.0 Kafka 高度可扩展的 容错的发布 - 订阅消息系统 kafka-2.0.0 Slider 基于 Hadoop YARN 的应用服务管理框架 slider-0.80.0 spark 组件描述版本 快速综合的数据处理引擎, 支持循环数据流的内存计算 spark-2.0.0 pig 处理 Hadoop 中存储数据的高级数据流语言 pig-0.12.0 Oozie 协调 Hadoop 活动的流程引擎 oozie-4.1.0 Zookeeper Ambari Leap Process 高度可靠的分布式协同服务 提供基于 ambari 平台的优化方案, 增加自动化监控运维的能力, 另外针对管理层次, 采用松耦合的方式与其他框架进行衔接 仓库计算调度系统 : 1 process 平台提供了多种组件工具, 技术人员可以根据业务需要, 按流程方式组织计算任务, 设置调度方式, 报警方式 2 可以新建计算任务流程 查询流程 停用 启用 导出流程 3 流程定义完成后, 可以查询流程的运行情况, 并可进行补跑等操作 4 可根据业务需求, 在此系统中管理监控规则, 如果执行情况满足条件, 则根据预警设置的方式, 以短信或邮件的形式进行通知 5 可以在此系统中查看流程每天运行时间点分布图, 观察同一时间段流程运行密集度 zookeeper- 3.4.5 Ambari-2.4 Leap-Process- 3.0.1 storm 实时流数据处理引擎 storm-0.10.0 Solr 自由文本 模糊配对以及多面化搜索引擎 solr-4.10.3 14

各组件清单列表 (2) 组件描述版本 监控告警 监视各个模块的 cpu, 内存, 网络等资源使用情况, 当资源占用超过设定的阈值时, 向系统管理员和业务负责人发出警报 Leap-3.0.1 用户管理管理平台中的用户角色, 配置各个用户的应用访问权限 Leap-Manager-3.0.1 集群管理 配置集群中各个模块的启动, 停止, 查看模块的状态, 同时可以配置模块的具体参数 Leap-Manager-3.0.1 自动化部署根据业务的要求, 部署计算存储模块, 动态生成最优配置 Leap-Manager-3.0.1 访问控制配置各个用户对数据访问的权限 Leap-Manager-3.0.1 性能管理从业务的角度分析业务用户的响应时间, 优化数据业务过程 Leap-Manager-3.0.1 容灾管理当机器出现故障的时候, 模块系统自动切换到备份的机器 Leap-Manager-3.0.1 智能运维智能优化模块部署, 配置参数, 优化系统运行情况 Leap-Manager-3.0.1 15

特性说明 01 全源数据整合能力, 快速汇聚各类数据 02 高性能数据存储和计算平台, 快速处理与分析 03 一站式大数据开发应用环境, 快速构建分析应用 04 数据深度分析引擎, 挖掘数据价值 05 全球超大规模实践, 验证系统高可靠性 06 自动化智能运维, 易用易管理 16

特性 1: 全源数据整合能力, 快速汇聚各类数据 通过统一的数据采集转换套件, 可降低多套采集系统运维的复杂度, 实现数据采集的统一调度 通过图形化的配置监控界面, 快速完成各类采集规则的配置和发布 同时结合多样化的数据采集能力, 对各类表 文件 消息等多种数据的实时采集和批量采集 数据仓库 数据仓库 数据仓库 数据仓库 数据仓库 17

多样化的数据接入采集能力 企业大数据平台 支持的数据源 : IBM DB2 Oracle Informix MySQL SAP ERP System MS Access 本地文件 阿里云 /Amazon Sybase MS SQL Server PostgreSQL Teradata SQLite Hadoop Hive 2 AS/400 MaxDB ExtenDB OpenERP Server H2 dbase 5 MySQL Oracle Apache Derby MonetDB Firebird SQL Oracle RDB Hadoop Hive Ingres Borlan Interbase Native Mondrian Generic database Palo MOLAP Server Hypersonic Intersystems Cache excel 文件 实时数据 SAP Calpont InfiniDB Exasol 4 Neoview Netezza Greenplum Gupta SQL Base UniVerse database Impala KingbaseES Vertica Infobright LucidDB Aliyun Amazon AWS Google Cloud Adobe Cloud FTP SDK 移动端 : Android SDK, ios SDK Web 端 : Web SDK PC 端 :Windows SDK 网络数据通过网络爬虫来获取企业外部的相关数据 视频数据视频采集分析模块, 为企业提供基于视频的数据采集 18

特性 2: 高性能数据存储和计算平台, 快速处理与分析 LEAP 平台集成了业界最先进的批量 流式 实时计算技术, 采用灵活 高扩展性的数据处理架构, 支持通 用 X86 平台, 同时面向联想 x86 服务器进行了深度集成与优化, 实现了超高性能的大数据分析技术平台 通过资源调度技术, 系统可线性扩充存储 实时流处理引擎提供 批量处理将海量结构 通过低成本的硬件提供 通过分布式文件系 将共享的各类计算资 容量或提高处理性 强大的流计算表达能 化 半结构化 非结高性能的数据加载 索 统, 可将海量各类原 源按需动态分配给不 能, 只需向向集群中 力, 可支持复杂的实 构化等多种类型数据 引和查询能力, 具备对 始数据 结果数据进 同负载的应用 实现 增加机器, 无需停 时处理逻辑, 满足企 进行批量计算和存 海量数据 (PB 级 ) 的 行快速存储 并通过 一个集群支撑多套同 机 有效解决企业由 业实时告警 风险控 储, 实现对 OLTP 事 存储, 提供毫秒级的 自带副本机制, 完成 的应用运行, 从而提 于数据增长导致的处 制 在线统计和挖掘 务 全文搜索等统计 查询响应能力, 从而提 对数据的多份备份 升集 群设备资源利 理性能缓慢的问题 等应用需求 业务的支撑 升客户体验 用率 19

TPC-DS 测试结果 通过上述的 TPC-DS 测试结果可以看到, 联想 的交互式分析引擎即便对于大数据集的查询也 可以在分钟级完成 SQL 特征 查询数量 子表达式 31 关联的子查询 15 不相互关联的子查询 76 Group by 78 Order by 64 Rollup 9 Partition 11 Exists 5 Union 17 Intersect 2 Minus 1 Case 24 Having 5 测试结果表明 :SQL 兼容性方面, 联 想大数据平台已兼容 TPC-DS 99 中的 89 条, 处较高的水平 (Spark 1.6.1 支 持 40 条, Hive 1.2.1 支持 45 条 ); 测试环境名称 操作系统 CentOS 6.5 Linux Kernel 版本号 2.6.32-431 SQL 兼容性测试 HADOOP 软件厂商 硬件设备配置 联想 LEAP 2CPU/128GRAM/17TBHD / 万兆网卡 设备数量 10 台 20

特性 3: 一站式的大数据开发应用环境, 快速构建分析应用 通过 DataHub, 简化原有数据库系统迁移到大 数据平台 一站式的大数据开发环境 通过 Matrix, 进行元数据和数据字典管理 通过 LEAP- SQL, 实现几秒钟从巨量的数据仓 库中找到需要的分析结果 通过 LEAP- Process, 执行复杂的数据计算流 程, 生成定制化的报表 通过可视化工具, 构建快速的商业智能分析平 台, 构建酷炫的可视化能力 通过 Sense, 无需了解复杂的分析算法, 即可 进行深度的数据分析和挖掘 LEAP- Process 数据字典处理 LEAP- SQL 21

示例 : 高效的图形化数据处理工作流配置 计算任务管理 数据计算流程 傻瓜式分布式计算开发 ; 可视化流程定制 ; 抽象多种大数据计算组件 ; 计算任务监控 预警 ; 定义计算流程属性 支持 4 类流程节点 流程调度参数设置 支持 11 种计算任务 计算任务 (Task) 流程故障报警 runtime 环境变量 2016 Lenovo Internal. All rights reserved. 22

特性 4: 深度数据分析引擎, 挖掘数据价值 ARIMA 模型 2016 Lenovo Internal. All rights reserved. 23

特性 5: 全球超大规模实践, 验证系统高可靠性 Essen, Ger Chicago 2015/Q4 Frankfurt 2015/Q3 2015/Q2 IDC, CNC-BJ BJ:2010/Q1 IDC, TIS-TJ 全球化多中心部署, 2000 台服务器, 3000 名操作用户 在实践中充分验证系统的高可靠性 Calliforlia 2013/Q1 总容量 12PB 数据总量 9PB Virginia 2012/Q 1 Singapore 2013/Q2 TJ:2013/Q3 Cyberport-HK 2016/Q3 企业数据本地化收集和存储 完全合规各国数据保护和隐私保护法律 日新增数据 30TB 日处理数据 4.3 PB 24

特性 6: 自动化智能运维, 易用易管理 提供全面丰富的平台运维功能, 各类性能指标和功能故障监控功能, 结合运维知识库, 利用自 动化策略, 实现平台的智能运维 25

各类监控管理 --- 指标监控 平台提供集中监控管理平台, 丰富的监控管理指标体系使使用者可以直观便捷的掌握平台信息 26

自动化部署 支持 Web 图像化界面和快速向导, 帮助用户短时间内部署一个或者多个集群, 大大减轻工作量 自动部署服务 27

大数据平台的部署形态 专业探索分析集市混搭双中心企业级大数据中心 传统分析应用 新型探索分析 传统分析应用新型探索分析 / 传统分析应用 传统分析应用 / 新型探索分析 大数据平台 应用逐步迁移 其他数据 数据迁移 数据仓库 DW 数据仓库 DW 大数据平台数据企业级大数据中心仓库 大数据平台定位 : 特点 : 是数据仓库平台的一个补充系统, 主要面向新型数据和部分仓库数据的存储和处理, 通过数据挖掘算法等, 发现隐性的数据规律和价值 小 : 系统规模小, 使用人员少 ( 以专业研究分析人员为主 ) 快 : 针对特定专题快速分析 ; 支持实时处理和分析 灵 : 专用平台, 灵活响应和尝试 深 : 专业深挖, 挖掘算法 模式分析 图分析 文本分析等 大数据平台定位 : 特点 : 是数据仓库平台的重要并列系统, 分担 DW 系统的存储和计算压力, 提高处理效率 降低成本 传统应用逐渐迁移到大数据平台 通过数据挖掘算法等, 发现隐性的数据规律和价值 地位重要, 承载的作用更大 支持新型分析方法和传统应用 系统可靠性 支撑能力要求更高 数据仓库 DW 的重要性下降 大数据平台定位 : 特点 : 企业级大数据中心, 采集全企业层面的各类内部数据及相关外部数据, 并对这些结构化 / 非结构化海量数据进行整合 加工 处理, 完成信息的深加工, 逐步形成数据资产, 为公司进行企业决策管理和生产一线的营销服务等工作提供完整 及时 准确 科学的信息支撑 一个中心承载各类数据, 进行各类分析应用, 服务企业内外部各类用户 系统可靠性 系统稳定性 系统开放性 支撑能力要求很高 28

联想与其它 HDADOOP 厂商的测试数据对比 基础功能 查询性能数据处理性能复杂计算抗压能力 Hadoop 平台功能性最 为完善, 超过其他友 商等 HBase 查询性能最好, 在 清单查询等典型场景中优 势明显 Hadoop 的数据处理性 能最优, 与客户的典型 应用场景最匹配 面向未来的复杂 计算条件下 在计算资源紧张的 大压力条件下 联想 VS 友商 附表. 某制造行业客户组织 Hadoop 平台各厂商测试详细结果 厂商功能得分 Hbase 查询两文件关联五文件关联汇总压力 主索引查询 26G gz 包含踢重 上传 26G gz 包含上传 47G gz 包含上传 大文件加载 联想 86 24.9 28'11 15'04 50'37 58'56 XXX 81 39 47'41 31'28 58'49 69 XXX 85 29 32' 17'12 61'04 61'06 29

LEAP 同业对标 LEAP 某产品化方案 开源方案 可靠性 统一监控, 故障及时拉起全部组件支持 HA 支持热切换, 对业务与数据影响为零 统一监控, 故障及时拉起部分组件支持 HA 支持热切换, 运行任务需中断重跑 原生态分布式, 被动拉起部分组件支持 HA 不支持热切换 安全性 统一集中的用户账户管理限制匿名访问 HDFS 数据加密存储 集中用户账户管理限制匿名访问 HDFS 数据加密存储 分散用户账户管理原生无限制匿名访问无知识库 易用性 基于知识库的开发助手丰富的开发组件库基于机器学习的平台知识库 开发文档部分代码样例无知识库 开发文档无开发代码或样例无知识库 易管理性 导向式部署, 一键式升级图形化管理与监控, 提供优化建议丰富的调优参数配置 集成部署环境, 手工升级图形化管理界面提供调优参数 手工部署与升级无图形化管理界面人工配置调优 可持续性 300+ 核心研发团队全球技术共享根植 Apache 社区, 回馈社区组件迭代周期平均 1 个月 100+ 研发团队封闭内核组件迭代周期平均 3 个月 无固定人员投入基于 Apache 社区无固定组件迭代周期 30

目录 01 联想大数据概述 02 联想大数据平台 -LEAP 03 行业大数据解决方案 2016 Lenovo Internal. All rights reserved. 31 3

联想大数据在行业中的应用 制造业 现代化的制造生产线安装有数以千计的小型传感器, 来探测温度 压力 热能 振动和噪声 利用大数据将所有信息收集分析, 对生产计划进行实时调整与预测 零售业 零售业通过整合各类消费数据, 利用大数据分析各类顾客的消费行为, 商品间的销售关联性, 以快速精确支持营销 政府及公共事业 政府通过运用大数据, 将多渠道的数据采集和快速综合的处理分析, 可提升治理社会的能力, 实现政府公共服务的管理创新和服务模式创新 医疗行业 通过大数据分析的公共卫生数据, 提高疾病预报和预警能力 整合基础健康相关数据, 提高危机探测能力 交通运输业 交通运输每时每刻都产生大量的数据 利用大数据的海量处理和分析能力, 为交通运输行业的决策和服务带来新的解决思路 金融行业 运用大数据技术对交易信息 调查报告 业绩报告及消费者研究信息等数据的分析, 可实现精准的营销 风险的管控 精细化的管理 同时带来金融服务和产品的创新 能源行业 通过运用大数据, 及时呈现能源使用情况, 发现低效与浪费, 并提出优化建议, 帮助合理规划能源的生产和使用, 从而为全社会的绿色节能开拓新领域 通用行业 通过大数据实现对各类网络海量信息的爬取 分析及管理 随着供应链越来越复杂, 通过大数据分析可为供应链提供精准的需求预测 敏捷的资源获取 优化的库存等多方面能力 32

联想内部大数据分析平台 设备数据 移动设备 设备结构化数据 PC 智能硬件 按需智能查询 产品分析和优化 内部应用 应用结构化数据 应用商店设备预装应用内部网站企业数据销量数据客服数据供应链数据外部数据社交媒体 统一数据池 Extract Transform Load 用户结构化数据 企业运营结构化数据 舆情结构化数据 数据挖掘和机器学习 实时计算 数据可视化处理 业务运营分析和优化 用户 Profile 和精准营销 产品社区 整合企业不同数据来源 数据统一清洗并结构化处理 分业务数据集市 统一数据处理和分析 统一数据消费构建商业智能 33

联想大数据的业务分析应用示例 设备分析 (Avatar Device) 应用分析 (Avatar apps) 手机质量管理 (MQM) 店面热力图 设备激活, 用户行为跟踪, 系统优化, 设备画像 应用数据分析 & 服务经营 设备质量预警, 备件预测 基于店面 camera 采集数据, 分析店面布局 客流量 客户对产品的关注度 舆情分析 服务效率 (Service) 手机市场分析 (Accelerator) 用户洞察 市场矩阵, 渠道优化, 公众情绪从各个评论网站获取手机的评价正向评价 / 反向评价 客服中心优化, 部件预测优化, 新产品引进优化 从手机出货到渠道 - 渠道到客户 - 客户开机激活的监控 用户画像, 设备画像, 联想分析, 用户反馈 2016 Lenovo. All rights reserved. 34

联想大数据支持全集团业务的生命周期管理优化 全生命周期的数据分析和产品管理 营销 营销管理 订单管理 社交媒体 工厂 生产过程 供应链管理 新品上线 产品质量 出货 物流运输管理 货品调配管理 销售渠道 渠道销量管理 渠道库存管理 合作伙伴管理 销售中间商 销售过程分析 经销商关系管理 经销商库存分析 出售 用户激活 网点备货 用户使用 用户服务 设备使用 用户反馈 用户画像 社交网络 产品保修 客户服务 呼叫中心 销量分析 35

联想大数据在银行与金融行业的解决方案 运维人员业务人员运维人员运维人员数据科学家 用户访问层 历史查询应用 大数据应用 精准营销 个性推荐 市场监控 反欺诈 运营优化 舆情监控 智能客户服务 风险防范支持 沙盘演练应用 数据应用层 数据管控层 流程调度层 历史归档数据区 实时数据区 交易行为变化数据 账户动态实时数据 管理分析数据区 主题数据区 全量数据区 客户管理运营管理营销管理客户管理 汇总区运营营销风控 明细区 结构化数据区 用户主题账户主题产品主题 沙盘演练数据区 大数据存储层 社交媒体 用户评价 访问日志 移动互联 音频视频 数据存储计算层 实时数据流结构化数据交换非结构化数据交换 数据交换层 企业内外部半结构化 非结构化数据 电子银行核心业务个贷系统 CRM 系统 数据产生层 36 3

银行大数据应用实践 零售银行业务公司银行业务资本银行业务交易银行业务资产管理业务财富管理业务 更好地了解客户, 制定有针对性的行动方案 个性化定价和交叉销售客户细分客户流失预测 商业模式与资本信号识别 针对性定价与交叉销售 客户细分 个性化产品定制 针对性定价与交叉销售 客户流失预测 智能渠道管控 非结构化数据挖掘 第三方增值服务 第三方增值服务 服务品质提升, 客户黏性增强 服务品质提升, 客户黏性增强 基于成本效益的财务建议 海量实时商业咨询与情报 风险管理 违规预警优化评分算法智能催收欺诈检测异常识别 37 3

联想大数据在制造业的解决方案 数据分析应用套件 Nash 企业分析系统 企业应用系统 第三方功能组件 开放数据能力开放计算能力开放存储能力开放分析能力 数据应用层 数据计算存储层 内存计算 业务模型挖掘算法机器学习 资源调度 多维分析引擎 任务调度 批处理 / 交互式计算引擎 集成开发环境 统一资源调度管理 Yarn 分布式存储系统 HDFS NoSQL 数据库 开放 API 数据产品数据服务 访问控制 SQL 引擎 流计算引擎 实时计算 流处理 消息队列 多租户管理 第三方 RDBMS 图计算引擎 数据资产管理平台 系统运维监控中心 数据感知层 设备数据采集整合 海量结构化数据海量非结构化数据实时流式数据 数据预处理 批量数据采集整合实时数据流采集整合网络爬虫数据文件采集整合 海量系统数据批量文件数据互联网数据 & 日志实时设备信息 数据产生层 ERP 系统电控系统库存系统设备系统 其他企业信息系统 设备数据, 设计图纸, 多媒体信息, 文档资料, 网络舆情, 地图信息, 企业内外半结构化与非结构化数据等 38

制造行业大数据应用实践 未来的制造将围绕大数据平台构建智能化生产体系, 将人, 机, 法, 料, 环链接起来, 实现多维度数据融合, 为企 业的运营提供预见性的支撑与指导 预控式管理信息化管理数据化产品生命周期工艺方案信息化 法 人 管理职能转变操作内容转变新增高级岗位节省低级岗位 要求提升 管理岗位 技术岗位 操作岗位 自动配送 AGV 数据可追溯 减少 awip 料 大数据 智能设备引人 现代化工厂 SS 管理 环 机 设备状态监控设备生产柔性化 维护保养信息化 制造业大数据的侧重点在于将所有人, 机, 法, 料, 环等信息有效整合起来, 加以分析并应用于整个工业生产过程, 对整个生产链条进行监控 调整 管理 从而形成高度灵活 个性化 网路化的产业链 大数据是实现工业 4.0 的关键 39

联想大数据在交通运输行业的解决方案 1 数据源 事故报警 地感线圈 体感传感器 2 移动通信 3 分析 / 模拟 / 预测 交通评估与仿真 事故扩散与评估 4 交通服务 拥堵疏导 路况预警 线路规划 停车引导 ETC 支付 车联网支持 电子支付 其他服务 移动终端 GPS/LBS 监控图像 移动终端 道路容量 停车场信息 其他信息, 如气象等 固网通信 短程通信 交通预测 路径优化 信号优化 1 感知层 2 网络层 3 大数据分析平台 4 其他 决策支持 交通管控 应急事故预案 道路容量管控 综合交通管理 综合车辆调度 路政管理与维护 动态路况监控 综合车辆监控 其他 业务应用层 车载终端 交通诱导 交通控制 40

交通运输行业大数据应用实践 关键商业过程 公路交通管理的业务优化方向 规建运维管理 公路规划工程建设质量和验收公路养护 设备资产 路网效率管理 交通流量监控 拥堵预测 拥堵原因分析 分流管理 资费杠杆管理 安全与应急管理 道路灾害管理 天气灾害预测 路段行驶安全预警 公共安全 行政协作 公民服务管理 客流分析货流分析出行线路优化配套设施改进数据公开 财务与结算管理 公路投资管理 公路运营成本分析 跨省结算 收入滴漏管理 经营企业收益管理 行政监管与合规管理 路网运营监控 公路收费政策管理 部门职能管理 人员与流程管理 合规管理 数据资产管理 数据资产整合数据逻辑模型数据质量改进数据标准管理 数据与分析成熟度评估 41

联想大数据在能源行业的价值框架 生态系统 1. 能源大数据分析平台建设 企业级大数据能力建设 4. 数据可视化呈现 输出价值 工程 物资装备分析 传输配送分析 能源效率与需求响应优化 生产 运营 供应链分析 大数据分析应用 投资分析 收入保障 设备 财务 安全生产分析 能源营销分析 积极的资产管理 2. 数据整合与资产管理 3. 数据高级分析能力 42

联想大数据与各行业客户携手共赢 技术能力业务价值商业生态 提供企业级大数据分析平台 各 类数据工具 以及管理服务 实现大数据分析与业务价值交 付, 释放大数据资产的生产力 与各界共建跨业大数据技术与商 业合作的全价值生态圈 43