个人简介 - 马千里 曾供职于 ORACLE,IBM, 从事数据库, 虚拟化, 服务器, 存储, 融合基础架构和大数据等相关工作, 具有十五年以上的经验在企业信息化建设, 架构设计和数据库相关解决方案 曾经参与 : 工商银行, 中国银行, 太平洋保险, 浦发银行等大型金融机构全国数据大集中, 容灾等项目, 招商银行云计算咨询项目 Oracle 8i,9i,10g,11g OCP 认证专家,Oracle 10g OCM 认证专家 ; VMware VCP5.1 认证专家 Page 2
议题 金融行业数据分析新的挑战 华为大数据解决方案 华为金融行业大数据实践分享 Page 3
中国金融业务发展面临的挑战 利率市场化加剧市场竞争 传统金融业务遭遇互联网金融冲击 创新技术逐步渗透业务 监管力度加强谨防科技风险 宏观环境 2013 年, 银行收入增速下降 11%, 总利润下降 2% 降低金融行业手续费用 余额宝用户数量突破 2 亿, 规模逼近 6000 亿 如 :2014 年淘宝 双十一 的移动支付交易量由 2013 年的 15.3% 上升到 47.6% 云计算 社交化 移动化 大数据, 支撑金融转型和新业务开创, 提升核心竞争力 银监会发布 39 号文件, 要求每年安全可控技术应用率提升 15% 应于安全可控应用技术的预研投入不低于 IT 整体投入的 5% 截止 2019 年, 安全可控技术应用率达 75% 工行董事长姜建清提出建设 信息化银行 互联网金融发展和大数据时代对银行传统经营模式带来重大挑战 互联网金融则是借助大数据 云计算 社交网络和搜索引擎等信息技术优势, 从商品流掌握到企业的资金流 信息流, 再延伸至银行支付 融资等核心业务领域, 对商业银行经营模式甚至是中介功能的全面冲击 从银行信息化到信息化银行, 是通过信息的集中 整合 共享 挖掘, 使银行整个经营决策和战略制定从经验依赖向数据依据转化 建行董事长王洪章提出建设 大数据行 通过大数据实现大型银行战略转型 数据作为战略性资产, 通过数据挖掘能力成为大型商业银行的核心竞争能力 银行整合完整的客户行为数据, 充分了解客户消费及投融资偏好, 能够据以及时为客户提供针对性服务 数据成为资产 不再追求精准 强调预测 关注相关性而非因果性成为大数据时代的关键思维特征 竞争 转型 创新演进的 IT 架构 Page 4
四大新技术发展逐步渗透金融业务 移动互联 社交 云计算 大数据 70+ 亿用户接近全球人口总数 社交即业务 云成为新一代 IT 基础设施 数据即资产 78% CAGR 数据增长 86% 企业在社交媒体上开展业务 56% 中小型企业购买云服务 未来 5 年, 企业间的竞争在数据层面 Page 5
未来银行 : 客户更加移动化 个性化 社交化, 实时化 随时随地获取服务 分析 创造数据 寻找有意义的体验 固定时间地点获取服务 审视细节 互动参与内容 产品和体验的创建 新客户 运营客户 被动接受数据 全渠道 传统客户 寻求更多资源 信任市场信息被动接受传播 关注场景 标准化和产业化提供服务关注过程和步骤被动接受信息且信息来源单一 营销客户 效率 个性化的灵活服务 通过客户经理联系客户 固定渠道单一交互 传统银行 新银行 服务客户 Page 6
大数据帮助银行迎接挑战, 迈向未来 Page 7
全新的金融数据架构 POS ATM 柜面电话银行 第一数据平面 : 交易核心单次 事务性 统一历史明细实时营销交易备注 大数据业务 : 网上银行 在线征信 实时在线性 业务持续性 实时 第二数据平面 : 社交情绪指数 跨多元数据 大数据平台 或有金融资产 互联网 批量 并发 查询 / 分析 金融脉络关系 对大数据平台的要求 : l 企业级质量标准 : 金融等保 可靠 易用 ; 支持现有系统的对接 l 开放性 : 多分析引擎统一管理, 满足 多样化的数据分析场景 l 挖掘能力 : 支持机器学习 深度学习 等新的数据挖掘能力, 实现更精准的 洞见 Page 8
全新的金融数据架构 操作型数据区 数据交换区 集成型数据区 分析型数据区 应用服务区 新核心系统老核心系统客户系统外围系统渠道系统 数据采集和交换平台 基础数据平台 技术缓冲层 离线计算平台 贴源模型层 基础模型层 共性加工层 实时计算平台 传统平台 应用集市层 监管报送平台统一报表平台管理会计系统流动风险系统市场风险系统数据挖掘平台国家审计平台 应用服务器 报表工具 即席查询 数据挖掘工具 W E B 服务器 外部系统 历史数据平台 历史数据访问应用 ETL 调度数据标准元数据数据质量数据管控数据交换 Page 9
金融机构数据生态圈 历史数据越来越多 数据分析 信用 非结构化数据越来越多 业务系统帐户明细交易 迁移 + 新生 社交日志影像帐户明细 行外数据 行内数据 社交 网购数据 企业数据平面 在大数据领域, 不能充分形成大数据使用能力的竞争者将被淘汰 -McKinsey Global Institute Page 10
议题 金融行业数据分析新的挑战 华为大数据解决方案 华为金融行业大数据实践分享 Page 11
华为 FusionInsight 大数据平台 敏捷 - 完全开放的架构, 性能线性扩展 金融 运营商 政府 - 丰富的工具支持, 开发运维高效 - 强大的 SQL 能力, 业务移植便捷 FusionInsight 大数据平台 智慧 明细 ( 影像 ) 征信 数据服务 推荐 伪控 - 全量建模, 深刻洞察 - 自研算法, 高效精准 数据采集数据集成数据分析数据探索分析结果呈现 可信 MPPDB 离 / 近线计算内存计算实时流计算并行数据库 - 全组件 HA 异地容灾 金融等保 - 开放共赢, 可信赖的合作伙伴 Page 12
华为金融行业大数据业务价值框架 - 全面的金融业务模型 业务价值 营销支持产品运营风险管控内部管理 灵活深入的客户细分 专业化的营销与销售 整体解决方案与个性化服务定制 安全可靠的渠道风险控制 风险集成的业务运营 高效的运营效率 实时的风险决策 优化管理流程, 提升运作效率降低管理成本 应用场景 事件营销 客户画像 舆情分析 获客 客户挽留 交叉销售 个性化理财 小微贷 智能客服 账务追溯 网站分析 知识管理 产品绩效评价 实时风控 实时征信 反欺诈 客户风险报告 运维日志分析 信息安全分析 员工挽留 客户标签 商机挖掘信息 客户贡献度 产品运营 KPI 品牌美誉度 用户位置 用户消费倾向 数据 对公客户细分 零售客户评分 客户风险测评 黑名单 知识图谱 第三方资信 行内业务数据账户 / 流水 / 产品 / 组件日志 行内非业务数据运维日志 / 对内服务系统数据 新型数据移动应用 / 微信 / 呼叫中心 / 微博 第三方数据互联网 / 电信 / 医疗 / 交通 / 咨询报告 Page 13
大数据技术框架 1. 用 100% 开源的核心支持混合负载, 从批量 交互查询 数据挖掘 到实时流和查询等各种场景 2. 所有的组件都通过 Manager 提供的插件框架来按需安装 Page 14
Porter: 作业开发管理平台 + 数据集成工具 Porter 1. 任务配置 / 任务开发 主要功能 1.1 定义数据流 FTP/SFTP/NFS 文件服务器 数据 MR/spark/Hive 任务提交 目标系统 HDFS /Hive 1.2 定义 / 开发具体的数据处理 ( 如清洗, 转换 ) 2. 任务调度 HBase JDBC DB 数据 图形化开发界面, 支持作业 ( 包括 MR/spark/SQL 任务 ) 的拖拉拽开发 ; 预集成各种数据访问接口和转换算子, 支持用户自定义算子 ; 支持作业 / 任务管理 RDB 3. 任务监控 / 报告 1 任务实时监控 2 任务状态结果报告 3 历史查询 4 告警 5 Page 15
Farmer: 实时应用服务平台 应用多协议接入活动管理资源隔离 BLU 1 Docker/ CGroup 实时营销 消息解析插件 ALB 接入负载均衡 REST/ RPC BLU 2 Tomcat 物理服务器 REST/RPC 应用集群 BLU 3 Docker/ CGroup 虚拟机 实时征信 REST/RPC RTMQ 实时消息队列 RPC Task1 Task2 Task3 SOCK Tomcat REST/ Redis 集群 Hadoop API Hadoop 集群 定位 功能 大数据实时应用使能器, 支撑企业快速开发基于 HBase 的大数据应用 HBase 二次开发支持 p p p 基于 HBase 的可视化建模,Schema 设计评估 / 智能建议 ; 基于 HBase 的聚簇表 / 聚簇索引能力跨平台的二次开发 SDK, 屏蔽底层技术细节, 使开发人员聚焦业务逻辑本身 应用管理 p 提供应用容器, 实现应用自动部署管理 ; p 服务编排 p 应用维护管理 : 监控 拓扑 跟踪 企业应用集成中间件 p p ALB 接入负载均衡 RTMQ; HBase 应用加速 :Redis 缓存集群 Page 16
Miner: 适应大数据的数据挖掘平台 典型数据分析流程 FusionInsight Miner 模型 模型 行业应用使能器 (Enabler) 3 电信行业模型使能套件 金融行业模型使能套件 其他使能套件 ( 标签管理 推荐引擎 ) 2 模型评估好 应用效果好 1 数据探索 2 特征工程 3 建模分析 统计报表 并行化机器学习算法库 (HIMM/Mahout/MLlib/HiGraph) 1 开始 1600 1400 1200 14000 Dimensions 结束 数据处理平台主要特点 : l 端到端分析平台 : 一站式平台支撑数据分析全流程 ; Conversion 1000 800 600 400 200 0 > 40x Top1000 Top10000 Top60000 专家系统 学习系统 l 特征工程 : 多人协作 ; 特征复用 ; 支持 1,000 万维度 l 建模算法 : 算法并行化效率 (T+0); 全球分布的数学家,HiGraph 算法比 MLlib 快 3~5 倍 ; 深度学习技术 l 社交化 : 企业内的数据分析师共享知识和社交化协作分析 l 开放性 : 支持 PMML, 可以与 SAS SPSS 等对接 ; 支持 SQL 对 Operator 的扩展性 ; 支持与 R 对接 Page 17
遍布全球的专业研发团队 美研所 : MPP DB TP DB( 高斯实验室 ) MOLAP( 中央软件院 ) Spark ( 中央软件院 ) 欧研所 : 分布式内存 DB( 中央软件院 ) 分布式计算算法 ( 法国 中央软件院 ) 南京研究所 : ETL/ 实时决策 ( 电软研发中心 ) 杭州研究所 : Spark( 中央软件院 ) 流计算 ( 中央软件院 ) 印度研究所 : Hadoop( 中央软件院 ) 数据可视化 ( 中央软件院 ) MOLAP( 中央软件院 ) 深圳研发基地 / 香港 : 大数据分析平台 (IT 研发中心 ) 大数据管理平台 (IT 研发中心 ) 数据挖掘算法 ( 诺亚实验室 ) 大数据是华为公司未来投入四大战略方向之一, 未来将保持上千人规模重点投入 Page 18
核心技术能力与贡献 能够创建新的社区顶级项目, 并且得到生态系统认可 8Hbase Contributors 1 Hbase Committer 1 HDFS Committer 1 HDFS PMC 定位内核级问题的团队 ( 依赖团队而不是精英个人 ) 能够独立完成支撑关键业务特性的内核级开发 能够带领社区, 引领社区完成面向未来的内核级特性开发 会使用 Hadoop 会定位周边问题 会定位内核级问题 ( 拔尖的个人 ) 大数据核心技术自主可控 1 Spark SQL Over HBase 特性 2 HBase 二级索引特性 3 HDFS NameNote HA 特性 4 Erasure Coding 特性强大内核团队使得华为可以主导社区高价值特性的开发 Page 19
华为在社区的贡献 Page 20
强大的内核掌控能力 : 活跃的社区贡献者 2015 年上半年华为对 Hadoop 社区各组件的贡献 华为对 Hadoop 社区的贡献逐年增加, 已稳居第一阵营 涵盖所有关键组件 Page 21
议题 金融行业数据分析新的挑战 华为大数据解决方案 华为金融行业大数据实践分享 Page 22
金融与运营商大数据平台合作伙伴 Industrial and Commercial Bank of China 工商银行 China Merchants Bank 招商银行 Pacific Insurance 太平洋保险 PING AN BANK 平安银行 China Unicom 上海联通 50% China Financial Industry Top 10 Customers 中国金融行业 Top10 企业 Top 3 China Telco 中国运营商企业 Page 23
招商银行 : 构筑大数据平台向互联网金融转型 客户挑战 l 银行业务竞争激烈, 急需以金融数据分析 挖掘为基础的产品预测 创新和风险评估, 提升自身竞争力 l 面对金融数据量和种类不断增加, 传统数据仓库仅适合结构化 数据处理, 扩展性差 扩容成本高, 无法满足大数据时代要求 解决方案 l 企业级大数据平台 : 高可靠 高安全 易管理 易开发 l 第一家支持金融等保 第一家支持 1000 公里以上异地容灾的海 量数据分析和挖掘平台, 无缝衔接企业应用 l 拥有内核级开发的工程团队和咨询 定制化的服务能力 我们把大数据应用视作是生命线, 一定是采用大数据平台企业版, 搞开源软件不是我们的主业 在选合作伙伴的时候, 我们一定考虑门当户对, 因为强有力的合作伙伴才能保证 3~5 年的供应 合作安全 招商银行 CIO 客户价值 l 统一的全量数据分析和挖掘平台 l 丰富的创新业务 : 在线明细, 精准营销, 实时征信 l 小微贷获客预测, 比传统方式提升 40 倍的转化率 ; 或有金融资 产预测误差率降低一倍 ; 信用卡征信由原来的 15 天提升到 30 分钟 l 支持线性扩容, 扩容成本低 Page 24
招商银行 : 在线历史明细查询大数据解决方案 电话银行系统网点柜员系统在线历史明细查询解决方案 : FusionInsight Farmer 业务请求接入和分发 l 华为提供 :FusionInsight Farmer 数据消费平台 + FusionInsight Hadoop 基础数据平台的解决方案, 客户只需专注历史明细查询业务的编写 l FusionInsight Farmer 数据消费平台支持多业务系统 分布式应用容器 并发访问, 实现实时历史明细查询能力 Manager 统一管理 历史明细查询业务逻辑 Hadoop ZooKeeper 历史明细查询业务逻辑 HDFS HBase/CTBase 历史明细查询业务逻辑 Integrati on 数据集成 l l l FusionInsight Farmer 数据消费平台同时支持 Socket Web 业务请求接入和分发, 与招行业务系统无缝衔接创新的 CTBase 方案, 独有的表聚簇和多级索引支持 HBase 多表关联查询的能力 HBase 同时支持 SQL Java API 编程接口, 适应客户的编程习惯 X86 服务器 X86 服务器 X86 服务器 X86 服务器 Page 25
历史明细查询业务效果 基础交易与历史交易查询收单查询专业版查询资料变更查询 基础交易与历史交易查询收单查询专业版查询资料变更查询监管查询 l 为业务部门提供 7 年及以上的历史明细查询业务 ; l 精确条件的查询结果可在毫秒级返回 ; l 通过图形化监控界面实时了解业务运行情况 ; 在线查询 (13 个月 ) 在线查询 (7 年 ) 离线查询 l 能够非常方便的开发和 部署新的历史数据查询 类业务 ; Page 26
历史明细查询项目衍生 - 历史数据管理 数据来源 数据管理 数据服务 历史数据应用 结构化数据 客户数据账务数据贷款数据理财数据中间业务 历史数据管理 公共访问数据 简单查询 复杂查询 检索 批量供数 模糊查找 ETL 实时查询数据 基础数据 SQL Web Service FTP 批量历史数据提取 历史数据归档 公检法取证 电话中心语音邮件 会谈客户经理记录网站访问点击流 历史归档数据 归档元数据管理 离线审计 非结构化数据 影像 图片社交网络数据 大数据平台 大数据平台帮助解决传统数据平台大数据存储处理能力不足的问题 提供高效海量结构化 非结构化数据归档存储 管理 查询能力 通过构建历史数据管理平台消除信息孤岛, 提高查询效率, 为进一步分析数据 挖掘业务价值 实现业务目标打下良好基础 Page 27
实时征信大数据解决方案 ipad 前置系统 实时征信解决方案 : FusionInsight Manager 统一管理 Farmer 征信 BLU 业务请求接入和分发分布式应用容器征信 BLU 征信 BLU 行外资信平台决策引擎 390 大机 l 华为提供 :FusionInsight Farmer 数据消费平台 + FusionInsight Hadoop 基础数据平台的解决方案, 客户只需专注实时征信业务逻辑的编写 l l FusionInsight Farmer 数据消费平台支持多业务系统并发访问, 实现实时实时征信访问能力 FusionInsight Farmer 数据消费平台同时支持 TCP/ HTTP 请求接入和分发, 提供负载均衡功能, 与招 Hadoop ZooKeeper HBase/CTBase HDFS Integrati on 数据集成 集散中心 l l 行业务系统无缝衔接创新的 CTBase 方案, 独有的表聚簇和多级索引支持 HBase 多表关联查询的能力 HBase 支持 Java API 编程接口, 适应客户的编程习惯 X86 服务器 X86 服务器 X86 服务器 X86 服务器 Page 28
实时征信项目实施效果 投入 回报 资源投入 :Hadoop 3 个数据节点, 主备集群做容灾 ;Farmer 6 个 Container, 负荷分担实现容灾 项目投入 : 征信业务逻辑开发和 WAS 周边对接适配 :4 个外包开发人员,2 个测试外包人员,1 个设计人员,1 个项目经理 项目周期 : 设计 0.5 个月, 开发 1.5 个月, 测试 1 个月, 投产 1 个月 外围改造 : 征信画面 互动问题 实时征信效果 :3~5 秒内完成, 大大提升了用户体验 征信架构优化 : 构筑了新的即时获客系统, 减少了人工处理, 全部自动化 大数据能力构筑 : 对大数据技术有了一个更全面的了解和掌握, 经过项目实战锻炼, 培养了一批懂大数据产品的技术人员 大数据业务平台建立 : 实际生产上线业务, 进一步验证了大数据平台稳定 高性能 业务实现敏捷性 Page 29
招商银行 : 小微贷倾向分析 银行零售客户分析 银行对公客户分析 用户特征刻画 小微贷倾向分析 金融关系发现 或有资产预测 企业舆情分析 企业特征刻画 企业结算关系 FusionInsight Manager 统一管理 Miner 数据洞察 ZooKe eper 特征管理 Hadoop Hive MR HDFS 建模分析 Mahout 算法库 YARN HBase/ CTBase 数据可视化 Integrati on 数据集成 X86 服务器 X86 服务器 X86 服务器 X86 服务器 全量多维客户行为分析解决方案 : l 华为提供 :FusionInsight Miner 数据洞察平台 + FusionInsight Hadoop 基础数据平台的解决方案, 客户只需专注客户行为分析业务的编写 l l l l 华为提供了银行通用的客户行为分析业务 : 用户特征刻画 小微贷倾向分析 FusionInsight Miner 数据洞察平台基于大数据全量建模分析, 可以挖掘出 14000 维客户特征, 实现多维客户行为并发分析 FusionInsight Miner 数据洞察平台采用机器自动学习机制, 大大提高分析准确度客户行为分析结果存储在 HBase, 供业务查询 Page 30
客户项目收益 历史明细查询 统一集中存储 5 年 20TB 交易历史明细数据, 便于管理和扩展 多业务系统并发实时查询 5 年交易历史明细数据, 提升客户体验 客户行为分析 采用机器学习机制 + 全量多维分析, 替代传统专家经验机制 + 传统数据仓库模式 小微贷倾向分析 或有金融资产预测 转化量 469 662 误差率 60% 329 200 74 13 TOP864 TOP8653 TOP58107 TOP10000 客户推 荐成功转化率提高 6 倍 机器学习 专家规则 客户或有金融资产预测 误差率由 60% 降低到 30% 30% Page 31
工商银行分布式日志收集 + 分析平台 客户挑战 l 应对互联网金融的竞争, 需要掌握网银用户的行为轨迹, 精准营销, 扩大销售 ; 优化网银服务模块的质量, 提升客户体验 l 安全 运维操作日志的关联分析, 提高故障发生时故障 点定位的准确率, 提升故障响应速度 解决方案 l 企业级大数据平台 : 高可靠 高安全 易管理 易开发 l 分布式日志收集系统自动将各分行的日志收集到总部大数据平台 l 统一管理 : 分布式日志收集系统 + 大数据分析平台 l 基于访问日志的用户行为统计和分析模型 l 拥有内核级开发的工程团队和咨询 定制化的服务能力 客户价值 l 统一的分布式日志收集 + 分析大数据平台 l 通过网银用户行为统计和分析, 实时 + 离线的精准营销 l 安全 + 运维操作日志关联分析, 精准定位故障点 Page 32
建行票据影像管理与查询 客户挑战 l 业务系统中, 对于历史数据保存和访问的需求越来越多, 数据量越来越大, 特别是票据影像信息, 达到了几十 PB l 原有系统不支持 PB 级历史数据归档存储与数据加工 l 原有系统不支持高并发历史数据的在线查询与批量查询 华为解决方案 l 基于华为 FusionInsight 基础数据平台, 提供海量数据归档存储和高性能查询能力 l 海量数据管理系统既支持结构化数据的归档查询, 也支持非结构化数据的归档查询 l 建设容量 66PB 的的票据影像归档系统, 满足全行的票据归档需求 l 建设面向全行的历史数据管理系统, 支持涉及全行所有业务 系统 分析系统的历史数据归档与查询 l 在存储空间占用量 历史数据使用便捷性 归档成本之间取得 最佳平衡 客户价值 l 通过历史数据分析, 为产品设计 更新 监测提供决策支持信 Page 33
平安银行 : 大数据平台 技术架构 大数据集群简介 : l l 生产集群 :15 台 RH2288 服务器 ; 开发测试集群 : 6 台 RH2288 服务器 大数据应用 : 实施计划 l 一期 ( 已上线 ): 橙 E 网日志分析交易数据仓库 : 交易消息历史 数据归档 l 二期 (2015): 客户交易查询系统现有数据仓库批处理业务卸载 l 三期 : 客户 360 画像 ; 精准营销 Page 34
华为 FusionInsight 大数据方案的独特优势 一站式大数据处理分析平台 完善的大数据生态系统 1. 一个平台提供多个数据处理引擎, 免除建设多个平台的烦恼 ; 2. 提供一流的算法 建模分析能力, 支持混合数据的深度挖掘分析 3. 公司战略投入, 平台性能卓越 1. 支持与 SAS Oracle BI IBM DataInsight Informa9ca 等应用和工具无缝集成 2. 提供丰富的 API 接口和 SDK 开发包, 行业应用开发商易集成 3. 持续加大 Hadoop 社区投入, 社区贡献名列前茅, 促进生态系统更开放 更完善 成熟的企业级解决方案 1. 提供完备的企业级管理工具 2. 提供安全授权和访问控制机制 支持加密 以及资源隔离能力 3. 在金融 运营商等领域均有成熟应 用, 产品稳定可靠 Page 35
Thanks