PowerPoint Presentation

Similar documents
PowerPoint 演示文稿

PowerPoint Presentation

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

PowerPoint Presentation

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

数据分析技术介绍

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

Azure_s

PowerPoint Presentation

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

PowerPoint Presentation

水晶分析师

目 录 简 介.3 ` 体 系 结 构...4 数 据 层...5 数 据 连 接 器...6 Tableau Server 组 件...7 网 关 / 负 载 平 衡 器...8 客 户 端 :Web 浏 览 器 和 移 动 应 用 程 序...8 客 户 端 :Tableau Desktop..

PowerPoint 演示文稿

% ~ AAA

PowerPoint Presentation

PowerPoint Presentation

Tech Radar2015修改111


PowerPoint Presentation

SAP HANA 最 简 单 的 理 解 ERP CRM SRM BI 列 存 储 2

PowerPoint Presentation

Presentation title goes here

天津天狮学院关于修订2014级本科培养方案的指导意见

untitled

A API Application Programming Interface 见 应 用 程 序 编 程 接 口 ARP Address Resolution Protocol 地 址 解 析 协 议 为 IP 地 址 到 对 应 的 硬 件 地 址 之 间 提 供 动 态 映 射 阿 里 云 内

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

6112 http / /mops.tse.com.tw http / /

2013_6_3.indd

PowerPoint Presentation

ChinaBI企业会员服务- BI企业

<4D F736F F D20BBAACCA9C1AABACFD6A4C8AFD3D0CFDED4F0C8CEB9ABCBBEB9D8D3DAC9EEDBDACAD0D0CBC9ADBFECBDDDB5E7C2B7BFC6BCBCB9C9B7DDD3D0CFDEB9ABCBBE C4EAB6C8C4DAB2BFBFD8D6C6D7D4CED2C6C0BCDBB1A8B8E6B5C4BACBB2E9D2E2BCFB2E646

Reducing Client Incidents through Big Data Predictive Analytics

PowerPoint 演示文稿

软件测试(TA07)第一学期考试

Basic System Administration

合集

FAQ -PowerDesigner9.5.DOC

PowerPoint Presentation

PowerPoint Presentation

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

支付宝2011年 IT资产与费用预算

Free and Open Source Software for Geospatial(FOSS4G) Conference

大数据关键技术发展趋势及产业构成

PowerPoint 演示文稿

Value Chain ~ (E-Business RD / Pre-Sales / Consultant) APS, Advanc

untitled

P4i45GL_GV-R50-CN.p65

19 19

Ch03_嵌入式作業系統建置_01

信息化交流材料

<4D F736F F F696E74202D20504D C4EABBE1D6F7BDB22DCDA8B9FDD7C9D1AFC0E0CFEEC4BFB9DCC0EDCAB5CFD6D6B0D2B5CCE1C9FD2DCDF5C0DA2D504D D41C3C0B9FAD7A2B2E1B9DCC0EDBBE1BCC6CAA65BCCE1BDBBB8E55D202E B436F6D706

大数据关键技术发展趋势及产业构成

PowerPoint 演示文稿

Connected Intelligence:ビッグデータ技術を活用したIT運用

Microsoft Word 级第二专业学士学位培养计划.doc

oracle-Ess-05.pdf

IT Data-intensive application,iscsi Middl

02 责任编辑 张晋芬 2 16:06:31

背 景 概 述 企 业 需 要 一 种 灵 活 的 平 台 来 快 速 构 建 测 试 和 扩 展 新 的 应 用 程 序 服 务 并 对 市 场 中 发 生 的 数 字 化 变 革 作 出 反 应 数 字 化 变 革 正 在 加 快 步 伐, 因 为 流 程 和 信 息 的 日 益 融 合 带 来

PowerPoint Presentation

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

实践课堂成都站-0609.key

第 02 期 1 医 疗 信 息 现 状 20% EMR Electronic Medical Record HIS HIS [1-2] 张 肖 等 : 基 于 大 数 据 的 医 疗 健 康 创 新 应 用 2 大 数 据 环 境 下 医 疗 数 据 特 征 分 析 PC [3]

Microsoft PowerPoint ARIS_Platform_en.ppt

Big Data - Are You Ready

PowerPoint Presentation


Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7.

声 明 本 公 司 及 全 体 董 事 监 事 高 级 管 理 人 员 承 诺 不 存 在 虚 假 记 载 误 导 性 陈 述 或 重 大 遗 漏, 并 对 其 真 实 性 准 确 性 完 整 性 承 担 个 别 和 连 带 的 法 律 责 任 本 公 司 负 责 人 和 主 管 会 计 工 作 的

<4D F736F F D20B9FABCD2BBFAB9D8B0ECB9ABBDA8D6FEBACDB4F3D0CDB9ABB9B2BDA8D6FEC4DCBAC4BCE0B2E2CFB5CDB3C8EDBCFEBFAAB7A2D6B8B5BCCBB5C3F7CAE92E646F63>

BYOD IP+Optical (IP NGN) API 4. End-to-End (Service Aware) 5. IP NGN (IP Next Generation Network) ( ) Prime Carrier Management Access Edge Co

Contents Viewpoint Application Story 05 News & Events 06 Technology Forum Customer Partnership Cover Story Advisory Board Inside Advantech Beautiful L

(Electronic Data Interchange) (Executive Information System) (Economic Order Quantity) (Enterprise Resource Planning) (Flexible Manufacture System) (F

3.1 SQL Server 2005 Analysis Services Unified Dimension Model (UDM) 3 ( Ad-Hoc) SQL Server 2005 E - R T-SQL(Star Schema) (Data Mart) (ETL) ( Ora

14-1-人文封面

6-1 Table Column Data Type Row Record 1. DBMS 2. DBMS MySQL Microsoft Access SQL Server Oracle 3. ODBC SQL 1. Structured Query Language 2. IBM

PowerPoint 簡報

2 2 3 DLight CPU I/O DLight Oracle Solaris (DTrace) C/C++ Solaris DLight DTrace DLight DLight DLight C C++ Fortran CPU I/O DLight AM

GoFlex Home UG Book.book

Oracle 4

ERP-1

資料HDR作1-03 HDR技術動向

藍牙網路在資訊家電的應用

DocHdl2OnPPMtmpTarget

weblogic

Oracle Database 10g: SQL (OCE) 的第一堂課

Microsoft Word - 《Hadoop大数据技术与应用》教学大纲.doc

Olav Lundström MicroSCADA Pro Marketing & Sales 2005 ABB - 1-1MRS755673

次世代のITインフラ“Compute”を先取り!HPが統合型アプライアンス「HP ConvergedSystem」を推進する理由

<4D F736F F D20CBC4B4A8BEC3D4B6D2F8BAA3C8EDBCFEB9C9B7DDD3D0CFDEB9ABCBBECAD7B4CEB9ABBFAAB7A2D0D0B9C9C6B1D5D0B9C9CBB5C3F7CAE9A3A8C9EAB1A8B8E C4EA35D4C23139C8D5B1A8CBCDA3A92E646F63>

Master Thesis_專門用來製作目錄.doc

应 用 为 先, 统 筹 规 划 摘 要 : 总 体 上 看, 我 国 的 云 计 算 还 没 有 进 入 良 性 发 展 的 轨 道 目 前 的 形 势 是 政 府 比 企 业 积 极, 企 业 比 用 户 积 极, 大 企 业 比 中 小 企 业 积 极, 建 设 数 据 中 心 比 推 广 应

目 录 数 据 化 管 理 :... 3 分 析 师 层 级... 3 数 据 运 营 流 程... 4 分 析 师 未 来 发 展... 4 你 是 否 适 合 做 分 析 师... 5 企 业 对 分 析 师 的 要 求... 5 制 定 分 析 师 学 习 规 划... 7 数 据 分 析 师

version 1.0 Workflow Authorization Model james MSN

PowerPoint Presentation

PowerPoint Presentation

turbomail方案

PowerPoint Presentation

Transcription:

借助 AWS Lake Formation 构建云上数据湖 王晓野,AWS 解决方案架构师

议程 企业数据分析平台的演变基于 Amazon S3 的 AWS 云上数据湖架构 AWS Lake Formation 介绍及 demo 演示

数据分析平台的演变 生产数据库 ( 主库 ) 供分析的数据库 ( 从库 ) 在线应用 (OLTP) SQL RDBMS 数据库 RDBMS 数据库 SQL 离线分析 (OLAP) RDBMS 为在线平台设计, 不适合分析

数据分析平台的演变 生产数据库 ( 主库 ) 供分析的数据库 ( 从库 ) 在线应用 (OLTP) SQL RDBM S 数据库 RDBM S 数据库 日志 爬虫数据 第三方数据 ETL? Data Warehouse 数据仓库 SQL 离线分析 (OLAP) 数据仓库的容量限制 性能瓶颈 成本 如何存储非结构化数据 Schema-on-Write, 不能直接存储非预期数据

数据分析平台的演变 生产数据库 ( 主库 ) 供分析的数据库 ( 从库 ) SQL RDBMS 数据库 RDBMS 数据库 ETL Data Warehouse 数据仓库 SQL 在线应用 (OLTP) 日志 爬虫数据 第三方数据 HDFS Map Reduce HBase Java Java 离线分析 (OLAP) Hadoop 数据分析人员需要学习新的语言 Hadoop 需要新的数据工程师 ( 数据库背景, 研发背景工程师比例出现变化 )

LAMBDA 架构与实时计算 Lambda architecture Nathan Marz http://lambda-architecture.net/

企业数据分析平台的演变 生产数据库 ( 主库 ) 供分析的数据库 ( 从库 ) 在线应用 (OLTP) SQL RDBMS 数据库 日志 爬虫数据 第三方数据 NoSQL DB (MongDB,Cass andra,etc.) RDBMS 数据库 HDFS YARN ETL Data Warehouse 数据仓库 Hive Presto Spark Flink SQL SQL* 离线分析 (OLAP) & 实时分析 Hadoop

基于 Lambda 架构的欣和数据湖设计 实时处理层 实时 / 流数据 分布式消息列 7x24 实时处理集群 NoSQL 实时数据库 1 实时分析 批量处理层 分批数据数据库数据 文本数据 不规则数据 文字图片 欣和自建集成组件分布式 ( 对象储存 ) 自建 RDS Sqoop Java 集成应用 可做本地备份 贴源层 模型层 历史结果层 云数据仓库 数据集市 模型层 弹性处理集群 redshift 数据服务层 数据服务 API 自助报表 仪表盘 数字产品 数据治理 数据挖掘 元数据搜索 ( 自建 ) 元数据管理 ( 自建 ) 数据挖掘分布式 ( 对象储存 ) 无需备份 监控与日志预警 弹性建模集群 数据服务平台接口 数字产品 数据挖掘工具

某车企全球数据湖架构 核心价值 : 使用数据为数字客户和企业软件提供支持 连接车辆客户生态系统 API 首先 用于轻松访问数据的层 ( 例如实时, 批处理 ) 统一数据 API ^ 数据湖 统一身份和访问管理 围绕最先进的云服务 (AWS) 构建 在不同市场快速建立基础设施 以单点真相提供与市场相关的数据资产 本地数据湖 数据网格 支持各种数据资产的自助数据集成 数据管理和编目市场中的数据资产 关系数据 物联网传感器数据 客户管理系统 经销商管理系统

数据湖 实现数据变成资产 业务目标 数字化经济, 数据驱动业务 提升企业运营效率 预判发展趋势, 提升企业竞争力 技术目标 停止丢弃数据 分析无处不在, 采用多种技术 自动化, API 化 赋能给更多用户, 建立数据探索能力 敏捷, 自助式服务 协作, 促进企业内部协作 建立数据探索能力 Reactive Predictive 敏捷, 协作经济 被动式自助式

议程 企业数据分析平台的演变基于 Amazon S3 的 AWS 云上数据湖架构 AWS Lake Formation 介绍

AWS 云上数据分析平台的创新 1985: Data Warehouse Appliances 2012: Amazon Redshift Cloud DW Customer VPC Compute Node Compute Node Compute Node Compute Node BI tools Analytics toolssql clients JDBC/ODBC Internal VPC Shared Storage Tier (NAS Appliance) 10 GigE (HPC) Leader node 昂贵的商业授权 完全定制的高性能硬件, 只能从厂商采购 Ingestion Backup Restore Compute node Compute node Compute node

AWS 云上数据分析平台的创新 2006: Hadoop Clusters 2009: Decoupled EMR Architecture Hadoop Master Node Hadoop Master Node CPU Memory HDFS Storage CPU Memory HDFS Storage CPU Memory HDFS Storage CPU Memory CPU Memory CPU Memory S3 as HDFS

AWS 云上数据分析平台的创新 Today: Clusterless 改进 Athena for SQL SQL Interface in web browser Glue for ETL Spark & Hive Interface in web browser 无需管理集群 / 基础设施 业务人员及分析师可以无需提前规划集群直接提交 SQL 编写分析查询 按请求计费 零运维管理 无需数据移动 不足 开发语言 / 框架目前仅限于 SQL / Spark S3 Data Lake S3 Data Lake

Amazon Simple Storage Service (Amazon S3) AWS 的第一个云服务 (2006) 99.999999999% 数据持久性 不限对像格式 存储无上限 按使用付费, 价格便宜 支持事件驱动的自动化 替换 HDFS, 解耦计算与存储 与多种分析方式深度集成 Amazon Redshift Amazon QuickSight Amazon EMR Amazon Athena Amazon S3 Amazon Kinesis Amazon Elasticsearch Service AI Services Amazon Snowbal l AWS Snowmobile Amazon Kinesis Video Streams Amazon Kinesis Amazon Data Streams Kinesis Data Firehose

企业数据湖示例架构 数据源数据集成层企业数据湖服务层访问层 Raw Data Zone Trusted Data Zone OLTP ERP CRM Devices AWS Transfer for SFTP Amazon S3 Amazon S3 Amazon Redshift Discovery Sandbox Zone 查询引擎 Amazon Athena ML R Python Cube SageMaker 即时查询 报表 / 仪表盘 机器学习 Web Social Amazon Kinesis ETL & Data Process Amazon EMR for Spark Streaming, Hive Amazon S3 AWS Glue 搜索引擎 Amazon Elasticsearch Service 数据分析 日志分析 / 企业搜索 元数据管理作业与调度脚本开发用户与访问事件管理 监控与通知 AWS Glue

Epic Games 数据湖架构 N E A R R E A L T I M E P I P E L I N E NEAR REALTIME PIPELINES Grafana Game clients Game servers Spark on EMR User ETL (metric definition) DynamoDB Scoreboards API Limited Raw Data (real time ad-hoc SQL) Launcher Kinesis N E A R R E A L T I M E P I P E L I N E BATCH PIPELINES Game services S3 Databases APIs Other sources ETL using EMR S3 (Data Lake) Tableau/BI Ad-hoc SQL 125,000,000+ 玩家 数据为游戏设计师提供持续的反馈循环最新的玩家满意度分析, 提高玩家参与度创造出全世界深受欢迎的游戏

数据流水线 Equinox Fitness Cubs 是一家集运动, 营养和再生为一体的专注于高端生活品质的公司 Equinox 使用连接到 Apple Health 的应用程序构建了互联体验, 并在其运动设备中实时收集数据 Amazon EMR S3 Athena Glue Data Catalog Redshift Spectrum Adobe Analytics S3

议程 企业数据分析平台的演变基于 Amazon S3 的 AWS 云上数据湖架构 AWS Lake Formation 介绍

AWS Lake Formation 在数日内构建安全的数据湖 识别 接入 清洗 转换数据 跨多种服务的增强安全措施 获得更多的业务洞见能力

搭建数据湖的基本步骤 1 初始化存储 2 迁移数据 4 确保安全性和合规性 3 清洗 准备数据 & 元数据管理 5 数据分析

示例步骤 ETL access jobs to load clean services data Configure from and analytics Find sources Map Storage tables toservice Amazon(Amazon S3 locations RinseCreate and repeat for other: Amazon Simple S3) locations Configure access policies data sets, users, and end-services Create metadata access policies And more: manage and monitor ETL jobs update metadata catalog as data changes update policies across services as users and permissions change manually maintain cleansing scripts create audit processes for compliance Manual Error-prone Time consuming AWS 中国 宁夏 区域由西云数据运营 AWS 中国 北京 区域由光环新网运营

搭建一个完整的数据湖仍然需要数月的时间

Lake Formation 价值主张 Data Lakes and analytics on AWS 快速构建数据湖 Identify, crawl, and catalog sources Ingest and clean data Transform into optimal formats 简化安全管理 Enforce encryption Define access policies Implement audit login 轻松安全地自助访问数据 Analysts discover all data available for analysis from a single data catalog Use multiple analytics tools over the same data OLTP ERP IAM KMS AI Services CRM Athena LOB Device s Sensors Data Catalog Amazon EMR We b Social Kinesis S3 Amazon Redshift Amazon QuickSight

核心模块 Blueprints / Workflow - ETL 任务工作流元数据及分区管理的模版 基于 ML 算法的数据转换 基于机器学习的数据转换算法, 解决特殊场景问题 ( 如 : 基于多列属性的数据去重 ) 增强的数据治理层 - 在元数据管理层增强权限管控及治理能力 增强的元数据管理 允许用户添加更丰富元数据信息, 为数据添加标签 ( 库, 表, 列级别 )

AWS Lake Formation 的简单四步

轻松地导入数据 Blueprints 导入模板 数据库 Lake Formation 一次性全量导入 Data import Access Data Control Catalog Crawlers ML-based data prep 日志 logs Data Lake Storage 增量导入

Blueprints build on AWS Glue

Blueprints & Workflows Blueprints 是数据摄取 转换 元数据 (schema) 和分区管理的模板. Blueprints 帮助客户快速 轻松地构建和维护一个数据湖 Templates 你 1. 数据源在哪里 2. 目标数据湖存储位置 3. 设定多久装载一次数据 Blueprints 1. 自动发现源数据 Schema 2. 自动进行源和目标表的数据转换 3. 自动数据分区 4. 作业状态跟踪 5. 灵活客户化 Blueprints 模板

Blueprints & Workflows

使用 ML transforms 轻松识别相同数据 https://www.youtube.com/watch?v=g34xuaj4wi4

EMR 权限管理 : Kerberos & Apache Ranger https://docs.aws.amazon.com/emr/latest/manageme ntguide/emr-kerberos-options.html https://aws.amazon.com/blogs/bigdata/implementing-authorization-and-auditingusing-apache-ranger-on-amazon-emr/

Lake Formation 权限管理 : 一次型配置控制不同访问方式 1. 设置用户访问权限 Admin Lake Formation 3. 接受调用的访问将用户的认证信息发送到 lakeformation Access Control Data Catalog 4.Lakeformation 返回临时凭证给用户 2. 用户尝试访问数据湖中的数据 Data Lake Storage

Lake Formation 中的安全控制与授权 使用简单的 grant 和 revoke 管理权限 指定对表和列的权限, 而不是对存储桶和对象的权限 轻松查看和管理用户权限 集中审计功能

表及列级别的访问控制 User 2 User 1

AWS Lake Formation 的安全实现 用户 Amazon S3

跨用户的搜索和协作 基于所有元数据的文本搜索 基于文本的搜索和过滤 添加数据所有者 管理员等属 性作为表属性 添加数据敏感级别 列定义等 作为列属性 在 Athena 中查询数据

进阶的数据目录 / 元数据管理

进阶的数据目录 / 元数据管理

进阶的数据目录 / 元数据管理

实时的审计和监控 控制台显示详细的告警信息 下载审计日志供进一步分析 数据接入和元数据信息操作事件自动集成到 Amazon CloudWatch 中供追溯

DEMO: 三步走创建数据湖 使用模板导入数据 设置数据权限在不同用户间共享数据 使用 Athena 查询数据

Step 1: 使用 blueprint 模板导入数据

导入的数据以表的形式存在于数据湖中

Step 2: 设置用户权限

Step 3: 通过 Athena 查询数据 不同用户看到不同的内容

感谢参加 AWS 在线研讨会 我们希望您喜欢今天的内容! 也请帮助我们完成反馈问卷 欲获取关于 AWS 的更多信息和技术内容, 可以通过以下方式找到我们 : 微信公众号 :AWSChina 新浪微博 :https://www.weibo.com/amazonaws/ 领英 :https://www.linkedin.com/company/aws-china/ 知乎 :https://www.zhihu.com/org/aws-54/activities/ 视频中心 :http://aws.amazon.bokecc.com/ 更多线上技术活动 :https://aws.amazon.com/cn/about-aws/events/webinar/