PowerPoint 演示文稿

Similar documents
PowerPoint 演示文稿

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

数据分析技术介绍

Connected Intelligence:ビッグデータ技術を活用したIT運用

Microsoft PowerPoint ARIS_Platform_en.ppt

F4

第 02 期 1 医 疗 信 息 现 状 20% EMR Electronic Medical Record HIS HIS [1-2] 张 肖 等 : 基 于 大 数 据 的 医 疗 健 康 创 新 应 用 2 大 数 据 环 境 下 医 疗 数 据 特 征 分 析 PC [3]

Azure_s

次世代のITインフラ“Compute”を先取り!HPが統合型アプライアンス「HP ConvergedSystem」を推進する理由

幻灯片 1

untitled

Abstract Today, the structures of domestic bus industry have been changed greatly. Many manufacturers enter into the field because of its lower thresh

应 用 为 先, 统 筹 规 划 摘 要 : 总 体 上 看, 我 国 的 云 计 算 还 没 有 进 入 良 性 发 展 的 轨 道 目 前 的 形 势 是 政 府 比 企 业 积 极, 企 业 比 用 户 积 极, 大 企 业 比 中 小 企 业 积 极, 建 设 数 据 中 心 比 推 广 应


<4D F736F F F696E74202D20C8EDBCFEBCDCB9B9CAA6D1D0D0DEBDB2D7F92E707074>

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

PowerPoint 簡報

Microsoft PowerPoint - Performance Analysis of Video Streaming over LTE using.pptx

Microsoft Word - 11月電子報1130.doc

背 景 概 述 企 业 需 要 一 种 灵 活 的 平 台 来 快 速 构 建 测 试 和 扩 展 新 的 应 用 程 序 服 务 并 对 市 场 中 发 生 的 数 字 化 变 革 作 出 反 应 数 字 化 变 革 正 在 加 快 步 伐, 因 为 流 程 和 信 息 的 日 益 融 合 带 来

59 1 CSpace 2 CSpace CSpace URL CSpace 1 CSpace URL 2 Lucene 3 ID 4 ID Web 1. 2 CSpace LireSolr 3 LireSolr 3 Web LireSolr ID

目 录 简 介.3 ` 体 系 结 构...4 数 据 层...5 数 据 连 接 器...6 Tableau Server 组 件...7 网 关 / 负 载 平 衡 器...8 客 户 端 :Web 浏 览 器 和 移 动 应 用 程 序...8 客 户 端 :Tableau Desktop..

Windows XP

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

untitled

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

合集

Microsoft Word 記錄附件


声 明 本 公 司 及 全 体 董 事 监 事 高 级 管 理 人 员 承 诺 不 存 在 虚 假 记 载 误 导 性 陈 述 或 重 大 遗 漏, 并 对 其 真 实 性 准 确 性 完 整 性 承 担 个 别 和 连 带 的 法 律 责 任 本 公 司 负 责 人 和 主 管 会 计 工 作 的

投影片 1

13 A DSS B DSS C DSS D DSS A. B. C. CPU D. 15 A B Cache C Cache D L0 L1 L2 Cache 16 SMP A B. C D 17 A B. C D A B - C - D

ebook 132-2

<4D F736F F D20B5E7D7D3C9CCCEF1D7A8D2B5C5E0D1F8B7BDB0B8D0DEB6C1D6B8C4CFA3A BCB6A3A92E646F63>

2013_6_3.indd

Vol. 22 No. 4 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Aug GPS,,, : km, 2. 51, , ; ; ; ; DOI: 10.

05-LS_Oracle CRM for Life Sciences Industry-CN.pdf

國立中山大學學位論文典藏.PDF

Microsoft PowerPoint - ARC110_栾跃.ppt

PowerPoint 演示文稿

Microsoft Word - ¸ê°T³q³ø281´Á.doc

2. 佔 中 對 香 港 帶 來 以 下 影 響 : 正 面 影 響 - 喚 起 市 民 對 人 權 及 ( 專 制 ) 管 治 的 關 注 和 討 論 o 香 港 市 民 總 不 能 一 味 認 命, 接 受 以 後 受 制 於 中 央, 沒 有 機 會 選 出 心 中 的 理 想 特 首 o 一


闲 旅 游 现 已 成 为 城 市 居 民 日 常 生 活 的 重 要 部 分 袁 它 的 出 现 标 志 着 现 代 社 会 文 明 的 进 步 遥 据 国 外 学 者 预 测 袁 2015 年 左 右 袁 发 达 国 家 将 陆 续 进 入 野 休 闲 时 代 冶 袁 发 展 中 国 家 也 将

Industry_006

WTO

Cloudy computing forEducation

BYOD IP+Optical (IP NGN) API 4. End-to-End (Service Aware) 5. IP NGN (IP Next Generation Network) ( ) Prime Carrier Management Access Edge Co

Grant proposal

Microsoft Word - 第四組心得.doc

创 新 经 济 时 代 来 临, 面 对 快 速 变 迁 与 激 烈 竞 争 的 市 场 环 境, 企 业 必 须 藉 由 持 续 开 发 新 产 品, 才 能 应 对 产 品 生 命 周 期 急 剧 缩 短 所 带 来 的 经 营 危 机 因 此, 产 品 经 理 不 但 扮 演 了 统 合 项

<4D F736F F F696E74202D20312EB9FEB6FBB1F5B9A4D2B5B4F3D1A7D5E7C1BCA3BAC3E6CFF2D1D0BEBFC9FAB8B4CAD4B5C4BDE1B9B9BBAFC3E6CAD4BFBCBACBCCBDCBF7D3EBCAB5BCF92E BBCE6C8DDC4A3CABD5D>



epub83-1

软件测试(TA07)第一学期考试

Microsoft PowerPoint - ~ ppt

Logitech Wireless Combo MK45 English

PowerPoint 簡報

encourages children to develop rich emotions through close contact with surrounding nature. It also cultivates a foundation for children s balanced de

096STUT DOC

第 一 屆 香 港 嬰 幼 兒 產 業 及 嬰 幼 兒 教 育 及 護 理 分 享 會 目 標 : 增 加 各 專 業 及 商 家 對 嬰 幼 兒 早 教 及 護 理 的 認 識 及 交 流, 發 掘 嬰 幼 兒 早 教 產 業 機 會 增 進 嬰 幼 兒 產 業 的 發 展 簡 介 : 香 港 的

PowerPoint 演示文稿

國立中山大學學位論文典藏

<4D F736F F F696E74202D20504D C4EABBE1D6F7BDB22DCDA8B9FDD7C9D1AFC0E0CFEEC4BFB9DCC0EDCAB5CFD6D6B0D2B5CCE1C9FD2DCDF5C0DA2D504D D41C3C0B9FAD7A2B2E1B9DCC0EDBBE1BCC6CAA65BCCE1BDBBB8E55D202E B436F6D706

股份有限公司

Microsoft Word - [ ][微軟企業參訪][心得統整].doc

(Microsoft Word - 10\246~\253\327\262\304\244@\264\301\256\325\260T_Version4)

ERP-1

南華大學數位論文

1 目 錄 1. 簡 介 一 般 甄 試 程 序 第 一 階 段 的 準 備 第 二 階 段 的 準 備 每 間 學 校 的 面 試 方 式 各 程 序 我 的 做 法 心 得 及 筆 記 結 論..

Lorem ipsum dolor sit amet, consectetuer adipiscing elit

于 水 等 : 多 源 流 理 论 视 角 下 宅 基 地 使 用 权 确 权 政 策 的 议 程 设 置 研 究 基 于 江 苏 省 4 市 的 调 查 83 push forward the confirmation of homestead use right of rural central

(DMO) 1 1 Microsoft Windows SQL Server 2005 SQL Server Analysis ServicesNotification Services SQL Server 8 SQL Server IP SQL Server 2005 SQL Server 20


<4D F736F F D20B1B1BEA9B0D9BBAAD4C3B0EEBFC6BCBCB9C9B7DDD3D0CFDEB9ABCBBECAD7B4CEB9ABBFAAB7A2D0D0B9C9C6B1B2A2D4DAB4B4D2B5B0E5C9CFCAD0D5D0B9C9CBB5C3F7CAE9A3A8C9EAB1A8B8E C4EA37D4C236C8D5B1A8CBCDA3A92E646F63>

epub 61-2

BlackBerry Classic Smartphone-用户指南

第一章 緒論

Microsoft Word 資訊專業證照研析報告

indd

水晶分析师

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

從詩歌的鑒賞談生命價值的建構

<35D4C B1A8B8E62E696E6464>

final

UDC The Policy Risk and Prevention in Chinese Securities Market

USPTO Academic research Corporate needs Global/International Inventors Libraries News Media/Publication Patent Attorney or Agent USPTO e (ebusiness Ce

目 錄 壹 青 輔 會 結 案 附 件 貳 活 動 計 劃 書 參 執 行 內 容 一 教 學 內 容 二 與 當 地 教 師 教 學 交 流 三 服 務 執 行 進 度 肆 執 行 成 效 一 教 學 課 程 二 與 當 地 教 師 教 學 交 流 三 服 務 滿 意 度 調 查 伍 服 務 檢

Reducing Client Incidents through Big Data Predictive Analytics

考試學刊第10期-內文.indd

0896-电力信息与系统通信-02期.indb

Progress Report of BESIII Slow Control Software Development

PowerPoint Presentation

Contents Viewpoint Application Story 05 News & Events 06 Technology Forum Customer Partnership Cover Story Advisory Board Inside Advantech Beautiful L

高中英文科教師甄試心得

2 2 3 DLight CPU I/O DLight Oracle Solaris (DTrace) C/C++ Solaris DLight DTrace DLight DLight DLight C C++ Fortran CPU I/O DLight AM

Microsoft TechEd22 Microsoft Ignite 3 5 Microsoft Ignite 1 3 Microsoft TechDays TechDays Mobile First Cloud First 1 Microsoft

1 o o o CPU o o o o o SQL Server 2005 o CPU o o o o o SQL Server o Microsoft SQL Server 2005

Transcription:

大数据的实践及应用 Big Data in Action 孙巍高级项目经理微软云计算中心

问题 Questions 什么是大数据? What is Big Data? 多大的数据才是大数据? How big is Big Data? 你想从大数据里得到什么? What do you want to get out of Big Data?

议程 Agenda

主要趋势 Key Trends 设备爆炸 社交网络 价格低廉的存储 无处不在的连接 传感器网络 价格低廉的计算

数据量 Volume 什么是大数据 What Is Big Data? Exabytes (10E18) Social Sentiment Click Stream Mobile WEB 2.0 BIG DATA Sensors / RFID / Devices Wikis / Blogs Audio / Video Log Files Petabytes (10E15) Advertising ERP / CRM ecommerce Collaboration Digital Marketing Spatial & GPS Coordinates Data Market Feeds Terabytes (10E12) Payables Contacts Search Marketing egov Feeds Payroll Deal Tracking Web Logs Weather Gigabytes (10E9) Inventory Sales Pipeline Recommendations Text/Image 复杂性 : 种类和速度 Complexity: Variety & Velocity

一系列新问题 A New Set Of Questions 社交网络和互联网分析 What s the social sentiment for my brand or products? 我的品牌或产品情绪 实时数据源 How do I optimize my fleet based on weather and traffic patterns? 如何优化我的车队运行 ( 基于天气和交通趋势 ) 高级分析功能 How do I better predict future outcomes? 如何更好预测未来结果?

大数据生命周期 The Big Data Lifecycle 管理 Manage 丰富 Enrich 洞察力 Insight

管理任何种类 大小 来源的数据 Manage Any Data, Any Size, Anywhere 统一监控 管理和安全 Unified Monitoring, Management & Security 010101010101010101 1010101010101010 01010101010101 101010101010 关系型 Relational 非关系型 Non-Relational 数据流 Streaming 数据移动 Data Movement

HADOOP 集成 HADOOP Integration 企业级安全, 高可靠性, 管理 Enterprise class security, HA & management 与微软商业智能工具无缝集成 Seamlessly integrated with Microsoft BI tools SQL Server 数据平台的一部分 Delivered as part of the SQL Server Data Platform 在 Windows Azure 上几分钟内完成部署 Provisioned in minutes on Windows Azure

开放和灵活 Open & Flexible 与 ApacheHadoop100% 兼容 100% compatible with Apache Hadoop 工具由丰富的合作伙伴生态系统提供 Tools from a rich ecosystem of partners 与社区的紧密合作 Built with close community collaboration The Apache Software Foundation Accelerating the delivery of Hadoop for Windows Hadoop for Windows JavaScript libraries Hive ODBC drivers

大数据生命周期 The Big Data Lifecycle 管理 Manage 丰富 Enrich 洞察力 Insight

连接数据集市产生更多价值 Enrich By Connecting To The Worlds Data

数据整合带来的价值 Power Of Combining The Worlds Data Personal Data 个人数据 Organizational Data 组织数据 Community Data 社区数据 World Data 世界数据 Value 价值

数据集市 Data market Windows Azure Marketplace

大数据生命周期 The Big Data Lifecycle 管理 Manage 丰富 Enrich 洞察力 Insight

对任何种类 大小 来源数据的洞察力 Insights On Any Data, All Users, Whatever They Are 数据科学家 Data Scientists 商业智能专业人员 BI Professionals 业务分析人员 Business Analysts 010101010101010101 1010101010101010 01010101010101 101010101010 Relational Non-Relational Streaming

通过熟悉的工具, 为所有用户提供对数据的洞察力 Insights For All Users Through Familiar Tools PB TB GB 数据科学家 Data Scientists 商业智能专业人员 BI Professionals CDO 首席数据官 业务分析人员 Business Analysts Advanced Analytics from Microsoft and 3rd parties Self Service Analysis with PowerPivot & Power View Interactivity & exploration with Hadoop data in Excel

客户示例 Connects to more than 1 billion signals 连接到超过 10 亿的信号 / 数据源 Across 15 leading social networks, including Facebook 排名前 15 位的社交网络, 包括 Facebook Generates a Klout score for individual people, brands & partners 为个人 品牌及合作伙伴生成一个 'Klout' 分数 Enables analysis, targeting and social graphs 提供分析 目标和社交图

端到端的大数据解决方案 Big Data Requires An End-To-End Apporoach 洞察力 INSIGHTS SELF-SERVICE COLLABORATIVE MOBILE REAL-TIME 丰富数据 DATA ENRICHMENT DISCOVER AND RECOMMEND TRANSFORM AND CLEAN SHARE AND GOVERN 数据管理 DATA MANAGEMENT 1 0 0 1 1 1 RELATIONAL NON-RELATIONAL STREAMING

微软大数据 Microsoft Big Data 洞察力 INSIGHTS Power View PowerPivot 丰富数据 DATA ENRICHMENT 数据管理 DATA MANAGEMENT Hadoop on Windows

议程 Agenda

大数据的再思考 Re-thinking BIG DATA 大数据定位 The Big Data Positioning A New Era with new data technology and technique that manage, analyze and create value with data of modern characteristics (the V s) 大数据数量 The Big Data Volume Big Data is not defined by volume only, but by any of the V characteristics. And volume is as large as you want it to be, or you can afford it to be. 大数据目的 Why Big Data Big Data is about using new technology and technique to transform, and through intelligence from data, explore new value

典型大数据数据分析场景 Typical Big Data End-to-End Analytics Hot Stream Cold 10101 HQL Stream E=MC Learned 2 Limits SQL HDFS HQL

端到端的大数据生命周期 Typical Big Data End-to-End Analytics Hot Stream 10101 Cold Stream E=MC Learned 2 HQL Limits Strategic/Trend Analytics SQL HDFS HQL Operational/Real-time Analytics Storage & management Insight Valuation

大数据的时效性 New Thinking of Big Data Realtime M2M Personal BI Workgroup BI Department BI Company BI 时效性

实施框架参考 Reference Implementation Framework

大数据和传统 BI 的差别 Big Data and Traditional BI Difference Big Data Schema on Read 数据架构模型在查询时动态定义 更具探索性, 需要行业知识 目标是在环境数据中寻找新的价值 You don t know what you don t know Traditional BI Schema on Write 数据架构模型在写入时已经定义 体现明确定义的标准及 KPI 成熟的开发模式及丰富的实践经验 Show me what I already know

企业数据及商业智能平台的进化 Evolution of the BI/Data Platform 结构化数据源 数据集市 分析 结构化数据源 ODS ODS 应用 结构化数据源 多维度存储 其他 Storage 存储 Consume 使用

企业数据及商业智能平台的进化 Evolution of the BI/Data Platform 结构化数据源 大数据存储 数据仓库 分析 非结构化数据源 数据集市 数据服务 应用 数据流 多维度存储 其他 Storage 存储 Service 服务 Consume 使用

大数据时代的工作角色转变 Big Data Job Roles

企业大数据的优化 Big Data ROI Optimization 大数据量 vs 成本云部署 大数据量 vs 成本非云部署 优化点, 大数据技术帮助提升 ROI 大数据价值 vs 量

议程 Agenda

大数据的新机遇 New Opportunities Data Scientist Information Worker Casual User New Insights Volume Variety Velocity Traditional BI

Reference Implementation Products + Need to Know* Good to Know* StreamInsight

议程 Agenda

网站 / 社交网络场景 Web / Social

Acquire 实时事态处理 Real Time Event Processing Hadoop SQL / SSAS StreamInsigh t Bing/adCenter Event Processing - Display ads on msn.com - Data goes into Hadoop - ETL into SQL/SSAS - Model for SI to use - SI processes via model - Updated display ad (latency <1min) - Processing all 550B+ MSN users Apache Flume (Stream MR) ZooKeeper Facebook Real Time Messaging - Short set of volatile temporal data - Continually growing dataset rarely accessed - 20B events/day, 200,000 events/sec - Latecy <30s

网站 / 社交网络场景 Web / Social Sources Acquire Repository Analyze & Visualize Billions of events in unstructured logs Commodity storage Many options web clicks (page views, clicks, events) flat files csv xml json Hadoop Client / BI Web Site Visitor facebook twitter Apache Flume linkedin Log aggregator

某全球著名互联网公司的大数据挑战 XYZ s Big Data Problem 680,000,000 Visitors to XYZ Branded Sites 3,500,000,000 Ad impressions per day 35,000,000,000 Ad Impressions x Segments 464,000,000,000 Additional Rows per Quarter Hourly Refresh Frequency <6s Average Adhoc Query Time <2s Average Report Query Time

某全球著名互联网公司的大数据平台 XYZ s Big Data Platform Adhoc Query/Visualization Tableau Desktop 6 Avg Query Time: 6 secs 24TB Cube /qtr 464B rows of event level data /qtr BI Query Servers SQL Server Analysis Services 2008 R2 Optimization Application Custom J2EE App Avg Query Time: 2 secs Dimensions: 24 Attributes: 247 Measures: 207 MICROSOFT CONFIDENTIAL

Klout s Big Data Problem 15 Social Networks Processed Every Day 120 Terabytes of Data Storage 200,000 Indexed Users Added Every Day 140,000,000 Users Indexed Every Day 1,000,000,000 Social Signals Processed Every Day 30,000,000,000 API Calls Delivered Every Month 54,000,000,000 Rows of Data In Klout Data Warehouse

Klout Data Architecture Registrations DB (MySql) Klout.com (Node.js) Signal Collectors (Java/Scala) Data Enhancement Engine (PIG/Hive) Data Warehouse (Hive) Profile DB (HBase) Search Index (Elastic Search) Klout API (Scala) Mobile (ObjectiveC) Partner API (Mashery) Streams (MongoDB) Serving Stores Monitoring (Nagios) Dashboards (Tableau) Analytics Cubes (SSAS) Perks Analyics (Scala) Event Tracker (Scala)

医疗卫生场景 Healthcare 临床试验 : 不只是审查现有药物的疗效, 但也是潜在的偏差 例如, 伟哥原先是为治疗低血压及心绞痛等病症研发的, 但现在甚至用于新生儿肺动脉高压及高原反应 预测医疗保健的发病率问题 社交媒体药品广告的宣传效果 药品市场活动及广告效应分析 为消费者建立分析模型进行行为分析, 试图了解他们的用户行为 ( 他们为什么要购买这种药物, 他们如何看待他们的疾病, 相关行为等 )

医疗卫生场景 Healthcare 高新技术的采用相对迟缓 人体科学研究是一个例外, 经常采用革命性的前沿技术 遗传因子等研究带来对人体科学更深入的认识 蛋白质结构的研究帮助研发为个人定制的药品 医疗病症的防治 : 心脏病突发, 或者哮喘

政府及公用事业场景 Government / Utilities 评估消费者的决策和及针对绿色能源趋势的情绪 智能电网的负荷管理和有针对性的营销 ( 如智能城市 ) 有针对性的市场营销和性能 公用事业市场

Government & Utilities - Working closely with MS Federal team - Government organizations were involved in the early prototypes of Hadoop - They represent Big Data in so many ways - MS Federal even have their own stamp/sku for their own version of private cloud - Prototypical surround strategy - Prototypical Chinese customer = long term relationship building - As well, very innovative and willing to push boundaries - Need more smart grid evidence against competitors - Ned to work better with SAP (StreamInsight, BI, Big Data, etc.)

石油 天然气行业场景 Oil and Gas 地质数据处理 大部分的数据处理采用 20 世纪 50 年代的地质研究的算法 Chevron 雪佛龙公司拥有 3000 个节点的 Linux 集群来处理这个数据, 有时间计算需要超过一年时间 Hadoop 运行大规模的并行计算 新一代应用 WITSML 数据处理 ( 井场信息传输标准标记语言 XML 格式 ), 通过 Hive XML SerDe 应用当前的 BI 工具, 以了解和模拟数据 使用 Stream Insight / Storm 实时出发 数据共享的场景

金融服务行业场景 Financial Service Financial Organizations have a lot of Consumer information Customer Payment Information and Habits Credit Reports How to mine the data itself i.e. the Data is the IP Heavy SAS users but willing to switch to R Willingness to go to Azure for Data Sharing scenarios Private Cloud to share data with their partners But Governance, Risk, Compliance scenarios are

其他金融行业场景 Other Financial Service Workloads

其他资源 Additional Resources LEARN MORE Microsoft Big Data Solution: www.microsoft.com/bigdata Windows Azure: www.windowsazure.com/enus/home/scenarios/big-data Microsoft BI blog: http://blogs.msdn.com/b/microsoft_business_intelligence1/ TRY NOW Preview of the Hadoop-based service for Windows Azure: https://www.hadooponazure.com

欢迎莅临 2013 中国数据库技术大会