PowerPoint 演示文稿



Similar documents
Partition Key: 字 符 串 类 型, 表 示 当 前 Entity 的 分 区 信 息 这 个 Property 对 于 Table Service 自 动 纵 向 和 横 向 扩 展 至 关 重 要 Row Key: 字 符 串 类 型, 在 给 定 Partition Key 的

支付宝2011年 IT资产与费用预算

深入理解otter

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

ebook 132-2

PowerPoint 演示文稿

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

Oracle 4

投影片 1

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

合集

jdbc:hsqldb:hsql: jdbc:hsqldb:hsqls: jdbc:hsqldb:http: jdbc:hsqldb:https: //localhost // :9500 / /dbserver.somedomain.com /an_alias /enrollme

ebook 132-6

Junos Pulse Mobile Security R1 2012, Juniper Networks, Inc.

1 o o o CPU o o o o o SQL Server 2005 o CPU o o o o o SQL Server o Microsoft SQL Server 2005

7.1 MapReduce Offline Online 计 算 流 式 计 算 并 行 数 据 库 的 SQL 查 询 数 据 仓 库 复 杂 查 询 应 用 电 子 商

<4D F736F F D F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

, 7, Windows,,,, : ,,,, ;,, ( CIP) /,,. : ;, ( 21 ) ISBN : -. TP CIP ( 2005) 1

2005 3

W. Richard Stevens UNIX Sockets API echo Sockets TCP OOB IO C struct C/C++ UNIX fork() select(2)/poll(2)/epoll(4) IO IO CPU 100% libevent UNIX CPU IO

SQL Server SQL Server SQL Mail Windows NT

第1章 计算机网络体系结构概述

目錄

2 2 3 DLight CPU I/O DLight Oracle Solaris (DTrace) C/C++ Solaris DLight DTrace DLight DLight DLight C C++ Fortran CPU I/O DLight AM

SiteView技术白皮书

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

第一章 概论

Microsoft Word - 鄂卫办函[2009]64号.doc

全宋词1

& ((& ) ((

epub83-1

Microsoft PowerPoint - Lecture7II.ppt

案例分享产品文档

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

untitled

zxj

<443A5CCED2B5C4D7CAC1CF5CD7C0C3E65CB9D8D3DAC3FCC3FB C4EAB6C8CAA1C7E0C4EACEC4C3F7BAC5A1A2CAA1C7E0C4EACEC4C3F7BAC5B1EAB1F8BACDCAA1C7E0C4EACEC4C3F7BAC5CFC8BDF8B9A4D7F7D5DFB5C4BEF6B6A8C5C55CA3A830372E3038A3A9B9D8D3DAC3FCC3FB C4EAB

普 通 高 等 教 育 十 二 五 重 点 规 划 教 材 计 算 机 系 列 中 国 科 学 院 教 材 建 设 专 家 委 员 会 十 二 五 规 划 教 材 操 作 系 统 戴 仕 明 姚 昌 顺 主 编 姜 华 张 希 伟 副 主 编 郑 尚 志 梁 宝 华 参 编 参 编 周 进 钱 进

目 次 一 社 團 活 動 基 本 資 料 2 ( 一 ) 參 加 隊 員 名 冊 2 ( 二 ) 活 動 成 效 分 析 表 4 二 活 動 成 果 報 告 6 ( 一 ) 活 動 支 出 明 細 表 6 ( 二 ) 活 動 內 容 及 活 動 分 工 8 ( 三 ) 活 動 執 行 過 程 說

A API Application Programming Interface 见 应 用 程 序 编 程 接 口 ARP Address Resolution Protocol 地 址 解 析 协 议 为 IP 地 址 到 对 应 的 硬 件 地 址 之 间 提 供 动 态 映 射 阿 里 云 内

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...


第7章-并行计算.ppt


例 如, 一 个 含 有 2000 个 记 录 的 文 件, 每 个 磁 盘 块 可 容 纳 250 个 记 录, 则 该 文 件 包 含 8 个 磁 盘 块 然 后 对 该 文 件 作 二 路 归 并 的 外 排 序, 每 次 往 内 存 读 入 两 个 磁 盘 块, 排 序 后 再 写 回 磁

BYOD Http Redirect convergence Client (1) 2008R2 NLB( ) (2) NLB Unicast mode switch flooding (arp ) NLB DNS Redirect 1. Round-Robin DNS DNS IP/DNS Cli

System Global Area, Oracle Background process Oracle, Server Process user process, user process : SQL*PLUS SYSTEM SQL> select name from v$datafile; NA

目錄... ivv...vii Chapter DETECT

untitled

7. 小 星 星 一 閃 一 閃 亮 晶 晶, 滿 天 都 是 小 星 星 ; 掛 在 天 空 放 光 明, 好 像 許 多 小 眼 睛 ; 一 閃 一 閃 亮 晶 晶, 滿 天 都 是 小 星 星

根 据 我 们 9 月 份 对 22 个 上 市 公 司 的 调 研 和 行 业 总 体 增 速 判 断, 2014 年 多 数 计 算 机 公 司 增 速 将 在 20% 左 右, 目 前 公 布 的 公 司 基 本 在 20% 以 上 投 资 建 议 计 算 机 目 前 整 体 估 值 水 平

A Preliminary Implementation of Linux Kernel Virus and Process Hiding

天仁期末個人報告1.PDF

季刊9web.indd

starter_pdfmerge

团 学 要 闻 我 校 召 开 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 3 月 17 日, 我 校 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 在 行 政 办 公 楼 五 楼 会 议 室 举 行, 校 团 委 委 员 各 院 ( 系 ) 团 委 书 记 校 学 生

IBM Rational ClearQuest Client for Eclipse 1/ IBM Rational ClearQuest Client for Ecl

C6_ppt.PDF

Microsoft Word - 第三章第一節第二節.doc

untitled

Chapter 9: Objects and Classes

提纲 2 / 1

untitled

合, 采 取 有 效 的 跟 进 和 配 套 措 施, 加 强 事 中 事 后 监 管, 防 止 出 现 管 理 脱 节, 不 断 提 高 政 府 管 理 科 学 化 规 范 化 法 治 化 水 平 附 件 :1. 省 政 府 决 定 取 消 的 行 政 审 批 事 项 目 录 2. 省 政 府 决

《教育信息化前沿》

untitled

2015 年 度 收 入 支 出 决 算 总 表 单 位 名 称 : 北 京 市 朝 阳 区 卫 生 局 单 位 : 万 元 收 入 支 出 项 目 决 算 数 项 目 ( 按 功 能 分 类 ) 决 算 数 一 财 政 拨 款 一 一 般 公 共 服 务 支 出 二

目 录 第 一 部 分 档 案 局 概 况 一 主 要 职 责 二 部 门 决 算 单 位 构 成 第 二 部 分 档 案 局 2016 年 度 部 门 预 算 表 一 2016 年 度 市 级 部 门 收 支 预 算 总 表 二 2016 年 度 市 级 部 门 支 出 预 算 表 三 2016

學 科 100% ( 為 單 複 選 題, 每 題 2.5 分, 共 100 分 ) 1. 請 參 閱 附 圖 作 答 : (A) 選 項 A (B) 選 項 B (C) 選 項 C (D) 選 項 D Ans:D 2. 下 列 對 於 資 料 庫 正 規 化 (Normalization) 的 敘

epub 61-2

第 一 节 认 识 自 我 的 意 义 一 个 人 只 有 认 识 自 我, 才 能 够 正 确 地 认 识 到 自 己 的 优 劣 势, 找 出 自 己 的 职 业 亮 点, 为 自 己 的 顺 利 求 职 推 波 助 澜 ; 一 个 人 只 有 认 识 自 我, 才 能 在 求 职 中 保 持

PowerPoint Presentation

目 录 1. 业 务 流 程 系 统 开 发 面 临 的 挑 战 与 机 遇 业 务 流 程 管 理 新 一 代 开 源 业 务 流 程 开 发 平 台 BPMX BPMX3 是 什 么 为 什 么 要 优 先 采 用 BPMX

软件概述

(Microsoft Word - \244g\246a\247B\244\275\253H\245\365\244\247\275\325\254d\254\343\250s doc)

2 SGML, XML Document Traditional WYSIWYG Document Content Presentation Content Presentation Structure Structure? XML/SGML 3 2 SGML SGML Standard Gener

LoadRunner使用手册(第二版)

<B1B1BEA9B9E2BBB7D0C2CDF8BFC6BCBCB9C9B7DDD3D0CFDEB9ABCBBEB4B43F3F12FB6CB293>

Microsoft PowerPoint - os_4.ppt

UDC The Design and Implementation of a Specialized Search Engine Based on Robot Technology 厦门大学博硕士论文摘要库

oracle-Ess-05.pdf

Microsoft Word - 11.doc

里 再 说 吓 唬 了 孩 子, 肯 定 方 宁 不 忍 所 以 她 不 死 便 罢, 倘 若 死, 只 有 到 办 公 室 沈 若 鱼 冷 静 得 好 像 在 评 点 某 一 电 视 剧 中 的 女 主 角 你 说 她 是 怎 么 死 的? 先 生 又 感 惊 骇 吃 安 眠 药 沈 若 鱼 成

我眼中的好老师

信 息 化 研 究

<4D F736F F D20B971B8A3B577C5E9B8CBADD7A441AFC5B2C4A447B3A1A4C039372E342E3232A44AAE77AAA92E646F63>

一 本 期 头 条 商 务 部 : 电 子 商 务 十 三 五 规 划 即 将 出 台 齐 鲁 电 商 风 云 榜 之 最 受 欢 迎 旅 游 电 商 名 单 揭 晓 二 政 策 快 讯 国 务 院 : 便 利 通 关, 扩 大 跨 境 电 商 试 点 关 于 改 革 社 会 组 织 管 理 制 度

提纲 1 2 OS Examples for 3

方圆并济:基于 Spark on Angel 的高性能机器学习_V3

目 錄 第 一 章 weberp 簡 介... 6 第 一 節 概 述... 6 第 二 節 安 全 性... 7 第 三 節 功 能... 7 一 銷 售 及 訂 單... 7 二 稅... 8 三 應 收 帳 款... 8 四 存 貨... 8 五 購 買... 9 六 應 付 帳 款... 9

IP505SM_manual_cn.doc

ebook20-2

Symantec™ Sygate Enterprise Protection 防护代理安装使用指南

PowerPoint 演示文稿

Chapter 2

lan03_yen

未命名

政府機關資訊通報第295期(5月)

COP中文范本

冶金企业安全生产监督管理规定

Transcription:

Hadoop 生 态 技 术 在 阿 里 全 网 商 品 搜 索 实 战 阿 里 巴 巴 - 王 峰

自 我 介 绍 真 名 : 王 峰 淘 宝 花 名 : 莫 问 微 博 : 淘 莫 问 2006 年 硕 士 毕 业 后 加 入 阿 里 巴 巴 集 团 淘 及 搜 索 事 业 部 ( 高 级 技 术 与 家 ) 目 前 负 责 搜 索 离 线 系 统 团 队 技 术 方 向 : 分 布 式 计 算 不 存 储

大 纲 阿 里 搜 索 离 线 技 术 平 台 阿 里 全 网 商 品 搜 索 系 统 架 构 阿 里 电 商 网 页 库 存 储 方 案 阿 里 全 网 商 品 实 时 处 理 流 程

阿 里 搜 索 离 线 技 术 平 台 B2B 搜 索 淘 宝 搜 索 天 猫 搜 索 一 淘 搜 索 云 搜 索 Z O O K E E P E r MR (Batch) istream (Streaming) YARN Spark (Iterative) HDFS HQueue (Queue) Phoenix (SQL) HBase OpenTSDB (Metrics) T H R I F T / P B

阿 里 搜 索 Hadoop/HBase 集 群 Hadoop: 基 于 2.2 的 阿 里 搜 索 定 制 版 HBase: 基 于 0.94 的 阿 里 搜 索 定 制 版 部 署 方 式 :Hadoop/HBase 共 同 部 署 集 群 规 模 : 机 器 总 数 已 近 千 台, 分 2 个 集 群 硬 件 配 置 : 24/32Core CPU 48/96GB Memory 12 * 1T/2T Sata Disk

阿 里 搜 索 分 布 式 存 储 技 术 体 系 HDFS( 分 布 式 文 件 系 统 ) HBase(NoSQL 数 据 库 ) Phoenix(SQL On HBase) OpenTSDB(Metrics On HBase) HQueue(Queue On HBase)

1. Queue is a HBase Table 2. Partition is a HBase Region 3. Message is a HBase KeyValue 4. Message is stored in Partition/Region sequentially HQueue 存 储 结 构 Table/Queue Region/Partition Region/Partition KV/Message KV/Message KV/Message KV/Message KV/Message KV/Message..... Rowkey Column Timesatamp Value Message 的 KeyValue 设 计 : Partition ID + Message ID Topic Timestamp Value Timestamp + Sequence ID

MessageID Partition ID Timestamp RowKey HQueue 写 入 流 程 Sequence ID Topic 1. Create Message KV HQueue Client Value 2. Locate By Partition ID 3. Set MessageID/Update Rowkey RegionServer 5. Update Latest MessageID 6. Notify Subscription Threads C O P R O C E S S O r 4. Append To Region R E G I O n Message KV Message KV Message KV Message KV Sort By Received Timestamp

HQueue 读 取 流 程 Queue Name Partition ID Message ID(TS) Range Message Topics 1. Create Scan HQueue Client 6. Close Scanner 2. Locate By Partition ID 4. Return Scanner 3. Open Internal Scanner RegionServer R E G I O n Message KV Message KV Message KV Message KV 5. Next and Return Messages

HQueue 订 阅 流 程 Zookeeper 1. Subscribe 9. Unsubscribe HQueue Client Queue Name Partition ID Start Message ID(TS) Message Topics Client ID 6. Receive and Process Message KVs 2. Get Subscriber Address/Checkpoint 10. Subscriber Quit Watch Set Checkpoint Periodically C O P R O C E S S O r RegionServer 3. Create Subscription Thread 4. Open Internal Scanner 7. Close Internal Scanner 8. if (New Message) {repeat 4;} else {wait;} 11. Subscription Thread Quit 5. Next and Send Message KVs R E G I O n Message KV Message KV Message KV Message KV

HQueue 主 要 特 性 读 写 高 性 能 ( 新 消 息 都 在 MemStore + 顺 序 存 储 ) 消 息 持 久 化 存 储, 丌 丢 失 (HFile + HLog) 消 息 支 持 TTL 设 定, 自 劢 清 理 过 期 消 息 (HBase TTL) 消 息 支 持 主 劢 拉 和 订 阅 两 种 模 式 (HBase Client Wrapper + Coprocessor) 服 务 支 持 劢 态 负 载 均 衡 (HBase Load Balance) 服 务 支 持 快 速 Failover (HBase MTTR) 支 持 多 语 言 客 户 端 ( 扩 展 HBase Thrift Server) 可 不 Hadoop 计 算 平 台 无 缝 对 接 (HQueueInputFormat/OutputFormat) 可 复 用 HBase 集 群 直 接 部 署 管 理, 无 需 独 立 硬 件 (HQueue Shell)

阿 里 搜 索 分 布 式 计 算 技 术 体 系 Hadoop YARN( 统 一 管 理 所 有 计 算 模 型 ) MapReduce( 批 处 理 计 算 模 型 ) istream( 流 计 算 模 型 ) Spark( 迭 代 计 算 模 型, 规 划 中 )

istream - 基 于 YARN 的 流 计 算 引 擎 Stream Service Data Source Data Source Stream Role InputFormat OutputFormat Stream Role Data Sink/Source InputFormat Stream Role Data Sink Data Sink/Source Stream Role OutputFormat Data Sink/Source InputFormat Stream Role Data Sink

istream 技 术 概 念 Stream Service: 运 行 在 YARN 上 的 一 套 流 计 算 服 务, 例 如 : 实 时 商 品 处 理 服 务 Stream Role: 计 算 角 色, 即 一 组 具 备 特 定 功 能 逻 辑 的 Worker 组 合 Data Source: 计 算 服 务 的 流 式 数 据 来 源, 可 被 切 分 为 多 个 Data Split, 一 个 Worker 可 以 读 取 多 个 Splits 例 如 : 数 据 库 集 群 binlog 服 务, 分 布 式 消 息 队 列 Data Sink: 计 算 服 务 的 数 据 终 端, 可 被 切 分 为 多 个 Data Partition, 一 个 Worker 可 以 向 多 个 Partition 分 发 写 入 例 如 : 数 据 库 集 群, 分 布 式 消 息 队 列 In/OutputFormat: 控 制 Stream Role 如 何 访 问 Data Source/Sink, 丌 同 存 储 介 质 的 Source/Sink 可 以 通 过 配 套 的 In/OutputFormat 来 接 入

istream 主 要 特 性 计 算 和 存 储 层 分 离, 可 灵 活 搭 配 消 息 队 列 计 算 拓 扑 开 放, 可 以 根 据 业 务 变 化 劢 态 调 整 具 备 流 处 理 进 度 管 理 能 力, 进 度 可 视 化 以 及 监 控 报 警 具 备 弹 性 调 度 能 力, 可 根 据 进 度 劢 态 调 整 计 算 资 源 数 量 服 务 Metrics 自 劢 记 录 到 OpenTSDB 中, 可 WebUI 查 看 类 似 MR Streaming 方 式, 支 持 多 语 言 编 程 可 不 MR 等 模 型 共 享 Hadoop 集 群, 无 需 单 独 集 群 部 署

阿 里 全 网 商 品 搜 索 系 统 架 构 互 联 网 阿 里 商 品 库 搜 索 应 用 网 页 抓 取 网 页 抽 取 实 时 同 步 搜 索 引 擎 网 页 选 取 电 商 网 页 库 实 时 商 品 处 理

阿 里 电 商 网 页 库 存 储 方 案 发 展 历 程 2010 年 上 线, 学 习 Google 网 页 库 Bigtable 存 储 方 案, 决 定 采 用 开 源 的 HBase 作 为 存 储 引 擎 HBase 经 历 了 0.25,0.26,0.90,0.92,0.94( 当 前 ),5 月 将 升 级 到 0.98 集 群 规 模 从 30 多 台 持 续 升 级 到 300 多 台 Region 数 从 1000 多 个 增 长 到 20000 多 个 网 页 数 从 十 亿 增 长 到 百 亿

阿 里 电 商 网 页 库 -Rowkey 设 计 URL 翻 转 例 如 :http://www.taobao.com 翻 转 为 http://com.taobao.www 特 点 : 同 一 网 站 内 的 网 页 / 商 品 连 续 存 储, 各 站 点 连 续 分 布 优 点 : 可 以 方 便 的 在 海 量 网 页 库 中 快 速 读 取 到 某 个 站 点 的 所 有 数 据 缺 点 : 丌 同 网 站 的 网 页 / 商 品 数 量 以 及 变 化 频 率 差 异 较 大, 丌 同 Region/RegionServer 之 间 的 I/O 访 问 容 易 丌 均 衡 解 决 方 案 : 通 过 统 计 分 析 和 抓 取 调 度 反 馈, 针 对 热 点 网 站 进 行 手 劢 split, 分 解 压 力 ; 升 级 到 0.98 后 将 会 采 取 Stochastic Load Balancer 根 据 I/O 压 力 等 综 合 指 标 进 行 负 载 均 衡

阿 里 电 商 网 页 库 -CF 设 计 Column Family 内 容 描 述 Meta 网 页 元 信 息 url,host,type 等 Content 网 页 抽 取 出 的 结 构 化 信 息 标 题, 价 格 等 Outllinks 网 页 的 外 链 信 息 页 面 的 url 链 接 Algorithm 算 法 结 果 分 类, 权 重 等 History 历 叱 信 息 多 版 本 历 叱 价 格, 销 量 等 Trace 网 页 处 理 的 trace 信 息 时 间 点, 错 误 信 息 等 Image 网 页 中 的 图 片 信 息 图 片 url 等 Raw 网 页 原 始 HTML HTML

阿 里 电 商 网 页 库 -I/O 设 计 参 数 名 参 数 值 描 述 Compression Snappy/Gzip Meta,Content 等 CF 访 问 频 繁, 用 Snappy, 速 度 快 Raw CF 访 问 较 少, 用 Gzip, 压 缩 比 高 Block Encoding Diff 0.98 后 采 用 PrefixTree Block Size 64KB-1MB Meta,Content 等 CF 都 有 Get 需 求,Block Size 设 置 较 小 Raw CF 只 有 Scan 的 需 求,Block Size 设 置 较 大 Block Cache InMemory Meta CF 内 容 较 少, 访 问 频 率 较 高,InMerory=True, 减 少 Cache 换 出 概 率 Bloom Filter ROW 所 有 CF 基 本 都 是 Row 级 别 访 问, 无 需 ROWCOL

阿 里 电 商 网 页 库 -Region Split 默 讣 :Constant Size Region Split Policy Split By MaxFileSize of Biggest CF 1000 万 URL 100 万 HTML Meta Content History Raw 定 制 :Constant Family Size Region Split Policy Split By MaxFileSize of Any CF

阿 里 电 商 网 页 库 -Region Merge RegionA RegionB RegionC 发 现 大 量 新 网 页 链 接,Region 逐 渐 变 大 RegionA RegionB RegionC Region 超 过 MaxFileSize,Split RegionA RegionB1 RegionB2 RegionC 发 现 大 量 垃 圾 网 页 链 接 后 删 除 RegionA RegionB1 RegionB2 RegionC 形 成 大 量 Region 碎 片, 效 率 低,MR Merge Job RegionA RegionB1 RegionD

阿 里 电 商 网 页 库 -Coprocessor Trace Coprocessor 当 字 段 值 有 变 化 时 才 进 行 写 入, 有 效 记 录 跟 踪 字 段 变 化 趋 势, 例 如 :History CF, 跟 踪 记 录 商 品 丌 断 变 化 的 历 叱 价 格 Clone Coprocessor 将 put 中 某 个 cf 中 的 column 自 劢 复 制 到 其 他 cf 中, 例 如 : 各 个 cf 中 需 要 追 查 的 字 段 复 制 到 log 多 版 本 cf 中, 方 便 追 查 问 题 Incremental Coprocessor 如 果 put 中 的 column 符 合 某 种 条 件, 则 将 此 put 的 rowkey 推 送 到 特 定 的 hqueue 中, 实 现 增 量 更 新 队 列, 方 便 下 游 增 量 处 理 服 务

阿 里 全 网 商 品 实 时 处 理 流 程 全 网 商 品 搜 索 和 全 网 网 页 搜 索 的 区 别 : 全 网 网 页 搜 索 : 规 模 大, 千 亿 级 别 整 体 时 效 性 要 求 丌 高, 索 引 分 级 构 建 覆 盖 率 即 使 有 短 期 遗 漏, 依 然 可 以 凭 借 庞 大 相 关 网 页 进 行 弥 补 全 网 商 品 搜 索 : 规 模 中 等, 电 商 网 页 库 百 亿 级 别, 有 效 商 品 页 面 几 十 亿 时 效 性 要 求 高, 尤 其 是 价 格 和 库 存 状 态, 一 天 更 新 多 次, 丏 需 及 时 生 效 覆 盖 率 要 求 高, 所 有 站 点 商 品 必 须 全 部 囊 括, 否 则 比 价 将 出 现 缺 陷

阿 里 全 网 商 品 实 时 处 理 流 程 商 品 入 库 更 新 电 商 网 页 库 (HBase) 增 量 触 发 器 Rowkey 增 量 更 新 队 列 (HQueue) Get 商 品 原 始 信 息 Rowkey 商 品 处 理 服 务 (istream) Metrics OpenTSDB (HBase) 搜 索 引 擎 (isearch) 商 品 最 终 信 息 商 品 输 出 队 列 (HQueue) Metrics 优 惠 挖 掘 服 务 (istream) 降 价 提 醒 服 务 (istream)

欢 迎 加 盟 阿 里 搜 索! 微 博 : 淘 莫 问