1 高 速 公 路 大 数 据 处 理 现 状 与 挑 战 杨 仁 怀 1, 郎 川 萍 1, 刘 文 美 1 ( 四 川 交 通 职 业 技 术 学 院 计 算 机 工 程 系, 成 都 611130) 2 ( 四 川 省 交 通 运 输 厅 高 速 公 路 监 控 结 算 中 心, 成 都 610041) 2 摘 要 : 高 速 公 路 在 日 常 的 运 营 过 程 中, 产 生 了 海 量 的 异 构 的 数 据, 即 大 数 据, 这 些 数 据 还 在 快 速 的 增 长. 大 规 模 产 生 的 数 据, 给 数 据 的 存 储 和 分 析 带 来 了 巨 大 的 挑 战, 如 何 科 学 高 效 的 存 储 这 些 大 数 据, 并 能 对 其 进 行 快 捷 的 访 问 和 分 析, 更 好 的 服 务 于 交 通, 是 一 个 迫 在 眉 睫 的 问 题. 首 先 讨 论 了 高 速 公 路 中 大 数 据 的 来 源 以 及 数 据 的 特 点, 然 后 分 析 了 研 究 大 数 据 的 意 义 和 大 数 据 处 理 技 术, 并 分 析 了 这 些 技 术 在 高 速 公 路 大 数 据 中 分 析 中 所 面 临 的 挑 战. 关 键 词 : 高 速 公 路 ; 大 数 据 ; 并 行 数 据 库 ; MapReduce Current Status and Challenges of Highway Bigdata Processing YANG Ren-Huai 1, LANG Chuan-Ping 1, LIU Wen-Mei 2 1 (Department of Computer Engineering, Sichuan Vocational and Technical College of Communications, Chengdu 611130, China) 2 (Sichuan Communication Department, Highway Supervision & Accounts Settlement Center, Chengdu 610041, China) Abstract: Massive Heterogeneous Data, aka, the Big Data is being generated along with Highway daily operation, and the volume increase in fast speed. As a consequence of these massive data, data storage and analyze encoutered big challenges. How to store data in high efficency, approach of easy access and feasibility of data analyzing is an urgent issue to be addressed. This article will investigate the source of big data generated by Highway daily operation and its characteristics. Then this paper discusses the significances of big data research and data processing technologies in industry, also the challenges will be mentioned in detail. Key words: highway; bigdata; parallel database; MapReduce 1 引 言 近 几 年, 高 速 公 路 发 展 迅 速. 截 止 2011 年 底, 我 国 建 成 通 车 的 公 路 总 里 程 为 410 万 公 里, 其 中 高 速 公 路 为 8.49 万 公 里 [1]. 预 计 到 十 二 五 末, 建 成 通 车 的 高 速 公 路 总 里 程 将 达 到 10.8 万 公 里 [1]. 高 速 公 路 在 全 国 公 路 网 中 起 着 极 其 重 要 的 作 用, 有 经 济 大 动 脉 之 称, 能 够 有 力 的 带 动 和 促 进 区 域 经 济 的 发 展, 有 着 良 好 的 经 济 和 社 会 效 益 [2]. 高 速 公 路 的 建 设 目 标 是 构 建 便 捷 安 全 经 济 和 综 合 的 运 输 体 系 [3], 交 通 部 公 路 水 路 交 通 运 输 信 息 化 十 二 五 发 展 规 划 明 确 指 出, 全 面 提 高 交 通 运 输 智 能 化 现 代 化 的 水 平 [3], 在 高 速 公 路 交 通 安 全 应 急 出 行 服 务 市 场 监 管 决 策 支 持 等 方 面 进 行 重 点 建 设 [3]. 这 就 需 要 对 产 生 于 高 速 公 路 中 的 大 数 据 进 行 深 入 的 分 析, 以 便 于 从 这 些 数 据 中 发 现 知 识 [4], 将 高 速 公 路 建 成 智 慧 高 速, 服 务 于 决 策 者, 提 升 高 速 公 路 的 运 营 效 率 和 管 理 水 平, 服 务 于 大 众, 使 得 出 行 更 顺 畅. 本 文 在 第 2 节 中 重 点 介 绍 了 高 速 公 路 中 大 数 据 的 来 源 以 及 这 些 数 据 的 特 点 ; 第 3 节 介 绍 了 现 行 大 数 据 的 处 理 技 术 以 及 大 数 据 在 高 速 公 路 中 的 应 用 ; 第 4 节 归 纳 分 析 了 在 处 理 高 速 公 路 大 数 据 方 面 的 机 遇 与 挑 战 ; 第 5 节 对 全 文 进 行 总 结. 1 收 稿 时 间 :2013-12-31; 收 到 修 改 稿 时 间 :2014-03-12 Special Issue 专 论 综 述 13
计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2014 年 第 23 卷 第 9 期 2 高 速 公 路 中 的 大 数 据 2.1 高 速 公 路 中 的 大 数 据 来 源 高 速 公 路 中 的 大 数 据 主 要 有 以 下 几 个 来 源 : (1) 高 速 公 路 联 网 收 费 软 件 数 据 : 每 一 条 高 速 公 路 上 都 有 数 量 不 等 的 收 费 站, 而 每 一 个 收 费 站 又 有 几 条 甚 至 几 十 条 收 费 车 道, 收 费 车 道 上 运 行 的 收 费 软 件 产 生 了 大 量 的 数 据, 经 过 长 时 间 的 累 积, 数 据 量 非 常 庞 大. (2) 应 用 系 统 数 据 : 高 速 公 路 监 控 结 算 中 心 的 清 分 系 统 12122 呼 叫 系 统 各 个 收 费 站 和 各 路 公 司 运 行 的 稽 核 软 件 收 费 站 管 理 软 件 和 复 合 卡 动 态 管 理 软 件 等 也 在 累 积 大 量 数 据. (3) 传 感 器 数 据 [4] : 遍 布 在 高 速 公 路 上 路 感 线 圈 标 识 站 以 及 收 费 站 出 入 口 的 RFID 传 感 器, 不 断 的 对 过 往 车 辆 进 行 感 知, 持 续 生 成 数 据. (4) 视 频 监 控 系 统 的 数 据 : 高 速 公 路 两 侧 隧 道 中 以 及 收 费 站 的 视 频 监 控 探 头, 特 别 是 高 清 探 头 产 生 了 大 量 的 视 频 数 据. 国 家 经 济 快 速 发 展, 人 们 生 活 水 平 不 断 提 高, 购 买 私 家 车 的 家 庭 越 来 越 多, 近 几 年 快 递 业 也 在 不 断 发 展 壮 大, 这 些 都 促 使 汽 车 保 有 量 不 断 增 长. 同 时, 高 速 公 路 里 程 也 不 断 增 加, 大 数 据 的 生 成 速 度 也 在 加 快, 需 要 处 理 的 数 据 越 来 越 多. 以 上 的 大 数 据 从 其 内 在 结 构 上 可 以 分 为 结 构 化 数 [5] 据 和 非 结 构 化 数 据 两 大 类. 结 构 化 数 据 主 要 是 高 速 公 路 联 网 收 费 软 件 各 应 用 系 统 产 生 的 数 据, 这 些 数 据 主 要 存 储 在 关 系 数 据 库 中, 如 SQL Server 和 Oracle 中. 没 有 存 放 在 关 系 数 据 库 中 的 数 据 如 视 频 监 控 数 据 图 片 数 据 等 称 为 非 结 构 化 数 据. 据 统 计, 在 整 个 高 速 公 路 网 中, 非 结 构 化 的 数 据 所 占 的 比 重 高 达 80% 以 上, 传 统 的 关 系 数 据 库 处 理 非 结 构 化 数 据 非 常 困 难. 2.2 高 速 公 路 中 大 数 据 的 特 点 高 速 公 路 中 的 大 数 据 满 足 4V 定 义 [6] : 即 规 模 大 (volume) 变 化 多 样 (variety) 价 值 密 度 低 (value) 和 高 速 性 (velocity) [7]. (1) 数 据 规 模 : 以 四 川 高 速 为 例, 每 一 天 高 速 路 网 中, 经 过 收 费 站 的 过 往 车 辆 达 到 了 200 万 辆, 车 辆 经 过 收 费 站 时, 监 控 系 统 都 要 拍 照, 每 张 图 片 大 小 约 为 500k, 每 年 产 生 的 静 态 图 片 大 小 约 为 300T. 四 川 高 速 公 路 联 网 收 费 始 于 2001 年, 加 上 收 费 系 统 各 应 用 系 统 传 感 器 以 及 视 频 监 控 系 统 累 积 的 数 据 早 已 达 到 了 PB 级 以 上, 并 仍 在 持 续 增 长 中. (2) 数 据 多 样 : 高 速 公 路 中 的 数 据 种 类 繁 多. 有 收 费 系 统 各 应 用 系 统 产 生 的 结 构 化 数 据, 视 频 系 统 产 生 的 视 频 数 据, 收 费 站 出 入 口 抓 拍 的 静 态 车 牌 图 片 以 及 传 感 器 等 非 结 构 化 数 据. 此 外 还 有 诸 如 交 通 事 件 交 通 环 境 交 通 管 制 以 及 高 速 公 路 相 关 联 的 其 他 信 息, 如 服 务 区 数 量, 服 务 区 打 开 还 是 关 闭 收 费 站 是 否 正 常 放 行 收 费 车 道 数 量 及 周 边 道 路 是 否 畅 通 等 信 息, 以 及 是 否 有 地 质 灾 害, 天 气 信 息 等 数 据. (3) 数 据 价 值 密 度 : 数 据 量 大, 但 是 有 用 的 数 据 却 较 少. 例 如, 视 频 监 控 系 统 全 天 24 小 时 进 行 监 控, 产 生 了 大 量 的 数 据, 如 发 生 了 交 通 意 外 地 质 灾 害 等, 有 用 的 数 据 只 有 几 秒 钟 或 几 分 钟. 因 此, 对 异 常 数 据 的 检 测 则 可 分 析 出 路 网 的 异 常 状 况. (4) 高 速 性 : 数 据 的 处 理 速 度 要 及 时 高 效. 如 收 费 站 的 收 费 数 据 要 及 时 快 速 的 到 达 结 算 中 心, 某 路 段 发 生 了 交 通 拥 堵, 系 统 要 能 及 时 获 得 这 些 信 息 并 分 析 处 理, 不 能 有 较 长 时 间 的 延 长 [8]. 对 大 数 据 的 分 析 并 不 是 指 简 单 的 生 成 报 表. 传 统 的 数 据 仓 库 技 术 和 各 种 BI 工 具 可 以 舍 弃 不 重 要 的 数 据 建 立 数 据 集 市 能 对 数 据 进 行 分 析 [9], 主 要 进 行 OLAP 分 析 ( 上 卷 下 钻 汇 总 切 片 和 旋 转 等 ) [4], OLAP 分 析 已 经 明 显 不 够 用 了. 同 时 数 据 仓 库 具 有 面 向 主 题 [10] 的 特 性, 这 就 决 定 数 据 仓 库 的 主 题 是 不 易 变 化 的, 这 种 模 式 难 以 分 析 处 理 变 化 的 业 务 环 境. 数 据 仓 库 是 典 型 的 关 系 型 数 据 库 技 术 的 延 伸, 难 以 应 当 对 海 量 的 数 据. 3 大 数 据 处 理 技 术 3.1 大 数 据 研 究 的 意 义 随 着 社 会 的 进 步, 人 们 需 要 对 大 量 累 积 的 数 据 进 行 连 续 的 宏 观 的 分 析, 以 发 现 知 识, 给 人 们 的 决 策 提 供 有 力 的 数 据 支 撑. 在 国 外, ebay 购 物 平 台 每 天 产 生 的 数 据 量 达 到 了 100PB, ebay 使 用 大 数 据 处 理 技 术 对 每 一 条 数 据 进 行 跟 踪 分 析, 以 便 准 确 掌 握 用 户 的 购 物 行 为 [11]. 沃 尔 玛 是 最 早 利 用 大 数 据 的 企 业 之 一, 其 在 大 数 据 方 面 的 投 资, 正 在 逐 渐 产 生 回 报, 如 沃 尔 玛 使 用 大 数 据 技 术 分 析 Source 和 Carlie Brown 两 个 超 市 顾 客 的 购 买 意 向 正 在 向 高 档 产 品 转 移, 并 及 时 调 整 了 两 家 店 的 库 存, 一 举 将 销 售 业 绩 提 升 了 40% [12]. 在 国 内, 阿 里 旗 下 的 淘 14 专 论 综 述 Special Issue
宝 网 每 天 新 增 的 数 据 达 到 了 10TB, 2013 年 的 双 十 一 购 物 节, 淘 宝 支 付 宝 成 交 额 达 到 了 350.19 亿 元 人 民 币, 比 2012 年 增 长 了 159.19 亿 [13], 淘 宝 之 所 以 能 取 得 如 此 好 的 成 绩, 主 要 归 功 用 其 对 历 史 数 据 的 分 析, 特 别 是 用 户 的 消 费 习 惯 搜 索 习 惯 以 及 浏 览 习 惯 等 数 据 所 进 行 的 综 合 分 析 [14]. 国 内 B2C 电 商 京 东 商 城, 凭 借 多 年 以 来 累 积 的 销 售 数 据, 通 过 对 用 户 购 买 行 为 的 分 析, 充 分 的 利 用 和 整 合 了 电 商 和 手 机 生 产 厂 商 的 资 源, 推 出 了 JDPhone 计 划, 既 节 约 了 制 造 成 本, 又 为 用 户 提 供 了 最 佳 体 验 的 产 品, 恰 到 好 处 的 满 足 了 用 户 的 需 求 [15]. 从 上 可 以 知 道 大 数 据 在 电 子 商 务 行 业 已 经 成 功 运 用, 并 取 得 了 良 好 的 效 果, 但 在 交 通 行 业, 大 数 据 技 术 的 应 用 还 需 要 进 一 步 加 强. 通 过 对 高 速 公 路 大 数 据 的 分 析 能 够 全 面 提 高 高 速 公 路 的 智 能 化 现 代 化 的 水 平, 可 以 在 疏 导 交 通, 缓 解 拥 堵 道 路 安 全 预 警 应 对 自 然 灾 害 ( 如 台 风 大 暴 雨 冰 雪 路 面 等 ) 联 网 收 费 结 算 绿 色 出 行, 节 能 减 排 突 发 事 件 应 急 等 等 方 面 发 挥 重 要 的 作 用. 3.2 并 行 数 据 库 并 行 数 据 库 ( 如 Oracle DB2 等 ) 起 源 于 20 世 纪 80 年 代 [9], 以 关 系 的 形 式 存 储 结 构 化 数 据, 都 支 持 标 准 的 SQL, 通 过 SQL 语 言, 并 行 数 据 库 与 外 界 可 以 很 好 的 交 互. 在 过 去 的 30 年 里, 并 行 数 据 库 取 得 了 很 好 的 发 展, 直 到 现 在 其 功 能 也 在 不 断 扩 充 和 增 强. 然 而, 随 着 高 速 公 路 网 越 来 越 大, 其 累 积 的 数 据 已 经 大 大 超 出 了 并 行 数 据 库 的 处 理 能 力, 同 时, 并 行 数 据 库 对 非 结 构 化 数 据 ( 图 片 视 频 ) 支 持 较 差. 并 行 数 据 库 在 大 数 据 面 前 已 经 显 得 力 不 从 心, 最 为 主 要 的 原 因 是 并 行 数 据 库 的 扩 展 性 较 差. 并 行 数 据 库 性 能 扩 展 主 要 通 过 纵 向 扩 展 (scale up) 和 横 向 扩 展 (scale out) 来 实 现. 纵 向 扩 展 (scale up) 是 指 提 升 单 个 节 点 的 硬 件 性 能, 如 增 加 或 更 换 性 能 更 好 的 CPU, 扩 大 内 存 和 硬 盘, 这 种 方 式 并 不 能 无 限 制 的 提 升 单 个 节 点 的 处 理 能 力. 横 向 扩 展 (scale up) 是 指 增 加 计 算 机 节 点 数 量, 形 成 集 群, 将 数 据 库 部 署 到 集 群 上 以 提 升 并 行 数 据 库 的 处 理 能 力. 这 种 方 式 对 单 个 节 点 硬 件 的 要 求 较 为 苛 刻, 如 果 某 一 节 点 的 性 能 较 其 他 节 点 低, 则 会 影 响 这 个 集 群 的 处 理 能 力, 极 端 情 况 下 会 出 现, 集 群 处 理 能 力 还 不 如 单 个 节 点 的 情 况. 如 果 想 要 达 到 规 模 较 大 的 集 群, 代 价 比 较 高 昂. 3.3 云 计 算 云 计 算 是 在 分 布 式 计 算 (Distributed Computing) 并 行 计 算 (Parallel Computing) 和 网 格 计 算 (Grid Computing) 的 基 础 上 发 展 起 来 的 [16], 其 核 心 的 技 术 是 海 量 数 据 的 存 储 以 及 数 据 的 并 行 处 理, 是 一 种 可 行 的 处 理 大 数 据 的 技 术. 云 计 算 的 数 据 存 储 技 术 主 要 有 两 种 : (1)Google 公 司 的 分 布 式 文 件 系 统 GFS(Google File System) [17], 使 用 廉 价 的 服 务 器 搭 建 的 集 群, 具 有 良 好 的 性 能 高 可 用 性 以 及 高 扩 展 性, 但 并 不 开 源 ; (2)Hadoop 的 HDFS(Hadoop Distributed File System) [18], 具 有 和 DFS 相 似 的 功 能, 是 开 源 系 统. 很 多 互 联 网 公 司, 包 括 雅 虎 淘 宝 等 都 使 用 HDFS 技 术 存 储 数 据 [19]. 为 了 能 更 好 的 处 理 大 数 据, 需 要 使 用 特 定 编 程 模 型. MapReduce [20] 是 Google 在 2004 年 提 出 的 用 于 处 理 大 数 据 的 编 程 模 型. MapReduce 简 化 了 分 布 式 编 程 的 复 杂 性, 程 序 员 只 需 要 关 心 程 序 的 逻 辑 实 现, 而 复 杂 的 并 行 处 理 以 及 任 务 调 度 交 由 系 统 完 成. 用 户 在 编 程 时 只 需 要 实 现 Map 函 数 和 Reduce 函 数, Map 函 数 指 定 需 要 处 理 的 数 据 块, Reduce 函 数 则 对 分 块 数 据 进 行 处 理, MapReduce 框 架 自 动 对 数 据 分 块 调 度 并 执 行, 其 执 行 流 程 如 图 1 所 示. Google 通 过 GFS 和 MapReduce 每 天 能 处 理 的 数 据 高 达 20PB [21]. MapReduce 在 数 据 分 析 日 志 分 析 以 及 商 业 智 能 分 析 等 方 面 有 很 好 的 应 用 效 果. 输 入 reduce 任 务 输 出 split0 split1 split2 split3 split4 part0 part1 part2 图 1 MapReduce 并 行 执 行 流 程 4 高 速 公 路 大 数 据 的 机 遇 与 挑 战 4.1 大 数 据 的 存 储 Hadoop 的 HDFS 系 统 虽 然 可 以 用 来 存 储 高 速 公 路 中 的 大 数 据, 但 是 难 以 满 足 其 对 实 时 性 的 要 求. 因 此 需 要 对 高 速 公 路 中 产 生 的 大 数 据 进 行 分 类, 采 用 不 同 的 方 式 进 行 存 储. 实 时 性 要 求 较 高 的 数 据 存 储 到 实 Special Issue 专 论 综 述 15
计 算 机 系 统 应 用 http://www.c-s-a.org.cn 2014 年 第 23 卷 第 9 期 时 数 据 库 中, 实 时 系 统 处 理 后 的 数 据 以 及 其 他 对 实 时 性 要 求 不 高 的 数 据 或 各 业 务 系 统 产 生 的 数 据 采 用 并 行 数 据 仓 库 存 储, 大 量 的 历 史 数 据 和 非 结 构 化 数 据 存 储 到 HDFS 系 统 中. 高 速 公 路 大 数 据 存 储 架 构 如 图 2 所 示. 高 速 公 路 监 控 结 算 中 心 各 应 用 系 统 联 网 收 费 系 统 清 分 系 统 稽 核 系 统 收 费 站 管 理 系 统 Hadoop 云 计 算 系 统 复 合 卡 管 理 动 态 跟 踪 系 统 任 务 调 度 管 理 与 监 控 并 行 数 据 仓 库 系 统 12122 呼 叫 系 统 卡 管 理 系 统 监 控 系 统... 实 时 数 据 库 系 统 慧 高 速 的 规 划, 依 托 大 数 据 处 理 技 术, 将 来 在 交 通 预 案 交 通 状 态 分 析 交 通 事 故 分 析 和 决 策 服 务 等 方 面 将 发 挥 重 要 的 作 用. 5 小 结 高 速 公 路 网 已 经 产 生 了 大 量 的 数 据, 如 何 科 学 存 储 和 分 析 这 些 大 数 据 是 必 须 要 解 决 的 问 题. 本 文 提 出 了 云 平 台 并 行 数 据 仓 库 以 及 实 时 数 据 库 共 同 来 存 储 高 速 公 路 网 产 生 的 数 据, 成 本 低 扩 展 性 高 数 据 处 理 速 度 快, 满 足 了 数 据 处 理 的 实 时 性 又 能 存 储 海 量 的 数 据. 但 大 数 据 在 高 速 公 路 中 的 运 用 还 处 于 初 级 阶 段, 高 速 公 路 收 费 结 算 中 心 和 路 公 司 对 大 数 据 运 用 都 有 着 宏 伟 的 蓝 图, 目 前 大 都 停 留 在 分 析 阶 段, 并 没 有 进 入 实 际 的 运 用. 在 如 何 提 高 数 据 的 存 储 提 高 数 据 的 可 靠 性 以 及 有 效 分 析 利 用 数 据 方 面 还 存 在 着 较 多 的 问 题, 需 要 大 家 去 探 索 解 决. 数 据 接 入 系 统 图 2 高 速 公 路 大 数 据 存 储 架 构 另 外, 高 速 公 路 网 中 的 大 数 据 与 传 统 电 子 商 务 系 统 中 的 大 数 据 有 着 很 大 的 不 同, 具 有 数 据 生 成 速 度 快 等 特 点, 且 要 求 分 析 响 应 及 时. 因 此 需 要 研 究 面 向 高 速 公 路 网 大 数 据 存 储 的 格 式, 从 而 有 利 于 后 续 的 数 据 分 析 和, 是 一 项 艰 巨 的 任 务. 4.2 大 数 据 的 展 现 高 速 公 路 中 的 大 数 据 经 过 分 析 后, 将 会 有 许 多 信 息 呈 现 给 用 户, 这 是 数 据 处 理 的 最 后 一 个 环 节. 如 何 将 信 息 直 观 有 效 的 进 行 呈 现 是 一 项 非 常 有 挑 战 性 的 工 作 [22]. 没 有 好 的 人 机 交 互 界 面 就 不 会 有 好 的 用 户 体 验, 系 统 的 实 用 性 将 大 打 折 扣. 因 此 科 学 的 设 计 人 界 交 互 界 面 是 高 速 公 路 大 数 据 处 理 重 要 的 技 术. 4.3 大 数 据 在 高 速 公 路 中 的 应 用 大 数 据 处 理 技 术 在 高 速 公 路 中 的 应 用 还 处 于 起 步 阶 段. 文 献 [23] 分 析 了 大 数 据 背 景 下 高 速 公 路 收 费 面 临 的 问 题, 讨 论 了 未 来 高 速 公 路 收 费 系 统 的 发 展 趋 势. 文 献 [24] 分 析 了 现 有 高 速 公 路 网 数 据 存 储 模 式 在 抗 风 险 资 源 有 效 利 用 大 数 据 处 理 方 面 均 面 临 着 问 题, 讨 论 了 将 云 计 算 应 用 于 高 速 公 路 中, 可 以 提 高 数 据 可 靠 性 和 存 储 能 力, 增 加 数 据 安 全, 降 低 成 本 方 面, 但 仅 限 于 理 论 讨 论, 尚 未 实 现. 文 献 [25] 介 绍 了 浙 江 省 智 参 考 文 献 1 杨 进 欣. 我 国 加 速 编 织 公 路 网 通 车 总 里 程 将 突 破 410 万 公 里. 新 华 社,2012-12-29. 2 交 通 部 规 划 研 究 院. 国 家 高 速 公 路 网 规 划. http://www.moc.gov.cn/2006/06tongjisj/06jiaotonggh/guojiag h/guojiajt/200608/t20060815_46064.html.[2005-01-13]. 3 中 华 人 民 共 和 国 交 通 部. 公 路 水 路 交 通 运 输 信 息 化 十 二 五 发 展 规 划.http://www.gov.cn/gongbao/content/2011/ content_1992578.htm.[2011-04-27]. 4 覃 雄 派, 王 会 举, 杜 小 勇, 王 珊. 大 数 据 分 析 RDBMS 与 MapReduce 的 竞 争 与 共 生. 软 件 学 报,2011,(9):32 45. 5 宋 亚 奇, 周 国 亮, 朱 永 利. 智 能 电 网 大 数 据 处 理 技 术 现 状 与 挑 战. 电 网 技 术,2013,(4):927 935. 6 Grobelnik M. Big-data computing:creating revolutionary breakthroughs in commerce science and society. http:// videolectures.net/eswc2012_grobelnik_big_data/.[2012-10-02]. 7 孟 小 峰, 慈 祥. 大 数 据 管 理 : 概 念 技 术 与 挑 战. 计 算 机 研 究 与 发 展,2013,(1):146 169. 8 窦 万 春, 江 澄. 大 数 据 应 用 的 技 术 体 系 及 潜 在 问 题. 中 兴 通 讯 技 术,2013(4). 9 王 珊, 王 会 举, 覃 雄 派, 周 烜. 架 构 大 数 据 : 挑 战 现 状 与 展 望. 计 算 机 学 报,2011,(10):1741 1752. 10 Inmon WH. Building the Data Warehouse(3rd). New York: John Wiley and Sons Inc, 2002. 16 专 论 综 述 Special Issue
11 Dealing with data. Science, 2011, 311(6018): 639 806. 12 天 极 网. 沃 尔 玛 等 传 统 企 业 大 数 据 投 资 开 始 产 生 回 报. http://cio.yesky.com/317/34677317.shtml. [2013-04-27]. 13 王 元 卓, 靳 小 龙, 程 学 旗. 网 络 大 数 据 : 挑 战 现 状 与 展 望. 计 算 机 学 报,2013,(6):1125 1138. 14 新 华 网. 双 十 一 电 商 丰 收 阿 里 单 日 销 售 额 超 350.19 亿 元. http://news.xinhuanet.com/fortune/2013-11/12/c_118096396. htm.[2013-11-12] 15 网 易 科 技. 京 东 发 布 JDPhone 计 划 通 过 数 据 挖 掘 定 制 手 机.http://tech.163.com/13/1119/17/9E2F86BF000915BF.ht ml.[2013-11-19]. 16 中 国 云 计 算 网. 什 么 是 云 计 算? http: //www. cloudcomputing-china.cn/article/showarticle.asp?articlei D=1.[2009-02-27]. 17 Ghemawat S, Gobioffh LPT. The Google file system. Proc. of the 19th ACM Symposium on Operating Systems Principles. New York. ACM Press. 2003. 29 43. 18 ApacheHadoop. Hadoop. http://hadoop.apache.org/. [2009-03-06]. 19 陈 全, 邓 倩 妮. 云 计 算 及 其 关 键 技 术. 计 算 机 应 用,2009,(9): 2562 2567. 20 Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Proc. of the 6th Symposium on Operating System Design and Implementation (OSDI04). San Francisco, California, USA. 2004. 137 150. 21 Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. In: Brewer E, Chen P, eds. Proc. of the OSDI. California: USENIX Association. 2004. 137 150. 22 Wong PC, Shen HW, Chen C, et al. Top ten interaction challenges in extreme-scale visual nalytics. Computer Graphics and Applications, 2012, 32(4): 63 67. 23 杜 玉 辉, 蒋 姣 丽. 大 数 据 背 景 : 高 速 公 路 收 费 系 统 数 据 的 现 状 分 析 与 展 望. 电 脑 知 识 与 技 术,2012,(5):3752 3754. 24 高 祥. 高 速 公 路 新 型 数 据 处 理 结 算 中 心 云 计 算 模 式 探 讨. 中 国 交 通 信 息 化,2011,(4):113 117. 25 杨 志 杰. 高 速 公 路 再 掘 金.IT 经 理 世 界.2013(17). Special Issue 专 论 综 述 17