5 10 15 20 25 一 种 针 对 在 线 旅 游 线 路 网 页 判 别 算 法 的 研 究 与 实 现 徐 显 炼, 郭 燕 慧 ( 北 京 邮 电 大 学 信 息 安 全 中 心, 北 京 100876) 摘 要 : 随 着 近 年 来 在 线 旅 游 业 的 快 速 发 展, 在 线 旅 游 搜 索 引 擎 己 经 成 为 当 前 搜 索 引 擎 发 展 的 一 个 热 门 方 向 本 文 重 点 研 究 了 目 前 针 对 某 一 主 题 网 页 的 判 别 方 法, 在 此 基 础 上, 结 合 在 线 旅 游 线 路 网 页 的 特 点, 提 出 了 一 个 针 对 在 线 旅 游 线 路 网 页 的 判 别 算 法, 并 设 计 了 一 个 在 线 旅 游 搜 索 爬 虫 系 统 经 过 实 验 分 析, 此 算 法 能 很 好 地 判 别 网 页 是 否 为 旅 游 线 路 网 页, 平 均 准 确 率 达 到 了 90% 左 右 关 键 词 : 网 页 判 别 算 法 ; 在 线 旅 游 ; 主 题 爬 虫 中 图 分 类 号 :TP391 Research on and Implementation of An Judging Algorithm for Online Travel Page Xu Xianlian, Guo Yanhui (Information Security Center, Beijing University of Posts and Telecommunications, Beijing 100876) Abstract: With the fast development of online travel these years, online travel search engine has become a new growing point in search engine area. According to the characteristics of travel online page, the paper comes up with an online travel page judging algorithm based on the detailed analysis and research on the work people have done about page juding methods. The paper also illustrates how to design a online travel search crawler system. The analysis of test data shows that the judging algorithm of the online travel pages can distinguish the online travel pages well with the average accurancy of 90 percents. Keywords: Page Judging Algorithm; Online Travel; Topic Crawler ** 0 引 言 30 35 40 随 着 Internet 技 术 和 中 国 旅 游 业 的 蓬 勃 发 展, 在 线 旅 游 已 经 受 到 了 越 来 越 多 网 民 的 喜 爱 在 线 旅 游 作 为 一 个 新 的 服 务 业, 以 携 程 网 上 市 为 标 志, 成 型 于 2003 年, 随 着 去 哪 儿 网 驴 妈 妈 网 途 牛 网 等 新 网 站 的 出 现, 正 式 标 志 着 中 国 在 线 旅 游 产 业 新 模 式 的 出 现 根 据 国 家 旅 游 局 预 测, 到 2015 年, 中 国 将 成 为 全 球 最 大 的 国 内 旅 游 市 场 随 着 中 国 旅 游 市 场 的 迅 猛 发 展, 以 主 要 提 供 旅 游 搜 索 旅 游 评 论 和 推 荐 等 服 务 的 在 线 旅 游 网 站 将 会 凸 显 其 巨 大 的 市 场 价 值 根 据 艾 瑞 咨 询 统 计 数 据 显 示,2011 年 中 国 在 线 旅 行 预 订 市 场 交 易 规 模 达 1672.9 亿 元, 较 2010 年 的 1037.4 亿 元 增 长 61.3% 用 户 预 订 行 为 从 线 下 转 向 线 上 的 趋 势 不 可 逆 转, 未 来 5 年 将 释 放 巨 大 的 市 场 潜 力 [1][2] 在 线 旅 游 的 高 速 发 展 使 得 在 线 旅 游 线 路 呈 爆 发 式 增 长, 丰 富 的 旅 游 线 路 给 人 们 出 行 旅 游 带 来 了 方 便 的 同 时 也 增 加 了 查 找 目 标 旅 游 线 路 信 息 的 难 度, 如 果 单 纯 靠 手 工 查 找, 几 乎 无 法 如 此 浩 瀚 的 网 络 海 洋 中 找 到 自 己 需 要 的 旅 游 线 路, 而 传 统 的 搜 索 引 擎 在 搜 集 网 页 过 程 中, 会 返 回 大 量 用 户 不 关 心 的 网 页, 不 但 浪 费 了 大 量 的 存 储 资 源, 降 低 了 索 引 效 率, 而 且 加 重 了 用 户 检 索 和 查 找 的 负 担 如 果 能 专 门 针 对 在 线 旅 游 线 路 进 行 搜 索, 排 除 大 量 的 非 旅 游 线 路 网 页, 就 可 以 大 大 提 高 作 者 简 介 : 徐 显 炼,(1988-), 男, 在 读 硕 士 研 究 生, 信 息 安 全 通 信 联 系 人 : 郭 燕 慧, 女, 副 教 授, 信 息 安 全 E-mail: yhguo@bupt.edu.cn - 1 -
45 检 索 的 效 率 和 精 度, 能 快 速 帮 助 用 户 定 位 到 所 需 的 旅 游 线 路, 因 此 研 究 如 何 判 别 一 个 网 页 是 否 为 在 线 旅 游 线 路 网 页 具 有 重 要 的 实 际 意 义 本 文 首 先 介 绍 了 在 线 旅 游 的 发 展 现 状, 在 对 比 研 究 了 目 前 关 于 判 别 某 类 网 页 或 某 一 主 题 方 法 的 基 础 上, 针 对 目 前 用 户 对 在 线 旅 游 的 搜 索 需 求 和 互 联 网 上 在 线 旅 游 网 站 中 旅 游 线 路 网 页 的 特 点, 提 出 了 一 个 在 线 旅 游 网 页 的 判 别 算 法, 并 设 计 了 一 个 在 线 旅 游 搜 索 爬 虫 系 统, 最 后 对 算 法 的 准 确 性 进 行 了 测 试 1 网 页 判 别 算 法 研 究 现 状 50 55 60 65 70 75 80 关 于 如 何 判 别 网 页 是 否 为 某 种 类 型 网 页 或 者 针 对 某 一 主 题 进 行 抓 取, 前 人 已 经 有 了 很 多 不 错 的 判 别 方 法, 主 要 分 为 以 下 几 类 : 1. 基 于 样 本 集 的 方 法 基 于 样 本 集, 即 预 先 通 过 人 工 的 方 式 选 取 与 某 一 个 特 定 主 题 相 关 的 网 页 集 合, 提 取 特 征 [3] 词, 采 用 向 量 空 间 模 型 (Vector Space Model VSM) 表 示 文 本, 进 行 网 页 类 型 判 别 文 献 中 专 门 针 对 化 学 主 题 的 网 络 爬 虫 就 是 采 用 了 这 种 方 法, 其 核 心 思 想 是 通 过 把 Internet 化 学 资 源 导 航 系 统 所 积 累 的 化 学 知 识 与 搜 索 引 擎 的 自 动 采 集 技 术 结 合 起 来 展 开 对 化 学 主 题 类 的 网 页 进 行 爬 取 该 文 利 用 中 科 院 工 程 研 究 所 建 立 的 ChIN 化 学 资 源 导 航 系 统 中 搜 集 到 的 化 学 相 关 资 源 作 为 化 学 主 题 样 本 网 页 集, 其 中 每 条 资 源 都 建 立 了 反 映 资 源 概 貌 和 特 征 的 简 介 页, 从 中 提 取 特 征 词, 以 向 量 空 间 模 型 来 表 示 文 本 内 容, 在 此 基 础 上 进 行 针 对 化 学 主 题 类 网 页 的 爬 取 该 算 法 的 优 点 在 于 该 网 络 爬 虫 能 有 效 地 采 集 化 学 主 题 相 关 的 网 页, 但 是 缺 点 是 需 要 以 ChIN 化 学 资 源 库 为 基 础, 否 则 就 无 法 进 行 2. 基 于 关 键 字 匹 配 的 方 法 针 对 某 种 类 型 网 页, 做 大 量 的 前 期 研 究 分 析 工 作, 主 要 分 析 关 于 某 类 网 页 的 特 点, 如 网 页 URL 规 律, 网 页 内 容 特 征, 并 总 结 出 关 键 词, 并 合 理 地 设 置 权 值, 然 后 对 已 抓 取 的 网 [4] [5] [5] 页 进 行 分 析 时, 进 行 关 键 字 匹 配 文 献 和 文 献 就 是 采 用 了 此 种 方 法, 其 中 文 献 中 研 究 了 一 种 关 于 分 布 式 视 频 搜 索 爬 虫 系 统, 并 提 出 了 一 种 专 门 针 对 视 频 网 页 的 判 别 算 法 该 爬 虫 系 统 以 国 内 互 联 网 上 的 视 频 分 享 型 网 站 内 容 作 为 自 动 采 集 对 象, 它 的 核 心 在 于 能 否 正 确 判 断 一 个 网 页 是 否 为 视 频 网 页 作 者 通 过 对 视 频 网 页 的 特 点 进 行 统 计 分 析 发 现, 视 频 网 页 同 其 他 非 视 频 网 页 有 着 较 为 明 显 的 特 征, 主 要 针 对 视 频 分 享 型 网 站 和 普 通 类 网 站 提 出 了 不 同 的 判 别 方 法 经 过 对 网 络 上 视 频 网 站 的 视 频 网 页 URL 地 址 的 分 析 发 现 : 部 分 视 频 网 站, 如 优 酷 土 豆 等, 其 站 内 含 视 频 网 页 的 URL 有 较 明 显 的 规 律 可 循 通 过 这 些 规 律, 对 网 页 的 URL 进 行 匹 配 就 可 以 十 分 简 单 的 判 断 网 页 是 否 包 含 视 频 对 于 那 些 结 构 不 完 善, 没 有 良 好 的 定 义 的 普 通 型 网 站, 可 以 通 过 对 网 页 的 内 容 进 行 分 析, 主 要 包 括 以 下 因 素 : 出 现 了 播 放 器 的 名 称 title 中 出 现 了 视 频 两 字 出 现 了 视 频 格 式 控 制 代 码 中 包 含.load() 等 对 以 上 因 素 设 置 不 同 的 权 值, 当 权 值 之 和 大 于 某 一 个 阈 值 时, 就 认 为 该 网 页 包 含 视 频 该 算 法 的 优 点 在 于 能 够 很 好 的 判 断 一 个 网 页 是 否 包 含 视 频, 准 确 率 能 达 到 80% 左 右 但 是 也 有 很 多 缺 点, 主 要 为 : 基 于 URL 规 则 的 视 频 网 页 判 断 方 法 由 于 和 网 站 的 结 构 结 合 的 过 于 紧 密, 因 此 当 网 站 的 结 构 发 生 改 变 时, 需 要 人 工 的 进 行 调 整, 而 且 该 方 法 需 要 为 每 个 对 应 网 站 进 行 URL 规 则 的 归 纳, 因 此 工 作 量 较 大 而 对 普 通 型 网 页 而 言, 由 于 需 要 结 合 网 页 内 容, 所 以 判 别 速 度 较 慢, 而 且 由 于 判 别 视 频 网 页 的 因 素 较 少, 导 致 了 正 确 率 一 般 针 对 目 前 用 户 对 在 线 旅 游 搜 索 需 求 和 互 联 网 上 在 线 旅 游 网 站 中 旅 游 线 路 网 页 的 特 点, 本 文 主 要 借 鉴 了 基 于 关 键 字 匹 配 的 思 想, 提 出 了 一 种 关 于 在 线 旅 游 线 路 网 页 的 判 别 算 法, 这 个 - 2 -
85 [3] 算 法 相 比 文 献 中 的 化 学 主 题 类 爬 虫, 可 以 不 用 预 先 建 立 样 本 库 就 可 以 很 好 地 对 在 线 旅 游 线 路 网 页 进 行 判 别 同 时 在 分 析 大 量 旅 游 线 路 网 页 特 征 的 基 础 上, 得 出 了 16 个 主 要 关 键 字, [5] 并 进 行 合 理 地 赋 以 权 值, 实 验 结 果 表 明, 本 算 法 相 比 文 献 中 判 别 网 页 是 否 为 视 频 网 页 的 算 法 具 有 更 高 的 准 确 性, 具 体 见 4.2 2 在 线 旅 游 线 路 网 页 判 别 算 法 2.1 在 线 旅 游 线 路 网 页 特 点 90 95 100 尽 管 目 前 互 联 网 上 在 线 旅 游 线 路 呈 爆 发 式 增 长, 但 是 通 过 对 大 量 旅 游 线 路 分 析 研 究 发 现, 在 线 旅 游 线 路 网 页 总 体 上 也 可 以 类 似 于 视 频 网 页, 将 其 分 为 两 类 : 在 线 旅 游 度 假 平 台 ( 如 携 程 网, 去 哪 儿 网 等 ) 普 通 旅 行 社 网 站 对 在 线 旅 游 度 假 平 台 的 线 路 进 行 分 析 发 现, 线 路 的 URL 地 址 满 足 一 定 的 规 律, 其 URL [6] 地 址 一 般 由 网 站 的 主 站 域 名 和 一 些 参 数 组 成, 可 以 通 过 编 写 相 应 的 正 则 表 达 式 对 线 路 URL 进 行 匹 配, 如 果 匹 配 成 功, 则 认 为 该 网 页 为 旅 游 线 路 网 页 对 于 普 通 旅 行 社 网 站 而 言, 其 本 身 地 址 是 没 有 什 么 规 律 可 循 的, 所 以 没 有 办 法 使 用 匹 配 [7] URL 的 方 法 进 行 判 别, 但 是 可 以 根 据 旅 游 线 路 网 页 正 文 本 身 的 特 点 进 行 判 别 通 过 对 大 量 旅 游 线 路 内 容 进 行 统 计 分 析, 可 以 得 出 在 线 旅 游 线 路 网 页 内 容 一 般 会 呈 现 以 下 特 点 :title 标 签 中 出 现 自 由 行 或 者 日 游, 价 格 / 市 场 价 / 报 价 /, 发 团 日 期 / 出 发 日 期 / 游 玩 日 期 / 发 团 时 间, 行 程 天 数, 提 前 报 名, 出 发 城 市 / 出 发 地, 目 标 城 市 / 目 的 地, 交 通 方 式 / 往 返 交 通, 线 路 特 色 / 产 品 特 色 / 行 程 特 色 / 特 色 介 绍, 参 考 行 程 / 行 程 描 述 / 行 程 说 明 / 线 路 行 程, 费 用 包 含 / 费 用 不 包 含 / 费 用 说 明, 注 意 事 项 / 预 定 须 知 / 预 订 须 知, 温 馨 提 示 / 重 要 提 示 / 重 要 提 醒, 行 程 备 注 / 线 路 备 注, 签 证 等 字 样 通 过 对 以 上 因 素 设 置 不 同 的 权 值, 当 权 值 之 和 大 于 某 个 阈 值 时, 就 认 为 该 网 页 为 在 线 旅 游 线 路 网 页 2.2 判 别 算 法 105 110 115 120 根 据 线 路 类 型 的 不 同, 将 判 断 方 法 分 为 两 类 : (1) 模 板 类 经 过 对 目 前 网 络 上 在 线 旅 游 网 站 的 线 路 网 页 URL 地 址 的 分 析 可 以 发 现 : 部 分 在 线 旅 游 网 站, 其 站 内 含 旅 游 线 路 网 页 的 URL 有 较 明 显 的 规 律 可 循 通 过 这 些 规 律, 可 以 十 分 简 单 的 判 断 网 页 是 否 为 旅 游 线 路 网 页 如 去 哪 儿 网 旅 游 度 假 频 道 (http://package.qunar.com/), 网 站 中 包 含 线 路 的 网 页 主 要 分 为 三 大 类, 分 别 对 应 普 通 旅 游 线 路 指 定 旅 行 社 旅 游 线 路 和 门 票, 其 网 页 URL 格 式 表 示 如 下 : 1) 普 通 旅 游 线 路 :http://package.qunar.com/detail_ 2) 指 定 旅 行 社 旅 游 线 路 :http://.package.qunar.com/user/detail.jsp?id= 3) 门 票 :http:// package.qunar.com/user/ticket.jsp?id= 对 于 这 一 类 旅 游 线 路 网 页 URL 具 有 统 一 规 则 的 网 站, 将 其 划 分 为 模 板 类 对 于 这 一 类 的 网 页, 通 过 正 则 表 达 式 就 可 以 简 单 快 速 方 便 的 判 断 出 对 应 网 站 内 包 含 的 网 页 是 否 为 旅 游 线 路 网 页 比 如 对 于 去 哪 儿 网, 系 统 可 以 使 用 下 面 定 义 的 正 则 表 达 式 进 行 判 断 : 1 普 通 旅 游 线 路 :http://package.qunar.com/detail_(. +) 2 其 他 旅 游 线 路 :http://(.+).package.qunar.com/user/detail.jsp?id=(.+) 3 门 票 :http://(.+).package.qunar.com/user/ticket.jsp?id=(.+) 如 果 对 去 哪 儿 网 中 某 个 网 页 的 URL 使 用 上 述 的 正 则 表 达 式 匹 配 成 功, 则 认 为 该 网 页 为 - 3 -
125 130 135 140 145 旅 游 线 路 网 页 (2) 通 用 类 由 于 目 前 网 络 中 很 多 在 线 旅 游 网 站 都 是 由 旅 游 社 自 己 研 发, 其 技 术 研 发 能 力 不 够 强, 导 致 网 站 线 路 质 量 比 较 差, 线 路 URL 没 有 什 么 规 律 可 循 因 此 对 于 此 类 旅 游 线 路, 各 个 网 站 之 间 存 在 较 大 的 区 别, 为 了 提 高 对 算 法 的 适 用 性, 也 需 要 将 这 些 网 站 也 纳 入 考 虑 范 围 对 于 这 些 结 构 不 完 善, 没 有 良 好 的 定 义 的 旅 游 网 站, 我 们 将 其 划 分 为 通 用 类, 根 据 旅 游 线 路 网 页 本 身 的 特 点, 为 其 开 发 了 一 个 旅 游 线 路 网 页 判 别 算 法 来 判 别 网 页 是 否 为 旅 游 线 路 首 先 设 定 网 页 可 能 含 有 旅 游 线 路 的 各 种 因 素, 针 对 特 定 网 页, 对 网 页 所 包 含 的 旅 游 信 息 相 关 因 素 设 定 权 值, 并 求 和, 当 超 过 一 定 阈 值 时, 就 认 为 其 为 旅 游 线 路 网 页 具 体 算 法 如 下 : 设 factor(i) 为 网 页 中 为 旅 游 线 路 的 第 i 个 相 关 因 素, 且,l i n,n 为 网 页 为 旅 游 线 路 相 关 因 素 的 总 数 设 Wx(factor(i)) 为 网 页 X 中 factor(i) 的 权 重 值, 为 了 更 加 精 确 合 理 地 统 计 出 以 上 各 因 素 对 判 别 网 页 是 否 为 在 线 旅 游 网 页 的 权 值, 本 文 从 20 个 没 有 编 写 专 有 模 板 的 在 线 旅 游 网 站 随 机 选 取 2000 个 网 页, 统 计 出 各 因 素 出 现 的 次 数, 值 如 表 2.1 所 示, 可 以 发 现, 各 因 素 的 出 现 次 数 是 不 一 样 的, 而 且 有 很 大 的 区 别, 因 此 可 以 根 据 出 现 的 次 数, 同 时 对 比 分 析 非 旅 游 线 路 网 页 内 容, 来 衡 量 该 因 素 对 判 别 是 否 为 旅 游 线 路 网 页 权 值 的 大 小 则, 对 于 特 定 网 页 X, 可 通 过 公 式 2.1 得 到 对 应 相 关 元 素 的 Wx(factor(i)) 值 0 若 X 中 不 包 含 因 素 factor(i) Wx(factor(i))= (2.1) wti 若 X 中 包 含 因 素 factor(i) 其 中,wt i 为 预 先 设 定 的 因 素 的 factor(i) 的 权 重 值 本 系 统 设 定 的 wt i 值 如 表 2.1 所 示, 当 然,wt i 可 以 根 据 实 际 情 况 调 节 到 最 佳 状 态 表 2.1 各 相 关 因 素 出 现 次 数 及 权 值 设 定 表 Tab2.1 The times and weights of relative factors 编 号 因 素 出 现 次 数 权 值 1 标 题 / 线 路 名 称 550 0.3 2 title 标 签 中 出 现 自 由 行 或 者 日 游 1042 0.5 3 价 格 / 市 场 价 / 报 价 / 1650 0.2 4 发 团 日 期 / 出 发 日 期 / 游 玩 日 期 / 发 团 时 间 1443 0.7 5 行 程 天 数 516 0.3 6 提 前 报 名 382 0.2 7 出 发 城 市 / 出 发 地 422 0.2 8 目 标 城 市 / 目 的 地 486 0.2 9 交 通 方 式 / 往 返 交 通 246 0.2 10 线 路 特 色 / 产 品 特 色 / 行 程 特 色 / 特 色 介 绍 686 0.3 11 参 考 行 程 / 行 程 描 述 / 行 程 说 明 / 线 路 行 程 688 0.7 12 费 用 包 含 / 费 用 不 包 含 / 费 用 说 明 624 0.3 13 注 意 事 项 / 预 定 须 知 / 预 订 须 知 374 0.2 14 温 馨 提 示 / 重 要 提 示 / 重 要 提 醒 286 0.2 15 行 程 备 注 / 线 路 备 注 256 0.2 16 签 证 104 0.1 对 于 特 定 网 页 X, 若 通 过 公 式 2.1 计 算 得 到 的 权 值 之 和 形 大 于 阀 值 1, 则 认 为 网 页 X 为 旅 游 线 路 网 页 ; 反 之, 则 认 为 网 页 X 不 是 旅 游 线 路 网 页 - 4 -
150 155 160 n W = i= 1 w x( factor ( i)) (2.2) 通 用 类 旅 游 线 路 判 断 算 法 不 仅 可 以 用 于 那 些 结 构 较 差 的 网 站, 而 且 对 于 模 板 类 网 站 也 能 够 很 好 的 进 行 判 断, 但 由 于 本 算 法 需 要 利 用 网 页 代 码 中 的 信 息 [8], 因 此 对 于 动 态 网 页 无 法 进 行 判 别 在 后 续 章 节 中, 论 文 对 这 两 种 算 法 进 行 的 准 确 性 测 试 进 行 了 描 述, 实 验 结 果 表 明 这 两 种 算 法 都 能 够 很 好 的 判 断 一 个 网 页 是 否 为 旅 游 线 路 网 站 基 于 URL 规 则 的 旅 游 线 路 网 页 判 断 方 法 相 对 而 言 更 加 的 简 单, 方 便, 而 且 判 断 速 度 更 快, 准 确 率 更 高 和 判 断 网 页 是 否 包 含 视 频 一 样, 缺 点 也 在 于 其 和 网 站 的 结 构 结 合 的 过 于 紧 密, 因 此 当 网 站 的 结 构 发 生 改 变 时, 需 要 人 工 的 进 行 调 整, 而 且 该 方 法 需 要 为 每 个 对 应 网 站 进 行 URL 规 则 的 归 纳, 因 此 工 作 量 较 大 而 通 用 类 旅 游 线 路 网 页 判 断 算 法, 虽 然 判 断 速 度 较 慢, 准 确 率 也 不 如 基 于 URL 规 则 的 旅 游 线 路 网 页 判 断 方 法, 但 其 通 用 更 强 而 且 算 法 在 分 析 了 在 线 旅 游 线 路 的 特 点 基 础 上, 合 理 地 设 置 了 权 值, 其 准 确 性 已 经 达 到 了 90% 以 上 3 在 线 旅 游 搜 索 爬 虫 系 统 的 设 计 3.1 系 统 总 体 架 构 165 整 个 在 线 旅 游 搜 索 爬 虫 系 统 为 主 从 (Master/Slave) 分 布 式 结 构 [9], 其 总 体 架 构 如 图 3.1 所 示 : 图 3.1 系 统 总 体 架 构 图 Fig3.1 The conceptual architecture diagram of the system 170 175 本 爬 虫 系 统 主 要 分 为 四 个 部 分 : 管 理 平 台 中 心 控 制 节 点 爬 取 节 点 和 索 引 检 索 节 点 管 理 平 台 主 要 负 责 整 个 系 统 的 监 控 和 参 数 的 配 置 ; 中 心 控 制 节 点 主 要 功 能 是 负 责 系 统 调 度 管 理, 协 调 爬 取 节 点 工 作 ; 爬 取 节 点 的 主 要 功 能 是 负 责 实 际 的 网 络 爬 行, 结 合 提 出 的 旅 游 线 路 判 别 算 法 抓 取 网 页, 并 抽 取 在 网 页 中 包 含 的 旅 游 信 息, 如 线 路 标 题 价 格 等 ; 索 引 和 查 询 节 点 的 主 要 功 能 是 接 收 采 集 的 在 线 旅 游 线 路 信 息, 并 根 据 线 路 标 题 对 其 建 立 索 引 3.2 各 个 模 块 主 要 功 能 及 概 要 设 计 1 管 理 平 台 管 理 平 台 主 要 是 提 供 一 个 供 管 理 员 管 理 爬 取 节 点 的 管 理 平 台, 主 要 功 能 有 : (1) 爬 取 节 点 状 态 监 控 模 块 : 对 当 前 正 在 运 行 的 爬 取 节 点 的 个 数 及 运 行 状 态 ( 如 CPU 和 内 存 利 用 率, 运 行 时 间, 已 爬 取 的 网 页 数, 己 爬 取 的 旅 游 线 路 数, 待 爬 取 的 网 页 数 等 ) 进 - 5 -
180 185 190 195 200 205 行 观 察 (2) 爬 取 节 点 参 数 配 置 模 块 : 主 要 负 责 根 据 从 爬 取 节 点 运 行 状 态 监 控 模 块 获 得 的 爬 取 节 点 的 运 行 状 态 信 息 对 爬 取 节 点 的 配 置 参 数 ( 包 括 下 载 解 析 的 线 程 数,URL 管 理 的 线 程 数, 各 个 缓 冲 区 的 大 小 等 ) 进 行 调 整, 使 系 统 达 到 较 好 的 性 能 同 时 还 负 责 爬 取 节 点 的 添 加 删 除 操 作 2 中 心 控 制 节 点 中 心 控 制 节 点 的 主 要 功 能 有 : 添 加 和 删 除 爬 取 节 点 ; 为 爬 取 节 点 分 配 任 务, 协 调 爬 取 节 点 工 作 (1) 在 线 旅 游 网 站 识 别 模 块 : 用 于 发 现 新 的 在 线 旅 游 网 站, 在 本 系 统 中 主 要 是 通 过 人 工 添 加 的 方 式 来 发 现 在 线 旅 游 网 站 该 模 块 中 主 要 维 护 了 一 张 用 于 存 储 在 线 旅 游 网 站 信 息 列 表, 供 爬 取 任 务 分 配 模 块 使 用 (2) 爬 取 任 务 分 配 模 块 : 接 收 从 在 线 旅 游 网 站 识 别 模 块 得 到 的 在 线 旅 游 网 站 列 表 和 爬 取 节 点 返 回 的 爬 取 状 态 信 息, 并 根 据 任 务 分 配 策 略 为 爬 取 节 点 分 配 爬 取 任 务 (3) 通 信 模 块 : 负 责 中 心 控 制 节 点 与 爬 取 节 点 之 间 的 通 信 3 爬 取 节 点 (1) 爬 行 网 页 : 爬 取 节 点 首 先 从 初 始 的 网 站 起 始 地 址 开 始 爬 行, 根 据 本 文 提 出 的 在 线 旅 游 线 路 判 别 算 法 对 采 集 到 的 网 页 进 行 判 别, 如 果 其 是 旅 游 线 路 网 页, 则 提 取 线 路 的 信 息 ( 如 线 路 标 题, 价 格 等 ), 同 时 从 中 抽 取 出 该 网 页 的 所 有 链 接, 然 后 对 提 取 出 的 链 接 进 行 去 重, 之 后 放 入 待 爬 行 URL 列 表 中 等 待 爬 取 (2) 定 期 对 已 下 载 网 页 进 行 更 新 : 爬 取 节 点 还 需 要 定 期 对 己 爬 行 的 网 页 进 行 更 新, 判 断 网 页 是 否 已 经 改 变 或 消 失 (3) 维 持 心 跳 : 爬 取 节 点 需 要 周 期 性 的 向 中 心 控 制 节 点 发 送 心 跳 信 息, 使 控 制 节 点 能 及 时 的 了 解 爬 取 节 点 的 运 行 状 态, 并 通 过 调 整 参 数 的 方 式 对 爬 取 节 点 进 行 控 制 4 索 引 检 索 节 点 索 引 检 索 节 点 的 主 要 功 能 是 从 各 个 爬 取 节 点 收 集 采 集 到 的 信 息. 并 根 据 旅 游 线 路 标 题 建 立 索 引, 为 用 户 提 供 视 频 查 询 服 务 (1) 检 索 模 块 : 提 供 供 用 户 查 询 线 路 接 口 (2) 索 引 模 块 : 能 够 根 据 线 路 标 题 建 立 索 引, 供 用 户 快 速 查 询 线 路 信 息 4 实 验 仿 真 4.1 实 验 仿 真 环 境 210 本 实 验 仿 真 采 用 的 爬 虫 系 统 是 基 于 PC 集 群 的 分 布 式 在 线 旅 游 搜 索 爬 虫 系 统 在 本 次 测 试 中, 使 用 3 台 计 算 机 来 搭 建 实 验 环 境 其 配 置 如 表 所 示 : 215 表 4.1 2 台 计 算 机 的 配 置 表 Tab4.1 The configuration of the three computers 主 机 CPU 内 存 操 作 系 统 PC1 Pentium(R) Dual-Core CPU E5300 @ 2.60GHz( 双 核 ) 2G Windows7 PC2 Intel(R) Core(TM)2 Duo CPU P9500 @ 2.53GHz( 双 核 ) 3G Windows7 PC3 Pentium(R) Dual-Core CPU E5300 @ 2.60GHz( 双 核 ) 2G WindowsXP 其 中 PC1 作 为 爬 虫 系 统 的 中 心 控 制 节 点,PC2 作 为 爬 取 节 点,PC3 作 为 索 引 节 点 - 6 -
4.2 在 线 旅 游 网 页 判 别 算 法 准 确 性 测 试 220 225 230 235 240 在 本 爬 虫 系 统 中 判 断 网 页 是 否 包 含 为 旅 游 线 路 的 方 法 有 两 种, 分 别 通 过 模 版 类 网 站 URL 规 则 和 通 用 类 在 线 旅 游 网 页 判 别 算 法 来 实 现 下 面 分 别 对 这 两 种 方 法 进 行 测 试 : (1) 模 板 类 网 站 URL 规 则 判 别 算 法 准 确 性 测 试 数 据 来 源 : 在 本 爬 虫 系 统 中 对 编 写 了 专 有 模 板 的 网 站, 根 据 网 站 URL 规 则 来 判 断 网 页 是 否 为 旅 游 线 路 网 页, 所 以 使 用 的 测 试 样 本 都 来 自 编 写 了 专 有 模 板 的 网 站 本 次 测 试 中, 一 共 选 取 了 3 个 专 业 的 旅 游 度 假 平 台 作 为 测 试 网 站, 每 组 使 用 爬 虫 系 统 爬 取 3000 个 网 页, 即 当 爬 取 网 页 数 超 过 3000 时, 则 停 止 爬 取, 此 时 统 计 已 爬 取 网 页 中 旅 游 线 路 网 页 数 及 非 旅 游 线 路 网 页 数, 从 而 计 算 出 算 法 的 准 确 率 测 试 结 果 如 表 4.2 所 示 : 表 4.2 网 站 URL 规 则 判 断 测 试 结 果 数 据 表 Tab.4.2 The result of testing the function of identifying the rule of website s URL 网 站 爬 取 的 网 页 数 旅 游 线 路 数 网 页 数 判 断 成 功 率 去 哪 儿 网 3000 3000 100% 携 程 网 3000 3000 100% 途 牛 网 3000 3000 100% 在 一 些 定 义 良 好 的 在 线 旅 游 度 假 平 台 网 站 ( 如 本 次 测 试 的 去 哪 儿 网 携 程 网 和 途 牛 网 ) 中, 同 类 的 旅 游 线 路 具 有 相 类 似 的 URL 结 构, 因 此 根 据 URL 规 则 能 够 很 好 的 判 断 网 页 是 否 为 旅 游 线 路 网 页 具 有 简 单 方 便 速 度 快 及 准 确 率 高 等 特 点 由 于 该 方 法 与 网 站 的 结 构 关 系 密 切, 因 此 一 旦 网 站 结 构 发 生 改 变, 就 需 要 手 工 进 行 调 整, 通 用 性 不 强 (2) 通 用 类 在 线 旅 游 网 页 判 别 算 法 准 确 性 测 试 数 据 来 源 : 因 为 在 本 爬 虫 中, 没 有 编 写 专 有 模 板 网 站 的 网 页 都 使 用 通 用 类 在 线 旅 游 线 路 网 页 判 别 算 法 来 进 行 判 断, 所 以 使 用 的 测 试 样 本 主 要 由 两 类 网 页 组 成 : 没 有 编 写 专 有 模 板 的 在 线 旅 游 网 站 的 网 页 和 非 在 线 旅 游 网 站 的 网 页 在 本 次 测 试 中, 一 共 测 试 了 3 组 数 据, 每 组 随 机 分 配 20 个 在 线 旅 游 网 站 和 5 个 非 在 线 旅 游 网 站 ( 如 新 闻 网 体 育 网 等 ), 每 组 使 用 爬 虫 系 统 爬 取 2000 个 网 页 测 试 结 果 如 表 4.3 所 示 : 表 4.3 在 线 旅 游 网 页 判 断 算 法 测 试 结 果 数 据 表 Tab.4.3 The result of online travel page testing algorithm 网 站 爬 取 的 网 页 数 旅 游 线 路 网 页 数 非 旅 游 线 路 网 页 数 判 断 成 功 率 1 2000 1923 77 92.3% 2 2000 1878 122 87.8% 3 2000 1917 83 91.7% 平 均 2000 1906 94 90.6% 245 250 由 测 试 数 据 可 见, 本 爬 虫 所 采 用 的 算 法 的 成 功 率 在 90% 左 右, 成 功 率 较 高 虽 然 和 模 板 类 中 使 用 的 基 于 URL 规 则 的 判 断 方 法 相 比, 速 度 相 对 较 慢, 准 确 率 较 低, 但 由 于 其 通 用 性 较 强, 因 此 即 使 当 网 站 结 构 发 生 改 变 时, 也 能 够 很 好 的 进 行 旅 游 线 路 网 页 的 判 断 由 于 对 在 线 旅 游 线 路 网 页 的 特 点 进 行 了 大 量 的 统 计 分 析 工 作, 对 各 个 因 素 的 权 值 做 了 合 理 的 判 断, 所 以 相 比 之 前 的 文 献 [3] 中 提 出 的 视 频 判 别 算 法 提 高 了 准 确 率, 由 此 可 见, 本 算 法 对 在 线 旅 游 线 路 网 页 可 以 很 好 地 做 出 判 断 - 7 -
5 结 束 语 255 本 文 提 出 的 在 线 旅 游 线 路 判 别 的 算 法 是 一 种 专 门 针 对 目 前 在 线 旅 游 网 页 的 通 用 方 法, 采 用 了 基 于 关 键 字 匹 配 的 核 心 思 想, 根 据 旅 游 网 页 的 主 要 特 征, 与 其 他 网 页 加 以 区 分 算 法 正 确 性 测 试 数 据 表 明, 该 算 法 是 一 个 很 好 地 判 别 网 页 是 否 为 旅 游 线 路 网 页 的 解 决 方 案 如 何 进 一 步 完 善 算 法 的 判 别 速 度 及 提 高 正 确 率 是 以 后 研 究 的 重 点 [ 参 考 文 献 ] (References) 260 265 [1] 王 海 霞. 我 国 旅 游 电 子 商 务 发 展 分 析 [J]. 中 国 证 券 期 货,2011,19(10):1-4. [2] 陈 璐. 我 国 旅 游 电 子 商 务 的 发 展 现 状 及 对 策 分 析 [J]. 中 国 商 贸,2012,21(2):1-3. [3] 夏 诏 杰, 梁 春 燕, 郭 力. 化 学 主 题 网 络 爬 虫 的 设 计 与 实 现 [D]. 北 京 : 中 国 科 学 院 过 程 工 程 所 多 相 实 验 室, 2006. [4] 闫 亮, 李 先 国. 基 于 网 页 特 征 关 键 字 的 近 似 检 测 算 法 [J]. 科 学 技 术 与 工 程,2009,9(4):919-923. [5] 袁 理 锋. 分 布 式 视 频 搜 索 爬 虫 系 统 的 设 计 与 实 现 [D]. 大 连 : 大 连 理 工 大 学,2009. [6] 罗 刚, 王 振 东. 自 己 动 手 写 网 络 爬 虫 [M]. 北 京 : 清 华 大 学 出 版 社,2010. [7] 欧 阳 佳, 林 丕 源. 基 于 DBSCAN 算 法 的 网 页 正 文 提 取 [J]. 计 算 机 工 程,2011,37(3):2-4 [8] 胡 瑜, 王 立 志. 基 于 HTML 结 构 特 征 的 网 页 信 息 提 取 [J]. 辽 宁 石 油 化 工 大 学 学 报,2009,25(3):1-4 [9] 姚 树 宇, 赵 少 东. 一 种 使 用 分 布 式 技 术 的 搜 索 引 擎 [J]. 计 算 机 应 用 与 软 件,2005,22(10):127-129 - 8 -