Microsoft Word - A201210-60_1349949005.doc



Similar documents
untitled

中国科技论文在线中文稿件模板

UDC The Design and Implementation of a Specialized Search Engine Based on Robot Technology 厦门大学博硕士论文摘要库

Microsoft Word - A doc

...1 Abstract

Microsoft Word - 01李惠玲ok.doc

j.sjbm

92

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

Microsoft Word 谢雯雯.doc

Microsoft Word - 专论综述1.doc

%

096STUT DOC

a b

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

Total Internet Connectivity in a Single Chip

Microsoft Word - A doc

科 研 信 息 化 技 术 与 应 用,2015, 6 (1) of identity and the framework of identity management, this paper analyses the development trend of Identity Management

课题调查对象:

标题

<4D F736F F F696E74202D20C8EDBCFEBCDCB9B9CAA6D1D0D0DEBDB2D7F92E707074>

those four kinds of factors are significantly associated with the intention to institutional care of the elderly without ADL disability. However for t

业 务 与 运 营 社 交 网 络 行 为 将 对 网 络 流 量 造 成 较 大 影 响 3) 即 时 通 信 类 业 务 包 括 微 信 QQ 等, 该 类 业 务 属 于 典 型 的 小 数 据 包 业 务, 有 可 能 带 来 较 大 的 信 令 开 呼 叫 建 立 的 时 延 销 即 时

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

Thesis for the Master degree in Engineering Research on Negative Pressure Wave Simulation and Signal Processing of Fluid-Conveying Pipeline Leak Candi

epub 61-2

Microsoft Word doc

实 践 探 讨 高 丽 : 从 少 数 民 族 大 学 生 的 阅 读 需 求 看 民 族 院 校 图 书 馆 的 资 源 建 设 有 区 域 性 和 民 族 性 很 强 的 传 统 学 科 特 色 学 科 及 优 势 学 科, 因 此 图 书 馆 的 资 源 建 设 也 要 顺 应 这 一 特 性

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

2005硕士论文模版

于 水 等 : 多 源 流 理 论 视 角 下 宅 基 地 使 用 权 确 权 政 策 的 议 程 设 置 研 究 基 于 江 苏 省 4 市 的 调 查 83 push forward the confirmation of homestead use right of rural central

目次 

6 : W eb 827 ) [ 5 ] 211, : (1) (2),, (3) 212, [ 6-7 ], B /S,,,, 1 1 Fig11 Design of the system architecture


Microsoft Word - 专论综述1.doc

1 科 学 谋 划, 有 序 促 进 扶 贫 工 作 的 持 续 发 展 1.1 科 学 定 位, 精 准 发 现 地 方 的 需 求 按 照 国 家 生 态 功 能 区 的 划 分, 库 伦 旗 属 重 点 生 态 保 护 开 发 区 这 里 生 态 环 境 优 良 特 色 作 物 资 源 优 势

摘 要 張 捷 明 是 台 灣 當 代 重 要 的 客 語 兒 童 文 學 作 家, 他 的 作 品 記 錄 著 客 家 人 的 思 想 文 化 與 觀 念, 也 曾 榮 獲 多 項 文 學 大 獎 的 肯 定, 對 台 灣 這 塊 土 地 上 的 客 家 人 有 著 深 厚 的 情 感 張 氏 於

. 1 4 Web PAD

Microsoft Word - A doc

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

UDC Empirical Researches on Pricing of Corporate Bonds with Macro Factors 厦门大学博硕士论文摘要库

Microsoft Word - 1-編者的話

~ ~

1 目 錄 1. 簡 介 一 般 甄 試 程 序 第 一 階 段 的 準 備 第 二 階 段 的 準 備 每 間 學 校 的 面 試 方 式 各 程 序 我 的 做 法 心 得 及 筆 記 結 論..

Microsoft Word - A _ doc


标题

南華大學數位論文

Microsoft Word doc

場 的 職 能 需 求 狀 況, 並 能 有 一 套 職 能 管 理 資 訊 系 統 對 各 職 位 進 行 職 能 資 料 管 理 分 析 與 應 用 資 料, 則 對 企 業 人 力 應 用 與 提 昇 上 均 有 極 大 之 助 益, 故 本 研 究 之 主 要 目 的 有 二 : (1) 職

財團法人張思恒文教基金會

经历文艺复兴与启蒙运动洗礼的欧洲 是现代博物馆与考古学的发祥地 二者自从降世 Royal Commission for the 就亲如孪生 血缘密切 1807 年 保护与收藏丹麦古物皇家委员会 Preservation of Antiquities 成立 尼厄鲁普 Rasmus Nyerup 又译作

医学科研方法

案例正文:(幼圆、小三、加粗)(全文段前与段后0

清 华 大 学

( ) [11 13 ] 2 211,,, : (1),, 1990 ( ) ( ),, ; OD, ( ) ( ) ; , ( ), (2) 50 %,, 1999 ( ) ( ) ; (3),,

379 市 分 别 建 立 执 业 药 师 协 会 这 一 目 标 还 有 相 当 一 段 路 要 走 门 户 网 站 作 为 展 示 协 会 建 设 风 采 的 窗 口, 是 搭 建 执 业 药 师 与 群 众 联 系 的 桥 梁 为 群 众 了 解 并 监 督 执 业 药 师 工 作 为 执 业

ITAOI2003第三屆離島資訊與應用研討會論文範例

热设计网

378高雄市都市計畫說明書

% GIS / / Fig. 1 Characteristics of flood disaster variation in suburbs of Shang

Microsoft PowerPoint - Performance Analysis of Video Streaming over LTE using.pptx

穨CY03519.PDF

<4D F736F F D20312D3120D5D0B9C9CBB5C3F7CAE9A3A8C9CFBBE1B8E5A3A92E646F63>

表演藝術團體網站內容分析之研究

Dan Buettner / /



亚临界大容量电站锅炉过热器系统阻力

國立中山大學學位論文典藏.PDF

Tenure-track Tenure-track WTO Peer Effect 46

1 * 1 *

Transcription:

5 10 15 20 25 一 种 针 对 在 线 旅 游 线 路 网 页 判 别 算 法 的 研 究 与 实 现 徐 显 炼, 郭 燕 慧 ( 北 京 邮 电 大 学 信 息 安 全 中 心, 北 京 100876) 摘 要 : 随 着 近 年 来 在 线 旅 游 业 的 快 速 发 展, 在 线 旅 游 搜 索 引 擎 己 经 成 为 当 前 搜 索 引 擎 发 展 的 一 个 热 门 方 向 本 文 重 点 研 究 了 目 前 针 对 某 一 主 题 网 页 的 判 别 方 法, 在 此 基 础 上, 结 合 在 线 旅 游 线 路 网 页 的 特 点, 提 出 了 一 个 针 对 在 线 旅 游 线 路 网 页 的 判 别 算 法, 并 设 计 了 一 个 在 线 旅 游 搜 索 爬 虫 系 统 经 过 实 验 分 析, 此 算 法 能 很 好 地 判 别 网 页 是 否 为 旅 游 线 路 网 页, 平 均 准 确 率 达 到 了 90% 左 右 关 键 词 : 网 页 判 别 算 法 ; 在 线 旅 游 ; 主 题 爬 虫 中 图 分 类 号 :TP391 Research on and Implementation of An Judging Algorithm for Online Travel Page Xu Xianlian, Guo Yanhui (Information Security Center, Beijing University of Posts and Telecommunications, Beijing 100876) Abstract: With the fast development of online travel these years, online travel search engine has become a new growing point in search engine area. According to the characteristics of travel online page, the paper comes up with an online travel page judging algorithm based on the detailed analysis and research on the work people have done about page juding methods. The paper also illustrates how to design a online travel search crawler system. The analysis of test data shows that the judging algorithm of the online travel pages can distinguish the online travel pages well with the average accurancy of 90 percents. Keywords: Page Judging Algorithm; Online Travel; Topic Crawler ** 0 引 言 30 35 40 随 着 Internet 技 术 和 中 国 旅 游 业 的 蓬 勃 发 展, 在 线 旅 游 已 经 受 到 了 越 来 越 多 网 民 的 喜 爱 在 线 旅 游 作 为 一 个 新 的 服 务 业, 以 携 程 网 上 市 为 标 志, 成 型 于 2003 年, 随 着 去 哪 儿 网 驴 妈 妈 网 途 牛 网 等 新 网 站 的 出 现, 正 式 标 志 着 中 国 在 线 旅 游 产 业 新 模 式 的 出 现 根 据 国 家 旅 游 局 预 测, 到 2015 年, 中 国 将 成 为 全 球 最 大 的 国 内 旅 游 市 场 随 着 中 国 旅 游 市 场 的 迅 猛 发 展, 以 主 要 提 供 旅 游 搜 索 旅 游 评 论 和 推 荐 等 服 务 的 在 线 旅 游 网 站 将 会 凸 显 其 巨 大 的 市 场 价 值 根 据 艾 瑞 咨 询 统 计 数 据 显 示,2011 年 中 国 在 线 旅 行 预 订 市 场 交 易 规 模 达 1672.9 亿 元, 较 2010 年 的 1037.4 亿 元 增 长 61.3% 用 户 预 订 行 为 从 线 下 转 向 线 上 的 趋 势 不 可 逆 转, 未 来 5 年 将 释 放 巨 大 的 市 场 潜 力 [1][2] 在 线 旅 游 的 高 速 发 展 使 得 在 线 旅 游 线 路 呈 爆 发 式 增 长, 丰 富 的 旅 游 线 路 给 人 们 出 行 旅 游 带 来 了 方 便 的 同 时 也 增 加 了 查 找 目 标 旅 游 线 路 信 息 的 难 度, 如 果 单 纯 靠 手 工 查 找, 几 乎 无 法 如 此 浩 瀚 的 网 络 海 洋 中 找 到 自 己 需 要 的 旅 游 线 路, 而 传 统 的 搜 索 引 擎 在 搜 集 网 页 过 程 中, 会 返 回 大 量 用 户 不 关 心 的 网 页, 不 但 浪 费 了 大 量 的 存 储 资 源, 降 低 了 索 引 效 率, 而 且 加 重 了 用 户 检 索 和 查 找 的 负 担 如 果 能 专 门 针 对 在 线 旅 游 线 路 进 行 搜 索, 排 除 大 量 的 非 旅 游 线 路 网 页, 就 可 以 大 大 提 高 作 者 简 介 : 徐 显 炼,(1988-), 男, 在 读 硕 士 研 究 生, 信 息 安 全 通 信 联 系 人 : 郭 燕 慧, 女, 副 教 授, 信 息 安 全 E-mail: yhguo@bupt.edu.cn - 1 -

45 检 索 的 效 率 和 精 度, 能 快 速 帮 助 用 户 定 位 到 所 需 的 旅 游 线 路, 因 此 研 究 如 何 判 别 一 个 网 页 是 否 为 在 线 旅 游 线 路 网 页 具 有 重 要 的 实 际 意 义 本 文 首 先 介 绍 了 在 线 旅 游 的 发 展 现 状, 在 对 比 研 究 了 目 前 关 于 判 别 某 类 网 页 或 某 一 主 题 方 法 的 基 础 上, 针 对 目 前 用 户 对 在 线 旅 游 的 搜 索 需 求 和 互 联 网 上 在 线 旅 游 网 站 中 旅 游 线 路 网 页 的 特 点, 提 出 了 一 个 在 线 旅 游 网 页 的 判 别 算 法, 并 设 计 了 一 个 在 线 旅 游 搜 索 爬 虫 系 统, 最 后 对 算 法 的 准 确 性 进 行 了 测 试 1 网 页 判 别 算 法 研 究 现 状 50 55 60 65 70 75 80 关 于 如 何 判 别 网 页 是 否 为 某 种 类 型 网 页 或 者 针 对 某 一 主 题 进 行 抓 取, 前 人 已 经 有 了 很 多 不 错 的 判 别 方 法, 主 要 分 为 以 下 几 类 : 1. 基 于 样 本 集 的 方 法 基 于 样 本 集, 即 预 先 通 过 人 工 的 方 式 选 取 与 某 一 个 特 定 主 题 相 关 的 网 页 集 合, 提 取 特 征 [3] 词, 采 用 向 量 空 间 模 型 (Vector Space Model VSM) 表 示 文 本, 进 行 网 页 类 型 判 别 文 献 中 专 门 针 对 化 学 主 题 的 网 络 爬 虫 就 是 采 用 了 这 种 方 法, 其 核 心 思 想 是 通 过 把 Internet 化 学 资 源 导 航 系 统 所 积 累 的 化 学 知 识 与 搜 索 引 擎 的 自 动 采 集 技 术 结 合 起 来 展 开 对 化 学 主 题 类 的 网 页 进 行 爬 取 该 文 利 用 中 科 院 工 程 研 究 所 建 立 的 ChIN 化 学 资 源 导 航 系 统 中 搜 集 到 的 化 学 相 关 资 源 作 为 化 学 主 题 样 本 网 页 集, 其 中 每 条 资 源 都 建 立 了 反 映 资 源 概 貌 和 特 征 的 简 介 页, 从 中 提 取 特 征 词, 以 向 量 空 间 模 型 来 表 示 文 本 内 容, 在 此 基 础 上 进 行 针 对 化 学 主 题 类 网 页 的 爬 取 该 算 法 的 优 点 在 于 该 网 络 爬 虫 能 有 效 地 采 集 化 学 主 题 相 关 的 网 页, 但 是 缺 点 是 需 要 以 ChIN 化 学 资 源 库 为 基 础, 否 则 就 无 法 进 行 2. 基 于 关 键 字 匹 配 的 方 法 针 对 某 种 类 型 网 页, 做 大 量 的 前 期 研 究 分 析 工 作, 主 要 分 析 关 于 某 类 网 页 的 特 点, 如 网 页 URL 规 律, 网 页 内 容 特 征, 并 总 结 出 关 键 词, 并 合 理 地 设 置 权 值, 然 后 对 已 抓 取 的 网 [4] [5] [5] 页 进 行 分 析 时, 进 行 关 键 字 匹 配 文 献 和 文 献 就 是 采 用 了 此 种 方 法, 其 中 文 献 中 研 究 了 一 种 关 于 分 布 式 视 频 搜 索 爬 虫 系 统, 并 提 出 了 一 种 专 门 针 对 视 频 网 页 的 判 别 算 法 该 爬 虫 系 统 以 国 内 互 联 网 上 的 视 频 分 享 型 网 站 内 容 作 为 自 动 采 集 对 象, 它 的 核 心 在 于 能 否 正 确 判 断 一 个 网 页 是 否 为 视 频 网 页 作 者 通 过 对 视 频 网 页 的 特 点 进 行 统 计 分 析 发 现, 视 频 网 页 同 其 他 非 视 频 网 页 有 着 较 为 明 显 的 特 征, 主 要 针 对 视 频 分 享 型 网 站 和 普 通 类 网 站 提 出 了 不 同 的 判 别 方 法 经 过 对 网 络 上 视 频 网 站 的 视 频 网 页 URL 地 址 的 分 析 发 现 : 部 分 视 频 网 站, 如 优 酷 土 豆 等, 其 站 内 含 视 频 网 页 的 URL 有 较 明 显 的 规 律 可 循 通 过 这 些 规 律, 对 网 页 的 URL 进 行 匹 配 就 可 以 十 分 简 单 的 判 断 网 页 是 否 包 含 视 频 对 于 那 些 结 构 不 完 善, 没 有 良 好 的 定 义 的 普 通 型 网 站, 可 以 通 过 对 网 页 的 内 容 进 行 分 析, 主 要 包 括 以 下 因 素 : 出 现 了 播 放 器 的 名 称 title 中 出 现 了 视 频 两 字 出 现 了 视 频 格 式 控 制 代 码 中 包 含.load() 等 对 以 上 因 素 设 置 不 同 的 权 值, 当 权 值 之 和 大 于 某 一 个 阈 值 时, 就 认 为 该 网 页 包 含 视 频 该 算 法 的 优 点 在 于 能 够 很 好 的 判 断 一 个 网 页 是 否 包 含 视 频, 准 确 率 能 达 到 80% 左 右 但 是 也 有 很 多 缺 点, 主 要 为 : 基 于 URL 规 则 的 视 频 网 页 判 断 方 法 由 于 和 网 站 的 结 构 结 合 的 过 于 紧 密, 因 此 当 网 站 的 结 构 发 生 改 变 时, 需 要 人 工 的 进 行 调 整, 而 且 该 方 法 需 要 为 每 个 对 应 网 站 进 行 URL 规 则 的 归 纳, 因 此 工 作 量 较 大 而 对 普 通 型 网 页 而 言, 由 于 需 要 结 合 网 页 内 容, 所 以 判 别 速 度 较 慢, 而 且 由 于 判 别 视 频 网 页 的 因 素 较 少, 导 致 了 正 确 率 一 般 针 对 目 前 用 户 对 在 线 旅 游 搜 索 需 求 和 互 联 网 上 在 线 旅 游 网 站 中 旅 游 线 路 网 页 的 特 点, 本 文 主 要 借 鉴 了 基 于 关 键 字 匹 配 的 思 想, 提 出 了 一 种 关 于 在 线 旅 游 线 路 网 页 的 判 别 算 法, 这 个 - 2 -

85 [3] 算 法 相 比 文 献 中 的 化 学 主 题 类 爬 虫, 可 以 不 用 预 先 建 立 样 本 库 就 可 以 很 好 地 对 在 线 旅 游 线 路 网 页 进 行 判 别 同 时 在 分 析 大 量 旅 游 线 路 网 页 特 征 的 基 础 上, 得 出 了 16 个 主 要 关 键 字, [5] 并 进 行 合 理 地 赋 以 权 值, 实 验 结 果 表 明, 本 算 法 相 比 文 献 中 判 别 网 页 是 否 为 视 频 网 页 的 算 法 具 有 更 高 的 准 确 性, 具 体 见 4.2 2 在 线 旅 游 线 路 网 页 判 别 算 法 2.1 在 线 旅 游 线 路 网 页 特 点 90 95 100 尽 管 目 前 互 联 网 上 在 线 旅 游 线 路 呈 爆 发 式 增 长, 但 是 通 过 对 大 量 旅 游 线 路 分 析 研 究 发 现, 在 线 旅 游 线 路 网 页 总 体 上 也 可 以 类 似 于 视 频 网 页, 将 其 分 为 两 类 : 在 线 旅 游 度 假 平 台 ( 如 携 程 网, 去 哪 儿 网 等 ) 普 通 旅 行 社 网 站 对 在 线 旅 游 度 假 平 台 的 线 路 进 行 分 析 发 现, 线 路 的 URL 地 址 满 足 一 定 的 规 律, 其 URL [6] 地 址 一 般 由 网 站 的 主 站 域 名 和 一 些 参 数 组 成, 可 以 通 过 编 写 相 应 的 正 则 表 达 式 对 线 路 URL 进 行 匹 配, 如 果 匹 配 成 功, 则 认 为 该 网 页 为 旅 游 线 路 网 页 对 于 普 通 旅 行 社 网 站 而 言, 其 本 身 地 址 是 没 有 什 么 规 律 可 循 的, 所 以 没 有 办 法 使 用 匹 配 [7] URL 的 方 法 进 行 判 别, 但 是 可 以 根 据 旅 游 线 路 网 页 正 文 本 身 的 特 点 进 行 判 别 通 过 对 大 量 旅 游 线 路 内 容 进 行 统 计 分 析, 可 以 得 出 在 线 旅 游 线 路 网 页 内 容 一 般 会 呈 现 以 下 特 点 :title 标 签 中 出 现 自 由 行 或 者 日 游, 价 格 / 市 场 价 / 报 价 /, 发 团 日 期 / 出 发 日 期 / 游 玩 日 期 / 发 团 时 间, 行 程 天 数, 提 前 报 名, 出 发 城 市 / 出 发 地, 目 标 城 市 / 目 的 地, 交 通 方 式 / 往 返 交 通, 线 路 特 色 / 产 品 特 色 / 行 程 特 色 / 特 色 介 绍, 参 考 行 程 / 行 程 描 述 / 行 程 说 明 / 线 路 行 程, 费 用 包 含 / 费 用 不 包 含 / 费 用 说 明, 注 意 事 项 / 预 定 须 知 / 预 订 须 知, 温 馨 提 示 / 重 要 提 示 / 重 要 提 醒, 行 程 备 注 / 线 路 备 注, 签 证 等 字 样 通 过 对 以 上 因 素 设 置 不 同 的 权 值, 当 权 值 之 和 大 于 某 个 阈 值 时, 就 认 为 该 网 页 为 在 线 旅 游 线 路 网 页 2.2 判 别 算 法 105 110 115 120 根 据 线 路 类 型 的 不 同, 将 判 断 方 法 分 为 两 类 : (1) 模 板 类 经 过 对 目 前 网 络 上 在 线 旅 游 网 站 的 线 路 网 页 URL 地 址 的 分 析 可 以 发 现 : 部 分 在 线 旅 游 网 站, 其 站 内 含 旅 游 线 路 网 页 的 URL 有 较 明 显 的 规 律 可 循 通 过 这 些 规 律, 可 以 十 分 简 单 的 判 断 网 页 是 否 为 旅 游 线 路 网 页 如 去 哪 儿 网 旅 游 度 假 频 道 (http://package.qunar.com/), 网 站 中 包 含 线 路 的 网 页 主 要 分 为 三 大 类, 分 别 对 应 普 通 旅 游 线 路 指 定 旅 行 社 旅 游 线 路 和 门 票, 其 网 页 URL 格 式 表 示 如 下 : 1) 普 通 旅 游 线 路 :http://package.qunar.com/detail_ 2) 指 定 旅 行 社 旅 游 线 路 :http://.package.qunar.com/user/detail.jsp?id= 3) 门 票 :http:// package.qunar.com/user/ticket.jsp?id= 对 于 这 一 类 旅 游 线 路 网 页 URL 具 有 统 一 规 则 的 网 站, 将 其 划 分 为 模 板 类 对 于 这 一 类 的 网 页, 通 过 正 则 表 达 式 就 可 以 简 单 快 速 方 便 的 判 断 出 对 应 网 站 内 包 含 的 网 页 是 否 为 旅 游 线 路 网 页 比 如 对 于 去 哪 儿 网, 系 统 可 以 使 用 下 面 定 义 的 正 则 表 达 式 进 行 判 断 : 1 普 通 旅 游 线 路 :http://package.qunar.com/detail_(. +) 2 其 他 旅 游 线 路 :http://(.+).package.qunar.com/user/detail.jsp?id=(.+) 3 门 票 :http://(.+).package.qunar.com/user/ticket.jsp?id=(.+) 如 果 对 去 哪 儿 网 中 某 个 网 页 的 URL 使 用 上 述 的 正 则 表 达 式 匹 配 成 功, 则 认 为 该 网 页 为 - 3 -

125 130 135 140 145 旅 游 线 路 网 页 (2) 通 用 类 由 于 目 前 网 络 中 很 多 在 线 旅 游 网 站 都 是 由 旅 游 社 自 己 研 发, 其 技 术 研 发 能 力 不 够 强, 导 致 网 站 线 路 质 量 比 较 差, 线 路 URL 没 有 什 么 规 律 可 循 因 此 对 于 此 类 旅 游 线 路, 各 个 网 站 之 间 存 在 较 大 的 区 别, 为 了 提 高 对 算 法 的 适 用 性, 也 需 要 将 这 些 网 站 也 纳 入 考 虑 范 围 对 于 这 些 结 构 不 完 善, 没 有 良 好 的 定 义 的 旅 游 网 站, 我 们 将 其 划 分 为 通 用 类, 根 据 旅 游 线 路 网 页 本 身 的 特 点, 为 其 开 发 了 一 个 旅 游 线 路 网 页 判 别 算 法 来 判 别 网 页 是 否 为 旅 游 线 路 首 先 设 定 网 页 可 能 含 有 旅 游 线 路 的 各 种 因 素, 针 对 特 定 网 页, 对 网 页 所 包 含 的 旅 游 信 息 相 关 因 素 设 定 权 值, 并 求 和, 当 超 过 一 定 阈 值 时, 就 认 为 其 为 旅 游 线 路 网 页 具 体 算 法 如 下 : 设 factor(i) 为 网 页 中 为 旅 游 线 路 的 第 i 个 相 关 因 素, 且,l i n,n 为 网 页 为 旅 游 线 路 相 关 因 素 的 总 数 设 Wx(factor(i)) 为 网 页 X 中 factor(i) 的 权 重 值, 为 了 更 加 精 确 合 理 地 统 计 出 以 上 各 因 素 对 判 别 网 页 是 否 为 在 线 旅 游 网 页 的 权 值, 本 文 从 20 个 没 有 编 写 专 有 模 板 的 在 线 旅 游 网 站 随 机 选 取 2000 个 网 页, 统 计 出 各 因 素 出 现 的 次 数, 值 如 表 2.1 所 示, 可 以 发 现, 各 因 素 的 出 现 次 数 是 不 一 样 的, 而 且 有 很 大 的 区 别, 因 此 可 以 根 据 出 现 的 次 数, 同 时 对 比 分 析 非 旅 游 线 路 网 页 内 容, 来 衡 量 该 因 素 对 判 别 是 否 为 旅 游 线 路 网 页 权 值 的 大 小 则, 对 于 特 定 网 页 X, 可 通 过 公 式 2.1 得 到 对 应 相 关 元 素 的 Wx(factor(i)) 值 0 若 X 中 不 包 含 因 素 factor(i) Wx(factor(i))= (2.1) wti 若 X 中 包 含 因 素 factor(i) 其 中,wt i 为 预 先 设 定 的 因 素 的 factor(i) 的 权 重 值 本 系 统 设 定 的 wt i 值 如 表 2.1 所 示, 当 然,wt i 可 以 根 据 实 际 情 况 调 节 到 最 佳 状 态 表 2.1 各 相 关 因 素 出 现 次 数 及 权 值 设 定 表 Tab2.1 The times and weights of relative factors 编 号 因 素 出 现 次 数 权 值 1 标 题 / 线 路 名 称 550 0.3 2 title 标 签 中 出 现 自 由 行 或 者 日 游 1042 0.5 3 价 格 / 市 场 价 / 报 价 / 1650 0.2 4 发 团 日 期 / 出 发 日 期 / 游 玩 日 期 / 发 团 时 间 1443 0.7 5 行 程 天 数 516 0.3 6 提 前 报 名 382 0.2 7 出 发 城 市 / 出 发 地 422 0.2 8 目 标 城 市 / 目 的 地 486 0.2 9 交 通 方 式 / 往 返 交 通 246 0.2 10 线 路 特 色 / 产 品 特 色 / 行 程 特 色 / 特 色 介 绍 686 0.3 11 参 考 行 程 / 行 程 描 述 / 行 程 说 明 / 线 路 行 程 688 0.7 12 费 用 包 含 / 费 用 不 包 含 / 费 用 说 明 624 0.3 13 注 意 事 项 / 预 定 须 知 / 预 订 须 知 374 0.2 14 温 馨 提 示 / 重 要 提 示 / 重 要 提 醒 286 0.2 15 行 程 备 注 / 线 路 备 注 256 0.2 16 签 证 104 0.1 对 于 特 定 网 页 X, 若 通 过 公 式 2.1 计 算 得 到 的 权 值 之 和 形 大 于 阀 值 1, 则 认 为 网 页 X 为 旅 游 线 路 网 页 ; 反 之, 则 认 为 网 页 X 不 是 旅 游 线 路 网 页 - 4 -

150 155 160 n W = i= 1 w x( factor ( i)) (2.2) 通 用 类 旅 游 线 路 判 断 算 法 不 仅 可 以 用 于 那 些 结 构 较 差 的 网 站, 而 且 对 于 模 板 类 网 站 也 能 够 很 好 的 进 行 判 断, 但 由 于 本 算 法 需 要 利 用 网 页 代 码 中 的 信 息 [8], 因 此 对 于 动 态 网 页 无 法 进 行 判 别 在 后 续 章 节 中, 论 文 对 这 两 种 算 法 进 行 的 准 确 性 测 试 进 行 了 描 述, 实 验 结 果 表 明 这 两 种 算 法 都 能 够 很 好 的 判 断 一 个 网 页 是 否 为 旅 游 线 路 网 站 基 于 URL 规 则 的 旅 游 线 路 网 页 判 断 方 法 相 对 而 言 更 加 的 简 单, 方 便, 而 且 判 断 速 度 更 快, 准 确 率 更 高 和 判 断 网 页 是 否 包 含 视 频 一 样, 缺 点 也 在 于 其 和 网 站 的 结 构 结 合 的 过 于 紧 密, 因 此 当 网 站 的 结 构 发 生 改 变 时, 需 要 人 工 的 进 行 调 整, 而 且 该 方 法 需 要 为 每 个 对 应 网 站 进 行 URL 规 则 的 归 纳, 因 此 工 作 量 较 大 而 通 用 类 旅 游 线 路 网 页 判 断 算 法, 虽 然 判 断 速 度 较 慢, 准 确 率 也 不 如 基 于 URL 规 则 的 旅 游 线 路 网 页 判 断 方 法, 但 其 通 用 更 强 而 且 算 法 在 分 析 了 在 线 旅 游 线 路 的 特 点 基 础 上, 合 理 地 设 置 了 权 值, 其 准 确 性 已 经 达 到 了 90% 以 上 3 在 线 旅 游 搜 索 爬 虫 系 统 的 设 计 3.1 系 统 总 体 架 构 165 整 个 在 线 旅 游 搜 索 爬 虫 系 统 为 主 从 (Master/Slave) 分 布 式 结 构 [9], 其 总 体 架 构 如 图 3.1 所 示 : 图 3.1 系 统 总 体 架 构 图 Fig3.1 The conceptual architecture diagram of the system 170 175 本 爬 虫 系 统 主 要 分 为 四 个 部 分 : 管 理 平 台 中 心 控 制 节 点 爬 取 节 点 和 索 引 检 索 节 点 管 理 平 台 主 要 负 责 整 个 系 统 的 监 控 和 参 数 的 配 置 ; 中 心 控 制 节 点 主 要 功 能 是 负 责 系 统 调 度 管 理, 协 调 爬 取 节 点 工 作 ; 爬 取 节 点 的 主 要 功 能 是 负 责 实 际 的 网 络 爬 行, 结 合 提 出 的 旅 游 线 路 判 别 算 法 抓 取 网 页, 并 抽 取 在 网 页 中 包 含 的 旅 游 信 息, 如 线 路 标 题 价 格 等 ; 索 引 和 查 询 节 点 的 主 要 功 能 是 接 收 采 集 的 在 线 旅 游 线 路 信 息, 并 根 据 线 路 标 题 对 其 建 立 索 引 3.2 各 个 模 块 主 要 功 能 及 概 要 设 计 1 管 理 平 台 管 理 平 台 主 要 是 提 供 一 个 供 管 理 员 管 理 爬 取 节 点 的 管 理 平 台, 主 要 功 能 有 : (1) 爬 取 节 点 状 态 监 控 模 块 : 对 当 前 正 在 运 行 的 爬 取 节 点 的 个 数 及 运 行 状 态 ( 如 CPU 和 内 存 利 用 率, 运 行 时 间, 已 爬 取 的 网 页 数, 己 爬 取 的 旅 游 线 路 数, 待 爬 取 的 网 页 数 等 ) 进 - 5 -

180 185 190 195 200 205 行 观 察 (2) 爬 取 节 点 参 数 配 置 模 块 : 主 要 负 责 根 据 从 爬 取 节 点 运 行 状 态 监 控 模 块 获 得 的 爬 取 节 点 的 运 行 状 态 信 息 对 爬 取 节 点 的 配 置 参 数 ( 包 括 下 载 解 析 的 线 程 数,URL 管 理 的 线 程 数, 各 个 缓 冲 区 的 大 小 等 ) 进 行 调 整, 使 系 统 达 到 较 好 的 性 能 同 时 还 负 责 爬 取 节 点 的 添 加 删 除 操 作 2 中 心 控 制 节 点 中 心 控 制 节 点 的 主 要 功 能 有 : 添 加 和 删 除 爬 取 节 点 ; 为 爬 取 节 点 分 配 任 务, 协 调 爬 取 节 点 工 作 (1) 在 线 旅 游 网 站 识 别 模 块 : 用 于 发 现 新 的 在 线 旅 游 网 站, 在 本 系 统 中 主 要 是 通 过 人 工 添 加 的 方 式 来 发 现 在 线 旅 游 网 站 该 模 块 中 主 要 维 护 了 一 张 用 于 存 储 在 线 旅 游 网 站 信 息 列 表, 供 爬 取 任 务 分 配 模 块 使 用 (2) 爬 取 任 务 分 配 模 块 : 接 收 从 在 线 旅 游 网 站 识 别 模 块 得 到 的 在 线 旅 游 网 站 列 表 和 爬 取 节 点 返 回 的 爬 取 状 态 信 息, 并 根 据 任 务 分 配 策 略 为 爬 取 节 点 分 配 爬 取 任 务 (3) 通 信 模 块 : 负 责 中 心 控 制 节 点 与 爬 取 节 点 之 间 的 通 信 3 爬 取 节 点 (1) 爬 行 网 页 : 爬 取 节 点 首 先 从 初 始 的 网 站 起 始 地 址 开 始 爬 行, 根 据 本 文 提 出 的 在 线 旅 游 线 路 判 别 算 法 对 采 集 到 的 网 页 进 行 判 别, 如 果 其 是 旅 游 线 路 网 页, 则 提 取 线 路 的 信 息 ( 如 线 路 标 题, 价 格 等 ), 同 时 从 中 抽 取 出 该 网 页 的 所 有 链 接, 然 后 对 提 取 出 的 链 接 进 行 去 重, 之 后 放 入 待 爬 行 URL 列 表 中 等 待 爬 取 (2) 定 期 对 已 下 载 网 页 进 行 更 新 : 爬 取 节 点 还 需 要 定 期 对 己 爬 行 的 网 页 进 行 更 新, 判 断 网 页 是 否 已 经 改 变 或 消 失 (3) 维 持 心 跳 : 爬 取 节 点 需 要 周 期 性 的 向 中 心 控 制 节 点 发 送 心 跳 信 息, 使 控 制 节 点 能 及 时 的 了 解 爬 取 节 点 的 运 行 状 态, 并 通 过 调 整 参 数 的 方 式 对 爬 取 节 点 进 行 控 制 4 索 引 检 索 节 点 索 引 检 索 节 点 的 主 要 功 能 是 从 各 个 爬 取 节 点 收 集 采 集 到 的 信 息. 并 根 据 旅 游 线 路 标 题 建 立 索 引, 为 用 户 提 供 视 频 查 询 服 务 (1) 检 索 模 块 : 提 供 供 用 户 查 询 线 路 接 口 (2) 索 引 模 块 : 能 够 根 据 线 路 标 题 建 立 索 引, 供 用 户 快 速 查 询 线 路 信 息 4 实 验 仿 真 4.1 实 验 仿 真 环 境 210 本 实 验 仿 真 采 用 的 爬 虫 系 统 是 基 于 PC 集 群 的 分 布 式 在 线 旅 游 搜 索 爬 虫 系 统 在 本 次 测 试 中, 使 用 3 台 计 算 机 来 搭 建 实 验 环 境 其 配 置 如 表 所 示 : 215 表 4.1 2 台 计 算 机 的 配 置 表 Tab4.1 The configuration of the three computers 主 机 CPU 内 存 操 作 系 统 PC1 Pentium(R) Dual-Core CPU E5300 @ 2.60GHz( 双 核 ) 2G Windows7 PC2 Intel(R) Core(TM)2 Duo CPU P9500 @ 2.53GHz( 双 核 ) 3G Windows7 PC3 Pentium(R) Dual-Core CPU E5300 @ 2.60GHz( 双 核 ) 2G WindowsXP 其 中 PC1 作 为 爬 虫 系 统 的 中 心 控 制 节 点,PC2 作 为 爬 取 节 点,PC3 作 为 索 引 节 点 - 6 -

4.2 在 线 旅 游 网 页 判 别 算 法 准 确 性 测 试 220 225 230 235 240 在 本 爬 虫 系 统 中 判 断 网 页 是 否 包 含 为 旅 游 线 路 的 方 法 有 两 种, 分 别 通 过 模 版 类 网 站 URL 规 则 和 通 用 类 在 线 旅 游 网 页 判 别 算 法 来 实 现 下 面 分 别 对 这 两 种 方 法 进 行 测 试 : (1) 模 板 类 网 站 URL 规 则 判 别 算 法 准 确 性 测 试 数 据 来 源 : 在 本 爬 虫 系 统 中 对 编 写 了 专 有 模 板 的 网 站, 根 据 网 站 URL 规 则 来 判 断 网 页 是 否 为 旅 游 线 路 网 页, 所 以 使 用 的 测 试 样 本 都 来 自 编 写 了 专 有 模 板 的 网 站 本 次 测 试 中, 一 共 选 取 了 3 个 专 业 的 旅 游 度 假 平 台 作 为 测 试 网 站, 每 组 使 用 爬 虫 系 统 爬 取 3000 个 网 页, 即 当 爬 取 网 页 数 超 过 3000 时, 则 停 止 爬 取, 此 时 统 计 已 爬 取 网 页 中 旅 游 线 路 网 页 数 及 非 旅 游 线 路 网 页 数, 从 而 计 算 出 算 法 的 准 确 率 测 试 结 果 如 表 4.2 所 示 : 表 4.2 网 站 URL 规 则 判 断 测 试 结 果 数 据 表 Tab.4.2 The result of testing the function of identifying the rule of website s URL 网 站 爬 取 的 网 页 数 旅 游 线 路 数 网 页 数 判 断 成 功 率 去 哪 儿 网 3000 3000 100% 携 程 网 3000 3000 100% 途 牛 网 3000 3000 100% 在 一 些 定 义 良 好 的 在 线 旅 游 度 假 平 台 网 站 ( 如 本 次 测 试 的 去 哪 儿 网 携 程 网 和 途 牛 网 ) 中, 同 类 的 旅 游 线 路 具 有 相 类 似 的 URL 结 构, 因 此 根 据 URL 规 则 能 够 很 好 的 判 断 网 页 是 否 为 旅 游 线 路 网 页 具 有 简 单 方 便 速 度 快 及 准 确 率 高 等 特 点 由 于 该 方 法 与 网 站 的 结 构 关 系 密 切, 因 此 一 旦 网 站 结 构 发 生 改 变, 就 需 要 手 工 进 行 调 整, 通 用 性 不 强 (2) 通 用 类 在 线 旅 游 网 页 判 别 算 法 准 确 性 测 试 数 据 来 源 : 因 为 在 本 爬 虫 中, 没 有 编 写 专 有 模 板 网 站 的 网 页 都 使 用 通 用 类 在 线 旅 游 线 路 网 页 判 别 算 法 来 进 行 判 断, 所 以 使 用 的 测 试 样 本 主 要 由 两 类 网 页 组 成 : 没 有 编 写 专 有 模 板 的 在 线 旅 游 网 站 的 网 页 和 非 在 线 旅 游 网 站 的 网 页 在 本 次 测 试 中, 一 共 测 试 了 3 组 数 据, 每 组 随 机 分 配 20 个 在 线 旅 游 网 站 和 5 个 非 在 线 旅 游 网 站 ( 如 新 闻 网 体 育 网 等 ), 每 组 使 用 爬 虫 系 统 爬 取 2000 个 网 页 测 试 结 果 如 表 4.3 所 示 : 表 4.3 在 线 旅 游 网 页 判 断 算 法 测 试 结 果 数 据 表 Tab.4.3 The result of online travel page testing algorithm 网 站 爬 取 的 网 页 数 旅 游 线 路 网 页 数 非 旅 游 线 路 网 页 数 判 断 成 功 率 1 2000 1923 77 92.3% 2 2000 1878 122 87.8% 3 2000 1917 83 91.7% 平 均 2000 1906 94 90.6% 245 250 由 测 试 数 据 可 见, 本 爬 虫 所 采 用 的 算 法 的 成 功 率 在 90% 左 右, 成 功 率 较 高 虽 然 和 模 板 类 中 使 用 的 基 于 URL 规 则 的 判 断 方 法 相 比, 速 度 相 对 较 慢, 准 确 率 较 低, 但 由 于 其 通 用 性 较 强, 因 此 即 使 当 网 站 结 构 发 生 改 变 时, 也 能 够 很 好 的 进 行 旅 游 线 路 网 页 的 判 断 由 于 对 在 线 旅 游 线 路 网 页 的 特 点 进 行 了 大 量 的 统 计 分 析 工 作, 对 各 个 因 素 的 权 值 做 了 合 理 的 判 断, 所 以 相 比 之 前 的 文 献 [3] 中 提 出 的 视 频 判 别 算 法 提 高 了 准 确 率, 由 此 可 见, 本 算 法 对 在 线 旅 游 线 路 网 页 可 以 很 好 地 做 出 判 断 - 7 -

5 结 束 语 255 本 文 提 出 的 在 线 旅 游 线 路 判 别 的 算 法 是 一 种 专 门 针 对 目 前 在 线 旅 游 网 页 的 通 用 方 法, 采 用 了 基 于 关 键 字 匹 配 的 核 心 思 想, 根 据 旅 游 网 页 的 主 要 特 征, 与 其 他 网 页 加 以 区 分 算 法 正 确 性 测 试 数 据 表 明, 该 算 法 是 一 个 很 好 地 判 别 网 页 是 否 为 旅 游 线 路 网 页 的 解 决 方 案 如 何 进 一 步 完 善 算 法 的 判 别 速 度 及 提 高 正 确 率 是 以 后 研 究 的 重 点 [ 参 考 文 献 ] (References) 260 265 [1] 王 海 霞. 我 国 旅 游 电 子 商 务 发 展 分 析 [J]. 中 国 证 券 期 货,2011,19(10):1-4. [2] 陈 璐. 我 国 旅 游 电 子 商 务 的 发 展 现 状 及 对 策 分 析 [J]. 中 国 商 贸,2012,21(2):1-3. [3] 夏 诏 杰, 梁 春 燕, 郭 力. 化 学 主 题 网 络 爬 虫 的 设 计 与 实 现 [D]. 北 京 : 中 国 科 学 院 过 程 工 程 所 多 相 实 验 室, 2006. [4] 闫 亮, 李 先 国. 基 于 网 页 特 征 关 键 字 的 近 似 检 测 算 法 [J]. 科 学 技 术 与 工 程,2009,9(4):919-923. [5] 袁 理 锋. 分 布 式 视 频 搜 索 爬 虫 系 统 的 设 计 与 实 现 [D]. 大 连 : 大 连 理 工 大 学,2009. [6] 罗 刚, 王 振 东. 自 己 动 手 写 网 络 爬 虫 [M]. 北 京 : 清 华 大 学 出 版 社,2010. [7] 欧 阳 佳, 林 丕 源. 基 于 DBSCAN 算 法 的 网 页 正 文 提 取 [J]. 计 算 机 工 程,2011,37(3):2-4 [8] 胡 瑜, 王 立 志. 基 于 HTML 结 构 特 征 的 网 页 信 息 提 取 [J]. 辽 宁 石 油 化 工 大 学 学 报,2009,25(3):1-4 [9] 姚 树 宇, 赵 少 东. 一 种 使 用 分 布 式 技 术 的 搜 索 引 擎 [J]. 计 算 机 应 用 与 软 件,2005,22(10):127-129 - 8 -