Microsoft Word - A201210-60_1349949005.doc



Similar documents
untitled

中国科技论文在线中文稿件模板

Microsoft Word - A doc

第 02 期 1 医 疗 信 息 现 状 20% EMR Electronic Medical Record HIS HIS [1-2] 张 肖 等 : 基 于 大 数 据 的 医 疗 健 康 创 新 应 用 2 大 数 据 环 境 下 医 疗 数 据 特 征 分 析 PC [3]

电力信息化2013年第1期.indb

UDC The Design and Implementation of a Specialized Search Engine Based on Robot Technology 厦门大学博硕士论文摘要库

Microsoft Word - A doc

...1 Abstract

F4

Microsoft Word - 01李惠玲ok.doc

j.sjbm

92

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

我国高速公路建设管理现状和主要问题

Microsoft Word 谢雯雯.doc

Microsoft Word - 专论综述1.doc

%


096STUT DOC

a b

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

Total Internet Connectivity in a Single Chip

Microsoft Word - A doc

Microsoft Word - A _ doc

科 研 信 息 化 技 术 与 应 用,2015, 6 (1) of identity and the framework of identity management, this paper analyses the development trend of Identity Management

课题调查对象:

科研信息化技术与应用 2015, 6 (6) 联网交换中心 AP 等国内主要互联网运营商实现高 [1] 速互联 截至目前 美国 英国 新加坡 巴西 新西 兰 中国香港等国家和地区的政府机构均开展了宽带 况 在网络出现拥塞时能够快速定位问题 解决故 障 有针对性地提升我们的网络质量 并随着服务 质量的

标题

国有大型能源企业财务风险内部控制研究

<4D F736F F F696E74202D20C8EDBCFEBCDCB9B9CAA6D1D0D0DEBDB2D7F92E707074>

those four kinds of factors are significantly associated with the intention to institutional care of the elderly without ADL disability. However for t

业 务 与 运 营 社 交 网 络 行 为 将 对 网 络 流 量 造 成 较 大 影 响 3) 即 时 通 信 类 业 务 包 括 微 信 QQ 等, 该 类 业 务 属 于 典 型 的 小 数 据 包 业 务, 有 可 能 带 来 较 大 的 信 令 开 呼 叫 建 立 的 时 延 销 即 时

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

Thesis for the Master degree in Engineering Research on Negative Pressure Wave Simulation and Signal Processing of Fluid-Conveying Pipeline Leak Candi

epub 61-2

Microsoft Word doc

实 践 探 讨 高 丽 : 从 少 数 民 族 大 学 生 的 阅 读 需 求 看 民 族 院 校 图 书 馆 的 资 源 建 设 有 区 域 性 和 民 族 性 很 强 的 传 统 学 科 特 色 学 科 及 优 势 学 科, 因 此 图 书 馆 的 资 源 建 设 也 要 顺 应 这 一 特 性

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

2005硕士论文模版

% % 33. 4% 11. 2% 2. 2% 0. 5% M

于 水 等 : 多 源 流 理 论 视 角 下 宅 基 地 使 用 权 确 权 政 策 的 议 程 设 置 研 究 基 于 江 苏 省 4 市 的 调 查 83 push forward the confirmation of homestead use right of rural central

Microsoft Word - A _ doc

目次 

6 : W eb 827 ) [ 5 ] 211, : (1) (2),, (3) 212, [ 6-7 ], B /S,,,, 1 1 Fig11 Design of the system architecture


J /3 1 /3 1 / % 12% 12% 1 http / /news. sina.

Microsoft Word - 专论综述1.doc

1 科 学 谋 划, 有 序 促 进 扶 贫 工 作 的 持 续 发 展 1.1 科 学 定 位, 精 准 发 现 地 方 的 需 求 按 照 国 家 生 态 功 能 区 的 划 分, 库 伦 旗 属 重 点 生 态 保 护 开 发 区 这 里 生 态 环 境 优 良 特 色 作 物 资 源 优 势

摘 要 張 捷 明 是 台 灣 當 代 重 要 的 客 語 兒 童 文 學 作 家, 他 的 作 品 記 錄 著 客 家 人 的 思 想 文 化 與 觀 念, 也 曾 榮 獲 多 項 文 學 大 獎 的 肯 定, 對 台 灣 這 塊 土 地 上 的 客 家 人 有 著 深 厚 的 情 感 張 氏 於

59 1 CSpace 2 CSpace CSpace URL CSpace 1 CSpace URL 2 Lucene 3 ID 4 ID Web 1. 2 CSpace LireSolr 3 LireSolr 3 Web LireSolr ID

. 1 4 Web PAD

Microsoft Word - A doc

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

UDC Empirical Researches on Pricing of Corporate Bonds with Macro Factors 厦门大学博硕士论文摘要库

Microsoft Word - 1-編者的話

~ ~

θ 1 = φ n -n 2 2 n AR n φ i = 0 1 = a t - θ θ m a t-m 3 3 m MA m 1. 2 ρ k = R k /R 0 5 Akaike ρ k 1 AIC = n ln δ 2

1 目 錄 1. 簡 介 一 般 甄 試 程 序 第 一 階 段 的 準 備 第 二 階 段 的 準 備 每 間 學 校 的 面 試 方 式 各 程 序 我 的 做 法 心 得 及 筆 記 結 論..

标题

Microsoft Word - A _ doc


<4D F736F F D D DBACEC0F25FD0A3B6D4B8E55F2DB6FED0A32D2D2DC8A5B5F4CDBCD6D0B5C4BBD8B3B5B7FBBAC52E646F63>

标题

南華大學數位論文

~ 10 2 P Y i t = my i t W Y i t 1000 PY i t Y t i W Y i t t i m Y i t t i 15 ~ 49 1 Y Y Y 15 ~ j j t j t = j P i t i = 15 P n i t n Y

Microsoft Word doc

場 的 職 能 需 求 狀 況, 並 能 有 一 套 職 能 管 理 資 訊 系 統 對 各 職 位 進 行 職 能 資 料 管 理 分 析 與 應 用 資 料, 則 對 企 業 人 力 應 用 與 提 昇 上 均 有 極 大 之 助 益, 故 本 研 究 之 主 要 目 的 有 二 : (1) 職

m 3 m m 84 m m m m m m m

Microsoft Word - KSAE06-S0262.doc

Microsoft Word - netcontr.doc

財團法人張思恒文教基金會

6 1

声 明 本 人 郑 重 声 明 : 此 处 所 提 交 的 硕 士 学 位 论 文 基 于 等 级 工 鉴 定 的 远 程 考 试 系 统 客 户 端 开 发 与 实 现, 是 本 人 在 中 国 科 学 技 术 大 学 攻 读 硕 士 学 位 期 间, 在 导 师 指 导 下 进 行 的 研 究

经历文艺复兴与启蒙运动洗礼的欧洲 是现代博物馆与考古学的发祥地 二者自从降世 Royal Commission for the 就亲如孪生 血缘密切 1807 年 保护与收藏丹麦古物皇家委员会 Preservation of Antiquities 成立 尼厄鲁普 Rasmus Nyerup 又译作

医学科研方法

案例正文:(幼圆、小三、加粗)(全文段前与段后0

清 华 大 学

( ) [11 13 ] 2 211,,, : (1),, 1990 ( ) ( ),, ; OD, ( ) ( ) ; , ( ), (2) 50 %,, 1999 ( ) ( ) ; (3),,

132 包 装 工 程 2016 年 5 月 网 产 品 生 命 周 期 是 否 有 与 传 统 产 品 生 命 周 期 曲 线 相 关 的 类 似 趋 势 旨 在 抛 砖 引 玉, 引 起 大 家 对 相 关 问 题 的 重 视, 并 为 进 一 步 研 究 处 于 不 同 阶 段 的 互 联 网

379 市 分 别 建 立 执 业 药 师 协 会 这 一 目 标 还 有 相 当 一 段 路 要 走 门 户 网 站 作 为 展 示 协 会 建 设 风 采 的 窗 口, 是 搭 建 执 业 药 师 与 群 众 联 系 的 桥 梁 为 群 众 了 解 并 监 督 执 业 药 师 工 作 为 执 业

ITAOI2003第三屆離島資訊與應用研討會論文範例

热设计网

378高雄市都市計畫說明書

% GIS / / Fig. 1 Characteristics of flood disaster variation in suburbs of Shang

Microsoft PowerPoint - Performance Analysis of Video Streaming over LTE using.pptx

穨CY03519.PDF

<4D F736F F D20312D3120D5D0B9C9CBB5C3F7CAE9A3A8C9CFBBE1B8E5A3A92E646F63>

表演藝術團體網站內容分析之研究

Dan Buettner / /

% %



一 区域法治发展的本体论研究 在一个理论体系中,本体论居于逻辑起点的地位,它所要探究的是一定的社会现象赖以存在的 根基 区域法治发展的本体研究亦不例外,它涵盖了区域法治的概念内涵 必要性与可行性 合法性 与合理性 区域法治发展的各种基础 发展模式( 道路) 发展动力( 机制) 等根本性的理论问题,构



亚临界大容量电站锅炉过热器系统阻力

國立中山大學學位論文典藏.PDF

Tenure-track Tenure-track WTO Peer Effect 46

1 * 1 *

2013国际营销科学与信息技术大会(MSIT2013)

Transcription:

5 10 15 20 25 一 种 针 对 在 线 旅 游 线 路 网 页 判 别 算 法 的 研 究 与 实 现 徐 显 炼, 郭 燕 慧 ( 北 京 邮 电 大 学 信 息 安 全 中 心, 北 京 100876) 摘 要 : 随 着 近 年 来 在 线 旅 游 业 的 快 速 发 展, 在 线 旅 游 搜 索 引 擎 己 经 成 为 当 前 搜 索 引 擎 发 展 的 一 个 热 门 方 向 本 文 重 点 研 究 了 目 前 针 对 某 一 主 题 网 页 的 判 别 方 法, 在 此 基 础 上, 结 合 在 线 旅 游 线 路 网 页 的 特 点, 提 出 了 一 个 针 对 在 线 旅 游 线 路 网 页 的 判 别 算 法, 并 设 计 了 一 个 在 线 旅 游 搜 索 爬 虫 系 统 经 过 实 验 分 析, 此 算 法 能 很 好 地 判 别 网 页 是 否 为 旅 游 线 路 网 页, 平 均 准 确 率 达 到 了 90% 左 右 关 键 词 : 网 页 判 别 算 法 ; 在 线 旅 游 ; 主 题 爬 虫 中 图 分 类 号 :TP391 Research on and Implementation of An Judging Algorithm for Online Travel Page Xu Xianlian, Guo Yanhui (Information Security Center, Beijing University of Posts and Telecommunications, Beijing 100876) Abstract: With the fast development of online travel these years, online travel search engine has become a new growing point in search engine area. According to the characteristics of travel online page, the paper comes up with an online travel page judging algorithm based on the detailed analysis and research on the work people have done about page juding methods. The paper also illustrates how to design a online travel search crawler system. The analysis of test data shows that the judging algorithm of the online travel pages can distinguish the online travel pages well with the average accurancy of 90 percents. Keywords: Page Judging Algorithm; Online Travel; Topic Crawler ** 0 引 言 30 35 40 随 着 Internet 技 术 和 中 国 旅 游 业 的 蓬 勃 发 展, 在 线 旅 游 已 经 受 到 了 越 来 越 多 网 民 的 喜 爱 在 线 旅 游 作 为 一 个 新 的 服 务 业, 以 携 程 网 上 市 为 标 志, 成 型 于 2003 年, 随 着 去 哪 儿 网 驴 妈 妈 网 途 牛 网 等 新 网 站 的 出 现, 正 式 标 志 着 中 国 在 线 旅 游 产 业 新 模 式 的 出 现 根 据 国 家 旅 游 局 预 测, 到 2015 年, 中 国 将 成 为 全 球 最 大 的 国 内 旅 游 市 场 随 着 中 国 旅 游 市 场 的 迅 猛 发 展, 以 主 要 提 供 旅 游 搜 索 旅 游 评 论 和 推 荐 等 服 务 的 在 线 旅 游 网 站 将 会 凸 显 其 巨 大 的 市 场 价 值 根 据 艾 瑞 咨 询 统 计 数 据 显 示,2011 年 中 国 在 线 旅 行 预 订 市 场 交 易 规 模 达 1672.9 亿 元, 较 2010 年 的 1037.4 亿 元 增 长 61.3% 用 户 预 订 行 为 从 线 下 转 向 线 上 的 趋 势 不 可 逆 转, 未 来 5 年 将 释 放 巨 大 的 市 场 潜 力 [1][2] 在 线 旅 游 的 高 速 发 展 使 得 在 线 旅 游 线 路 呈 爆 发 式 增 长, 丰 富 的 旅 游 线 路 给 人 们 出 行 旅 游 带 来 了 方 便 的 同 时 也 增 加 了 查 找 目 标 旅 游 线 路 信 息 的 难 度, 如 果 单 纯 靠 手 工 查 找, 几 乎 无 法 如 此 浩 瀚 的 网 络 海 洋 中 找 到 自 己 需 要 的 旅 游 线 路, 而 传 统 的 搜 索 引 擎 在 搜 集 网 页 过 程 中, 会 返 回 大 量 用 户 不 关 心 的 网 页, 不 但 浪 费 了 大 量 的 存 储 资 源, 降 低 了 索 引 效 率, 而 且 加 重 了 用 户 检 索 和 查 找 的 负 担 如 果 能 专 门 针 对 在 线 旅 游 线 路 进 行 搜 索, 排 除 大 量 的 非 旅 游 线 路 网 页, 就 可 以 大 大 提 高 作 者 简 介 : 徐 显 炼,(1988-), 男, 在 读 硕 士 研 究 生, 信 息 安 全 通 信 联 系 人 : 郭 燕 慧, 女, 副 教 授, 信 息 安 全 E-mail: yhguo@bupt.edu.cn - 1 -

45 检 索 的 效 率 和 精 度, 能 快 速 帮 助 用 户 定 位 到 所 需 的 旅 游 线 路, 因 此 研 究 如 何 判 别 一 个 网 页 是 否 为 在 线 旅 游 线 路 网 页 具 有 重 要 的 实 际 意 义 本 文 首 先 介 绍 了 在 线 旅 游 的 发 展 现 状, 在 对 比 研 究 了 目 前 关 于 判 别 某 类 网 页 或 某 一 主 题 方 法 的 基 础 上, 针 对 目 前 用 户 对 在 线 旅 游 的 搜 索 需 求 和 互 联 网 上 在 线 旅 游 网 站 中 旅 游 线 路 网 页 的 特 点, 提 出 了 一 个 在 线 旅 游 网 页 的 判 别 算 法, 并 设 计 了 一 个 在 线 旅 游 搜 索 爬 虫 系 统, 最 后 对 算 法 的 准 确 性 进 行 了 测 试 1 网 页 判 别 算 法 研 究 现 状 50 55 60 65 70 75 80 关 于 如 何 判 别 网 页 是 否 为 某 种 类 型 网 页 或 者 针 对 某 一 主 题 进 行 抓 取, 前 人 已 经 有 了 很 多 不 错 的 判 别 方 法, 主 要 分 为 以 下 几 类 : 1. 基 于 样 本 集 的 方 法 基 于 样 本 集, 即 预 先 通 过 人 工 的 方 式 选 取 与 某 一 个 特 定 主 题 相 关 的 网 页 集 合, 提 取 特 征 [3] 词, 采 用 向 量 空 间 模 型 (Vector Space Model VSM) 表 示 文 本, 进 行 网 页 类 型 判 别 文 献 中 专 门 针 对 化 学 主 题 的 网 络 爬 虫 就 是 采 用 了 这 种 方 法, 其 核 心 思 想 是 通 过 把 Internet 化 学 资 源 导 航 系 统 所 积 累 的 化 学 知 识 与 搜 索 引 擎 的 自 动 采 集 技 术 结 合 起 来 展 开 对 化 学 主 题 类 的 网 页 进 行 爬 取 该 文 利 用 中 科 院 工 程 研 究 所 建 立 的 ChIN 化 学 资 源 导 航 系 统 中 搜 集 到 的 化 学 相 关 资 源 作 为 化 学 主 题 样 本 网 页 集, 其 中 每 条 资 源 都 建 立 了 反 映 资 源 概 貌 和 特 征 的 简 介 页, 从 中 提 取 特 征 词, 以 向 量 空 间 模 型 来 表 示 文 本 内 容, 在 此 基 础 上 进 行 针 对 化 学 主 题 类 网 页 的 爬 取 该 算 法 的 优 点 在 于 该 网 络 爬 虫 能 有 效 地 采 集 化 学 主 题 相 关 的 网 页, 但 是 缺 点 是 需 要 以 ChIN 化 学 资 源 库 为 基 础, 否 则 就 无 法 进 行 2. 基 于 关 键 字 匹 配 的 方 法 针 对 某 种 类 型 网 页, 做 大 量 的 前 期 研 究 分 析 工 作, 主 要 分 析 关 于 某 类 网 页 的 特 点, 如 网 页 URL 规 律, 网 页 内 容 特 征, 并 总 结 出 关 键 词, 并 合 理 地 设 置 权 值, 然 后 对 已 抓 取 的 网 [4] [5] [5] 页 进 行 分 析 时, 进 行 关 键 字 匹 配 文 献 和 文 献 就 是 采 用 了 此 种 方 法, 其 中 文 献 中 研 究 了 一 种 关 于 分 布 式 视 频 搜 索 爬 虫 系 统, 并 提 出 了 一 种 专 门 针 对 视 频 网 页 的 判 别 算 法 该 爬 虫 系 统 以 国 内 互 联 网 上 的 视 频 分 享 型 网 站 内 容 作 为 自 动 采 集 对 象, 它 的 核 心 在 于 能 否 正 确 判 断 一 个 网 页 是 否 为 视 频 网 页 作 者 通 过 对 视 频 网 页 的 特 点 进 行 统 计 分 析 发 现, 视 频 网 页 同 其 他 非 视 频 网 页 有 着 较 为 明 显 的 特 征, 主 要 针 对 视 频 分 享 型 网 站 和 普 通 类 网 站 提 出 了 不 同 的 判 别 方 法 经 过 对 网 络 上 视 频 网 站 的 视 频 网 页 URL 地 址 的 分 析 发 现 : 部 分 视 频 网 站, 如 优 酷 土 豆 等, 其 站 内 含 视 频 网 页 的 URL 有 较 明 显 的 规 律 可 循 通 过 这 些 规 律, 对 网 页 的 URL 进 行 匹 配 就 可 以 十 分 简 单 的 判 断 网 页 是 否 包 含 视 频 对 于 那 些 结 构 不 完 善, 没 有 良 好 的 定 义 的 普 通 型 网 站, 可 以 通 过 对 网 页 的 内 容 进 行 分 析, 主 要 包 括 以 下 因 素 : 出 现 了 播 放 器 的 名 称 title 中 出 现 了 视 频 两 字 出 现 了 视 频 格 式 控 制 代 码 中 包 含.load() 等 对 以 上 因 素 设 置 不 同 的 权 值, 当 权 值 之 和 大 于 某 一 个 阈 值 时, 就 认 为 该 网 页 包 含 视 频 该 算 法 的 优 点 在 于 能 够 很 好 的 判 断 一 个 网 页 是 否 包 含 视 频, 准 确 率 能 达 到 80% 左 右 但 是 也 有 很 多 缺 点, 主 要 为 : 基 于 URL 规 则 的 视 频 网 页 判 断 方 法 由 于 和 网 站 的 结 构 结 合 的 过 于 紧 密, 因 此 当 网 站 的 结 构 发 生 改 变 时, 需 要 人 工 的 进 行 调 整, 而 且 该 方 法 需 要 为 每 个 对 应 网 站 进 行 URL 规 则 的 归 纳, 因 此 工 作 量 较 大 而 对 普 通 型 网 页 而 言, 由 于 需 要 结 合 网 页 内 容, 所 以 判 别 速 度 较 慢, 而 且 由 于 判 别 视 频 网 页 的 因 素 较 少, 导 致 了 正 确 率 一 般 针 对 目 前 用 户 对 在 线 旅 游 搜 索 需 求 和 互 联 网 上 在 线 旅 游 网 站 中 旅 游 线 路 网 页 的 特 点, 本 文 主 要 借 鉴 了 基 于 关 键 字 匹 配 的 思 想, 提 出 了 一 种 关 于 在 线 旅 游 线 路 网 页 的 判 别 算 法, 这 个 - 2 -

85 [3] 算 法 相 比 文 献 中 的 化 学 主 题 类 爬 虫, 可 以 不 用 预 先 建 立 样 本 库 就 可 以 很 好 地 对 在 线 旅 游 线 路 网 页 进 行 判 别 同 时 在 分 析 大 量 旅 游 线 路 网 页 特 征 的 基 础 上, 得 出 了 16 个 主 要 关 键 字, [5] 并 进 行 合 理 地 赋 以 权 值, 实 验 结 果 表 明, 本 算 法 相 比 文 献 中 判 别 网 页 是 否 为 视 频 网 页 的 算 法 具 有 更 高 的 准 确 性, 具 体 见 4.2 2 在 线 旅 游 线 路 网 页 判 别 算 法 2.1 在 线 旅 游 线 路 网 页 特 点 90 95 100 尽 管 目 前 互 联 网 上 在 线 旅 游 线 路 呈 爆 发 式 增 长, 但 是 通 过 对 大 量 旅 游 线 路 分 析 研 究 发 现, 在 线 旅 游 线 路 网 页 总 体 上 也 可 以 类 似 于 视 频 网 页, 将 其 分 为 两 类 : 在 线 旅 游 度 假 平 台 ( 如 携 程 网, 去 哪 儿 网 等 ) 普 通 旅 行 社 网 站 对 在 线 旅 游 度 假 平 台 的 线 路 进 行 分 析 发 现, 线 路 的 URL 地 址 满 足 一 定 的 规 律, 其 URL [6] 地 址 一 般 由 网 站 的 主 站 域 名 和 一 些 参 数 组 成, 可 以 通 过 编 写 相 应 的 正 则 表 达 式 对 线 路 URL 进 行 匹 配, 如 果 匹 配 成 功, 则 认 为 该 网 页 为 旅 游 线 路 网 页 对 于 普 通 旅 行 社 网 站 而 言, 其 本 身 地 址 是 没 有 什 么 规 律 可 循 的, 所 以 没 有 办 法 使 用 匹 配 [7] URL 的 方 法 进 行 判 别, 但 是 可 以 根 据 旅 游 线 路 网 页 正 文 本 身 的 特 点 进 行 判 别 通 过 对 大 量 旅 游 线 路 内 容 进 行 统 计 分 析, 可 以 得 出 在 线 旅 游 线 路 网 页 内 容 一 般 会 呈 现 以 下 特 点 :title 标 签 中 出 现 自 由 行 或 者 日 游, 价 格 / 市 场 价 / 报 价 /, 发 团 日 期 / 出 发 日 期 / 游 玩 日 期 / 发 团 时 间, 行 程 天 数, 提 前 报 名, 出 发 城 市 / 出 发 地, 目 标 城 市 / 目 的 地, 交 通 方 式 / 往 返 交 通, 线 路 特 色 / 产 品 特 色 / 行 程 特 色 / 特 色 介 绍, 参 考 行 程 / 行 程 描 述 / 行 程 说 明 / 线 路 行 程, 费 用 包 含 / 费 用 不 包 含 / 费 用 说 明, 注 意 事 项 / 预 定 须 知 / 预 订 须 知, 温 馨 提 示 / 重 要 提 示 / 重 要 提 醒, 行 程 备 注 / 线 路 备 注, 签 证 等 字 样 通 过 对 以 上 因 素 设 置 不 同 的 权 值, 当 权 值 之 和 大 于 某 个 阈 值 时, 就 认 为 该 网 页 为 在 线 旅 游 线 路 网 页 2.2 判 别 算 法 105 110 115 120 根 据 线 路 类 型 的 不 同, 将 判 断 方 法 分 为 两 类 : (1) 模 板 类 经 过 对 目 前 网 络 上 在 线 旅 游 网 站 的 线 路 网 页 URL 地 址 的 分 析 可 以 发 现 : 部 分 在 线 旅 游 网 站, 其 站 内 含 旅 游 线 路 网 页 的 URL 有 较 明 显 的 规 律 可 循 通 过 这 些 规 律, 可 以 十 分 简 单 的 判 断 网 页 是 否 为 旅 游 线 路 网 页 如 去 哪 儿 网 旅 游 度 假 频 道 (http://package.qunar.com/), 网 站 中 包 含 线 路 的 网 页 主 要 分 为 三 大 类, 分 别 对 应 普 通 旅 游 线 路 指 定 旅 行 社 旅 游 线 路 和 门 票, 其 网 页 URL 格 式 表 示 如 下 : 1) 普 通 旅 游 线 路 :http://package.qunar.com/detail_ 2) 指 定 旅 行 社 旅 游 线 路 :http://.package.qunar.com/user/detail.jsp?id= 3) 门 票 :http:// package.qunar.com/user/ticket.jsp?id= 对 于 这 一 类 旅 游 线 路 网 页 URL 具 有 统 一 规 则 的 网 站, 将 其 划 分 为 模 板 类 对 于 这 一 类 的 网 页, 通 过 正 则 表 达 式 就 可 以 简 单 快 速 方 便 的 判 断 出 对 应 网 站 内 包 含 的 网 页 是 否 为 旅 游 线 路 网 页 比 如 对 于 去 哪 儿 网, 系 统 可 以 使 用 下 面 定 义 的 正 则 表 达 式 进 行 判 断 : 1 普 通 旅 游 线 路 :http://package.qunar.com/detail_(. +) 2 其 他 旅 游 线 路 :http://(.+).package.qunar.com/user/detail.jsp?id=(.+) 3 门 票 :http://(.+).package.qunar.com/user/ticket.jsp?id=(.+) 如 果 对 去 哪 儿 网 中 某 个 网 页 的 URL 使 用 上 述 的 正 则 表 达 式 匹 配 成 功, 则 认 为 该 网 页 为 - 3 -

125 130 135 140 145 旅 游 线 路 网 页 (2) 通 用 类 由 于 目 前 网 络 中 很 多 在 线 旅 游 网 站 都 是 由 旅 游 社 自 己 研 发, 其 技 术 研 发 能 力 不 够 强, 导 致 网 站 线 路 质 量 比 较 差, 线 路 URL 没 有 什 么 规 律 可 循 因 此 对 于 此 类 旅 游 线 路, 各 个 网 站 之 间 存 在 较 大 的 区 别, 为 了 提 高 对 算 法 的 适 用 性, 也 需 要 将 这 些 网 站 也 纳 入 考 虑 范 围 对 于 这 些 结 构 不 完 善, 没 有 良 好 的 定 义 的 旅 游 网 站, 我 们 将 其 划 分 为 通 用 类, 根 据 旅 游 线 路 网 页 本 身 的 特 点, 为 其 开 发 了 一 个 旅 游 线 路 网 页 判 别 算 法 来 判 别 网 页 是 否 为 旅 游 线 路 首 先 设 定 网 页 可 能 含 有 旅 游 线 路 的 各 种 因 素, 针 对 特 定 网 页, 对 网 页 所 包 含 的 旅 游 信 息 相 关 因 素 设 定 权 值, 并 求 和, 当 超 过 一 定 阈 值 时, 就 认 为 其 为 旅 游 线 路 网 页 具 体 算 法 如 下 : 设 factor(i) 为 网 页 中 为 旅 游 线 路 的 第 i 个 相 关 因 素, 且,l i n,n 为 网 页 为 旅 游 线 路 相 关 因 素 的 总 数 设 Wx(factor(i)) 为 网 页 X 中 factor(i) 的 权 重 值, 为 了 更 加 精 确 合 理 地 统 计 出 以 上 各 因 素 对 判 别 网 页 是 否 为 在 线 旅 游 网 页 的 权 值, 本 文 从 20 个 没 有 编 写 专 有 模 板 的 在 线 旅 游 网 站 随 机 选 取 2000 个 网 页, 统 计 出 各 因 素 出 现 的 次 数, 值 如 表 2.1 所 示, 可 以 发 现, 各 因 素 的 出 现 次 数 是 不 一 样 的, 而 且 有 很 大 的 区 别, 因 此 可 以 根 据 出 现 的 次 数, 同 时 对 比 分 析 非 旅 游 线 路 网 页 内 容, 来 衡 量 该 因 素 对 判 别 是 否 为 旅 游 线 路 网 页 权 值 的 大 小 则, 对 于 特 定 网 页 X, 可 通 过 公 式 2.1 得 到 对 应 相 关 元 素 的 Wx(factor(i)) 值 0 若 X 中 不 包 含 因 素 factor(i) Wx(factor(i))= (2.1) wti 若 X 中 包 含 因 素 factor(i) 其 中,wt i 为 预 先 设 定 的 因 素 的 factor(i) 的 权 重 值 本 系 统 设 定 的 wt i 值 如 表 2.1 所 示, 当 然,wt i 可 以 根 据 实 际 情 况 调 节 到 最 佳 状 态 表 2.1 各 相 关 因 素 出 现 次 数 及 权 值 设 定 表 Tab2.1 The times and weights of relative factors 编 号 因 素 出 现 次 数 权 值 1 标 题 / 线 路 名 称 550 0.3 2 title 标 签 中 出 现 自 由 行 或 者 日 游 1042 0.5 3 价 格 / 市 场 价 / 报 价 / 1650 0.2 4 发 团 日 期 / 出 发 日 期 / 游 玩 日 期 / 发 团 时 间 1443 0.7 5 行 程 天 数 516 0.3 6 提 前 报 名 382 0.2 7 出 发 城 市 / 出 发 地 422 0.2 8 目 标 城 市 / 目 的 地 486 0.2 9 交 通 方 式 / 往 返 交 通 246 0.2 10 线 路 特 色 / 产 品 特 色 / 行 程 特 色 / 特 色 介 绍 686 0.3 11 参 考 行 程 / 行 程 描 述 / 行 程 说 明 / 线 路 行 程 688 0.7 12 费 用 包 含 / 费 用 不 包 含 / 费 用 说 明 624 0.3 13 注 意 事 项 / 预 定 须 知 / 预 订 须 知 374 0.2 14 温 馨 提 示 / 重 要 提 示 / 重 要 提 醒 286 0.2 15 行 程 备 注 / 线 路 备 注 256 0.2 16 签 证 104 0.1 对 于 特 定 网 页 X, 若 通 过 公 式 2.1 计 算 得 到 的 权 值 之 和 形 大 于 阀 值 1, 则 认 为 网 页 X 为 旅 游 线 路 网 页 ; 反 之, 则 认 为 网 页 X 不 是 旅 游 线 路 网 页 - 4 -

150 155 160 n W = i= 1 w x( factor ( i)) (2.2) 通 用 类 旅 游 线 路 判 断 算 法 不 仅 可 以 用 于 那 些 结 构 较 差 的 网 站, 而 且 对 于 模 板 类 网 站 也 能 够 很 好 的 进 行 判 断, 但 由 于 本 算 法 需 要 利 用 网 页 代 码 中 的 信 息 [8], 因 此 对 于 动 态 网 页 无 法 进 行 判 别 在 后 续 章 节 中, 论 文 对 这 两 种 算 法 进 行 的 准 确 性 测 试 进 行 了 描 述, 实 验 结 果 表 明 这 两 种 算 法 都 能 够 很 好 的 判 断 一 个 网 页 是 否 为 旅 游 线 路 网 站 基 于 URL 规 则 的 旅 游 线 路 网 页 判 断 方 法 相 对 而 言 更 加 的 简 单, 方 便, 而 且 判 断 速 度 更 快, 准 确 率 更 高 和 判 断 网 页 是 否 包 含 视 频 一 样, 缺 点 也 在 于 其 和 网 站 的 结 构 结 合 的 过 于 紧 密, 因 此 当 网 站 的 结 构 发 生 改 变 时, 需 要 人 工 的 进 行 调 整, 而 且 该 方 法 需 要 为 每 个 对 应 网 站 进 行 URL 规 则 的 归 纳, 因 此 工 作 量 较 大 而 通 用 类 旅 游 线 路 网 页 判 断 算 法, 虽 然 判 断 速 度 较 慢, 准 确 率 也 不 如 基 于 URL 规 则 的 旅 游 线 路 网 页 判 断 方 法, 但 其 通 用 更 强 而 且 算 法 在 分 析 了 在 线 旅 游 线 路 的 特 点 基 础 上, 合 理 地 设 置 了 权 值, 其 准 确 性 已 经 达 到 了 90% 以 上 3 在 线 旅 游 搜 索 爬 虫 系 统 的 设 计 3.1 系 统 总 体 架 构 165 整 个 在 线 旅 游 搜 索 爬 虫 系 统 为 主 从 (Master/Slave) 分 布 式 结 构 [9], 其 总 体 架 构 如 图 3.1 所 示 : 图 3.1 系 统 总 体 架 构 图 Fig3.1 The conceptual architecture diagram of the system 170 175 本 爬 虫 系 统 主 要 分 为 四 个 部 分 : 管 理 平 台 中 心 控 制 节 点 爬 取 节 点 和 索 引 检 索 节 点 管 理 平 台 主 要 负 责 整 个 系 统 的 监 控 和 参 数 的 配 置 ; 中 心 控 制 节 点 主 要 功 能 是 负 责 系 统 调 度 管 理, 协 调 爬 取 节 点 工 作 ; 爬 取 节 点 的 主 要 功 能 是 负 责 实 际 的 网 络 爬 行, 结 合 提 出 的 旅 游 线 路 判 别 算 法 抓 取 网 页, 并 抽 取 在 网 页 中 包 含 的 旅 游 信 息, 如 线 路 标 题 价 格 等 ; 索 引 和 查 询 节 点 的 主 要 功 能 是 接 收 采 集 的 在 线 旅 游 线 路 信 息, 并 根 据 线 路 标 题 对 其 建 立 索 引 3.2 各 个 模 块 主 要 功 能 及 概 要 设 计 1 管 理 平 台 管 理 平 台 主 要 是 提 供 一 个 供 管 理 员 管 理 爬 取 节 点 的 管 理 平 台, 主 要 功 能 有 : (1) 爬 取 节 点 状 态 监 控 模 块 : 对 当 前 正 在 运 行 的 爬 取 节 点 的 个 数 及 运 行 状 态 ( 如 CPU 和 内 存 利 用 率, 运 行 时 间, 已 爬 取 的 网 页 数, 己 爬 取 的 旅 游 线 路 数, 待 爬 取 的 网 页 数 等 ) 进 - 5 -

180 185 190 195 200 205 行 观 察 (2) 爬 取 节 点 参 数 配 置 模 块 : 主 要 负 责 根 据 从 爬 取 节 点 运 行 状 态 监 控 模 块 获 得 的 爬 取 节 点 的 运 行 状 态 信 息 对 爬 取 节 点 的 配 置 参 数 ( 包 括 下 载 解 析 的 线 程 数,URL 管 理 的 线 程 数, 各 个 缓 冲 区 的 大 小 等 ) 进 行 调 整, 使 系 统 达 到 较 好 的 性 能 同 时 还 负 责 爬 取 节 点 的 添 加 删 除 操 作 2 中 心 控 制 节 点 中 心 控 制 节 点 的 主 要 功 能 有 : 添 加 和 删 除 爬 取 节 点 ; 为 爬 取 节 点 分 配 任 务, 协 调 爬 取 节 点 工 作 (1) 在 线 旅 游 网 站 识 别 模 块 : 用 于 发 现 新 的 在 线 旅 游 网 站, 在 本 系 统 中 主 要 是 通 过 人 工 添 加 的 方 式 来 发 现 在 线 旅 游 网 站 该 模 块 中 主 要 维 护 了 一 张 用 于 存 储 在 线 旅 游 网 站 信 息 列 表, 供 爬 取 任 务 分 配 模 块 使 用 (2) 爬 取 任 务 分 配 模 块 : 接 收 从 在 线 旅 游 网 站 识 别 模 块 得 到 的 在 线 旅 游 网 站 列 表 和 爬 取 节 点 返 回 的 爬 取 状 态 信 息, 并 根 据 任 务 分 配 策 略 为 爬 取 节 点 分 配 爬 取 任 务 (3) 通 信 模 块 : 负 责 中 心 控 制 节 点 与 爬 取 节 点 之 间 的 通 信 3 爬 取 节 点 (1) 爬 行 网 页 : 爬 取 节 点 首 先 从 初 始 的 网 站 起 始 地 址 开 始 爬 行, 根 据 本 文 提 出 的 在 线 旅 游 线 路 判 别 算 法 对 采 集 到 的 网 页 进 行 判 别, 如 果 其 是 旅 游 线 路 网 页, 则 提 取 线 路 的 信 息 ( 如 线 路 标 题, 价 格 等 ), 同 时 从 中 抽 取 出 该 网 页 的 所 有 链 接, 然 后 对 提 取 出 的 链 接 进 行 去 重, 之 后 放 入 待 爬 行 URL 列 表 中 等 待 爬 取 (2) 定 期 对 已 下 载 网 页 进 行 更 新 : 爬 取 节 点 还 需 要 定 期 对 己 爬 行 的 网 页 进 行 更 新, 判 断 网 页 是 否 已 经 改 变 或 消 失 (3) 维 持 心 跳 : 爬 取 节 点 需 要 周 期 性 的 向 中 心 控 制 节 点 发 送 心 跳 信 息, 使 控 制 节 点 能 及 时 的 了 解 爬 取 节 点 的 运 行 状 态, 并 通 过 调 整 参 数 的 方 式 对 爬 取 节 点 进 行 控 制 4 索 引 检 索 节 点 索 引 检 索 节 点 的 主 要 功 能 是 从 各 个 爬 取 节 点 收 集 采 集 到 的 信 息. 并 根 据 旅 游 线 路 标 题 建 立 索 引, 为 用 户 提 供 视 频 查 询 服 务 (1) 检 索 模 块 : 提 供 供 用 户 查 询 线 路 接 口 (2) 索 引 模 块 : 能 够 根 据 线 路 标 题 建 立 索 引, 供 用 户 快 速 查 询 线 路 信 息 4 实 验 仿 真 4.1 实 验 仿 真 环 境 210 本 实 验 仿 真 采 用 的 爬 虫 系 统 是 基 于 PC 集 群 的 分 布 式 在 线 旅 游 搜 索 爬 虫 系 统 在 本 次 测 试 中, 使 用 3 台 计 算 机 来 搭 建 实 验 环 境 其 配 置 如 表 所 示 : 215 表 4.1 2 台 计 算 机 的 配 置 表 Tab4.1 The configuration of the three computers 主 机 CPU 内 存 操 作 系 统 PC1 Pentium(R) Dual-Core CPU E5300 @ 2.60GHz( 双 核 ) 2G Windows7 PC2 Intel(R) Core(TM)2 Duo CPU P9500 @ 2.53GHz( 双 核 ) 3G Windows7 PC3 Pentium(R) Dual-Core CPU E5300 @ 2.60GHz( 双 核 ) 2G WindowsXP 其 中 PC1 作 为 爬 虫 系 统 的 中 心 控 制 节 点,PC2 作 为 爬 取 节 点,PC3 作 为 索 引 节 点 - 6 -

4.2 在 线 旅 游 网 页 判 别 算 法 准 确 性 测 试 220 225 230 235 240 在 本 爬 虫 系 统 中 判 断 网 页 是 否 包 含 为 旅 游 线 路 的 方 法 有 两 种, 分 别 通 过 模 版 类 网 站 URL 规 则 和 通 用 类 在 线 旅 游 网 页 判 别 算 法 来 实 现 下 面 分 别 对 这 两 种 方 法 进 行 测 试 : (1) 模 板 类 网 站 URL 规 则 判 别 算 法 准 确 性 测 试 数 据 来 源 : 在 本 爬 虫 系 统 中 对 编 写 了 专 有 模 板 的 网 站, 根 据 网 站 URL 规 则 来 判 断 网 页 是 否 为 旅 游 线 路 网 页, 所 以 使 用 的 测 试 样 本 都 来 自 编 写 了 专 有 模 板 的 网 站 本 次 测 试 中, 一 共 选 取 了 3 个 专 业 的 旅 游 度 假 平 台 作 为 测 试 网 站, 每 组 使 用 爬 虫 系 统 爬 取 3000 个 网 页, 即 当 爬 取 网 页 数 超 过 3000 时, 则 停 止 爬 取, 此 时 统 计 已 爬 取 网 页 中 旅 游 线 路 网 页 数 及 非 旅 游 线 路 网 页 数, 从 而 计 算 出 算 法 的 准 确 率 测 试 结 果 如 表 4.2 所 示 : 表 4.2 网 站 URL 规 则 判 断 测 试 结 果 数 据 表 Tab.4.2 The result of testing the function of identifying the rule of website s URL 网 站 爬 取 的 网 页 数 旅 游 线 路 数 网 页 数 判 断 成 功 率 去 哪 儿 网 3000 3000 100% 携 程 网 3000 3000 100% 途 牛 网 3000 3000 100% 在 一 些 定 义 良 好 的 在 线 旅 游 度 假 平 台 网 站 ( 如 本 次 测 试 的 去 哪 儿 网 携 程 网 和 途 牛 网 ) 中, 同 类 的 旅 游 线 路 具 有 相 类 似 的 URL 结 构, 因 此 根 据 URL 规 则 能 够 很 好 的 判 断 网 页 是 否 为 旅 游 线 路 网 页 具 有 简 单 方 便 速 度 快 及 准 确 率 高 等 特 点 由 于 该 方 法 与 网 站 的 结 构 关 系 密 切, 因 此 一 旦 网 站 结 构 发 生 改 变, 就 需 要 手 工 进 行 调 整, 通 用 性 不 强 (2) 通 用 类 在 线 旅 游 网 页 判 别 算 法 准 确 性 测 试 数 据 来 源 : 因 为 在 本 爬 虫 中, 没 有 编 写 专 有 模 板 网 站 的 网 页 都 使 用 通 用 类 在 线 旅 游 线 路 网 页 判 别 算 法 来 进 行 判 断, 所 以 使 用 的 测 试 样 本 主 要 由 两 类 网 页 组 成 : 没 有 编 写 专 有 模 板 的 在 线 旅 游 网 站 的 网 页 和 非 在 线 旅 游 网 站 的 网 页 在 本 次 测 试 中, 一 共 测 试 了 3 组 数 据, 每 组 随 机 分 配 20 个 在 线 旅 游 网 站 和 5 个 非 在 线 旅 游 网 站 ( 如 新 闻 网 体 育 网 等 ), 每 组 使 用 爬 虫 系 统 爬 取 2000 个 网 页 测 试 结 果 如 表 4.3 所 示 : 表 4.3 在 线 旅 游 网 页 判 断 算 法 测 试 结 果 数 据 表 Tab.4.3 The result of online travel page testing algorithm 网 站 爬 取 的 网 页 数 旅 游 线 路 网 页 数 非 旅 游 线 路 网 页 数 判 断 成 功 率 1 2000 1923 77 92.3% 2 2000 1878 122 87.8% 3 2000 1917 83 91.7% 平 均 2000 1906 94 90.6% 245 250 由 测 试 数 据 可 见, 本 爬 虫 所 采 用 的 算 法 的 成 功 率 在 90% 左 右, 成 功 率 较 高 虽 然 和 模 板 类 中 使 用 的 基 于 URL 规 则 的 判 断 方 法 相 比, 速 度 相 对 较 慢, 准 确 率 较 低, 但 由 于 其 通 用 性 较 强, 因 此 即 使 当 网 站 结 构 发 生 改 变 时, 也 能 够 很 好 的 进 行 旅 游 线 路 网 页 的 判 断 由 于 对 在 线 旅 游 线 路 网 页 的 特 点 进 行 了 大 量 的 统 计 分 析 工 作, 对 各 个 因 素 的 权 值 做 了 合 理 的 判 断, 所 以 相 比 之 前 的 文 献 [3] 中 提 出 的 视 频 判 别 算 法 提 高 了 准 确 率, 由 此 可 见, 本 算 法 对 在 线 旅 游 线 路 网 页 可 以 很 好 地 做 出 判 断 - 7 -

5 结 束 语 255 本 文 提 出 的 在 线 旅 游 线 路 判 别 的 算 法 是 一 种 专 门 针 对 目 前 在 线 旅 游 网 页 的 通 用 方 法, 采 用 了 基 于 关 键 字 匹 配 的 核 心 思 想, 根 据 旅 游 网 页 的 主 要 特 征, 与 其 他 网 页 加 以 区 分 算 法 正 确 性 测 试 数 据 表 明, 该 算 法 是 一 个 很 好 地 判 别 网 页 是 否 为 旅 游 线 路 网 页 的 解 决 方 案 如 何 进 一 步 完 善 算 法 的 判 别 速 度 及 提 高 正 确 率 是 以 后 研 究 的 重 点 [ 参 考 文 献 ] (References) 260 265 [1] 王 海 霞. 我 国 旅 游 电 子 商 务 发 展 分 析 [J]. 中 国 证 券 期 货,2011,19(10):1-4. [2] 陈 璐. 我 国 旅 游 电 子 商 务 的 发 展 现 状 及 对 策 分 析 [J]. 中 国 商 贸,2012,21(2):1-3. [3] 夏 诏 杰, 梁 春 燕, 郭 力. 化 学 主 题 网 络 爬 虫 的 设 计 与 实 现 [D]. 北 京 : 中 国 科 学 院 过 程 工 程 所 多 相 实 验 室, 2006. [4] 闫 亮, 李 先 国. 基 于 网 页 特 征 关 键 字 的 近 似 检 测 算 法 [J]. 科 学 技 术 与 工 程,2009,9(4):919-923. [5] 袁 理 锋. 分 布 式 视 频 搜 索 爬 虫 系 统 的 设 计 与 实 现 [D]. 大 连 : 大 连 理 工 大 学,2009. [6] 罗 刚, 王 振 东. 自 己 动 手 写 网 络 爬 虫 [M]. 北 京 : 清 华 大 学 出 版 社,2010. [7] 欧 阳 佳, 林 丕 源. 基 于 DBSCAN 算 法 的 网 页 正 文 提 取 [J]. 计 算 机 工 程,2011,37(3):2-4 [8] 胡 瑜, 王 立 志. 基 于 HTML 结 构 特 征 的 网 页 信 息 提 取 [J]. 辽 宁 石 油 化 工 大 学 学 报,2009,25(3):1-4 [9] 姚 树 宇, 赵 少 东. 一 种 使 用 分 布 式 技 术 的 搜 索 引 擎 [J]. 计 算 机 应 用 与 软 件,2005,22(10):127-129 - 8 -