Joural of Computer Applicatios ISS 1001-9081 015- -10 计 算 机 应 用,015, ( ): - CODE JYIIDU http://www.joca.c 基 于 TF-IDF 改 进 算 法 的 聚 焦 主 题 网 络 爬 虫 王 景 中 1, 邱 铜 相 ( 北 方 工 业 大 学 计 算 机 学 院, 北 京 市,100144) (* 通 信 作 者 电 子 邮 箱 10363558@qq.com) 摘 要 : 针 对 传 统 的 TF-IDF 算 法 K_meas 算 法 自 适 应 遗 传 算 法 在 网 络 检 索 结 果 中 含 有 大 量 不 相 关 数 据 语 义 检 索 准 确 性 不 高 的 问 题, 本 文 研 究 了 TF-IDF 算 法 的 改 进 及 其 在 语 义 检 索 中 的 应 用 将 正 则 表 达 式 和 语 义 分 析 技 术 相 结 合, 从 而 实 现 对 TF-IDF 算 法 的 改 进 利 用 语 义 库 对 搜 索 主 题 进 行 描 述, 根 据 正 则 原 子 语 义 的 重 要 性 和 在 网 页 标 签 中 的 不 同 位 置 进 行 加 权 计 算, 得 到 正 则 原 子 在 文 档 中 的 相 似 度 通 过 空 间 向 量 模 型 对 文 档 相 似 度 和 主 题 模 型 进 行 余 弦 运 算, 从 而 获 取 最 终 的 搜 索 结 果 最 后, 将 改 进 的 TF-IDF 算 法 传 统 的 TF-IDF 算 法 K_meas 算 法 和 自 适 应 遗 传 算 法 运 用 于 聚 焦 主 题 网 络 爬 虫 中, 对 其 检 索 结 果 进 行 了 对 比 分 析 计 算 结 果 表 明, 在 聚 焦 主 题 网 络 爬 虫 语 义 分 析 的 垂 直 搜 索 中, 改 进 的 TF-IDF 算 法 比 传 统 的 TF-IDF 算 法 检 索 准 确 率 提 高 了 17.1%, 遗 漏 率 可 降 低 到 3.1%; 比 K_meas 算 法 检 索 准 确 率 提 高 6%; 比 自 适 应 遗 传 算 法 检 索 准 确 率 提 高 8.1% 总 之, 改 进 的 TF-IDF 算 法 可 以 有 效 地 提 高 文 档 相 似 度 检 测 的 准 确 率, 很 好 地 改 善 聚 焦 主 题 网 络 爬 虫 在 语 义 分 析 中 的 缺 陷 关 键 词 : 网 络 爬 虫 ; 语 义 分 析 ; 搜 索 引 擎,TF-IDF; 主 题 爬 虫 ; 文 档 相 似 度 中 图 分 类 号 : TP311 文 献 标 志 码 : A Improved TF-IDF Alogorithm Base O Focused Title etwork Crawler Wag Jigzhog [1], QIU Togxiag [], (School of computer orth Chia Uiversity Of Techology,Beig,100144) 收 稿 日 期 : 015-05-11; 修 回 日 期 : 015-07-07 基 金 项 目 : 国 家 自 然 基 金 项 (o.6137114); 北 京 市 创 新 团 队 建 设 提 升 计 划 (ID HT013050) 作 者 简 介 : 王 景 中 (196-), 男, 内 蒙 古, 教 授, 硕 士, 主 要 研 究 方 向 : 信 息 安 全, 图 像 处 理, 数 据 挖 掘 ; 邱 铜 相 (1989-), 男, 江 西 信 丰, 硕 士 研 究 生, 主 要 研 究 方 向 : 信 息 安 全 数 据 挖 掘
计 算 机 应 用 第 35 卷 Abstract: I order to solve the problem of these large umber of irrelevat data i web search results ad the low accuracy of sematic retrieval of the traditioal TF-IDF algorithm, K_meas algorithm ad the adaptive geetic algorithm, we studied the improvemet of the TF-IDF algorithm ad its applicatio i sematic retrieval i this paper. The TF-IDF algorithm is improved successfully by applyig the regular expressio to the sematic aalysis techique. The search topic is described by a sematic database. The similarity of the regular atoms i documets is obtaied by a weighted calculatio, which is accordig to the importace of the regular atomic sematics ad the differet positios of the web pages. The fial results are obtaied by a Cosie operatio of the documet similarity ad subject mode through the space vector model. Fially, calculatig results are aalyzed by applyig the improved TF-IDF algorithm, the traditioal TF-IDF algorithm, the K_meas algorithm ad the adaptive geetic algorithm to the focused topic web crawler. Results show that the accuracy is improved by 17.1% ad the omissio rate ca be reduced to 3.1% i the vertical search of the focused web crawler. Compared with the K-meas algorithm ad the adaptive geetic algorithm, the accuracy ca be improved by 6% ad 8.1% respectively. I summary, the improved TF-IDF algorithm ca improve the accuracy of documet similarity detectio effectively ad the defect of focused web crawler i the sematic aalysis greatly. It is of great sigificace i future sematic retrieval. Keywords: web spider; sematic aalysis; Search Egie;TF-IDF;title spider;documet correlatio degree 0 引 言 随 着 互 联 网 的 高 速 发 展, 网 络 上 的 数 据 资 源 每 天 都 在 成 千 上 亿 兆 的 增 长 其 中 涵 盖 了 当 因 此 需 要 提 出 一 种 能 够 根 据 主 题 语 义 来 判 断 网 页 的 相 似 度 关 系 以 及 提 高 爬 行 效 率 的 搜 索 策 略, 而 改 进 的 TF-IDF 算 法 可 以 递 归 的 回 溯 到 主 题 语 义 上, 让 爬 虫 紧 贴 主 题 语 义, 让 爬 虫 抓 取 更 加 精 确 今 社 会 各 个 方 面, 例 如 教 育 新 闻 财 经 等 等 [1] 网 络 共 享 资 源 已 经 成 为 了 当 今 世 界 上 最 大 规 模 的 网 络 公 共 共 享 资 源 但 是 人 的 能 力 是 有 限 的, 对 面 如 此 庞 大 的 资 源 数 量, 人 类 要 从 中 找 出 所 需 要 的 数 据 是 一 件 非 常 艰 难 的 事 情 而 聚 焦 主 题 网 络 爬 虫 就 是 专 为 抓 取 某 主 题 信 息 而 1 1.1 网 络 爬 虫 聚 焦 主 题 网 络 爬 虫 出 现 的 网 页 信 息 抓 取 工 具 [] 与 通 用 网 络 爬 虫 不 同, 聚 焦 主 题 网 络 爬 虫 目 的 在 抓 取 与 特 定 主 题 内 容 相 关 的 网 页 信 息 因 此, 聚 焦 主 题 网 络 爬 虫 面 临 的 首 要 问 题 就 是 使 用 何 种 方 法 来 判 定 网 页 内 容 与 主 题 的 是 否 相 关, 以 及 根 据 主 题 相 关 度 采 用 的 搜 索 策 略 来 提 高 搜 索 结 果 的 正 确 性 和 时 间 空 间 性 能 目 前 主 要 的 聚 焦 主 题 网 络 爬 虫 搜 索 策 略 有 : 基 于 内 容 评 价 的 搜 索 策 略 和 基 于 链 接 结 构 评 价 的 搜 索 策 略, [3 但 是 以 上 两 种 搜 索 策 略 在 对 主 题 语 义 分 析 方 面 都 有 很 大 的 缺 陷 聚 焦 主 题 网 络 爬 虫 是 在 普 通 网 络 爬 虫 上 根 据 自 己 的 爬 行 算 法 和 设 定 的 主 题 特 征 进 行 过 [] 滤, 筛 选 出 满 足 主 题 的 utl 来 进 行 抓 取 页 面 数 据, 下 载 满 足 规 则 的 页 面 存 储 起 来 目 前 主 题 网 络 爬 虫 的 目 标 是 尽 可 能 高 速 全 面 正 确 的 将 网 站 页 面 存 储 到 本 地, 比 较 常 用 的 方 式 是 全 面 或 者 部 分 匹 配 页 面 信 息, 获 取 相 关 的 url, 根 据 url 下 载 网 页 页 面, 普 通 的 网 络 爬 虫 适 用 于 通 用 的 数 据 搜 索, 误 差 率 大 而 聚 焦 主 题 网 络 爬 虫 则 针 对 某 一 领 域 或 者 主 题, 其 主 要 方 式 是 在 资 源 有 限 的 条 件 下, 竟 可 能 获 取 与 主 题 相 关 的 网 站 页 面, 同 时 尽 量 减 少 与 主 题 无 关 的
第 * 期 王 景 中 邱 铜 相 : 基 于 TF IDF 改 进 算 法 的 聚 焦 网 络 爬 虫 3 网 页 因 此 聚 焦 主 题 网 络 爬 虫 搜 索 数 据 的 准 确 性 比 普 通 主 题 网 络 爬 虫 提 高 了 将 近 1 倍 [4], 但 缺 陷 是 限 定 在 另 一 个 领 域 中 现 阶 段 聚 焦 主 题 网 络 爬 虫 面 临 主 题 描 述 困 难, 模 型 定 义 规 则 复 杂 文 档 结 构 多 元 化, 准 确 数 据 遗 漏, 误 差 易 被 放 大 等 挑 战, 特 别 是 不 能 对 主 题 进 行 全 面 准 确 的 描 述, 结 构 是 抓 取 到 的 网 页 数 据 偏 离 主 题 本 身 的 语 义 和 误 差 放 大 而 本 文 提 出 的 基 于 TF-IDF 改 进 算 法 可 以 解 决 此 类 问 题 中 包 含 主 题 关 键 字 文 档 数 为 100, 第 二 种 情 况 是 包 含 主 题 的 文 档 数 是 50 篇, 很 明 显 的 可 以 看 出, 第 二 种 情 况 能 够 更 好 的 区 分 与 主 题 相 关 的 文 档 TF-IDF 算 法 的 计 算 公 式 如 式 (1) [5] : w = f tf f idf = log + 0.01 i (1) 1. 基 于 语 义 分 析 的 聚 焦 主 题 网 络 爬 虫 其 中 W 是 第 i 个 词 在 第 j 篇 文 档 中 的 权 值,ftf 是 第 i 个 词 汇 在 第 j 篇 文 档 中 出 现 的 频 率, 基 于 语 义 分 析 的 聚 焦 主 题 网 络 爬 虫 是 在 主 题 网 络 爬 虫 的 基 础 上, 根 据 主 题 的 语 义, 将 分 词 技 术, 正 则 技 术 和 语 义 分 析 技 术 综 合 运 用 到 对 页 面 信 息 分 析, 自 动 筛 选 符 合 主 题 语 义 的 url [], 将 数 据 源 的 语 义 自 动 聚 集 到 主 题 语 义 上, 排 除 与 主 题 语 义 不 匹 配 的 信 息 因 此, 基 于 叫 做 词 汇 频 率 fidf 是 主 题 在 所 有 文 档 中 出 现 的 频 率, 称 为 反 词 汇 频 率 当 fidf 值 越 大 的 时 候, 说 明 这 个 词 汇 在 文 档 中 的 越 容 易 区 别 于 其 他 文 档, 其 识 别 度 就 越 高 从 式 1 可 以 得 到 :w 的 权 值 要 提 高, 词 汇 频 率 需 要 提 高 对 于 反 词 汇 频 率, 其 值 越 大, 说 明 词 汇 越 集 中 于 部 分 文 档 中 [1], 更 容 易 区 分 于 其 他 文 档 对 于 运 用 到 实 践 中, 需 要 对 于 进 行 向 量 归 一 化, 其 结 果 如 式 () [5] : TF-IDF 改 进 算 法 的 目 标 是 尽 可 能 的 排 除 不 相 关 数 据, 控 制 误 差, 尽 可 能 全 面 的 包 含 符 合 主 题 语 义 的 网 页 TF-IDF 算 法 改 进 网 页 内 容 相 似 度 衡 量, 在 不 同 领 域 中 采 用 的 方 法 各 不 相 同 本 次 研 究 主 要 采 用 文 档 词 频 w = i = 1 f f log( + 0.01) i log + 0.01 i () 统 计 算 法 TF-IDF 算 法 TF-IDF 算 法 是 基 于 统 计 学 加 权 的 一 种 重 要 的 统 计 信 息 的 计 算 方 法 其 主 要 思 想 涉 及 两 个 参 数 : 一 个 是 TF 频 率, 其 描 述 的 是 主 题 关 键 字 在 文 档 中 出 现 的 次 数, 次 数 越 多, 文 档 与 主 题 的 相 似 度 越 高 另 外 一 个 是 IDF 频 率, 其 描 述 的 是 主 题 关 键 字 在 文 档 中 的 区 分 度, 主 题 关 键 字 在 所 有 文 档 中 出 现 的 次 数 越 少, 其 主 题 在 文 档 中 区 分 度 越 高 [3] 例 如 : 主 题 为 研 究 生 初 试 分 数 线 在 所 有 搜 索 文 档 中 出 现 的 词 汇 频 率 是 300 次, 第 一 种 情 况 是 其 从 式 上 可 以 看 出,TF-IDF 的 算 法 不 能 区 分 主 题 的 语 义, 原 因 在 于 分 割 主 题 得 到 的 词 很 多 是 没 有 实 际 意 义 的, 但 是 却 对 整 个 主 题 相 似 度 的 贡 献 却 占 很 大 比 例 比 如, 特 色 的 牛 肉 食 品, 牛 肉 的 贡 献 度 为 0.15, 食 品 的 贡 献 度 为 0., 而 特 色 的 贡 献 度 为 0.3, 而 的 的 贡 献 度 却 占 0.3 总 的 贡 献 度 是 0.95 但 整 个 主 题 重 点 是 特 色 牛 肉, 其 贡 献 度 是 0.45, 而 的 是 无 意 义 词, 其 贡 献 度 却 接 近 占 总 贡 献 度 的 1/3 并 且 特 色 是 修 饰 词, 其 意 义 也 不 大, 但 其 贡 献 度 占 0.3 而 其 中 最 大 问 题 的 是 牛 肉, 应 该 是 主 题 中 最 能 具 有 3
4 计 算 机 应 用 第 35 卷 区 分 度 的 词, 但 其 贡 献 却 是 只 有 0.15 因 此, 基 于 传 统 的 TF-IDF 算 法 对 主 题 搜 索 存 在 问 题, 需 对 其 进 行 改 进 而 解 决 此 类 问 题 的 办 法 是 将 搜 索 的 每 个 关 键 字 进 行 分 割, 剔 除 虚 词, 其 目 的 是 解 决 没 有 实 际 意 义 词 参 加 到 网 页 相 似 度 的 计 算 中 对 于 非 关 键 词 贡 献 度 偏 大 和 关 键 词 贡 献 度 偏 小 等 不 合 理 情 况, 其 解 决 方 法 是 对 其 每 个 词 的 重 要 性 进 行 加 权 [4], 对 关 键 词 进 行 高 权 重 处 理, 非 关 键 词 根 据 重 要 性 对 于 合 理 分 配 权 限, 因 此,TF-IDF 算 法 可 以 进 一 步 修 改 为 为 如 式 (3)(Cj 表 示 主 题 在 第 j 篇 文 档 中 的 贡 献 度 ): j i<, j< i<, j () () C = f i w = f i i= 1, j= 1 i= 1, j= 1 i= 1 f log + 0.01 i f log + 0.01 i 这 适 合 无 结 构 化 的 网 页 文 本, 但 是 对 半 结 构 化 的 网 页 文 档 效 果 明 显 存 在 偏 差, 原 因 在 于 网 页 文 档 中 存 在 特 殊 意 义 的 标 签, 这 些 标 签 中 的 内 容 对 主 题 的 贡 献 值 比 其 他 标 签 中 的 内 容 具 有 更 大 的 意 义, 因 此 出 现 在 这 些 标 签 中 应 该 比 其 出 现 在 他 标 签 中 的 权 重 高 所 以 在 解 析 网 页 内 容 时, 因 根 据 网 页 中 的 标 签 特 征 可 以 找 出 关 键 字 所 在 位 置, 对 其 进 行 加 权 区 分 对 html 文 本 网 页, 其 中 title, 锚 文 本 (achor text),meta 等 标 签 中 内 容 对 主 题 的 贡 献 度 在 整 个 网 页 中 的 贡 献 度 占 的 比 重 是 比 较 大 的 [4] 因 此 这 些 标 签 的 值 的 权 重 应 该 给 定 特 殊 的 权 重, 但 是 标 签 如 果 仅 仅 在 上 述 地 方 的 一 个 出 现, 贡 献 度 的 权 重 可 能 会 偏 离 主 题, 为 了 避 免 出 现 这 种 情 况, 采 用 平 均 加 权 的 办 法 和 累 加 计 算 的 办 法 其 权 重 的 计 算 公 式 如 式 (4): (3) T wf ( k) = i = 0 j = 1 m m () i ( j) 其 中 m(i) 是 第 i 标 签 的 权 值,Twf(k) 表 示 第 k 个 词 的 平 均 累 加 权 值, j= 1 (4) m( j) m ( i) 表 示 第 k 个 词 在 所 在 标 签 的 累 加 权 重, 表 示 在 整 个 页 面 包 含 的 上 述 标 签 的 权 值 总 和 根 据 以 往 研 究, 获 取 到 比 较 合 理 的 标 签 权 值 函 数 m(i) [4], 如 式 (5): () mi 10, < title > 8, < metal > = 6, < H ><, a > 3, 其 他 但 是 获 取 到 的 Twf(k) 值 永 远 是 小 于 1, 如 果 关 键 字 不 出 现 标 签 中 列 表 中,Twf(k) 将 会 是 0 事 实 上 对 主 题 是 有 贡 献, 因 此 Twf(k) 的 取 值 范 围 不 应 该 在 [0,1] 在 实 验 中 发 现, 标 签 中 合 理 的 权 重 取 值 应 该 是 在 [1,], 原 因 在 于, 对 于 所 有 的 标 签 都 是 有 贡 献 的, 相 比 下, 只 是 每 个 贡 献 度 是 不 一 样 的 在 实 验 中, 需 要 对 Twf(k) 函 数 进 行 调 整 如 式 (6): T wf ( k) mi () i= 0 + 1, ( 0) = m( j ) j= 1 1, ( = 0) (5) (6) i = 0 4
第 * 期 王 景 中 邱 铜 相 : 基 于 TF IDF 改 进 算 法 的 聚 焦 网 络 爬 虫 5 但 是 对 于 对 于 语 义 分 析 的 主 题 网 络 爬 虫, 将 主 题 部 分 分 割 再 描 述 在 大 部 分 搜 索 中 都 是 歪 曲 了 主 题 语 义, 这 是 误 差 扩 大 化 的 根 本 原 因 因 此 主 题 模 型 地 正 确 描 述 的 正 确 与 否 关 系 到 搜 索 结 果 的 正 确 性 好 与 差 本 文 研 究 提 出 的 解 决 方 法 是 用 一 序 列 的 语 义 来 描 述 主 题, 每 条 语 义 进 行 分 析 ( 图 1 中 4), 爬 行 控 制 模 块 根 据 规 则 控 制 语 义 选 择 器 选 择 是 否 下 载 页 面 数 据 和 是 否 将 获 取 的 url 添 加 到 url 队 列 中 去 ( 图 1 中 5,6,7) 1 读 取 定 义 成 一 个 不 可 分 割 的 语 义 模 型 在 实 验 中 则 是 用 一 个 正 则 表 达 式 描 述 一 条 语 义 模 型 因 此, 实 验 中 同 义 集 合 / 反 义 集 合 中 的 每 一 个 正 则 表 达 式 都 是 一 条 语 义 模 型, 对 每 个 语 义 模 型 进 行 权 重 分 配, 主 题 贡 献 度 计 算 公 式 可 以 改 进 为 如 式 (7)(cj 表 示 关 键 字 第 j 篇 文 档 中 的 贡 献 度 ): Htmlparser 解 析 3 获 取 UrlData 5 数 据 7 选 择 Url 队 列 j C = f k T k k = 1 k ( ) wf ( ) i = 1 log + 0.01 log + 0.01 i (7) 3 解 析 TxtData 4 分 析 4 分 析 内 容 分 析 4 分 析 语 义 判 定 器 5 数 据 ⑺ 选 择 6 控 制 DowLoad 爬 行 控 制 模 块 其 中 是 语 义 库 中 所 有 正 则 表 达 式 在 第 j 页 面 搜 索 到 次 数 总 和 f(k) 是 第 k 个 正 则 表 语 义 库 达 式 的 权 值,Twf(k) 是 第 k 个 正 则 在 第 j 个 页 面 中 平 均 权 值,k 第 k 个 正 则 表 达 式 在 第 j 个 页 图 1 聚 焦 主 题 网 络 爬 虫 功 能 模 块 图 面 中 出 现 的 次 数 3 基 于 语 义 分 析 的 聚 焦 主 题 网 络 爬 虫 设 计 实 现 聚 焦 主 题 网 络 爬 虫 爬 虫 的 设 计 分 为 三 大 模 块, 分 别 是 语 义 分 析, 数 据 下 载 和 爬 行 控 制 模 块 语 义 分 析 模 块 负 责 语 义 分 析 等 功 能, 数 据 下 载 模 块 负 责 下 载 网 页 和 存 储 文 档, 爬 虫 控 制 模 块 负 责 协 调 控 制 整 个 爬 虫 过 程 各 个 功 能 模 块 协 调 运 行 ( 如 图 1 所 示 ): 首 先, 爬 虫 会 从 初 始 化 的 url 队 列 中 获 取 url 链 接 ( 图 1 中 1), 获 取 网 页 内 容 然 后 Htmlparser 对 获 取 到 的 网 页 内 容 进 行 解 析 ( 图 1 中 ), 同 时 Htmlparser 将 网 页 中 的 url 和 urldata 提 取 出 来 ( 图 1 中 3), 交 给 语 义 分 析 功 能 模 块, 语 义 分 析 功 能 将 语 义 库 加 载 到 程 序 中, 对 UrlData 和 TxtData 3.1 语 义 库 主 题 模 型 难 以 描 述 是 如 今 聚 焦 主 题 网 络 爬 虫 面 临 的 一 个 难 题, 目 前 描 述 的 方 式 很 多, 其 主 要 的 描 述 方 式 有 完 全 描 述 和 部 分 描 述 完 全 描 述 缩 小 了 搜 索 范 围, 提 高 了 准 确 率, 但 是 搜 索 的 信 息 不 够 全 面 部 分 描 述 则 扩 大 了 搜 索 范 围, 造 成 误 差 扩 大 化 语 义 库 是 描 述 主 题 模 型 的 一 个 集 合, 语 义 库 包 含 同 义 集 合 和 反 义 集 合 两 部 分 同 义 集 合 是 描 述 与 主 题 模 型 语 义 一 致 的 正 则 表 达 式 的 集 合, 同 义 集 合 是 根 据 用 户 主 题, 获 取 得 到, 同 义 集 合 的 目 的 是 尽 可 能 全 面 的 覆 盖 主 题 语 义, 获 取 到 尽 可 能 全 面 的 数 据 反 义 集 合 是 描 述 与 主 题 语 义 不 相 符 的 正 则 表 达 5
6 计 算 机 应 用 第 35 卷 式 集 合, 其 目 的 是 为 了 将 部 分 描 述 中 不 符 合 主 题 模 型 规 则 过 滤 掉, 减 小 误 差 反 义 集 合 获 取 方 式 和 同 义 集 合 获 取 方 式 相 同 3.1.1 同 义 语 义 集 合 和 反 义 语 义 集 合 获 取 同 义 语 义 集 合 和 反 义 语 义 集 合 的 获 取 的 方 式 是 相 同 的 其 获 取 是 根 据 主 题 语 义, 人 工 的 创 建 一 个 训 练 集 合 库 创 建 的 步 骤 如 下 : 1) 根 据 主 题 语 义, 创 建 同 义 集 合 SyoymousSet{S1,S S}( 为 有 限 个 语 句 ), 其 中 S 是 同 义 语 句 ) 从 SyoymousSet 集 合 手 动 创 建 正 则 表 达 式 语 句 为 T1, 添 加 到 集 合 SySemSet{T1,T...} 3) 对 SySemSet 中 所 有 的 正 则 表 达 式 语 句 进 行 加 权 赋 值 建 立 同 义 集 合 的 目 的 是 使 得 更 加 全 面 的 搜 索 到 相 关 主 题 的 信 息 为 了 保 证 主 题 信 息 的 准 确 性 和 全 面 性, 采 用 了 正 则 表 达 语 义 库, 根 据 主 题 语 义 建 立 一 个 关 于 主 题 的 正 则 表 达 式 语 义 库, 从 而 进 一 步 加 大 了 搜 索 的 范 围 反 义 集 合 与 同 义 集 合 建 立 类 似, 但 是 其 目 的 是 减 少 信 息 度 的 计 算 同 义 语 义 集 合 是 增 强 主 题 相 似 度, 反 义 语 义 集 合 则 是 削 弱 主 题 相 似 度, 在 改 进 的 TF-IDF 算 法 考 虑 这 种 类 型 计 算, 因 此 为 了 区 别, 在 语 义 库 表 结 构 中 加 入 区 别 的 字 段 categor 第 三 个 方 面, 重 复 使 用 问 题 对 于 用 一 个 正 则, 在 同 一 个 文 档 中 的 计 算 只 能 计 算 一 次 否 则 造 成 时 间, 空 间 资 源 浪 费 和 影 响 结 果 的 准 确 性 3.1.3语 义 解 析 器 语 义 解 析 器 是 将 网 页 内 容 进 行 解 析, 将 解 析 出 的 内 容 进 行 语 义 分 析, 利 用 页 面 相 似 度 算 法 进 行 数 据 刷 选, 将 符 合 要 求 的 url 提 交 交 给 爬 行 控 制 模 块, 符 合 主 题 语 义 的 数 据 提 交 给 数 据 抓 取 模 块 下 载 因 此 语 义 解 析 器 有 两 个 大 模 块, 第 一 个 模 块 是 网 页 解 析 和 内 容 分 析 的 htmlparse 解 析 模 块, 第 二 个 模 块 是 url 链 接 刷 选 和 分 析 语 义 的 语 义 判 定 器 功 能 流 程 如 图 1 所 示 网 页 解 析 器 的 作 用 是 解 析 网 页 代 码, 去 除 网 页 噪 声 和 对 网 页 代 码 进 行 修 补, 本 文 中 使 用 开 源 的 parsehtml 技 术 其 中 内 容 分 析 跟 语 义 判 器 都 涉 及 到 语 义 分 析, 内 容 分 析 是 根 据 语 料 库 中 的 主 题 信 息, 分 析 网 页 的 相 似 度 然 后 url 选 择 器 根 据 设 定 条 件, 提 取 出 符 合 主 题 语 义 的 url 链 接 范 围, 尽 量 排 除 跟 主 题 无 关 的 信 息 3. 数 据 下 载 模 块 3.1.语 义 库 的 表 结 构 设 计 数 据 下 载 模 块 是 将 网 页 上 的 数 据 下 载 到 本 地 磁 盘 或 数 据 库 中, 其 行 为 有 爬 虫 控 制 模 块 控 根 据 语 义 库 的 定 义, 在 设 计 语 义 库 时 需 要 考 虑 三 个 方 面 的 问 题 第 一 个 方 面 是 语 义 模 型 不 重 复 性, 这 个 不 重 复 性 体 现 在 初 始 化 时 不 重 复 和 使 用 不 重 复 如 果 初 始 化 重 复, 会 导 致 语 义 库 链 表 的 无 限 扩 张, 同 时 在 语 义 分 析 的 时 候 重 复 调 用, 造 成 时 间 和 资 源 的 巨 大 浪 费 在 设 计 的 语 义 库 表 结 构 的 时 候 需 要 考 虑 正 则 表 达 式 的 唯 一 性 第 二 方 面, 权 重 值 问 题 语 义 库 中 制 其 主 要 的 功 能 有 : 1) 获 取 网 页 名 称, 在 本 地 建 立 索 引, 将 存 储 位 置, 文 档 内 容 与 主 题 关 联 起 来 ) 保 存 网 页 数 据, 根 据 要 求 保 存 在 数 据 库 或 磁 盘 上 存 在 同 义 语 义 集 合 和 反 义 语 义 集 合, 这 个 两 个 集 合 中 权 重 值 表 示 是 否 有 区 别 影 响 后 面 的 相 似 3.3 爬 行 控 制 模 块 6
第 * 期 王 景 中 邱 铜 相 : 基 于 TF IDF 改 进 算 法 的 聚 焦 网 络 爬 虫 7 爬 行 控 制 模 块 是 整 个 爬 虫 的 神 经 中 枢, 控 制 爬 虫 的 各 个 模 块 协 调 运 转 其 主 要 有 两 大 模 块 :url 队 列 管 理 和 行 为 判 定 其 中 url 队 列 管 理 控 制 url 初 始 队 列,url 等 待 队 列 和 url 结 束 队 列 行 为 判 定 功 能 则 是 控 制 其 他 模 块 运 行 主 要 流 程 是 从 url 初 始 队 列 中 获 取 url, 如 果 等 待 队 列 中 不 存 在, 则 添 加 到 等 待 队 列 中, 等 待 其 他 线 程 调 用 如 果 存 在, 则 从 url 初 始 队 列 中 删 除 url 初 始 队 列 中 的 url 必 须 是 唯 一, 并 且 不 能 存 在 url 结 束 队 列 中 然 后 语 义 库 对 htmlparser 解 析 出 来 的 文 本 进 行 语 义 分 析, 计 算 网 页 文 档 的 贡 献 度, 爬 虫 根 据 主 题 语 义 选 择 下 载 内 容 和 选 择 网 页 中 的 url 链 接 Htmlparser 网 页 解 析 模 块, 解 析 网 页 内 容, 除 去 网 页 噪 声, 提 取 网 页 文 本 内 容 和 全 部 的 url 链 接 获 取 [8] 因 此 基 于 TF-IDF 的 爬 行 控 制 模 块 流 程 图 : 图 爬 行 控 制 模 块 工 作 流 程 图 4 实 验 结 果 分 析 本 次 实 验 结 果 分 析 涉 及 到 返 回 数 据 准 确 度, 错 误 率, 数 据 遗 漏 率 因 此, 实 验 中 web 文 档 样 本 总 数 50000 个, 指 定 搜 索 主 题 ( 例 如 php 开 发 框 架 ), 语 义 库 中 构 造 同 义 集 合 正 则 表 4 7
8 计 算 机 应 用 第 35 卷 条, 反 义 集 合 正 则 表 达 式 3 条 样 本 中 与 主 题 关 键 字 匹 配 的 文 档 数 是 30000, 与 主 题 关 键 字 匹 配 但 是 与 主 题 语 义 不 匹 配 的 文 档 数 是 10000, 符 合 主 题 语 义 的 数 据 总 数 是 0000, 与 主 题 无 关 的 文 档 总 数 是 0000 实 验 中 将 本 文 中 改 进 的 TF-IDF 算 法, 原 始 的 TF-IDF 算 法,k_meas [4] [10] 短 文 聚 类 算 法 以 及 自 适 应 遗 传 算 法 的 聚 类 爬 虫 算 法 进 行 比 较, 得 到 如 下 数 据 ( 表 1 实 验 结 果 对 照 表 ) 其 中 f-precise 表 示 爬 虫 返 回 文 档 中 与 主 题 语 义 匹 配 的 文 档 数 与 样 本 中 与 主 题 语 义 匹 配 的 文 档 数 的 百 分 比,f-uTitle 表 示 爬 虫 返 回 文 档 中 与 主 题 不 匹 配 的 但 跟 主 题 关 键 字 匹 配 的 文 档 数 与 样 本 中 与 主 题 语 义 相 匹 配 的 文 档 数 百 分 比 f-error 表 示 是 爬 虫 返 回 文 档 中 与 主 题 关 键 字 完 全 不 匹 配 的 文 档 数 与 爬 虫 返 回 文 档 总 数 的 比 例,f-omissio 表 示 样 本 中 与 主 题 匹 配 的 文 档 未 被 爬 虫 抓 取 的 文 档 数 与 样 本 中 与 主 题 匹 配 的 文 档 数 的 百 分 比 法 是 K_meas 算 法, 但 是 改 进 的 TF-IDF 算 法 在 错 误 率 和 准 确 率 两 个 性 能 上 占 有 明 显 优 势, 而 对 于 另 种 现 在 主 流 的 聚 焦 主 题 网 络 爬 虫 算 法 -- 自 适 应 遗 传 算 法, 改 进 的 TF-IDF 算 法 在 准 确 性, 降 低 误 差, 减 小 数 据 遗 漏 方 面, 都 具 有 明 显 优 势 因 此, 从 分 析 中 和 实 验 数 据 可 以 看 出, 改 进 的 TF-IDF 算 法 对 网 页 相 似 度 计 算 在 准 确 率 误 差 率 方 面 都 有 明 显 提 高, 并 且 取 得 了 很 好 的 预 期 效 果 5 结 语 本 文 从 语 义 分 析 角 度 对 网 络 爬 虫 技 术 进 行 研 究, 解 决 了 主 题 网 络 对 主 题 语 义 分 析 的 缺 陷 其 主 要 特 点 有 如 下 几 点 : F 值 方 法 名 数 值 表 1 实 验 结 果 对 照 表 f -Precise f -utitle f -Error f -Omissio 1) 搜 索 数 据 全 面 的 性 能 优 越, 即 是 相 关 主 题 内 容 遗 漏 率 率 小, 搜 索 结 果 数 据 规 模 小, 误 差 化 扩 大 得 到 有 效 控 制 ) 搜 数 据 准 确 率 有 很 大 提 高 3) 适 合 复 杂 的 关 键 字 检 索 和 文 档 的 语 义 分 析 原 始 的 TF-IDF 78.60% 10.50% 5.40% 10.90% K_meas 算 法 89.7% 5.3% 3.5% 1.5% 自 适 应 遗 传 算 法 87.6% 3.4%.1% 6.9% 本 文 改 进 的 TF-IDF 95.70% 1.16% 0.0% 3.14% 从 表 1 中 可 以 得 到 : 改 进 的 TF-IDF 算 法 比 传 统 的 TF-IDF 算 法 在 准 确 率 方 面 提 高 了 17.1%, 并 且 错 误 率 和 遗 漏 率 都 有 明 显 的 降 低, 其 中 遗 漏 率 降 低 到 3.1% 虽 然 将 遗 漏 率 降 到 最 低 的 算 但 是 在 创 建 同 义 语 义 集 合 和 反 义 语 义 集 合 是 人 工 创 建 训 练 集, 非 智 能 化 因 此, 在 创 建 同 义 语 义 训 练 集 合 实 现 智 能 化 是 具 有 重 要 的 研 究 价 值,, 为 将 来 在 语 义 检 索 方 面 提 供 研 究 参 考 参 考 文 献 [1] 代 宽, 赵 辉, 韩 冬. 基 于 向 量 空 间 模 型 的 中 文 网 页 主 题 特 征 项 抽 取. 吉 林 学 报, 014, 31(1): 89-93. [] 李 东 晖, 廖 晓 兰, 范 辅 桥, 黄 九 鸣, 陈 雪 刚. 一 种 主 题 知 识 自 增 长 的 聚 焦 网 络 爬 虫. 计 算 机 应 用 与 软 件, 014,31(5):30-33 8
第 * 期 王 景 中 邱 铜 相 : 基 于 TF IDF 改 进 算 法 的 聚 焦 网 络 爬 虫 9 [3] 路 永, 李 焰 锋. 改 进 TF-IDF 算 法 的 文 本 特 征 项 权 值 计 算 方 法. 图 书 情 报 工 作, 013,57(3):89-94 [4] 邱 云 飞, 赵 彬, 林 明 明, 王 伟. 结 合 语 义 改 迚 的 k-meas 短 文 本 聚 类 算 法. 计 算 机 工 程 与 运 用.015,1:1-7 [5] 黄 承 慧, 印 鉴, 侯 昉. 一 种 结 合 词 项 语 义 信 息 和 TF-IDF 方 法 的 文 本 相 似 度 量 方 法. 计 算 机 学 报, 011,34(5):857-86 [6] 孙 志 军, 郑 烇, 袁 婧, 刘 恒, 王 崇. 基 于 浅 层 语 义 分 析 技 术 的 语 义 检 索. 计 算 机 科 学, 01, 39(6): 107-110 [7] Schuber F,Li Hui. Chiese word segmetactio ad its effect o iformatio retriveal[j]. Iformatio Processig ad Maagemet,004,40(1):161-190 [8] 成 欣, 李 扬. 一 种 基 于 本 体 的 异 构 数 据 语 义 抽 取 方 法. 计 算 机 与 现 代 化, 014,(6):-6 [9] James J.Q. Yu, Victor O.K, LiDepartmet. A social spider algorithm for global optimizatio Applied.Soft Computig,015,Vol.30:o. 614 67 [10] 陈 悦, 陈 运, 杨 义 先, 胡 迪. 基 于 遗 传 算 法 的 聚 焦 爬 虫 搜 索 策 略 设 计 与 研 究. 成 都 信 息 工 程 学 院 学 报,011,6(5):534-537 [11] 于 洪 波. 网 页 特 征 提 取 技 术 研 究. 山 东 理 工 大 学 学 报, 011, 5(): 108-110. [1] 贺 飞 艳, 何 炎 祥, 刘 楠, 刘 健 博, 童 敏. 面 向 微 博 短 文 本 的 细 粒 度 情 感 特 征 抽 取 方 法. 北 京 大 学 自 然 学 报.014.50(1):48-54 9