基于改进的TF-IDF算法的聚焦主题



Similar documents

1983



Microsoft Word - 華藏衛視清明祭祖三時繫念法會開示_ _

四川汉墓中所反映的南传早期佛像艺术/范小平

(Microsoft Word - 5\276\302\270g\260\252\256v .doc)

要 站 立 得 稳, 我 在 十 字 架 上 已 经 都 抢 夺 过 来 了, 将 魔 鬼 不 让 你 们 来 享 用 的 都 推 开 了, 这 是 让 我 们 来 得 到 的 话 语 我 们 再 也 不 被 奴 仆 的 轭 辖 制, 要 来 拥 有 才 可 以 明 知 道 却 不 去 抢 夺 过

Microsoft Word doc

各位與會的貴賓大家午安, 歡迎大家來參加臺北市萬華區莒光段公共住宅的公聽會

qq

Microsoft Word - A _ doc

<4D F736F F D20B8CABDBBB0B2BCE03333BAC5>

Microsoft Word - 台東縣文學.doc

第 1 頁 C97232 第 一 部 分 : 選 擇 題 ( 佔 55 分 ) 一 單 選 題 ( 佔 34 分 ) 說 明 : 第 1 至 第 17 題, 每 題 選 出 一 個 最 適 當 的 選 項, 劃 記 在 答 案 卡 之 選 擇 題 答 案 區 每 題 答 對 得 2 分, 答 錯 或

Microsoft Word - 【預官_士_考選歷屆試題86~100】.doc

蘇轍〈黃州快哉亭記〉析論

<4D F736F F D20BBA6CBC9BDCCC8CBA1B A1B BAC5B8BDBCFE2E646F63>

第 1 頁 C97131 第 一 部 分 : 選 擇 題 ( 佔 54 分 ) 一 單 選 題 ( 佔 36 分 ) 說 明 : 第 1 題 至 第 18 題, 每 題 選 出 一 個 最 適 當 的 選 項, 標 示 在 答 案 卡 之 選 擇 題 答 案 區 每 題 答 對 得 2 分, 答 錯

准 尧 角 色 定 位 尧 存 在 周 期 形 态 和 方 式 等 角 度 与 传 统 媒 介 环 境 进 行 比 较 袁 分 析 了 网 络 传 播 中 野 意 见 领 袖 冶 在 分 散 而 微 尧 重 局 部 事 实 细 节 真 实 尧 非 层 级 去 权 力 化 等 方 面 的 形 态 特

第 一 部 分 目 录 销 售 管 理 规 范 汇 编... 5 Ⅰ 销 售 资 格 管 理 篇 关 于 保 险 公 司 销 售 人 员 资 格 管 理 的 规 定 关 于 银 邮 代 理 机 构 代 理 资 格 管 理 的 规 定 关 于 银 邮

一 緒 論 ( 一 ) 研 究 動 機 及 目 的 中 國 唐 代 為 佛 教 發 展 輝 煌 時 期, 其 中 禪 宗 也 是 當 時 鼎 盛 流 行 的 宗 派 之 一 本 文 主 要 在 探 討 馬 祖 道 一 (709~788, 以 下 簡 稱 馬 祖 ) 所 傳 承 的 洪 州 禪 ( 又

由 于 企 业 的 经 营 活 动 具 有 内 在 不 确 定 性, 某 些 财 务 报 表 项 目 不 能 精 确 计 量, 只 能 进 行 估 计 正 是 由 于 这 种 不 确 定 性, 在 会 计 实 务 中, 很 多 财 务 报 表 舞 弊 都 与 会 计 估 计 相 关 对 于 注 册

ttian

国 家 文 件 关 部 门 制 定 并 实 施 与 当 地 经 济 发 展 水 平 和 校 车 服 务 需 求 相 适 应 的 校 车 服 务 方 案, 统 一 领 导 组 织 协 调 有 关 部 门 履 行 校 车 安 全 管 理 职 责 县 级 以 上 地 方 人 民 政 府 教 育 公 安 交

<4D F736F F D F F355FCCECB5D8BFC6BCBCB5DACEE5BDECB6ADCAC2BBE1B5DAB6FEB4CEBBE1D2E9BEF6D2E9B9ABB8E62E646F6378>



红塔证券股份有限公司关于

2. 国 营 企 业 实 行 劳 动 合 同 制 暂 行 规 定 和 国 营 企 业 招 用 工 人 暂 行 规 定 1986 年 7 月 12 日, 国 务 院 发 布 国 营 企 业 实 行 劳 动 合 同 制 暂 行 规 定 和 国 营 企 业 招 用 工 人 暂 行 规 定 ( 国 发 19


一、银行结售汇业务

田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田有關田

证券代码: 证券简称:航空动力 公告编号:2011临-【】

Microsoft Word - Book 11 人道行.doc

<4D F736F F D EA16DBB50B3AFA742A4A7AED1A16EBD67A6AEA4CEA8E4C3C0B34EAF53A6E2B1B4AA522D2DB3B9A5BFA9BE5F702E34332D35345F2E646F63>

山 东 财 经 大 学 431 金 融 学 综 合 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 2-2 金 融 学 笔 记, 由 考 取 本 校 本 专 业 高 分 研 究 生 总 结 而 来, 重 点 突 出, 借 助 此 笔 记 可 以 大 大 提 高 复 习 2-3 金

Microsoft Word - Book 3 巫山行.doc

<4D F736F F D BEC7A67E2DB5A7B8D52DBB79A4E5AFE0A44FB4FAC5E7BEE3A658A5FE2E646F63>

zt

苏 州 科 技 学 院 825 管 理 学 原 理 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 管 理 学 原 理 真 题 , 历 年 真 题 主 要 用 来 研 究 考 研 的 考 点, 重 点 和 出 题 思 路, 为 考 研 最 重 要

太 原 科 技 大 学 811 西 方 哲 学 史 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 1-1 本 套 资 料 没 真 题 注 : 若 考 前 收 集 到 最 新 考 研 真 题, 我 们 将 免 费 邮 件 发 送 给 购 买 资 料 的 考 生, 若 考 生 自

CIC _Appendix

江 苏 科 技 大 学 809 机 械 设 计 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 江 苏 科 技 大 学 810 机 械 原 理 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 江 苏 科 技 大 学 机 械 原

目 录 福 建 档 案 2015 年 第 6 期 总 第 204 期 佳 作 欣 赏 你 如 此 端 详 的 这 张 迷 惑 的 脸 和 那 历 经 风 雨 和 冰 霜 寂 寞 的 眼 寒 冷 的 冬 天 怕 你 在 夜 里 着 凉 事 业 管 理 亮 点 与 重 点 试 谈 我 省 依 法 治 档

浙 江 财 经 大 学 891 统 计 学 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 浙 江 财 经 大 学 统 计 学 891 全 套 考 研 资 料...22 浙 江 财 经 大 学 高 等 数 学 601 全 套 考 研 资 料

2016年微信3月(3)

两 级 党 委 ( 党 总 支 ) 中 心 组 理 论 学 习 提 出 如 下 安 排 意 见 一 总 体 要 求 高 举 中 国 特 色 社 会 主 义 伟 大 旗 帜, 以 马 克 思 列 宁 主 义 毛 泽 东 思 想 邓 小 平 理 论 三 个 代 表 重 要 思 想 科 学 发 展 观 为

鲤城区保留的区级前置审批事项目录(116项).xls

untitled

关于印发《干部人事档案材料收集归档规定》的通知

喜 临 门 家 具 股 份 有 限 公 司 2016 年 第 二 次 临 时 股 东 大 会 会 议 议 程 会 议 召 集 人 : 公 司 董 事 会 现 场 会 议 时 间 :2016 年 6 月 16 日 ( 星 期 五 ) 下 午 14 时 现 场 会 议 地 点 : 浙 江 省 绍 兴 市

<4D F736F F D DB6C0B752A5AD5FA16DBDD7BB79B5A7B8D1A16EAF75B0B0A6D2B8C92E646F63>

国家邮政局2010年部门预算

Microsoft Word - _二_-1-2D研習講義-孫藝玨.doc

第 1 頁 C97231 第 一 部 分 : 選 擇 題 ( 佔 55 分 ) 一 單 選 題 ( 佔 34 分 ) 說 明 : 第 1 至 第 17 題, 每 題 選 出 一 個 最 適 當 的 選 項, 劃 記 在 答 案 卡 之 選 擇 題 答 案 區 每 題 答 對 得 2 分, 答 錯 或


025-



Microsoft Word 司仲敖.doc

彰化縣九十一年運動大會目錄



<4D F736F F D20ACA1B0CAA6A8AA47B3F8A769AED1>

关于调整可充抵保证金证券的通知( )

专业技术人员正高级

<4D F736F F D20E1E9C7F8C8CBC0CDB9ABA1B A1B BAC5B9D8D3DAD3A1B7A2A1B6E1E9BDADC7F8CAC2D2B5B5A5CEBBB8DACEBBC9E8D6C3B9DCC0EDCAB5CAA9B7BDB0B8A1B7B5C4CDA8D6AA>

海 军 大 连 舰 艇 学 院 807 有 机 化 学 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 2-2 有 机 化 学 笔 记, 此 笔 记 为 高 分 研 究 生 复 习 所 用, 借 助 此 笔 记 可 以 大 大 提 高 复 习 效 率, 把 握 报 考 院 校 2

一 本 所 新 闻 1. 最 高 人 民 法 院 发 布 关 于 适 用 < 中 华 人 本 所 诉 讼 与 仲 裁 专 业 委 员 会 与 北 京 工 业 大 学 联 合 主 办 商 标 法 实 务 研 讨 会 民 共 和 国 保 险 法 > 若 干 问 题 的 解 释 ( 二 ) 该 司 法 解

027-

76 宣 城 年 鉴 种 权 专 项 执 法 行 动 农 产 品 质 量 安 全 执 法 年 活 动 ) 组 织 开 展 了 自 查 自 纠 和 集 中 整 治 活 动 印 发 了 关 于 开 展 2009 年 放 心 农 资 下 乡 进 村 宣 传 周 活 动 的 通 知, 组 织 开 展 第 五

Microsoft Word - Book 2 月下行.doc


重 庆 邮 电 大 学 数 据 结 构 802 初 试 内 部 精 华 资 料 1-1 数 据 结 构 2007, 暂 无 答 案 2-1 考 研 复 习 规 划 指 导 全 年 专 业 课 复 习 计 划, 指 导 考 生 科 学 时 间 分 配, 提 高 备 考 效 率, 免 费 赠 送 2-2

語文學習領域─本國語文(國語文)


鲁 东 大 学 702 普 通 心 理 学 ( 含 发 展 心 理 学 ) 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 2-2 普 通 心 理 学 笔 记, 由 考 取 本 校 本 专 业 高 分 研 究 生 总 结 而 来, 重 点 突 出, 借 助 此 笔 记 可 以 大



学 习 贯 彻 中 央 尧 省 尧 市 纪 委 全 会 精 神 专 栏 中 国 共 产 党 第 十 八 届 中 央 纪 律 检 查 委 员 会 第 六 次 全 体 会 议 公 报 渊 2016 年 1 月 14 日 中 国 共 产 党 第 十 八 届 中 央 纪 律 检 查 委 员 会 第 六 次

Microsoft Word - 临政办发12.doc

中共山东省委高校工委

标题

目 录 第 一 部 分 国 家 知 识 产 权 局 概 况 一 主 要 职 能 二 部 门 预 算 单 位 构 成 第 二 部 分 国 家 知 识 产 权 局 2016 年 部 门 预 算 表 一 财 政 拨 款 收 支 总 表 二 一 般 公 共 预 算 支 出 表 三 一 般 公 共 预 算 基

ᄐ↓ᅯᄎ2015ᅣ↑ᄇ﾿ᅢᅤᅯ녜 ̄

科学技术部2013年度部门预算

一、二○○二年学校工作的简要回顾

Microsoft Word - 白俄罗斯公司法汉语译文2015年7月15日修改版.docx

第 一 部 分 中 国 气 象 局 职 责 及 概 况 一 主 要 职 责 ( 一 ) 拟 定 气 象 工 作 的 方 针 政 策 法 律 法 规 发 展 战 略 和 长 远 规 划 ; 制 定 发 布 气 象 工 作 的 规 章 制 度 技 术 标 准 和 规 范 并 监 督 实 施 ; 承 担

数学与统计学院教师支部“两学一做”学习教育实施计划

无 锡 职 业 技 术 学 院 国 有 资 产 管 理 办 法 第 一 章 总 则 第 一 条 为 加 强 学 校 国 有 资 产 管 理, 合 理 配 置 和 有 效 使 用 国 有 资 产, 确 保 国 有 资 产 安 全 与 完 整, 保 障 和 促 进 学 校 各 项 事 业 发 展, 根

省安委会2015冬防工作方案.doc

南 昌 大 学 人 力 资 源 工 作 简 讯 2015 年 第 2 期 ( 总 第 27 期 ) 目 录 1 人 力 资 源 综 合 信 息 2 人 员 调 配 及 机 构 编 制 管 理 信 息 3 劳 资 工 作 信 息 4 师 资 管 理 信 息 5 高 层 次 人 才 及 队 伍 建 设

国家邮政局2010年部门预算

国家邮政局2010年部门预算

11韶关市人力资源和社会保障局权责清单

三亚市政府投资建设项目代建制管理工作介绍

<4D F736F F D20C9FABBB7B9FAD6D CBB6CABFB8B4CAD4B7BDB0B8312E646F63>

目 录 一 部 门 职 责... 1 二 预 算 编 报 范 围... 3 三 2013 年 部 门 预 算 报 表 及 情 况 说 明... 5 收 支 预 算 总 表 及 情 况 说 明... 5 收 入 预 算 表 及 情 况 说 明... 7 支 出 预 算 表 及 情 况 说 明... 1

Transcription:

Joural of Computer Applicatios ISS 1001-9081 015- -10 计 算 机 应 用,015, ( ): - CODE JYIIDU http://www.joca.c 基 于 TF-IDF 改 进 算 法 的 聚 焦 主 题 网 络 爬 虫 王 景 中 1, 邱 铜 相 ( 北 方 工 业 大 学 计 算 机 学 院, 北 京 市,100144) (* 通 信 作 者 电 子 邮 箱 10363558@qq.com) 摘 要 : 针 对 传 统 的 TF-IDF 算 法 K_meas 算 法 自 适 应 遗 传 算 法 在 网 络 检 索 结 果 中 含 有 大 量 不 相 关 数 据 语 义 检 索 准 确 性 不 高 的 问 题, 本 文 研 究 了 TF-IDF 算 法 的 改 进 及 其 在 语 义 检 索 中 的 应 用 将 正 则 表 达 式 和 语 义 分 析 技 术 相 结 合, 从 而 实 现 对 TF-IDF 算 法 的 改 进 利 用 语 义 库 对 搜 索 主 题 进 行 描 述, 根 据 正 则 原 子 语 义 的 重 要 性 和 在 网 页 标 签 中 的 不 同 位 置 进 行 加 权 计 算, 得 到 正 则 原 子 在 文 档 中 的 相 似 度 通 过 空 间 向 量 模 型 对 文 档 相 似 度 和 主 题 模 型 进 行 余 弦 运 算, 从 而 获 取 最 终 的 搜 索 结 果 最 后, 将 改 进 的 TF-IDF 算 法 传 统 的 TF-IDF 算 法 K_meas 算 法 和 自 适 应 遗 传 算 法 运 用 于 聚 焦 主 题 网 络 爬 虫 中, 对 其 检 索 结 果 进 行 了 对 比 分 析 计 算 结 果 表 明, 在 聚 焦 主 题 网 络 爬 虫 语 义 分 析 的 垂 直 搜 索 中, 改 进 的 TF-IDF 算 法 比 传 统 的 TF-IDF 算 法 检 索 准 确 率 提 高 了 17.1%, 遗 漏 率 可 降 低 到 3.1%; 比 K_meas 算 法 检 索 准 确 率 提 高 6%; 比 自 适 应 遗 传 算 法 检 索 准 确 率 提 高 8.1% 总 之, 改 进 的 TF-IDF 算 法 可 以 有 效 地 提 高 文 档 相 似 度 检 测 的 准 确 率, 很 好 地 改 善 聚 焦 主 题 网 络 爬 虫 在 语 义 分 析 中 的 缺 陷 关 键 词 : 网 络 爬 虫 ; 语 义 分 析 ; 搜 索 引 擎,TF-IDF; 主 题 爬 虫 ; 文 档 相 似 度 中 图 分 类 号 : TP311 文 献 标 志 码 : A Improved TF-IDF Alogorithm Base O Focused Title etwork Crawler Wag Jigzhog [1], QIU Togxiag [], (School of computer orth Chia Uiversity Of Techology,Beig,100144) 收 稿 日 期 : 015-05-11; 修 回 日 期 : 015-07-07 基 金 项 目 : 国 家 自 然 基 金 项 (o.6137114); 北 京 市 创 新 团 队 建 设 提 升 计 划 (ID HT013050) 作 者 简 介 : 王 景 中 (196-), 男, 内 蒙 古, 教 授, 硕 士, 主 要 研 究 方 向 : 信 息 安 全, 图 像 处 理, 数 据 挖 掘 ; 邱 铜 相 (1989-), 男, 江 西 信 丰, 硕 士 研 究 生, 主 要 研 究 方 向 : 信 息 安 全 数 据 挖 掘

计 算 机 应 用 第 35 卷 Abstract: I order to solve the problem of these large umber of irrelevat data i web search results ad the low accuracy of sematic retrieval of the traditioal TF-IDF algorithm, K_meas algorithm ad the adaptive geetic algorithm, we studied the improvemet of the TF-IDF algorithm ad its applicatio i sematic retrieval i this paper. The TF-IDF algorithm is improved successfully by applyig the regular expressio to the sematic aalysis techique. The search topic is described by a sematic database. The similarity of the regular atoms i documets is obtaied by a weighted calculatio, which is accordig to the importace of the regular atomic sematics ad the differet positios of the web pages. The fial results are obtaied by a Cosie operatio of the documet similarity ad subject mode through the space vector model. Fially, calculatig results are aalyzed by applyig the improved TF-IDF algorithm, the traditioal TF-IDF algorithm, the K_meas algorithm ad the adaptive geetic algorithm to the focused topic web crawler. Results show that the accuracy is improved by 17.1% ad the omissio rate ca be reduced to 3.1% i the vertical search of the focused web crawler. Compared with the K-meas algorithm ad the adaptive geetic algorithm, the accuracy ca be improved by 6% ad 8.1% respectively. I summary, the improved TF-IDF algorithm ca improve the accuracy of documet similarity detectio effectively ad the defect of focused web crawler i the sematic aalysis greatly. It is of great sigificace i future sematic retrieval. Keywords: web spider; sematic aalysis; Search Egie;TF-IDF;title spider;documet correlatio degree 0 引 言 随 着 互 联 网 的 高 速 发 展, 网 络 上 的 数 据 资 源 每 天 都 在 成 千 上 亿 兆 的 增 长 其 中 涵 盖 了 当 因 此 需 要 提 出 一 种 能 够 根 据 主 题 语 义 来 判 断 网 页 的 相 似 度 关 系 以 及 提 高 爬 行 效 率 的 搜 索 策 略, 而 改 进 的 TF-IDF 算 法 可 以 递 归 的 回 溯 到 主 题 语 义 上, 让 爬 虫 紧 贴 主 题 语 义, 让 爬 虫 抓 取 更 加 精 确 今 社 会 各 个 方 面, 例 如 教 育 新 闻 财 经 等 等 [1] 网 络 共 享 资 源 已 经 成 为 了 当 今 世 界 上 最 大 规 模 的 网 络 公 共 共 享 资 源 但 是 人 的 能 力 是 有 限 的, 对 面 如 此 庞 大 的 资 源 数 量, 人 类 要 从 中 找 出 所 需 要 的 数 据 是 一 件 非 常 艰 难 的 事 情 而 聚 焦 主 题 网 络 爬 虫 就 是 专 为 抓 取 某 主 题 信 息 而 1 1.1 网 络 爬 虫 聚 焦 主 题 网 络 爬 虫 出 现 的 网 页 信 息 抓 取 工 具 [] 与 通 用 网 络 爬 虫 不 同, 聚 焦 主 题 网 络 爬 虫 目 的 在 抓 取 与 特 定 主 题 内 容 相 关 的 网 页 信 息 因 此, 聚 焦 主 题 网 络 爬 虫 面 临 的 首 要 问 题 就 是 使 用 何 种 方 法 来 判 定 网 页 内 容 与 主 题 的 是 否 相 关, 以 及 根 据 主 题 相 关 度 采 用 的 搜 索 策 略 来 提 高 搜 索 结 果 的 正 确 性 和 时 间 空 间 性 能 目 前 主 要 的 聚 焦 主 题 网 络 爬 虫 搜 索 策 略 有 : 基 于 内 容 评 价 的 搜 索 策 略 和 基 于 链 接 结 构 评 价 的 搜 索 策 略, [3 但 是 以 上 两 种 搜 索 策 略 在 对 主 题 语 义 分 析 方 面 都 有 很 大 的 缺 陷 聚 焦 主 题 网 络 爬 虫 是 在 普 通 网 络 爬 虫 上 根 据 自 己 的 爬 行 算 法 和 设 定 的 主 题 特 征 进 行 过 [] 滤, 筛 选 出 满 足 主 题 的 utl 来 进 行 抓 取 页 面 数 据, 下 载 满 足 规 则 的 页 面 存 储 起 来 目 前 主 题 网 络 爬 虫 的 目 标 是 尽 可 能 高 速 全 面 正 确 的 将 网 站 页 面 存 储 到 本 地, 比 较 常 用 的 方 式 是 全 面 或 者 部 分 匹 配 页 面 信 息, 获 取 相 关 的 url, 根 据 url 下 载 网 页 页 面, 普 通 的 网 络 爬 虫 适 用 于 通 用 的 数 据 搜 索, 误 差 率 大 而 聚 焦 主 题 网 络 爬 虫 则 针 对 某 一 领 域 或 者 主 题, 其 主 要 方 式 是 在 资 源 有 限 的 条 件 下, 竟 可 能 获 取 与 主 题 相 关 的 网 站 页 面, 同 时 尽 量 减 少 与 主 题 无 关 的

第 * 期 王 景 中 邱 铜 相 : 基 于 TF IDF 改 进 算 法 的 聚 焦 网 络 爬 虫 3 网 页 因 此 聚 焦 主 题 网 络 爬 虫 搜 索 数 据 的 准 确 性 比 普 通 主 题 网 络 爬 虫 提 高 了 将 近 1 倍 [4], 但 缺 陷 是 限 定 在 另 一 个 领 域 中 现 阶 段 聚 焦 主 题 网 络 爬 虫 面 临 主 题 描 述 困 难, 模 型 定 义 规 则 复 杂 文 档 结 构 多 元 化, 准 确 数 据 遗 漏, 误 差 易 被 放 大 等 挑 战, 特 别 是 不 能 对 主 题 进 行 全 面 准 确 的 描 述, 结 构 是 抓 取 到 的 网 页 数 据 偏 离 主 题 本 身 的 语 义 和 误 差 放 大 而 本 文 提 出 的 基 于 TF-IDF 改 进 算 法 可 以 解 决 此 类 问 题 中 包 含 主 题 关 键 字 文 档 数 为 100, 第 二 种 情 况 是 包 含 主 题 的 文 档 数 是 50 篇, 很 明 显 的 可 以 看 出, 第 二 种 情 况 能 够 更 好 的 区 分 与 主 题 相 关 的 文 档 TF-IDF 算 法 的 计 算 公 式 如 式 (1) [5] : w = f tf f idf = log + 0.01 i (1) 1. 基 于 语 义 分 析 的 聚 焦 主 题 网 络 爬 虫 其 中 W 是 第 i 个 词 在 第 j 篇 文 档 中 的 权 值,ftf 是 第 i 个 词 汇 在 第 j 篇 文 档 中 出 现 的 频 率, 基 于 语 义 分 析 的 聚 焦 主 题 网 络 爬 虫 是 在 主 题 网 络 爬 虫 的 基 础 上, 根 据 主 题 的 语 义, 将 分 词 技 术, 正 则 技 术 和 语 义 分 析 技 术 综 合 运 用 到 对 页 面 信 息 分 析, 自 动 筛 选 符 合 主 题 语 义 的 url [], 将 数 据 源 的 语 义 自 动 聚 集 到 主 题 语 义 上, 排 除 与 主 题 语 义 不 匹 配 的 信 息 因 此, 基 于 叫 做 词 汇 频 率 fidf 是 主 题 在 所 有 文 档 中 出 现 的 频 率, 称 为 反 词 汇 频 率 当 fidf 值 越 大 的 时 候, 说 明 这 个 词 汇 在 文 档 中 的 越 容 易 区 别 于 其 他 文 档, 其 识 别 度 就 越 高 从 式 1 可 以 得 到 :w 的 权 值 要 提 高, 词 汇 频 率 需 要 提 高 对 于 反 词 汇 频 率, 其 值 越 大, 说 明 词 汇 越 集 中 于 部 分 文 档 中 [1], 更 容 易 区 分 于 其 他 文 档 对 于 运 用 到 实 践 中, 需 要 对 于 进 行 向 量 归 一 化, 其 结 果 如 式 () [5] : TF-IDF 改 进 算 法 的 目 标 是 尽 可 能 的 排 除 不 相 关 数 据, 控 制 误 差, 尽 可 能 全 面 的 包 含 符 合 主 题 语 义 的 网 页 TF-IDF 算 法 改 进 网 页 内 容 相 似 度 衡 量, 在 不 同 领 域 中 采 用 的 方 法 各 不 相 同 本 次 研 究 主 要 采 用 文 档 词 频 w = i = 1 f f log( + 0.01) i log + 0.01 i () 统 计 算 法 TF-IDF 算 法 TF-IDF 算 法 是 基 于 统 计 学 加 权 的 一 种 重 要 的 统 计 信 息 的 计 算 方 法 其 主 要 思 想 涉 及 两 个 参 数 : 一 个 是 TF 频 率, 其 描 述 的 是 主 题 关 键 字 在 文 档 中 出 现 的 次 数, 次 数 越 多, 文 档 与 主 题 的 相 似 度 越 高 另 外 一 个 是 IDF 频 率, 其 描 述 的 是 主 题 关 键 字 在 文 档 中 的 区 分 度, 主 题 关 键 字 在 所 有 文 档 中 出 现 的 次 数 越 少, 其 主 题 在 文 档 中 区 分 度 越 高 [3] 例 如 : 主 题 为 研 究 生 初 试 分 数 线 在 所 有 搜 索 文 档 中 出 现 的 词 汇 频 率 是 300 次, 第 一 种 情 况 是 其 从 式 上 可 以 看 出,TF-IDF 的 算 法 不 能 区 分 主 题 的 语 义, 原 因 在 于 分 割 主 题 得 到 的 词 很 多 是 没 有 实 际 意 义 的, 但 是 却 对 整 个 主 题 相 似 度 的 贡 献 却 占 很 大 比 例 比 如, 特 色 的 牛 肉 食 品, 牛 肉 的 贡 献 度 为 0.15, 食 品 的 贡 献 度 为 0., 而 特 色 的 贡 献 度 为 0.3, 而 的 的 贡 献 度 却 占 0.3 总 的 贡 献 度 是 0.95 但 整 个 主 题 重 点 是 特 色 牛 肉, 其 贡 献 度 是 0.45, 而 的 是 无 意 义 词, 其 贡 献 度 却 接 近 占 总 贡 献 度 的 1/3 并 且 特 色 是 修 饰 词, 其 意 义 也 不 大, 但 其 贡 献 度 占 0.3 而 其 中 最 大 问 题 的 是 牛 肉, 应 该 是 主 题 中 最 能 具 有 3

4 计 算 机 应 用 第 35 卷 区 分 度 的 词, 但 其 贡 献 却 是 只 有 0.15 因 此, 基 于 传 统 的 TF-IDF 算 法 对 主 题 搜 索 存 在 问 题, 需 对 其 进 行 改 进 而 解 决 此 类 问 题 的 办 法 是 将 搜 索 的 每 个 关 键 字 进 行 分 割, 剔 除 虚 词, 其 目 的 是 解 决 没 有 实 际 意 义 词 参 加 到 网 页 相 似 度 的 计 算 中 对 于 非 关 键 词 贡 献 度 偏 大 和 关 键 词 贡 献 度 偏 小 等 不 合 理 情 况, 其 解 决 方 法 是 对 其 每 个 词 的 重 要 性 进 行 加 权 [4], 对 关 键 词 进 行 高 权 重 处 理, 非 关 键 词 根 据 重 要 性 对 于 合 理 分 配 权 限, 因 此,TF-IDF 算 法 可 以 进 一 步 修 改 为 为 如 式 (3)(Cj 表 示 主 题 在 第 j 篇 文 档 中 的 贡 献 度 ): j i<, j< i<, j () () C = f i w = f i i= 1, j= 1 i= 1, j= 1 i= 1 f log + 0.01 i f log + 0.01 i 这 适 合 无 结 构 化 的 网 页 文 本, 但 是 对 半 结 构 化 的 网 页 文 档 效 果 明 显 存 在 偏 差, 原 因 在 于 网 页 文 档 中 存 在 特 殊 意 义 的 标 签, 这 些 标 签 中 的 内 容 对 主 题 的 贡 献 值 比 其 他 标 签 中 的 内 容 具 有 更 大 的 意 义, 因 此 出 现 在 这 些 标 签 中 应 该 比 其 出 现 在 他 标 签 中 的 权 重 高 所 以 在 解 析 网 页 内 容 时, 因 根 据 网 页 中 的 标 签 特 征 可 以 找 出 关 键 字 所 在 位 置, 对 其 进 行 加 权 区 分 对 html 文 本 网 页, 其 中 title, 锚 文 本 (achor text),meta 等 标 签 中 内 容 对 主 题 的 贡 献 度 在 整 个 网 页 中 的 贡 献 度 占 的 比 重 是 比 较 大 的 [4] 因 此 这 些 标 签 的 值 的 权 重 应 该 给 定 特 殊 的 权 重, 但 是 标 签 如 果 仅 仅 在 上 述 地 方 的 一 个 出 现, 贡 献 度 的 权 重 可 能 会 偏 离 主 题, 为 了 避 免 出 现 这 种 情 况, 采 用 平 均 加 权 的 办 法 和 累 加 计 算 的 办 法 其 权 重 的 计 算 公 式 如 式 (4): (3) T wf ( k) = i = 0 j = 1 m m () i ( j) 其 中 m(i) 是 第 i 标 签 的 权 值,Twf(k) 表 示 第 k 个 词 的 平 均 累 加 权 值, j= 1 (4) m( j) m ( i) 表 示 第 k 个 词 在 所 在 标 签 的 累 加 权 重, 表 示 在 整 个 页 面 包 含 的 上 述 标 签 的 权 值 总 和 根 据 以 往 研 究, 获 取 到 比 较 合 理 的 标 签 权 值 函 数 m(i) [4], 如 式 (5): () mi 10, < title > 8, < metal > = 6, < H ><, a > 3, 其 他 但 是 获 取 到 的 Twf(k) 值 永 远 是 小 于 1, 如 果 关 键 字 不 出 现 标 签 中 列 表 中,Twf(k) 将 会 是 0 事 实 上 对 主 题 是 有 贡 献, 因 此 Twf(k) 的 取 值 范 围 不 应 该 在 [0,1] 在 实 验 中 发 现, 标 签 中 合 理 的 权 重 取 值 应 该 是 在 [1,], 原 因 在 于, 对 于 所 有 的 标 签 都 是 有 贡 献 的, 相 比 下, 只 是 每 个 贡 献 度 是 不 一 样 的 在 实 验 中, 需 要 对 Twf(k) 函 数 进 行 调 整 如 式 (6): T wf ( k) mi () i= 0 + 1, ( 0) = m( j ) j= 1 1, ( = 0) (5) (6) i = 0 4

第 * 期 王 景 中 邱 铜 相 : 基 于 TF IDF 改 进 算 法 的 聚 焦 网 络 爬 虫 5 但 是 对 于 对 于 语 义 分 析 的 主 题 网 络 爬 虫, 将 主 题 部 分 分 割 再 描 述 在 大 部 分 搜 索 中 都 是 歪 曲 了 主 题 语 义, 这 是 误 差 扩 大 化 的 根 本 原 因 因 此 主 题 模 型 地 正 确 描 述 的 正 确 与 否 关 系 到 搜 索 结 果 的 正 确 性 好 与 差 本 文 研 究 提 出 的 解 决 方 法 是 用 一 序 列 的 语 义 来 描 述 主 题, 每 条 语 义 进 行 分 析 ( 图 1 中 4), 爬 行 控 制 模 块 根 据 规 则 控 制 语 义 选 择 器 选 择 是 否 下 载 页 面 数 据 和 是 否 将 获 取 的 url 添 加 到 url 队 列 中 去 ( 图 1 中 5,6,7) 1 读 取 定 义 成 一 个 不 可 分 割 的 语 义 模 型 在 实 验 中 则 是 用 一 个 正 则 表 达 式 描 述 一 条 语 义 模 型 因 此, 实 验 中 同 义 集 合 / 反 义 集 合 中 的 每 一 个 正 则 表 达 式 都 是 一 条 语 义 模 型, 对 每 个 语 义 模 型 进 行 权 重 分 配, 主 题 贡 献 度 计 算 公 式 可 以 改 进 为 如 式 (7)(cj 表 示 关 键 字 第 j 篇 文 档 中 的 贡 献 度 ): Htmlparser 解 析 3 获 取 UrlData 5 数 据 7 选 择 Url 队 列 j C = f k T k k = 1 k ( ) wf ( ) i = 1 log + 0.01 log + 0.01 i (7) 3 解 析 TxtData 4 分 析 4 分 析 内 容 分 析 4 分 析 语 义 判 定 器 5 数 据 ⑺ 选 择 6 控 制 DowLoad 爬 行 控 制 模 块 其 中 是 语 义 库 中 所 有 正 则 表 达 式 在 第 j 页 面 搜 索 到 次 数 总 和 f(k) 是 第 k 个 正 则 表 语 义 库 达 式 的 权 值,Twf(k) 是 第 k 个 正 则 在 第 j 个 页 面 中 平 均 权 值,k 第 k 个 正 则 表 达 式 在 第 j 个 页 图 1 聚 焦 主 题 网 络 爬 虫 功 能 模 块 图 面 中 出 现 的 次 数 3 基 于 语 义 分 析 的 聚 焦 主 题 网 络 爬 虫 设 计 实 现 聚 焦 主 题 网 络 爬 虫 爬 虫 的 设 计 分 为 三 大 模 块, 分 别 是 语 义 分 析, 数 据 下 载 和 爬 行 控 制 模 块 语 义 分 析 模 块 负 责 语 义 分 析 等 功 能, 数 据 下 载 模 块 负 责 下 载 网 页 和 存 储 文 档, 爬 虫 控 制 模 块 负 责 协 调 控 制 整 个 爬 虫 过 程 各 个 功 能 模 块 协 调 运 行 ( 如 图 1 所 示 ): 首 先, 爬 虫 会 从 初 始 化 的 url 队 列 中 获 取 url 链 接 ( 图 1 中 1), 获 取 网 页 内 容 然 后 Htmlparser 对 获 取 到 的 网 页 内 容 进 行 解 析 ( 图 1 中 ), 同 时 Htmlparser 将 网 页 中 的 url 和 urldata 提 取 出 来 ( 图 1 中 3), 交 给 语 义 分 析 功 能 模 块, 语 义 分 析 功 能 将 语 义 库 加 载 到 程 序 中, 对 UrlData 和 TxtData 3.1 语 义 库 主 题 模 型 难 以 描 述 是 如 今 聚 焦 主 题 网 络 爬 虫 面 临 的 一 个 难 题, 目 前 描 述 的 方 式 很 多, 其 主 要 的 描 述 方 式 有 完 全 描 述 和 部 分 描 述 完 全 描 述 缩 小 了 搜 索 范 围, 提 高 了 准 确 率, 但 是 搜 索 的 信 息 不 够 全 面 部 分 描 述 则 扩 大 了 搜 索 范 围, 造 成 误 差 扩 大 化 语 义 库 是 描 述 主 题 模 型 的 一 个 集 合, 语 义 库 包 含 同 义 集 合 和 反 义 集 合 两 部 分 同 义 集 合 是 描 述 与 主 题 模 型 语 义 一 致 的 正 则 表 达 式 的 集 合, 同 义 集 合 是 根 据 用 户 主 题, 获 取 得 到, 同 义 集 合 的 目 的 是 尽 可 能 全 面 的 覆 盖 主 题 语 义, 获 取 到 尽 可 能 全 面 的 数 据 反 义 集 合 是 描 述 与 主 题 语 义 不 相 符 的 正 则 表 达 5

6 计 算 机 应 用 第 35 卷 式 集 合, 其 目 的 是 为 了 将 部 分 描 述 中 不 符 合 主 题 模 型 规 则 过 滤 掉, 减 小 误 差 反 义 集 合 获 取 方 式 和 同 义 集 合 获 取 方 式 相 同 3.1.1 同 义 语 义 集 合 和 反 义 语 义 集 合 获 取 同 义 语 义 集 合 和 反 义 语 义 集 合 的 获 取 的 方 式 是 相 同 的 其 获 取 是 根 据 主 题 语 义, 人 工 的 创 建 一 个 训 练 集 合 库 创 建 的 步 骤 如 下 : 1) 根 据 主 题 语 义, 创 建 同 义 集 合 SyoymousSet{S1,S S}( 为 有 限 个 语 句 ), 其 中 S 是 同 义 语 句 ) 从 SyoymousSet 集 合 手 动 创 建 正 则 表 达 式 语 句 为 T1, 添 加 到 集 合 SySemSet{T1,T...} 3) 对 SySemSet 中 所 有 的 正 则 表 达 式 语 句 进 行 加 权 赋 值 建 立 同 义 集 合 的 目 的 是 使 得 更 加 全 面 的 搜 索 到 相 关 主 题 的 信 息 为 了 保 证 主 题 信 息 的 准 确 性 和 全 面 性, 采 用 了 正 则 表 达 语 义 库, 根 据 主 题 语 义 建 立 一 个 关 于 主 题 的 正 则 表 达 式 语 义 库, 从 而 进 一 步 加 大 了 搜 索 的 范 围 反 义 集 合 与 同 义 集 合 建 立 类 似, 但 是 其 目 的 是 减 少 信 息 度 的 计 算 同 义 语 义 集 合 是 增 强 主 题 相 似 度, 反 义 语 义 集 合 则 是 削 弱 主 题 相 似 度, 在 改 进 的 TF-IDF 算 法 考 虑 这 种 类 型 计 算, 因 此 为 了 区 别, 在 语 义 库 表 结 构 中 加 入 区 别 的 字 段 categor 第 三 个 方 面, 重 复 使 用 问 题 对 于 用 一 个 正 则, 在 同 一 个 文 档 中 的 计 算 只 能 计 算 一 次 否 则 造 成 时 间, 空 间 资 源 浪 费 和 影 响 结 果 的 准 确 性 3.1.3语 义 解 析 器 语 义 解 析 器 是 将 网 页 内 容 进 行 解 析, 将 解 析 出 的 内 容 进 行 语 义 分 析, 利 用 页 面 相 似 度 算 法 进 行 数 据 刷 选, 将 符 合 要 求 的 url 提 交 交 给 爬 行 控 制 模 块, 符 合 主 题 语 义 的 数 据 提 交 给 数 据 抓 取 模 块 下 载 因 此 语 义 解 析 器 有 两 个 大 模 块, 第 一 个 模 块 是 网 页 解 析 和 内 容 分 析 的 htmlparse 解 析 模 块, 第 二 个 模 块 是 url 链 接 刷 选 和 分 析 语 义 的 语 义 判 定 器 功 能 流 程 如 图 1 所 示 网 页 解 析 器 的 作 用 是 解 析 网 页 代 码, 去 除 网 页 噪 声 和 对 网 页 代 码 进 行 修 补, 本 文 中 使 用 开 源 的 parsehtml 技 术 其 中 内 容 分 析 跟 语 义 判 器 都 涉 及 到 语 义 分 析, 内 容 分 析 是 根 据 语 料 库 中 的 主 题 信 息, 分 析 网 页 的 相 似 度 然 后 url 选 择 器 根 据 设 定 条 件, 提 取 出 符 合 主 题 语 义 的 url 链 接 范 围, 尽 量 排 除 跟 主 题 无 关 的 信 息 3. 数 据 下 载 模 块 3.1.语 义 库 的 表 结 构 设 计 数 据 下 载 模 块 是 将 网 页 上 的 数 据 下 载 到 本 地 磁 盘 或 数 据 库 中, 其 行 为 有 爬 虫 控 制 模 块 控 根 据 语 义 库 的 定 义, 在 设 计 语 义 库 时 需 要 考 虑 三 个 方 面 的 问 题 第 一 个 方 面 是 语 义 模 型 不 重 复 性, 这 个 不 重 复 性 体 现 在 初 始 化 时 不 重 复 和 使 用 不 重 复 如 果 初 始 化 重 复, 会 导 致 语 义 库 链 表 的 无 限 扩 张, 同 时 在 语 义 分 析 的 时 候 重 复 调 用, 造 成 时 间 和 资 源 的 巨 大 浪 费 在 设 计 的 语 义 库 表 结 构 的 时 候 需 要 考 虑 正 则 表 达 式 的 唯 一 性 第 二 方 面, 权 重 值 问 题 语 义 库 中 制 其 主 要 的 功 能 有 : 1) 获 取 网 页 名 称, 在 本 地 建 立 索 引, 将 存 储 位 置, 文 档 内 容 与 主 题 关 联 起 来 ) 保 存 网 页 数 据, 根 据 要 求 保 存 在 数 据 库 或 磁 盘 上 存 在 同 义 语 义 集 合 和 反 义 语 义 集 合, 这 个 两 个 集 合 中 权 重 值 表 示 是 否 有 区 别 影 响 后 面 的 相 似 3.3 爬 行 控 制 模 块 6

第 * 期 王 景 中 邱 铜 相 : 基 于 TF IDF 改 进 算 法 的 聚 焦 网 络 爬 虫 7 爬 行 控 制 模 块 是 整 个 爬 虫 的 神 经 中 枢, 控 制 爬 虫 的 各 个 模 块 协 调 运 转 其 主 要 有 两 大 模 块 :url 队 列 管 理 和 行 为 判 定 其 中 url 队 列 管 理 控 制 url 初 始 队 列,url 等 待 队 列 和 url 结 束 队 列 行 为 判 定 功 能 则 是 控 制 其 他 模 块 运 行 主 要 流 程 是 从 url 初 始 队 列 中 获 取 url, 如 果 等 待 队 列 中 不 存 在, 则 添 加 到 等 待 队 列 中, 等 待 其 他 线 程 调 用 如 果 存 在, 则 从 url 初 始 队 列 中 删 除 url 初 始 队 列 中 的 url 必 须 是 唯 一, 并 且 不 能 存 在 url 结 束 队 列 中 然 后 语 义 库 对 htmlparser 解 析 出 来 的 文 本 进 行 语 义 分 析, 计 算 网 页 文 档 的 贡 献 度, 爬 虫 根 据 主 题 语 义 选 择 下 载 内 容 和 选 择 网 页 中 的 url 链 接 Htmlparser 网 页 解 析 模 块, 解 析 网 页 内 容, 除 去 网 页 噪 声, 提 取 网 页 文 本 内 容 和 全 部 的 url 链 接 获 取 [8] 因 此 基 于 TF-IDF 的 爬 行 控 制 模 块 流 程 图 : 图 爬 行 控 制 模 块 工 作 流 程 图 4 实 验 结 果 分 析 本 次 实 验 结 果 分 析 涉 及 到 返 回 数 据 准 确 度, 错 误 率, 数 据 遗 漏 率 因 此, 实 验 中 web 文 档 样 本 总 数 50000 个, 指 定 搜 索 主 题 ( 例 如 php 开 发 框 架 ), 语 义 库 中 构 造 同 义 集 合 正 则 表 4 7

8 计 算 机 应 用 第 35 卷 条, 反 义 集 合 正 则 表 达 式 3 条 样 本 中 与 主 题 关 键 字 匹 配 的 文 档 数 是 30000, 与 主 题 关 键 字 匹 配 但 是 与 主 题 语 义 不 匹 配 的 文 档 数 是 10000, 符 合 主 题 语 义 的 数 据 总 数 是 0000, 与 主 题 无 关 的 文 档 总 数 是 0000 实 验 中 将 本 文 中 改 进 的 TF-IDF 算 法, 原 始 的 TF-IDF 算 法,k_meas [4] [10] 短 文 聚 类 算 法 以 及 自 适 应 遗 传 算 法 的 聚 类 爬 虫 算 法 进 行 比 较, 得 到 如 下 数 据 ( 表 1 实 验 结 果 对 照 表 ) 其 中 f-precise 表 示 爬 虫 返 回 文 档 中 与 主 题 语 义 匹 配 的 文 档 数 与 样 本 中 与 主 题 语 义 匹 配 的 文 档 数 的 百 分 比,f-uTitle 表 示 爬 虫 返 回 文 档 中 与 主 题 不 匹 配 的 但 跟 主 题 关 键 字 匹 配 的 文 档 数 与 样 本 中 与 主 题 语 义 相 匹 配 的 文 档 数 百 分 比 f-error 表 示 是 爬 虫 返 回 文 档 中 与 主 题 关 键 字 完 全 不 匹 配 的 文 档 数 与 爬 虫 返 回 文 档 总 数 的 比 例,f-omissio 表 示 样 本 中 与 主 题 匹 配 的 文 档 未 被 爬 虫 抓 取 的 文 档 数 与 样 本 中 与 主 题 匹 配 的 文 档 数 的 百 分 比 法 是 K_meas 算 法, 但 是 改 进 的 TF-IDF 算 法 在 错 误 率 和 准 确 率 两 个 性 能 上 占 有 明 显 优 势, 而 对 于 另 种 现 在 主 流 的 聚 焦 主 题 网 络 爬 虫 算 法 -- 自 适 应 遗 传 算 法, 改 进 的 TF-IDF 算 法 在 准 确 性, 降 低 误 差, 减 小 数 据 遗 漏 方 面, 都 具 有 明 显 优 势 因 此, 从 分 析 中 和 实 验 数 据 可 以 看 出, 改 进 的 TF-IDF 算 法 对 网 页 相 似 度 计 算 在 准 确 率 误 差 率 方 面 都 有 明 显 提 高, 并 且 取 得 了 很 好 的 预 期 效 果 5 结 语 本 文 从 语 义 分 析 角 度 对 网 络 爬 虫 技 术 进 行 研 究, 解 决 了 主 题 网 络 对 主 题 语 义 分 析 的 缺 陷 其 主 要 特 点 有 如 下 几 点 : F 值 方 法 名 数 值 表 1 实 验 结 果 对 照 表 f -Precise f -utitle f -Error f -Omissio 1) 搜 索 数 据 全 面 的 性 能 优 越, 即 是 相 关 主 题 内 容 遗 漏 率 率 小, 搜 索 结 果 数 据 规 模 小, 误 差 化 扩 大 得 到 有 效 控 制 ) 搜 数 据 准 确 率 有 很 大 提 高 3) 适 合 复 杂 的 关 键 字 检 索 和 文 档 的 语 义 分 析 原 始 的 TF-IDF 78.60% 10.50% 5.40% 10.90% K_meas 算 法 89.7% 5.3% 3.5% 1.5% 自 适 应 遗 传 算 法 87.6% 3.4%.1% 6.9% 本 文 改 进 的 TF-IDF 95.70% 1.16% 0.0% 3.14% 从 表 1 中 可 以 得 到 : 改 进 的 TF-IDF 算 法 比 传 统 的 TF-IDF 算 法 在 准 确 率 方 面 提 高 了 17.1%, 并 且 错 误 率 和 遗 漏 率 都 有 明 显 的 降 低, 其 中 遗 漏 率 降 低 到 3.1% 虽 然 将 遗 漏 率 降 到 最 低 的 算 但 是 在 创 建 同 义 语 义 集 合 和 反 义 语 义 集 合 是 人 工 创 建 训 练 集, 非 智 能 化 因 此, 在 创 建 同 义 语 义 训 练 集 合 实 现 智 能 化 是 具 有 重 要 的 研 究 价 值,, 为 将 来 在 语 义 检 索 方 面 提 供 研 究 参 考 参 考 文 献 [1] 代 宽, 赵 辉, 韩 冬. 基 于 向 量 空 间 模 型 的 中 文 网 页 主 题 特 征 项 抽 取. 吉 林 学 报, 014, 31(1): 89-93. [] 李 东 晖, 廖 晓 兰, 范 辅 桥, 黄 九 鸣, 陈 雪 刚. 一 种 主 题 知 识 自 增 长 的 聚 焦 网 络 爬 虫. 计 算 机 应 用 与 软 件, 014,31(5):30-33 8

第 * 期 王 景 中 邱 铜 相 : 基 于 TF IDF 改 进 算 法 的 聚 焦 网 络 爬 虫 9 [3] 路 永, 李 焰 锋. 改 进 TF-IDF 算 法 的 文 本 特 征 项 权 值 计 算 方 法. 图 书 情 报 工 作, 013,57(3):89-94 [4] 邱 云 飞, 赵 彬, 林 明 明, 王 伟. 结 合 语 义 改 迚 的 k-meas 短 文 本 聚 类 算 法. 计 算 机 工 程 与 运 用.015,1:1-7 [5] 黄 承 慧, 印 鉴, 侯 昉. 一 种 结 合 词 项 语 义 信 息 和 TF-IDF 方 法 的 文 本 相 似 度 量 方 法. 计 算 机 学 报, 011,34(5):857-86 [6] 孙 志 军, 郑 烇, 袁 婧, 刘 恒, 王 崇. 基 于 浅 层 语 义 分 析 技 术 的 语 义 检 索. 计 算 机 科 学, 01, 39(6): 107-110 [7] Schuber F,Li Hui. Chiese word segmetactio ad its effect o iformatio retriveal[j]. Iformatio Processig ad Maagemet,004,40(1):161-190 [8] 成 欣, 李 扬. 一 种 基 于 本 体 的 异 构 数 据 语 义 抽 取 方 法. 计 算 机 与 现 代 化, 014,(6):-6 [9] James J.Q. Yu, Victor O.K, LiDepartmet. A social spider algorithm for global optimizatio Applied.Soft Computig,015,Vol.30:o. 614 67 [10] 陈 悦, 陈 运, 杨 义 先, 胡 迪. 基 于 遗 传 算 法 的 聚 焦 爬 虫 搜 索 策 略 设 计 与 研 究. 成 都 信 息 工 程 学 院 学 报,011,6(5):534-537 [11] 于 洪 波. 网 页 特 征 提 取 技 术 研 究. 山 东 理 工 大 学 学 报, 011, 5(): 108-110. [1] 贺 飞 艳, 何 炎 祥, 刘 楠, 刘 健 博, 童 敏. 面 向 微 博 短 文 本 的 细 粒 度 情 感 特 征 抽 取 方 法. 北 京 大 学 自 然 学 报.014.50(1):48-54 9