第 19 卷 摇 第 4 期 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 模 式 识 别 与 人 工 智 能 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 Vol. 19 摇 No. 4 摇 006 年 8 月 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 PR & AI 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 Aug 摇 摇 006 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 * 基 于 最 小 词 频 阈 值 的 文 档 特 征 选 择 1, 1 1 陈 晓 云 摇 摇 李 荣 陆 摇 摇 胡 运 发 1 ( 复 旦 大 学 计 算 机 与 信 息 技 术 系 上 海 摇 00433 ( 福 州 大 学 数 学 与 计 算 机 科 学 学 院 福 州 摇 35000 摘 摇 要 摇 为 降 低 内 容 无 关 的 特 征 词 对 文 本 分 类 系 统 的 影 响, 在 对 与 文 本 内 容 无 关 的 特 征 词 进 行 分 析 后 发 现 : 不 相 关 特 征 词 的 词 频 普 遍 较 低, 利 用 最 小 词 频 阈 值 滤 除 低 频 特 征 可 以 明 显 降 低 无 关 特 征 的 数 量. 为 此, 提 出 基 于 最 小 词 频 阈 值 的 文 档 频 评 估 函 数. 利 用 该 函 数 选 择 特 征 可 以 有 效 减 少 与 内 容 无 关 的 噪 声 特 征, 改 善 分 类 质 量. 实 验 结 果 显 示, 几 种 基 于 最 小 词 频 阈 值 的 文 档 频 评 估 函 数 比 基 于 普 通 文 档 频 的 评 估 函 数 的 分 类 准 确 性 有 不 同 程 度 的 改 进, 其 中 对 互 信 息 的 改 进 最 为 显 著, 宏 平 均 F 1 值 比 词 频 方 法 提 高 40%, 比 普 通 文 档 频 方 法 提 高 15% ~ 30%. 关 键 词 摇 中 图 法 分 类 号 摇 文 本 分 类, 特 征 选 择, 信 息 增 益, 互 信 息, 统 计 TP311 Document Feature Selection Based on the Minimum Term Frequency Threshold CHEN Xiao 蛳 Yun 1,, LI Rong 蛳 Lu 1, HU Yun 蛳 Fa 1 1 (Department of Computer and Information Technology, Fudan University, Shanghai 00433 (School of Mathematics and Computer Science, Fuzhou University, Fuzhou 35000 ABSTRACT In this paper, a novel method of feature evaluation function based on document frequency with the minimum term frequency threshold ( is presented. To decrease the influence of the unrelated features on the system of text categorization, the attribute of the unrelated features is analyzed and the term frequency of the unrelated feature is commonly low. By applying minimum term frequency to filter the low frequency features, the unrelated features are obviously decreased. The experimental results validate the proposed method greatly reduces the number of the unrelated features and effectively improves the accuracy of the text categorization. The improvement to Mutual Information( MI is very obvious, the Macro 蛳 average F 1 value based on is 40% higher than that of Term Frequency, and 15 ~ 30% higher than that of Document Frequency(. * 国 家 自 然 科 学 基 金 项 目 (No. 6017307, 60373077 福 建 省 科 技 三 项 重 点 项 目 (No. K04005 资 助 收 稿 日 期 :004 蛳 11 蛳 15; 修 回 日 期 :005 蛳 04 蛳 04 作 者 简 介 摇 陈 晓 云, 女,1970 年 生, 博 士 研 究 生, 副 教 授, 主 要 研 究 方 向 为 数 据 挖 掘 信 息 检 索. E 蛳 mail: c_xiaoyun@ 1cn. com. 李 荣 陆, 男,1976 年 生, 博 士 研 究 生, 主 要 研 究 方 向 为 自 然 语 言 处 理 和 机 器 学 习. 胡 运 发, 男,1940 年 生, 教 授, 博 士 生 导 师, 主 要 研 究 方 向 为 数 据 工 程 和 知 识 工 程.
53 模 式 识 别 与 人 工 智 能 摇 摇 摇 19 卷 Key Words 摇 Text Classification, Feature Selection, Information Gain, Mutual Information, Statistic 1 摇 引 摇 言 目 前, 文 本 信 息 处 理 的 主 要 任 务 如 文 本 检 索 过 滤 摘 要 及 分 类 都 是 面 向 语 义 的 操 作, 涉 及 到 怎 样 表 示 文 档 才 能 体 现 出 它 的 语 义 内 含 的 问 题. 而 现 有 的 文 本 分 类 过 滤 检 索 技 术 基 本 上 是 基 于 词 或 词 串 信 息, 其 前 提 假 设 是 词 或 词 串 和 文 档 类 别 概 念 密 切 相 关. 基 于 词 或 词 串 信 息 的 中 文 文 档 处 理 系 统 需 要 借 助 词 典 使 用 专 门 的 分 词 技 术 或 利 用 N 蛳 gram 模 型 提 取 信 息 项 [1,]. 不 管 是 用 词 典 中 的 词 还 是 N 蛳 gram 表 示 文 档, 它 们 都 被 看 作 是 文 档 的 特 征 属 性. 但 是, 并 非 所 有 的 特 征 属 性 对 文 档 处 理 的 作 用 都 相 同, 要 有 所 选 择. 特 征 选 择 的 基 本 要 求 是 选 择 尽 可 能 少 而 准 确 且 与 文 档 主 题 类 别 密 切 相 关 的 特 征, 而 选 择 哪 些 特 征 则 由 特 征 属 性 与 主 题 类 别 的 相 关 程 度 确 定. 现 有 衡 量 特 征 属 性 相 关 程 度 的 方 法 是 通 过 评 估 函 数 计 算 各 特 征 属 性 的 特 征 值, 特 征 值 高 的 属 性 其 相 关 程 度 高. 常 用 的 评 估 函 数 有 互 信 息 ( Mutual Information, MI 信 息 增 益 (Information Gain, IG 统 计 ( statistic 文 档 频 阈 值 ( Document Frequency Thresholds, [3-5,7,8]. 根 据 所 使 用 的 特 征 频 率 的 不 同, 评 估 函 数 又 分 为 基 于 文 档 频 的 评 估 函 数 和 基 于 词 频 的 评 估 函 数. 但 无 论 是 基 于 何 种 频 率, 都 难 以 保 证 所 选 择 的 特 征 词 与 主 题 内 容 相 关. 与 主 题 无 关 的 特 征 可 分 为 两 类 : 一 类 是 在 各 类 中 分 布 相 差 不 大 的 特 征, 通 过 该 特 征 [6] 不 能 区 分 任 何 类, 文 本 预 处 理 过 程 中 禁 用 词 表 冶 方 法 所 确 定 的 常 用 词 就 属 这 类 特 征 ; 另 一 类 是 噪 声 词, 如 包 含 在 Web 文 档 中 的 超 链 广 告 版 权 声 明 等 噪 声 信 息 中 的 词. 由 于 这 类 噪 声 信 息 在 不 同 主 题 文 档 中 的 内 容 往 往 不 同, 其 包 含 的 词 在 特 征 选 择 过 程 中 经 常 成 为 特 征 属 性, 这 类 词 的 特 点 是 在 每 篇 文 档 中 出 现 的 频 率 较 低. 文 献 [6] 提 出 的 最 小 类 差 异 预 处 理 算 法 可 以 减 少 第 1 类 内 容 无 关 特 征 词 的 数 量. 我 们 提 出 一 种 简 单 的 方 法 用 以 减 少 第 类 不 相 关 特 征 词, 即 低 频 噪 声 词 的 数 量. 本 文 首 先 介 绍 几 种 常 用 的 评 估 函 数 以 及 基 于 文 档 频 (Document Frequency, 的 评 估 函 数 基 于 词 频 (Term Frequency, TF 的 评 估 函 数. 然 后 提 出 基 于 最 小 词 频 阈 值 的 文 档 频 ( Document Fre 鄄 quency Based on the Minimum Term Frequency Threshold n, 评 估 函 数. 实 验 结 果 表 明, 采 用 新 的 评 估 函 数 进 行 特 征 选 择 可 以 减 少 与 内 容 无 关 的 噪 声 特 征, 改 善 分 类 质 量. 摇 主 题 相 关 度 将 同 一 主 题 的 文 档 看 作 同 一 类 文 档, 反 之 同 一 类 文 档 具 有 相 同 主 题. 主 题 相 关 度 用 以 描 述 词 w 与 主 题 t 的 相 关 程 度. 特 征 选 择 就 是 选 取 与 主 题 相 关 度 高 的 词 作 为 该 主 题 的 主 题 词 或 特 征 词 的 过 程.. 1 摇 主 题 相 关 度 利 用 评 估 函 数 进 行 特 征 选 择 的 方 法 是, 计 算 每 个 特 征 在 评 估 函 数 下 的 值, 并 将 该 值 作 为 特 征 值 ; 然 后 按 特 征 值 高 低 选 取 分 值 较 高 的 特 征 或 根 据 需 要 选 取 前 k 个 特 征, 这 个 特 征 值 就 是 该 属 性 的 相 关 度. 常 用 的 评 估 函 数 有 互 信 息 (MI 信 息 增 益 (IG 统 计 ( statistic. 1 信 息 增 益 信 息 增 益 表 示 文 档 中 包 含 某 一 单 词 时 文 档 类 的 平 均 信 息 量. 它 定 义 为 某 一 词 在 文 档 中 出 现 前 后 的 信 息 熵 之 差. 假 定 c 为 文 档 类 变 量, C 为 文 档 类 的 集 合,d 为 文 档,f 为 特 征 词 ( 以 下 各 节 同 此. 对 于 特 征 词 f, 其 信 息 增 益 记 为 IG(f, 则 有 IG(f = - 移 P(clog(P(c + c 沂 C P(f 移 P(c flog(p(c f + c 沂 C P(f 移 P(c flogp(c f. (1 c 沂 C 信 息 增 益 的 不 足 之 处 在 于 它 同 时 考 虑 特 征 词 出 现 与 未 出 现 两 种 情 况. 某 个 主 题 类 中 出 现 的 特 征 词 通 常 只 占 所 有 特 征 词 很 少 的 一 部 分, 此 时 信 息 增 益 增 大 的 特 征 主 要 是 信 息 增 益 公 式 中 后 一 部 分 增 大 ( 代 表 词 不 出 现 情 况, 而 非 前 一 部 分 增 大 ( 代 表 词 出 现 情 况, 导 致 信 息 增 益 的 效 果 大 大 降 低. 互 信 息 互 信 息 用 于 表 征 特 征 词 f 与 类 别 c 间 的 相 关 性. 对 于 特 征 词 f, 其 互 信 息 记 为 MI (f, 则 有 MI(f,c = log( P(f,c. ( P(cP(f 互 信 息 没 有 考 虑 特 征 词 出 现 的 频 度, 这 是 互 信 息 一 个 很 大 的 缺 点, 它 导 致 互 信 息 评 估 函 数 经 常 倾 向 于 选 择 稀 有 词. 3 统 计
4 期 摇 摇 摇 摇 陈 晓 云 摇 等 : 基 于 最 小 词 频 阈 值 的 文 档 特 征 选 择 533 同 样, 统 计 也 用 于 表 征 两 个 变 量 间 的 相 关 性, 但 它 比 互 信 息 更 强, 因 为 它 同 时 考 虑 了 特 征 词 出 现 与 不 出 现 时 的 情 况. 对 于 特 征 词 f, 其 统 计 值 为 (f,c = (P(f,cP(f,c - P(f,cP(f,c. (3 P(cP(fP(cP(f. 摇 基 于 文 档 频 的 相 关 度 特 征 词 f 的 文 档 频 是 指 包 含 f 的 文 档 数. 使 用 文 档 频 ( 计 算 评 估 函 数 中 的 词 概 率, 公 式 如 下 : P(c =, (4a P(f =, (4b P(f =, (4c P(c f = (f,c, (4d P(c f = (f,c, (4e ( f,db 其 中,(f,c 是 类 别 c 中 包 含 词 f 的 文 档 数,(f, c 是 类 别 c 中 不 包 含 词 f 的 文 档 数, 是 整 个 数 据 集 db 中 包 含 词 f 的 文 档 数, 是 整 个 数 据 集 db 中 不 包 含 词 f 的 文 档 数, 是 类 别 c 的 文 档 总 数, 是 数 据 集 db 中 文 档 总 数. 将 式 (4a ~ 式 (4e 分 别 代 入 IG,MI, 统 计 的 计 算 式 (1 ~ 式 (3, 得 到 相 应 基 于 的 评 估 函 数 公 式. 例 如 基 于 的 互 信 息 公 式 为 MI (f,c = log = log( p(f,c p(fp(c ( f,c ( f,db = log (f,c 伊 + log. (5 文 档 频 只 考 虑 特 征 词 f 在 文 档 中 出 现 与 否, 忽 视 了 在 文 档 中 出 现 的 次 数. 由 此 带 来 的 问 题 是 如 果 特 征 词 f 的 (f, c 和 (f, db 相 同, 那 么 其 在 文 档 中 出 现 多 次 和 在 文 档 中 仅 出 现 一 次 时 的 相 关 度 相 同. 而 文 档 中 仅 出 现 一 次 的 词 经 常 是 噪 声 词, 如 广 告 链 接 信 息 中 包 含 的 与 内 容 无 关 的 词.. 3 摇 基 于 词 频 的 相 关 度 词 频 是 指 特 征 词 f 在 一 篇 文 档 中 出 现 的 次 数. 使 用 词 频 (TF 计 算 评 估 函 数 中 的 词 概 率, 其 公 式 如 下 : P(c = 椰 c 椰, (6a P(f = TF, (6b P(f = TF, (6c P(c f = TF(f,c TF, (6d P(c f = TF(f,c, (6e TF( f,db 其 中,TF(f,c 是 特 征 词 f 在 c 类 文 档 中 出 现 的 次 数, TF(f,c 是 类 别 c 中 不 包 含 f 的 文 档 词 数,TF 是 f 在 文 档 集 db 中 出 现 的 次 数,TF 是 整 个 数 据 集 db 中 不 包 含 词 f 的 文 档 词 数, 椰 c 椰 是 c 类 文 档 集 中 词 的 数 量, 是 整 个 数 据 集 db 中 词 的 数 量. 将 式 (6a ~ 式 (6e 分 别 代 入 IG,MI 及 统 计 计 算 式 (1 ~ 式 (3, 即 得 到 基 于 TF 的 评 估 函 数 公 式. 仍 以 互 信 息 为 例, 基 于 TF 的 互 信 息 公 式 为 MI (f,c = log p(f,c p(fp(c = log TF(f,c 伊 TF 伊 椰 c 椰 = log TF(f,c TF + log. (7 椰 c 椰 词 频 法 选 取 在 某 类 别 中 比 在 其 它 类 中 更 频 繁 出 现 的 词 作 为 特 征 词, 而 忽 视 了 词 在 不 同 文 档 中 的 出 现 情 况. 3 摇 基 于 最 小 词 频 阈 值 的 文 档 频 评 估 函 数 前 文 已 经 提 到, 低 词 频 特 征 中 经 常 含 有 与 内 容 无 关 的 词. 实 验 结 果 也 表 明, 用 基 于 的 评 估 函 数 进 行 特 征 选 择 时, 低 词 频 特 征 词 中 噪 声 词 所 占 的 比 例 远 远 高 于 高 词 频 特 征 中 噪 声 词 的 比 例, 而 且 随 着 词 频 的 增 加, 特 征 集 中 噪 声 词 的 比 例 逐 渐 减 少. 基 于 这 个 原 因, 我 们 利 用 最 小 词 频 阈 值 方 法, 滤 除 这 些 低 频 词, 从 而 减 少 特 征 集 中 与 内 容 无 关 的 噪 声 词. 具 体 公 式 如 下 : P(c =, (8a P(f =, (8b P(f =, (8c
534 模 式 识 别 与 人 工 智 能 摇 摇 摇 19 卷 P(c f = (f,c, (8d P(c f = (f,c, (8e ( f,db 其 中, (f, c 是 类 别 c 中, 特 征 词 f 最 少 出 现 n 次 的 文 档 数, (f,c 是 类 别 c 中, 特 征 词 f 出 现 少 于 n 次 的 文 档 数, (f, db 是 在 文 档 集 db 中, 特 征 词 f 最 少 出 现 n 次 的 文 档 数, 是 在 文 档 集 db 中, 特 征 词 f 出 现 少 于 n 次 的 文 档 数. 同 样 地, 将 式 (8a ~ 式 (8e 分 别 代 入 IG,MI 及 统 计 计 算 式 (1 ~ 式 (3, 即 得 到 基 于 的 评 估 函 数 公 式. 例 如, 考 虑 到 与 主 题 类 特 别 相 关 的 词 在 该 主 题 类 一 篇 文 档 中 出 现 两 次 及 两 次 以 上 的 概 率 要 高 于 其 在 整 个 文 档 集 中 一 篇 文 档 中 出 现 两 次 及 两 次 以 上 的 概 率. 因 此, 取 最 小 词 频 阈 值 n =, 则 基 于 的 互 信 息 公 式 为 MI (f,c = log = log( p(f,c p(fp(c (f,c = log (f,c 伊 + log. (9 上 述 公 式 可 以 很 容 易 扩 展 到 特 征 词 在 一 篇 文 档 中 出 现 n 次 的 情 况,n = 1,,3,. 而 且 随 着 n 的 增 加, 生 成 的 特 征 词 数 量 逐 渐 减 少. MI n (f,c = log = log( p(f,c p(fp(c (f,c = log (f,c 伊 + log. (10 为 便 于 描 述, 我 们 对 三 种 评 估 函 数 IG, MI, 的 基 于 词 频 (TF 文 档 频 ( 最 小 词 频 阈 值 的 文 档 频 ( 方 法 给 出 以 下 记 号, 具 体 见 表 1. 词 频 (TF 表 1 摇 Table 1 摇 主 要 记 号 Main notations 文 档 频 ( 最 小 词 频 阈 值 的 文 档 频 ( IG IG TF IG IG n MI MI TF MI MI n TF 在 全 局 范 围 选 择 特 征 时, 对 属 性 的 全 局 打 分 有 两 种 方 法 : 一 是 属 性 在 不 同 主 题 类 的 特 征 值 的 最 大 值 作 为 该 属 性 的 全 局 分 值 ; 二 是 属 性 在 不 同 主 题 类 的 特 征 值 的 平 均 值 作 为 该 属 性 的 全 局 分 值 [3]. 4 摇 实 验 及 分 析 首 先, 从 新 华 网 (www. xinhuanet. com 下 载 660 篇 新 闻 网 页 作 为 实 验 数 据 集. 数 据 集 包 括 新 华 网 教 育 类 下 的 6 个 子 类 别 的 网 页, 分 别 是 : 海 外 见 闻 (y 1 留 学 新 闻 (y 高 考 (y 3 考 研 (y 4 e 教 育 (y 5 学 术 动 态 (y 6. 从 每 类 中 选 取 100 篇 新 闻 作 为 训 练 样 本, 另 外 10 篇 作 为 分 类 实 验 的 测 试 样 本. 实 验 中 采 用 N 蛳 gram 技 术 提 取 信 息 项 [1, 10], 得 到 蛳 gram 3 蛳 gram 项 ; 然 后 对 蛳 gram 3 蛳 gram 项 采 用 全 局 打 分, 全 局 选 择 冶 的 方 法 选 取 特 征 值 高 的 特 征. 为 说 明 评 估 函 数 的 有 效 性, 我 们 设 计 了 两 个 实 验 : 实 验 1 用 评 估 函 数 进 行 特 征 选 择, 可 以 减 少 特 征 集 中 噪 声 词 所 占 的 比 例 ; 实 验 通 过 分 类 实 验 说 明 使 用 评 估 函 数 选 择 特 征 可 改 善 分 类 质 量. 实 验 1 摇 减 少 内 容 无 关 特 征 的 生 成 在 新 闻 网 页 中, 经 常 包 含 结 构 信 息, 如 超 链 广 告 版 权 声 明 等 与 文 档 内 容 无 关 的 信 息. 由 于 这 类 信 息 在 某 些 主 题 类 文 档 中 频 繁 出 现, 信 息 中 与 内 容 无 关 的 词 常 因 主 题 相 关 度 较 高 而 被 作 为 特 征 词 选 中. 与 内 容 无 关 的 特 征 词 过 多, 不 仅 影 响 了 后 续 文 档 处 理 的 质 量, 过 大 的 特 征 空 间 也 会 降 低 效 率. 在 文 本 检 索 摘 要 文 本 过 滤 或 分 类 系 统 中, 为 保 证 信 息 处 理 质 量, 需 要 预 先 消 除 这 类 无 关 特 征. 文 献 [6] 提 出 的 方 法 可 以 消 除 类 区 分 度 低 的 不 相 关 特 征, 其 作 用 类 似 于 采 用 禁 用 词 表 的 方 法 滤 除 在 整 个 文 档 集 各 类 中 普 遍 出 现 的 词. 而 包 含 在 结 构 信 息 中 的 特 征 词 与 禁 用 词 表 以 及 文 献 [6] 所 定 义 的 无 关 词 不 同, 其 类 区 分 度 可 能 很 高, 无 法 用 禁 用 词 表 或 设 置 区 分 度 阈 值 将 它 们 滤 除. 本 文 提 出 基 于 的 评 估 函 数 则 主 要 针 对 这 一 类 内 容 无 关 的 特 征 词. 表 给 出 新 华 网 数 据 集 中 出 现 的 结 构 噪 声 : 链 接 信 息 来 源 信 息 版 权 与 免 责 声 明 工 具 信 息. 不 同 主 题 的 新 闻 网 页 所 包 含 的 结 构 信 息 略 有 不 同, 在 新 华 网 数 据 集 中 链 接 信 息 的 内 容 随 着 新 闻 类 别 的 不 同 而 不 同, 而 版 权 信 息 也 仅 在 稿 件 来 源 不 是 新 华 网 的 新 闻 文 档 中 才 出 现.
4 期 摇 摇 摇 摇 陈 晓 云 摇 等 : 基 于 最 小 词 频 阈 值 的 文 档 特 征 选 择 535 表 摇 新 闻 网 页 常 见 的 4 种 结 构 信 息 Table 摇 Four kinds of common structural information in the news web pages 结 构 信 息 名 结 构 信 息 内 容 示 例 您 的 位 置 : 淤 链 接 信 息 首 页 > > 校 园 频 道 > > 学 术 研 究 欢 迎 访 问 新 华 网 新 华 网 全 球 新 闻 网 于 来 源 信 息 新 华 网 (003 蛳 07 蛳 31 16 颐 53 颐 04 来 源 : 清 华 新 闻 网 新 华 网 版 权 与 免 责 声 明 : 淤 凡 本 网 注 明 稿 件 来 源 : 新 华 网 冶 的 所 有 文 图 片 和 音 视 频 稿 件, 版 权 均 属 新 华 社 和 新 华 网 所 有, 任 何 媒 体 网 站 或 个 人 未 经 本 网 协 议 授 权 不 得 转 载 链 接 转 贴 或 以 其 他 方 式 复 制 发 表. 已 经 本 网 协 议 授 权 的 媒 体 网 站, 在 下 载 使 用 时 必 须 注 明 稿 件 来 源 : 新 华 网 冶, 违 者 本 网 将 依 法 追 究 责 任. 盂 版 权 与 免 责 声 明 于 本 网 未 注 明 稿 件 来 源 : 新 华 网 冶 的 文 / 图 等 稿 件 均 为 转 载 稿, 本 网 转 载 出 于 传 递 更 多 信 息 之 目 的, 并 不 意 味 着 赞 同 其 观 点 或 证 实 其 内 容 的 真 实 性. 如 其 他 媒 体 网 站 或 个 人 从 本 网 下 载 使 用, 必 须 保 留 本 网 注 明 的 稿 件 来 源 冶, 并 自 负 版 权 等 法 律 责 任. 如 擅 自 篡 改 为 稿 件 来 源 : 新 华 网 冶, 本 网 将 依 法 追 究 责 任. 如 对 稿 件 内 容 有 疑 义, 请 及 时 与 我 们 联 系. 盂 如 本 网 转 载 稿 涉 及 版 权 等 问 题, 请 作 者 在 两 周 内 速 来 电 或 来 函 与 新 华 网 联 系. 榆 工 具 信 息 放 大 体 摇 缩 小 体 摇 打 印 本 稿 摇 发 表 评 论 摇 推 荐 给 朋 友 摇 摇 分 别 用 基 于 词 频 (TF 文 档 频 ( 最 小 词 频 阈 值 的 文 档 频 ( 评 估 函 数 对 训 练 样 本 进 行 特 征 选 择. 实 验 结 果 显 示, 不 同 方 法 得 到 的 特 征 数 明 显 不 同 ( 见 表 3. 从 表 3 可 以 看 出, 随 着 阈 值 n 的 增 加, 系 统 得 到 的 特 征 数 明 显 减 少, 由 TF 和 方 法 下 的 600 词 减 少 到 10 方 法 下 的 13 词. 并 且 减 少 的 幅 度 在 n = ~ 8 时 最 为 显 著. 分 析 表 3 结 果 发 现, 不 同 评 估 函 数 在 阈 值 n =,4,6 时 所 滤 除 的 无 关 词 的 数 量 不 同, 这 是 因 为 低 频 词 在 不 同 类 别 的 分 布 情 况 不 同, 不 同 评 估 函 数 对 低 频 词 的 选 择 也 不 同. 当 n = 8,10 时 采 用 不 同 评 估 函 数 所 得 到 的 特 征 词 数 量 相 同 且 内 容 也 相 同, 说 明 当 n 值 较 高 时 得 到 的 特 征 词 是 理 想 的 特 征, 即 使 采 用 不 同 评 估 函 数 所 作 的 选 择 也 是 相 同 的. Table 3 摇 表 3 摇 不 同 评 估 函 数 的 特 征 空 间 规 模 Feature space sizes of different evaluation functions TF n = n = 4 n = 6 n = 8 n = 10 IG 600 600 497 488 86 199 13 MI 600 600 600 457 74 199 13 600 600 600 466 81 199 13 词 摇 表 4 摇 Table 4 摇 分 别 用 4 和 3 种 评 估 函 数 得 到 y 类 的 特 征 词 表 6 Feature word lists generated by, and for category y 4 6 n = 1 n = 4 n = 6 研 究 教 授 本 网 技 术 大 学 稿 件 成 果 新 华 学 术 实 验 大 学 生 网 站 或 校 园 新 华 网 的 研 件 来 源 稿 件 来 我 校 验 室 应 用 检 索 转 载 我 国 留 言 注 明 版 权 中 国 管 理 计 划 招 生 网 站 开 发 责 任 录 取 必 须 媒 体 国 家 更 多 使 用 内 容 国 际 发 表 高 校 法 律 人 员 留 言 板 评 论 联 系 首 次 协 议 网 协 议 网 将 依 或 个 人 本 网 注 协 议 授 究 责 任 法 追 究 版 权 等 非 典 将 依 法 网 注 明 追 究 责 网 转 载 本 网 转 本 网 协 议 授 权 下 载 使 依 法 追 转 载 稿 本 网 将 经 本 网 站 或 个 载 使 用 下 载 其 他 所 有 个 人 目 的 学 生 保 留 言 板 管 看 评 论 法 律 责 有 权 查 看 评 您 的 一 切 新 闻 日 本 网 络 国 内 体 考 生 英 国 问 题 发 布 全 国 美 国 任 何 教 育 部 政 策 留 学 生 教 育 学 校 中 国 留 学 的 一 批 语 言 高 考 国 留 学 的 学 推 荐 网 上 新 西 兰 言 学 校 语 言 学 研 究 生 的 中 国 大 学 的 研 究 大 学 新 华 本 网 稿 件 技 术 项 目 来 源 教 授 稿 件 来 件 来 源 招 生 留 言 转 载 录 取 实 验 会 议 系 统 学 术 京 大 学 信 息 清 华 学 院 管 理 实 验 室 网 站 青 年 高 校 国 际 建 设 国 家 留 学 生 发 展 中 国 留 商 学 国 留 学 网 络 林 大 中 国 社 会 大 学 研 究 新 华 新 华 网 本 网 稿 件 技 术 项 目 会 议 中 国 学 术 文 北 京 成 果 信 息 同 济 设 计 实 验 生 产 录 取 一 般 学 院 社 会 吉 林 林 大 应 用 教 授 北 京 林 中 心 同 济 大 济 大 学 青 年 留 学 生 经 济 发 展 商 学 院
536 模 式 识 别 与 人 工 智 能 摇 摇 摇 19 卷 摇 摇 为 更 清 楚 地 看 出 方 法 对 内 容 无 关 词 的 过 滤 情 况, 表 4 给 出 了 分 别 用 和 方 法 得 到 4 的 y 6 类 ( 学 术 动 态 特 征 词 列 表, 表 中 特 征 词 按 其 值 的 大 小 排 序, 出 现 在 结 构 信 息 中 的 特 征 词 用 黑 avg 体 标 出. 由 于 采 用 N 蛳 gram 技 术 抽 取 特 征, 一 些 特 征 不 是 真 正 意 义 上 的 词, 如 验 室 冶 ( 应 为 实 验 室 冶 网 站 或 冶 的 研 冶. 此 外, 因 为 实 验 设 置 仅 选 取 蛳 gram 和 3 蛳 gram 项, 所 以 许 多 4 词 作 为 特 征 时 变 成 3 词 或 词, 如 吉 林 大 学 冶 成 为 吉 林 冶 林 大 冶, 同 济 大 学 冶 成 为 同 济 大 冶 济 大 学 冶, 这 是 N 蛳 gram 技 术 的 不 足, 借 助 词 典 可 避 免 这 一 问 题. 由 表 4 可 以 看 出, 采 用 得 到 的 特 征 4 数 分 别 为 15 40 36, 其 中, 采 用 度 量 时 15 个 特 征 词 中 有 65 个 是 出 现 在 结 构 信 息 中 的 与 内 容 无 关 的 噪 声 词 ( 噪 声 词 用 黑 体 标 出, 噪 声 词 占 该 类 特 征 词 总 数 的 5%. 采 用 度 量 时,40 个 特 征 词 中 4 有 11 个 噪 声 词, 占 该 类 特 征 词 的 7. 5%. 采 用 度 量 时,36 个 特 征 词 中 仅 有 6 个 噪 声 词, 占 该 类 特 征 词 的 16. 6%. 可 见 随 着 阈 值 n 的 增 加 噪 声 词 所 占 的 比 例 明 显 减 少. 从 而 可 以 得 出 以 下 结 论 : 基 于 的 评 估 函 数 可 以 有 效 滤 除 噪 声 词. 实 验 摇 分 类 实 验 为 比 较 基 于 最 小 词 频 阈 值 的 文 档 频 评 估 函 数 与 普 通 基 于 文 档 频 或 词 频 的 评 估 函 数 性 能 上 的 优 劣, 我 们 分 别 利 用 这 3 种 方 法 进 行 分 类 实 验. 首 先, 用 3 种 不 同 的 评 估 函 数 IG,MI, 构 造 3 种 规 模 的 特 征 集, 依 次 为 100 词,00 词 和 300 词. 每 种 评 估 函 数 的 每 个 规 模 的 特 征 集 分 别 采 用 TF 和 3 种 方 法 构 造, 方 法 的 最 小 词 频 阈 值 分 别 取 4 6 8 10 1, 因 此 每 个 评 估 函 数 在 每 种 规 模 下 都 产 生 8 个 特 征 集, 总 计 7 个 特 征 集. 然 后, 分 别 用 这 些 特 征 集 对 测 试 样 本 利 用 knn 方 法 分 类 [9], 得 到 如 图 1 所 示 的 [10] 分 类 结 果. 图 1 给 出 的 是 采 用 宏 平 均 F 1 值 评 估 的 [10] 分 类 结 果, 采 用 微 平 均 F 1 值 评 估 的 分 类 结 果 与 宏 平 均 F 1 值 的 结 果 类 似, 且 得 出 相 同 结 论, 因 篇 幅 有 限 略 去. 由 图 1 可 以 看 出, 如 果 3 种 评 估 函 数 采 用 方 法, 那 么 当 阈 值 n 取 在 某 一 范 围 内 时, 其 分 类 精 度 高 于 文 档 频 ( 方 法, 但 超 出 这 个 范 围 后 就 开 始 下 降. 分 析 认 为, 由 于 噪 声 词 的 词 频 普 遍 较 低, 因 此 在 这 一 范 围 内 噪 声 词 所 占 比 例 较 大, 通 过 设 定 最 小 词 频 就 可 以 有 效 滤 除 大 量 低 频 噪 声. 而 当 阈 值 不 断 提 高 时, 噪 声 词 的 比 例 显 著 减 少, 在 滤 除 噪 声 词 的 同 时 一 些 非 噪 声 特 征 也 被 过 滤, 当 滤 除 的 非 噪 声 特 征 过 多, 其 负 面 影 响 高 于 滤 除 噪 声 特 征 所 产 生 的 正 面 影 响 时, 分 类 精 度 开 始 下 降. 我 们 称 这 一 范 围 为 方 法 的 有 效 范 围, 在 有 效 范 围 内 方 法 的 分 类 准 确 性 高 于 方 法. 从 图 1 可 以 看 出,IG 和 评 估 函 数 的 方 法 的 有 效 范 围 是 n = ~ 6. 在 有 效 范 围 内, 基 于 方 法 的 IG 函 数 的 宏 平 均 F 1 值 比 方 法 提 高 1. 5% ~ 13%. 函 数 的 增 幅 为 3% ~ 14%. 而 对 于 MI, 这 一 范 围 是 n = 6 ~ 1, 与 其 它 两 种 评 估 函 数 相 比, 方 法 对 MI 性 能 的 提 高 最 为 显 著,MI 1 的 宏 平 均 F 1 值 比 MI TF 提 高 了 40%, 比 MI 提 高 了 16%. 当 n = 1 时, 几 种 评 估 函 数 的 F 1 值 相 同, 这 说 明 在 提 取 高 频 特 征 方 面,IG,MI 和 没 有 差 别, 因 而 文 献 [3] 中 提 到 的 不 同 特 征 评 估 函 数 间 存 在 的 性 能 差 异 主 要 是 由 不 同 评 估 函 数 对 低 频 特 征 的 选 择 能 力 不 同 造 成 的. 从 实 验 结 果 还 可 以 看 出,IG 和 的 分 类 准 确 性 由 高 到 低 依 次 是 :TF 方 法 方 法 方 法, 但 随 着 特 征 词 数 量 的 增 加,TF 方 法 的 优 势 逐 渐 缩 小. 对 MI 来 说, 方 法 显 然 是 最 好 的, 其 F 1 值 比 TF 和 方 法 高 出 16% ~ 50%, 这 与 MI 倾 向 于 选 择 稀 有 词 有 关, 因 为 方 法 中 滤 除 的 低 频 词 中 很 多 是 稀 有 的 噪 声 词. F 1 (% 图 1 摇 100 90 80 70 IG-100 60 IG-00 50 IG-300 MI-100 40 MI-00 MI-300 30-100 -00 0 x-300 10 TF 4 6 8 10 1 采 用 不 同 评 估 函 数 进 行 knn 分 类 的 宏 平 均 F 1 值 Fig. 1 摇 Macro 蛳 average F 1 value for knn based on different evaluation functions 5 摇 结 束 语 基 于 评 估 函 数 的 特 征 选 择 方 法 仅 关 心 词 的 统 计 特 性 而 缺 乏 必 要 的 与 文 本 内 容 相 关 的 信 息, 因 此 在 对 特 征 的 内 容 相 关 程 度 要 求 较 高 的 应 用 领 域, 如 关 键 词 抽 取 文 本 自 动 摘 要 等 方 面 显 得 力 不 从 心. 利 用 最 小 词 频 阈 值 方 法, 可 以 有 效 滤 除 与 内 容 无 关 的 信 息 或 弱 相 关 信 息. 由 于 这 些 信 息 的 滤 除, 使 得 在 进 行 文 本 信 息 处 理 过 程 中 不 需 要 再 对 这 些 信 息 进 行
4 期 摇 摇 摇 摇 陈 晓 云 摇 等 : 基 于 最 小 词 频 阈 值 的 文 档 特 征 选 择 537 比 较, 从 而 在 一 定 程 度 上 加 快 信 息 处 理 速 度, 并 且 由 于 无 关 信 息 的 有 效 去 除, 可 以 得 到 更 为 准 确 的 处 理 结 果. 参 考 文 献 [1] Zhou S G, Guan J H, Hu Y F, et al. A Chinese Document Catego 鄄 rization System without Dictionary Support and Segmentation Pro 鄄 cessing. Journal of Computer Research and Development, 001, 38 (7: 839-844 (in Chinese 摇 摇 ( 周 水 庚, 关 佶 红, 胡 运 发, 等. 一 个 无 需 词 典 支 持 和 切 词 处 理 的 中 文 文 档 分 类 算 法. 计 算 机 研 究 与 发 展, 001, 38 (7: 839-844 []Wu X Q, Wu L D, et al. A Machine Learning Based Word Segmen 鄄 tation System without Manual Dictionary. Pattern Recognition and Artificial Intelligence, 1996, 9(4: 97-303 ( in Chinese 摇 摇 ( 黄 萱 菁, 吴 立 德, 等. 基 于 机 器 学 习 的 无 需 人 工 编 制 词 典 的 切 词 系 统. 模 式 识 别 与 人 工 智 能,1996, 9(4: 97-303 [3] Yang Y M, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization. In: Proc of the 14th International Conference on Machine Learning. Nashville, USA, 1997, 41-40 [4] Mladenic' D, Grobelnik M. Feature Selection on Hierarchy of Web Documents. Decision Support Systems, 003, 35(1: 45-87 [5]Rogat M, Yang Y M. High 蛳 Performing Feature Selection for Text Classification. In: Proc of the 11th International Conference on In 鄄 formation and Knowledge Management. McLean, USA, 00, 659-661 [6]Chen Z P, Lin Y P, Peng Y, et al. A Irrelevant Information Prepro 鄄 cess Based on the Minimal Class Difference. Acta Electronica Sini 鄄 ca, 003, 31(11: 1750-1753 (in Chinese 摇 摇 ( 陈 治 平, 林 亚 平, 彭 雅, 等. 基 于 最 小 类 差 异 的 无 关 信 息 预 处 理 算 法. 电 子 学 报, 003, 31(11: 1750-1753 [7] John G H, Kohavi R, Pfleger K. Irrelevant Features and the Subset Selection Problem. In: Proc of the 11th International Conference on Machine Learning. New Brunswick, USA, 1994, 11-19 [8] Soucy P, Mineau P. A Simple Feature Selection Method for Text Classification. In: Proc of the 17th International Joint Conference on Artificial Intelligence. Seattle, USA, 001, 897-90 [9] Yang Y M, Liu X. A Re 蛳 Examination of Text Categorization Meth 鄄 ods. In: Proc of the nd Annual International ACM SIGIR Confer 鄄 ence on Research and Development in Information Retrieval. Berke 鄄 ley, USA, 1999, 4-49 [10]Zhou S G. The Key Techniques Research for Chinese Text Data 鄄 base. Ph. D Dissertation. College of Information, Fudan University, Shanghai, China, 000 ( in Chinese 摇 摇 ( 周 水 庚. 中 文 文 本 数 据 库 若 干 关 键 技 术 研 究. 博 士 学 位 论 文. 复 旦 大 学, 信 息 学 院, 上 海, 000