标题



Similar documents
2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

标题

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

Microsoft Word - chnInfoPaper6

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

, [3 ] Petri, 25 7, 500, [4,5 ], 3, (2), 2003, [ 6 ],,, ,, [7 ], 569, 26, ( ) : 2 ; 3 ; 4, ; 5, : (a) ( ) :,,

170 中 南 大 学 学 报 ( 社 会 科 学 版 ) 2012 年 第 18 卷 第 4 期 周 末 九 鼎 沦, 必 以 亡. 者 为 神, 三 山 九 鼎 有 知 也? 或 时 吏 知 怨 家 之 谋, 窃 举 持 亡, 惧 怨 家 怨 己, 云 自 去 凡 人 能 亡., 足 能 步 行

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

Your Paper's Title Starts Here: Please Center

Vol. 22 No. 4 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Aug GPS,,, : km, 2. 51, , ; ; ; ; DOI: 10.

~ 10 2 P Y i t = my i t W Y i t 1000 PY i t Y t i W Y i t t i m Y i t t i 15 ~ 49 1 Y Y Y 15 ~ j j t j t = j P i t i = 15 P n i t n Y

% GIS / / Fig. 1 Characteristics of flood disaster variation in suburbs of Shang

PCA+LDA 14 1 PEN mL mL mL 16 DJX-AB DJ X AB DJ2 -YS % PEN

Microsoft Word - A doc

2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

a b

mm ~

Microsoft Word 定版

* CUSUM EWMA PCA TS79 A DOI /j. issn X Incipient Fault Detection in Papermaking Wa

附3

1 引言

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

Microsoft Word doc

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

标题

MOTC-IOT-103-H1DB001a 臺 灣 港 務 公 司 之 監 督 與 公 司 治 理 績 效 評 估 研 究 (2/2) 著 者 : 謝 幼 屏 吳 榮 貴 朱 金 元 吳 朝 升 孫 儷 芳 王 克 尹 林 玲 煥 張 淑 滿 陳 銓 楊 世 豪 陳 秋 玲

归 纳 后, 方 可 使 用 而 且 网 上 录 取 平 台 是 为 各 高 校 统 一 使 用, 所 以 设 计 时 基 于 各 高 校 的 共 性 而 不 是 特 性, 所 以 与 各 高 校 已 有 的 信 息 系 统 的 数 据 标 准 与 格 式 有 所 区 别, 所 以 需 要 进 行

F4

4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

Fig. 1 1 The sketch for forced lead shear damper mm 45 mm 4 mm 200 mm 25 mm 2 mm mm Table 2 The energy dissip

Microsoft Word - 33-p skyd8.doc

Microsoft Word - 01李惠玲ok.doc


University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

Microsoft Word tb 赵宏宇s-高校教改纵横.doc

TI 3 TI TABLE 4 RANDBIN Research of Modern Basic Education

2013国际营销科学与信息技术大会(MSIT2013)

标题

穨423.PDF

2013_6_3.indd

g 100mv /g 0. 5 ~ 5kHz 1 YSV8116 DASP 1 N 2. 2 [ M] { x } + [ C] { x } + [ K]{ x } = { f t } 1 M C K 3 M C K f t x t 1 [ H( ω )] = - ω 2

Microsoft Word - Preface_1_14.doc

标题

蒋 哲等 基于 CVM 的有机农业认知程度和消费意愿研究 201 (P 0.000). On the basis of these results, enhancing publicity, pricing reasonably, focusing on high- income groups ar

59 1 CSpace 2 CSpace CSpace URL CSpace 1 CSpace URL 2 Lucene 3 ID 4 ID Web 1. 2 CSpace LireSolr 3 LireSolr 3 Web LireSolr ID

Dan Buettner / /

<4D F736F F D D DBACEC0F25FD0A3B6D4B8E55F2DB6FED0A32D2D2DC8A5B5F4CDBCD6D0B5C4BBD8B3B5B7FBBAC52E646F63>

66 臺 中 教 育 大 學 學 報 : 人 文 藝 術 類 Abstract This study aimed to analyze the implementing outcomes of ability grouping practice for freshman English at a u

基于词语关联度的查询缩略*

10 中 草 药 Chinese Traditional and Herbal Drugs 第 43 卷 第 1 期 2012 年 1 月 生 药 打 粉 入 药 的 基 本 特 点, 借 鉴 材 料 学 粉 体 学 等 学 科 的 研 究 成 果, 在 中 药 传 统 制 药 理 念 的 启 发

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

km km mm km m /s hpa 500 hpa E N 41 N 37 N 121

Microsoft Word - 专论综述1.doc

附件2:

31 17 www. watergasheat. com km 2 17 km 15 km hm % mm Fig. 1 Technical route of p

中國傳統醫學及養生保健學說中,與經脈及穴道有密不可分的關係

be invested on the desilting of water sources and to paved canals with cement mortar while drinking water project can focus on the improvement of wate

标题

~ a 3 h NCEP ~ 24 3 ~ ~ 8 9 ~ km m ~ 500 m 500 ~ 800 m 800 ~ m a 200

Microsoft Word - 林文晟3.doc

McGraw-Hill School Education Group Physics : Principles and Problems G S 24

LaDefense Arch Petronas Towers 2009 CCTV MOMA Newmark Hahn Liu 8 Heredia - Zavoni Barranco 9 Heredia - Zavoni Leyva

208 中 南 大 学 学 报 ( 社 会 科 学 版 ) 2013 年 第 19 卷 第 6 期 节 目 录 上 卷 一 所 载 篇 名, 乃 总 目 录 中 篇 名 之 误, 正 文 卷 一 收 录 篇 名 为 月 支 使 者 玄 觉 杜 凝 妻 灌 国 婴 女 独 狐 及 吕 卿 均 五 篇

Microsoft Word - sbs.doc

12-1b T Q235B ML15 Ca OH Table 1 Chemical composition of specimens % C Si Mn S P Cr Ni Fe

Revit Revit Revit BIM BIM 7-9 3D 1 BIM BIM 6 Revit 0 4D 1 2 Revit Revit 2. 1 Revit Revit Revit Revit 2 2 Autodesk Revit Aut

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

Microsoft Word - A _ doc

2 207 Manuel Castells

环境指标

Microsoft Word - A _ doc

1 GIS 95 Y = F y + (1 F) (1) 0 0 Y0 kg/hm 2 /day F y 0 y c kg/hm 2 /day [12] y m 20 kg/hm 2 /hour Y = cl cn ch G [ F( y ) T m yo + (2) (1 F)(

http / /yxxy. cbpt. cnki. net / % % %


Index SSCI Art education ) OR TS =( medic* teach* ) & Humanities Citation Index A&HCI SCIE SSCI A&HCI = / Thomson AND Countries/Territories = Re

共 計 四 篇 九 十 二 學 年 度 : 李 汶 娟 老 師 及 洪 廣 朋 老 師 榮 獲 銘 傳 大 學 專 任 教 師 學 術 研 究 成 果 獎 勵, 共 計 三 篇 銘 傳 大 學 補 助 專 任 教 師 出 席 國 際 性 學 術 會 議 處 理 要 點 本 校 為 鼓 勵 專 任 教

,,,,,,,,,, ; (),,,,,,,, 1862,1864 8,,() () () () () () (), :,,,,,,,,,,,,,,,, 95 %,, 1.,,, 20 (1838 ) (1873 ), ( )

240 生 异 性 相 吸 的 异 性 效 应 [6] 虽 然, 心 理 学 基 础 研 [7-8] 究 已 经 证 实 存 在 异 性 相 吸 异 性 相 吸 是 否 存 在 于 名 字 认 知 识 别 尚 无 报 道 本 实 验 选 取 不 同 性 别 的 名 字 作 为 刺 激 材 料, 通

/ / / 咏 1995/

X i i 2003 X' i i W i V i = S i / X珔 i W i = V i / m V i = 1 i 2 2 X珔 ESDA i i S i i V i i W i i m ESI = m W i = 1 i X i 3 3 ESI m 2.ESDA ESD

Microsoft Word - ~ doc

5-25袁宏钧.indd

Microsoft Word doc

48 Computer Education 课 程 体 系 设 置 2.1 科 学 设 置 培 养 方 案 课 程 模 块, 确 定 培 养 方 向 首 先, 我 们 通 过 对 人 才 市 场 需 求 分 析, 确 定 了 专 业 培 养 目 标 然 后, 根 据 教 育 部 高 等

27 :OPC 45 [4] (Automation Interface Standard), (Costom Interface Standard), OPC 2,,, VB Delphi OPC, OPC C++, OPC OPC OPC, [1] 1 OPC 1.1 OPC OPC(OLE f

[1] Liu Hongwei,2013, Study on Comprehensive Evaluation of Iron and Steel Enterprises Production System s Basic Capacities, International Asia Confere

STEAM STEAM STEAM ( ) STEAM STEAM ( ) 1977 [13] [10] STEM STEM 2. [11] [14] ( )STEAM [15] [16] STEAM [12] ( ) STEAM STEAM [17] STEAM STEAM STEA

IT 36% Computer Science Teachers Association, CSTA K K-12 CSTA K-12 K-12 K-6 K6-9 K STEM STEM STEM

United Nations ~ ~ % 2010

~ ~ ~

标题

标题

Microsoft Word - 专论综述1.doc

22 Animal Husbandry & Veterinary Medicine 2011 Vol. 43 No % 3% 3% /% % 6. 67% 1. 71% 1. 11% 0. 14% 0.

/MPa / kg m - 3 /MPa /MPa 2. 1E ~ 56 ANSYS 6 Hz (a) 一阶垂向弯曲 (b) 一阶侧向弯曲 (c) 一阶扭转 (d) 二阶侧向弯曲 (e) 二阶垂向弯曲 (f) 弯扭组合 2 6 Hz

M M. 20


doc

30 漢字硏究 第 2 輯( ) 的整理 首次將這種源於考級字表的漢字資料與語料庫字量字種字頻統計相 結合進行調查和研究 毫無疑問 本文的研究結論和數據 將對當前韓國漢 字考級用字表的標準化研究 中韓通用漢字共通化的研究 提供重要的參考 1.1 韓國漢字考級用漢字字表 韓國漢字考級用漢

广 类 型 对 定 位 在 应 用 型 地 方 本 科 院 校 发 展 具 有 促 进 作 用 统 一 的 任 职 条 件 能 确 保 某 一 职 称 具 有 同 一 起 点 的 质 量, 但 是 较 难 满 足 高 校 的 多 样 化 和 高 校 教 师 多 样 化 的 需 求, 可 能 形 成

Transcription:

第 19 卷 摇 第 4 期 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 模 式 识 别 与 人 工 智 能 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 Vol. 19 摇 No. 4 摇 006 年 8 月 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 PR & AI 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 Aug 摇 摇 006 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 * 基 于 最 小 词 频 阈 值 的 文 档 特 征 选 择 1, 1 1 陈 晓 云 摇 摇 李 荣 陆 摇 摇 胡 运 发 1 ( 复 旦 大 学 计 算 机 与 信 息 技 术 系 上 海 摇 00433 ( 福 州 大 学 数 学 与 计 算 机 科 学 学 院 福 州 摇 35000 摘 摇 要 摇 为 降 低 内 容 无 关 的 特 征 词 对 文 本 分 类 系 统 的 影 响, 在 对 与 文 本 内 容 无 关 的 特 征 词 进 行 分 析 后 发 现 : 不 相 关 特 征 词 的 词 频 普 遍 较 低, 利 用 最 小 词 频 阈 值 滤 除 低 频 特 征 可 以 明 显 降 低 无 关 特 征 的 数 量. 为 此, 提 出 基 于 最 小 词 频 阈 值 的 文 档 频 评 估 函 数. 利 用 该 函 数 选 择 特 征 可 以 有 效 减 少 与 内 容 无 关 的 噪 声 特 征, 改 善 分 类 质 量. 实 验 结 果 显 示, 几 种 基 于 最 小 词 频 阈 值 的 文 档 频 评 估 函 数 比 基 于 普 通 文 档 频 的 评 估 函 数 的 分 类 准 确 性 有 不 同 程 度 的 改 进, 其 中 对 互 信 息 的 改 进 最 为 显 著, 宏 平 均 F 1 值 比 词 频 方 法 提 高 40%, 比 普 通 文 档 频 方 法 提 高 15% ~ 30%. 关 键 词 摇 中 图 法 分 类 号 摇 文 本 分 类, 特 征 选 择, 信 息 增 益, 互 信 息, 统 计 TP311 Document Feature Selection Based on the Minimum Term Frequency Threshold CHEN Xiao 蛳 Yun 1,, LI Rong 蛳 Lu 1, HU Yun 蛳 Fa 1 1 (Department of Computer and Information Technology, Fudan University, Shanghai 00433 (School of Mathematics and Computer Science, Fuzhou University, Fuzhou 35000 ABSTRACT In this paper, a novel method of feature evaluation function based on document frequency with the minimum term frequency threshold ( is presented. To decrease the influence of the unrelated features on the system of text categorization, the attribute of the unrelated features is analyzed and the term frequency of the unrelated feature is commonly low. By applying minimum term frequency to filter the low frequency features, the unrelated features are obviously decreased. The experimental results validate the proposed method greatly reduces the number of the unrelated features and effectively improves the accuracy of the text categorization. The improvement to Mutual Information( MI is very obvious, the Macro 蛳 average F 1 value based on is 40% higher than that of Term Frequency, and 15 ~ 30% higher than that of Document Frequency(. * 国 家 自 然 科 学 基 金 项 目 (No. 6017307, 60373077 福 建 省 科 技 三 项 重 点 项 目 (No. K04005 资 助 收 稿 日 期 :004 蛳 11 蛳 15; 修 回 日 期 :005 蛳 04 蛳 04 作 者 简 介 摇 陈 晓 云, 女,1970 年 生, 博 士 研 究 生, 副 教 授, 主 要 研 究 方 向 为 数 据 挖 掘 信 息 检 索. E 蛳 mail: c_xiaoyun@ 1cn. com. 李 荣 陆, 男,1976 年 生, 博 士 研 究 生, 主 要 研 究 方 向 为 自 然 语 言 处 理 和 机 器 学 习. 胡 运 发, 男,1940 年 生, 教 授, 博 士 生 导 师, 主 要 研 究 方 向 为 数 据 工 程 和 知 识 工 程.

53 模 式 识 别 与 人 工 智 能 摇 摇 摇 19 卷 Key Words 摇 Text Classification, Feature Selection, Information Gain, Mutual Information, Statistic 1 摇 引 摇 言 目 前, 文 本 信 息 处 理 的 主 要 任 务 如 文 本 检 索 过 滤 摘 要 及 分 类 都 是 面 向 语 义 的 操 作, 涉 及 到 怎 样 表 示 文 档 才 能 体 现 出 它 的 语 义 内 含 的 问 题. 而 现 有 的 文 本 分 类 过 滤 检 索 技 术 基 本 上 是 基 于 词 或 词 串 信 息, 其 前 提 假 设 是 词 或 词 串 和 文 档 类 别 概 念 密 切 相 关. 基 于 词 或 词 串 信 息 的 中 文 文 档 处 理 系 统 需 要 借 助 词 典 使 用 专 门 的 分 词 技 术 或 利 用 N 蛳 gram 模 型 提 取 信 息 项 [1,]. 不 管 是 用 词 典 中 的 词 还 是 N 蛳 gram 表 示 文 档, 它 们 都 被 看 作 是 文 档 的 特 征 属 性. 但 是, 并 非 所 有 的 特 征 属 性 对 文 档 处 理 的 作 用 都 相 同, 要 有 所 选 择. 特 征 选 择 的 基 本 要 求 是 选 择 尽 可 能 少 而 准 确 且 与 文 档 主 题 类 别 密 切 相 关 的 特 征, 而 选 择 哪 些 特 征 则 由 特 征 属 性 与 主 题 类 别 的 相 关 程 度 确 定. 现 有 衡 量 特 征 属 性 相 关 程 度 的 方 法 是 通 过 评 估 函 数 计 算 各 特 征 属 性 的 特 征 值, 特 征 值 高 的 属 性 其 相 关 程 度 高. 常 用 的 评 估 函 数 有 互 信 息 ( Mutual Information, MI 信 息 增 益 (Information Gain, IG 统 计 ( statistic 文 档 频 阈 值 ( Document Frequency Thresholds, [3-5,7,8]. 根 据 所 使 用 的 特 征 频 率 的 不 同, 评 估 函 数 又 分 为 基 于 文 档 频 的 评 估 函 数 和 基 于 词 频 的 评 估 函 数. 但 无 论 是 基 于 何 种 频 率, 都 难 以 保 证 所 选 择 的 特 征 词 与 主 题 内 容 相 关. 与 主 题 无 关 的 特 征 可 分 为 两 类 : 一 类 是 在 各 类 中 分 布 相 差 不 大 的 特 征, 通 过 该 特 征 [6] 不 能 区 分 任 何 类, 文 本 预 处 理 过 程 中 禁 用 词 表 冶 方 法 所 确 定 的 常 用 词 就 属 这 类 特 征 ; 另 一 类 是 噪 声 词, 如 包 含 在 Web 文 档 中 的 超 链 广 告 版 权 声 明 等 噪 声 信 息 中 的 词. 由 于 这 类 噪 声 信 息 在 不 同 主 题 文 档 中 的 内 容 往 往 不 同, 其 包 含 的 词 在 特 征 选 择 过 程 中 经 常 成 为 特 征 属 性, 这 类 词 的 特 点 是 在 每 篇 文 档 中 出 现 的 频 率 较 低. 文 献 [6] 提 出 的 最 小 类 差 异 预 处 理 算 法 可 以 减 少 第 1 类 内 容 无 关 特 征 词 的 数 量. 我 们 提 出 一 种 简 单 的 方 法 用 以 减 少 第 类 不 相 关 特 征 词, 即 低 频 噪 声 词 的 数 量. 本 文 首 先 介 绍 几 种 常 用 的 评 估 函 数 以 及 基 于 文 档 频 (Document Frequency, 的 评 估 函 数 基 于 词 频 (Term Frequency, TF 的 评 估 函 数. 然 后 提 出 基 于 最 小 词 频 阈 值 的 文 档 频 ( Document Fre 鄄 quency Based on the Minimum Term Frequency Threshold n, 评 估 函 数. 实 验 结 果 表 明, 采 用 新 的 评 估 函 数 进 行 特 征 选 择 可 以 减 少 与 内 容 无 关 的 噪 声 特 征, 改 善 分 类 质 量. 摇 主 题 相 关 度 将 同 一 主 题 的 文 档 看 作 同 一 类 文 档, 反 之 同 一 类 文 档 具 有 相 同 主 题. 主 题 相 关 度 用 以 描 述 词 w 与 主 题 t 的 相 关 程 度. 特 征 选 择 就 是 选 取 与 主 题 相 关 度 高 的 词 作 为 该 主 题 的 主 题 词 或 特 征 词 的 过 程.. 1 摇 主 题 相 关 度 利 用 评 估 函 数 进 行 特 征 选 择 的 方 法 是, 计 算 每 个 特 征 在 评 估 函 数 下 的 值, 并 将 该 值 作 为 特 征 值 ; 然 后 按 特 征 值 高 低 选 取 分 值 较 高 的 特 征 或 根 据 需 要 选 取 前 k 个 特 征, 这 个 特 征 值 就 是 该 属 性 的 相 关 度. 常 用 的 评 估 函 数 有 互 信 息 (MI 信 息 增 益 (IG 统 计 ( statistic. 1 信 息 增 益 信 息 增 益 表 示 文 档 中 包 含 某 一 单 词 时 文 档 类 的 平 均 信 息 量. 它 定 义 为 某 一 词 在 文 档 中 出 现 前 后 的 信 息 熵 之 差. 假 定 c 为 文 档 类 变 量, C 为 文 档 类 的 集 合,d 为 文 档,f 为 特 征 词 ( 以 下 各 节 同 此. 对 于 特 征 词 f, 其 信 息 增 益 记 为 IG(f, 则 有 IG(f = - 移 P(clog(P(c + c 沂 C P(f 移 P(c flog(p(c f + c 沂 C P(f 移 P(c flogp(c f. (1 c 沂 C 信 息 增 益 的 不 足 之 处 在 于 它 同 时 考 虑 特 征 词 出 现 与 未 出 现 两 种 情 况. 某 个 主 题 类 中 出 现 的 特 征 词 通 常 只 占 所 有 特 征 词 很 少 的 一 部 分, 此 时 信 息 增 益 增 大 的 特 征 主 要 是 信 息 增 益 公 式 中 后 一 部 分 增 大 ( 代 表 词 不 出 现 情 况, 而 非 前 一 部 分 增 大 ( 代 表 词 出 现 情 况, 导 致 信 息 增 益 的 效 果 大 大 降 低. 互 信 息 互 信 息 用 于 表 征 特 征 词 f 与 类 别 c 间 的 相 关 性. 对 于 特 征 词 f, 其 互 信 息 记 为 MI (f, 则 有 MI(f,c = log( P(f,c. ( P(cP(f 互 信 息 没 有 考 虑 特 征 词 出 现 的 频 度, 这 是 互 信 息 一 个 很 大 的 缺 点, 它 导 致 互 信 息 评 估 函 数 经 常 倾 向 于 选 择 稀 有 词. 3 统 计

4 期 摇 摇 摇 摇 陈 晓 云 摇 等 : 基 于 最 小 词 频 阈 值 的 文 档 特 征 选 择 533 同 样, 统 计 也 用 于 表 征 两 个 变 量 间 的 相 关 性, 但 它 比 互 信 息 更 强, 因 为 它 同 时 考 虑 了 特 征 词 出 现 与 不 出 现 时 的 情 况. 对 于 特 征 词 f, 其 统 计 值 为 (f,c = (P(f,cP(f,c - P(f,cP(f,c. (3 P(cP(fP(cP(f. 摇 基 于 文 档 频 的 相 关 度 特 征 词 f 的 文 档 频 是 指 包 含 f 的 文 档 数. 使 用 文 档 频 ( 计 算 评 估 函 数 中 的 词 概 率, 公 式 如 下 : P(c =, (4a P(f =, (4b P(f =, (4c P(c f = (f,c, (4d P(c f = (f,c, (4e ( f,db 其 中,(f,c 是 类 别 c 中 包 含 词 f 的 文 档 数,(f, c 是 类 别 c 中 不 包 含 词 f 的 文 档 数, 是 整 个 数 据 集 db 中 包 含 词 f 的 文 档 数, 是 整 个 数 据 集 db 中 不 包 含 词 f 的 文 档 数, 是 类 别 c 的 文 档 总 数, 是 数 据 集 db 中 文 档 总 数. 将 式 (4a ~ 式 (4e 分 别 代 入 IG,MI, 统 计 的 计 算 式 (1 ~ 式 (3, 得 到 相 应 基 于 的 评 估 函 数 公 式. 例 如 基 于 的 互 信 息 公 式 为 MI (f,c = log = log( p(f,c p(fp(c ( f,c ( f,db = log (f,c 伊 + log. (5 文 档 频 只 考 虑 特 征 词 f 在 文 档 中 出 现 与 否, 忽 视 了 在 文 档 中 出 现 的 次 数. 由 此 带 来 的 问 题 是 如 果 特 征 词 f 的 (f, c 和 (f, db 相 同, 那 么 其 在 文 档 中 出 现 多 次 和 在 文 档 中 仅 出 现 一 次 时 的 相 关 度 相 同. 而 文 档 中 仅 出 现 一 次 的 词 经 常 是 噪 声 词, 如 广 告 链 接 信 息 中 包 含 的 与 内 容 无 关 的 词.. 3 摇 基 于 词 频 的 相 关 度 词 频 是 指 特 征 词 f 在 一 篇 文 档 中 出 现 的 次 数. 使 用 词 频 (TF 计 算 评 估 函 数 中 的 词 概 率, 其 公 式 如 下 : P(c = 椰 c 椰, (6a P(f = TF, (6b P(f = TF, (6c P(c f = TF(f,c TF, (6d P(c f = TF(f,c, (6e TF( f,db 其 中,TF(f,c 是 特 征 词 f 在 c 类 文 档 中 出 现 的 次 数, TF(f,c 是 类 别 c 中 不 包 含 f 的 文 档 词 数,TF 是 f 在 文 档 集 db 中 出 现 的 次 数,TF 是 整 个 数 据 集 db 中 不 包 含 词 f 的 文 档 词 数, 椰 c 椰 是 c 类 文 档 集 中 词 的 数 量, 是 整 个 数 据 集 db 中 词 的 数 量. 将 式 (6a ~ 式 (6e 分 别 代 入 IG,MI 及 统 计 计 算 式 (1 ~ 式 (3, 即 得 到 基 于 TF 的 评 估 函 数 公 式. 仍 以 互 信 息 为 例, 基 于 TF 的 互 信 息 公 式 为 MI (f,c = log p(f,c p(fp(c = log TF(f,c 伊 TF 伊 椰 c 椰 = log TF(f,c TF + log. (7 椰 c 椰 词 频 法 选 取 在 某 类 别 中 比 在 其 它 类 中 更 频 繁 出 现 的 词 作 为 特 征 词, 而 忽 视 了 词 在 不 同 文 档 中 的 出 现 情 况. 3 摇 基 于 最 小 词 频 阈 值 的 文 档 频 评 估 函 数 前 文 已 经 提 到, 低 词 频 特 征 中 经 常 含 有 与 内 容 无 关 的 词. 实 验 结 果 也 表 明, 用 基 于 的 评 估 函 数 进 行 特 征 选 择 时, 低 词 频 特 征 词 中 噪 声 词 所 占 的 比 例 远 远 高 于 高 词 频 特 征 中 噪 声 词 的 比 例, 而 且 随 着 词 频 的 增 加, 特 征 集 中 噪 声 词 的 比 例 逐 渐 减 少. 基 于 这 个 原 因, 我 们 利 用 最 小 词 频 阈 值 方 法, 滤 除 这 些 低 频 词, 从 而 减 少 特 征 集 中 与 内 容 无 关 的 噪 声 词. 具 体 公 式 如 下 : P(c =, (8a P(f =, (8b P(f =, (8c

534 模 式 识 别 与 人 工 智 能 摇 摇 摇 19 卷 P(c f = (f,c, (8d P(c f = (f,c, (8e ( f,db 其 中, (f, c 是 类 别 c 中, 特 征 词 f 最 少 出 现 n 次 的 文 档 数, (f,c 是 类 别 c 中, 特 征 词 f 出 现 少 于 n 次 的 文 档 数, (f, db 是 在 文 档 集 db 中, 特 征 词 f 最 少 出 现 n 次 的 文 档 数, 是 在 文 档 集 db 中, 特 征 词 f 出 现 少 于 n 次 的 文 档 数. 同 样 地, 将 式 (8a ~ 式 (8e 分 别 代 入 IG,MI 及 统 计 计 算 式 (1 ~ 式 (3, 即 得 到 基 于 的 评 估 函 数 公 式. 例 如, 考 虑 到 与 主 题 类 特 别 相 关 的 词 在 该 主 题 类 一 篇 文 档 中 出 现 两 次 及 两 次 以 上 的 概 率 要 高 于 其 在 整 个 文 档 集 中 一 篇 文 档 中 出 现 两 次 及 两 次 以 上 的 概 率. 因 此, 取 最 小 词 频 阈 值 n =, 则 基 于 的 互 信 息 公 式 为 MI (f,c = log = log( p(f,c p(fp(c (f,c = log (f,c 伊 + log. (9 上 述 公 式 可 以 很 容 易 扩 展 到 特 征 词 在 一 篇 文 档 中 出 现 n 次 的 情 况,n = 1,,3,. 而 且 随 着 n 的 增 加, 生 成 的 特 征 词 数 量 逐 渐 减 少. MI n (f,c = log = log( p(f,c p(fp(c (f,c = log (f,c 伊 + log. (10 为 便 于 描 述, 我 们 对 三 种 评 估 函 数 IG, MI, 的 基 于 词 频 (TF 文 档 频 ( 最 小 词 频 阈 值 的 文 档 频 ( 方 法 给 出 以 下 记 号, 具 体 见 表 1. 词 频 (TF 表 1 摇 Table 1 摇 主 要 记 号 Main notations 文 档 频 ( 最 小 词 频 阈 值 的 文 档 频 ( IG IG TF IG IG n MI MI TF MI MI n TF 在 全 局 范 围 选 择 特 征 时, 对 属 性 的 全 局 打 分 有 两 种 方 法 : 一 是 属 性 在 不 同 主 题 类 的 特 征 值 的 最 大 值 作 为 该 属 性 的 全 局 分 值 ; 二 是 属 性 在 不 同 主 题 类 的 特 征 值 的 平 均 值 作 为 该 属 性 的 全 局 分 值 [3]. 4 摇 实 验 及 分 析 首 先, 从 新 华 网 (www. xinhuanet. com 下 载 660 篇 新 闻 网 页 作 为 实 验 数 据 集. 数 据 集 包 括 新 华 网 教 育 类 下 的 6 个 子 类 别 的 网 页, 分 别 是 : 海 外 见 闻 (y 1 留 学 新 闻 (y 高 考 (y 3 考 研 (y 4 e 教 育 (y 5 学 术 动 态 (y 6. 从 每 类 中 选 取 100 篇 新 闻 作 为 训 练 样 本, 另 外 10 篇 作 为 分 类 实 验 的 测 试 样 本. 实 验 中 采 用 N 蛳 gram 技 术 提 取 信 息 项 [1, 10], 得 到 蛳 gram 3 蛳 gram 项 ; 然 后 对 蛳 gram 3 蛳 gram 项 采 用 全 局 打 分, 全 局 选 择 冶 的 方 法 选 取 特 征 值 高 的 特 征. 为 说 明 评 估 函 数 的 有 效 性, 我 们 设 计 了 两 个 实 验 : 实 验 1 用 评 估 函 数 进 行 特 征 选 择, 可 以 减 少 特 征 集 中 噪 声 词 所 占 的 比 例 ; 实 验 通 过 分 类 实 验 说 明 使 用 评 估 函 数 选 择 特 征 可 改 善 分 类 质 量. 实 验 1 摇 减 少 内 容 无 关 特 征 的 生 成 在 新 闻 网 页 中, 经 常 包 含 结 构 信 息, 如 超 链 广 告 版 权 声 明 等 与 文 档 内 容 无 关 的 信 息. 由 于 这 类 信 息 在 某 些 主 题 类 文 档 中 频 繁 出 现, 信 息 中 与 内 容 无 关 的 词 常 因 主 题 相 关 度 较 高 而 被 作 为 特 征 词 选 中. 与 内 容 无 关 的 特 征 词 过 多, 不 仅 影 响 了 后 续 文 档 处 理 的 质 量, 过 大 的 特 征 空 间 也 会 降 低 效 率. 在 文 本 检 索 摘 要 文 本 过 滤 或 分 类 系 统 中, 为 保 证 信 息 处 理 质 量, 需 要 预 先 消 除 这 类 无 关 特 征. 文 献 [6] 提 出 的 方 法 可 以 消 除 类 区 分 度 低 的 不 相 关 特 征, 其 作 用 类 似 于 采 用 禁 用 词 表 的 方 法 滤 除 在 整 个 文 档 集 各 类 中 普 遍 出 现 的 词. 而 包 含 在 结 构 信 息 中 的 特 征 词 与 禁 用 词 表 以 及 文 献 [6] 所 定 义 的 无 关 词 不 同, 其 类 区 分 度 可 能 很 高, 无 法 用 禁 用 词 表 或 设 置 区 分 度 阈 值 将 它 们 滤 除. 本 文 提 出 基 于 的 评 估 函 数 则 主 要 针 对 这 一 类 内 容 无 关 的 特 征 词. 表 给 出 新 华 网 数 据 集 中 出 现 的 结 构 噪 声 : 链 接 信 息 来 源 信 息 版 权 与 免 责 声 明 工 具 信 息. 不 同 主 题 的 新 闻 网 页 所 包 含 的 结 构 信 息 略 有 不 同, 在 新 华 网 数 据 集 中 链 接 信 息 的 内 容 随 着 新 闻 类 别 的 不 同 而 不 同, 而 版 权 信 息 也 仅 在 稿 件 来 源 不 是 新 华 网 的 新 闻 文 档 中 才 出 现.

4 期 摇 摇 摇 摇 陈 晓 云 摇 等 : 基 于 最 小 词 频 阈 值 的 文 档 特 征 选 择 535 表 摇 新 闻 网 页 常 见 的 4 种 结 构 信 息 Table 摇 Four kinds of common structural information in the news web pages 结 构 信 息 名 结 构 信 息 内 容 示 例 您 的 位 置 : 淤 链 接 信 息 首 页 > > 校 园 频 道 > > 学 术 研 究 欢 迎 访 问 新 华 网 新 华 网 全 球 新 闻 网 于 来 源 信 息 新 华 网 (003 蛳 07 蛳 31 16 颐 53 颐 04 来 源 : 清 华 新 闻 网 新 华 网 版 权 与 免 责 声 明 : 淤 凡 本 网 注 明 稿 件 来 源 : 新 华 网 冶 的 所 有 文 图 片 和 音 视 频 稿 件, 版 权 均 属 新 华 社 和 新 华 网 所 有, 任 何 媒 体 网 站 或 个 人 未 经 本 网 协 议 授 权 不 得 转 载 链 接 转 贴 或 以 其 他 方 式 复 制 发 表. 已 经 本 网 协 议 授 权 的 媒 体 网 站, 在 下 载 使 用 时 必 须 注 明 稿 件 来 源 : 新 华 网 冶, 违 者 本 网 将 依 法 追 究 责 任. 盂 版 权 与 免 责 声 明 于 本 网 未 注 明 稿 件 来 源 : 新 华 网 冶 的 文 / 图 等 稿 件 均 为 转 载 稿, 本 网 转 载 出 于 传 递 更 多 信 息 之 目 的, 并 不 意 味 着 赞 同 其 观 点 或 证 实 其 内 容 的 真 实 性. 如 其 他 媒 体 网 站 或 个 人 从 本 网 下 载 使 用, 必 须 保 留 本 网 注 明 的 稿 件 来 源 冶, 并 自 负 版 权 等 法 律 责 任. 如 擅 自 篡 改 为 稿 件 来 源 : 新 华 网 冶, 本 网 将 依 法 追 究 责 任. 如 对 稿 件 内 容 有 疑 义, 请 及 时 与 我 们 联 系. 盂 如 本 网 转 载 稿 涉 及 版 权 等 问 题, 请 作 者 在 两 周 内 速 来 电 或 来 函 与 新 华 网 联 系. 榆 工 具 信 息 放 大 体 摇 缩 小 体 摇 打 印 本 稿 摇 发 表 评 论 摇 推 荐 给 朋 友 摇 摇 分 别 用 基 于 词 频 (TF 文 档 频 ( 最 小 词 频 阈 值 的 文 档 频 ( 评 估 函 数 对 训 练 样 本 进 行 特 征 选 择. 实 验 结 果 显 示, 不 同 方 法 得 到 的 特 征 数 明 显 不 同 ( 见 表 3. 从 表 3 可 以 看 出, 随 着 阈 值 n 的 增 加, 系 统 得 到 的 特 征 数 明 显 减 少, 由 TF 和 方 法 下 的 600 词 减 少 到 10 方 法 下 的 13 词. 并 且 减 少 的 幅 度 在 n = ~ 8 时 最 为 显 著. 分 析 表 3 结 果 发 现, 不 同 评 估 函 数 在 阈 值 n =,4,6 时 所 滤 除 的 无 关 词 的 数 量 不 同, 这 是 因 为 低 频 词 在 不 同 类 别 的 分 布 情 况 不 同, 不 同 评 估 函 数 对 低 频 词 的 选 择 也 不 同. 当 n = 8,10 时 采 用 不 同 评 估 函 数 所 得 到 的 特 征 词 数 量 相 同 且 内 容 也 相 同, 说 明 当 n 值 较 高 时 得 到 的 特 征 词 是 理 想 的 特 征, 即 使 采 用 不 同 评 估 函 数 所 作 的 选 择 也 是 相 同 的. Table 3 摇 表 3 摇 不 同 评 估 函 数 的 特 征 空 间 规 模 Feature space sizes of different evaluation functions TF n = n = 4 n = 6 n = 8 n = 10 IG 600 600 497 488 86 199 13 MI 600 600 600 457 74 199 13 600 600 600 466 81 199 13 词 摇 表 4 摇 Table 4 摇 分 别 用 4 和 3 种 评 估 函 数 得 到 y 类 的 特 征 词 表 6 Feature word lists generated by, and for category y 4 6 n = 1 n = 4 n = 6 研 究 教 授 本 网 技 术 大 学 稿 件 成 果 新 华 学 术 实 验 大 学 生 网 站 或 校 园 新 华 网 的 研 件 来 源 稿 件 来 我 校 验 室 应 用 检 索 转 载 我 国 留 言 注 明 版 权 中 国 管 理 计 划 招 生 网 站 开 发 责 任 录 取 必 须 媒 体 国 家 更 多 使 用 内 容 国 际 发 表 高 校 法 律 人 员 留 言 板 评 论 联 系 首 次 协 议 网 协 议 网 将 依 或 个 人 本 网 注 协 议 授 究 责 任 法 追 究 版 权 等 非 典 将 依 法 网 注 明 追 究 责 网 转 载 本 网 转 本 网 协 议 授 权 下 载 使 依 法 追 转 载 稿 本 网 将 经 本 网 站 或 个 载 使 用 下 载 其 他 所 有 个 人 目 的 学 生 保 留 言 板 管 看 评 论 法 律 责 有 权 查 看 评 您 的 一 切 新 闻 日 本 网 络 国 内 体 考 生 英 国 问 题 发 布 全 国 美 国 任 何 教 育 部 政 策 留 学 生 教 育 学 校 中 国 留 学 的 一 批 语 言 高 考 国 留 学 的 学 推 荐 网 上 新 西 兰 言 学 校 语 言 学 研 究 生 的 中 国 大 学 的 研 究 大 学 新 华 本 网 稿 件 技 术 项 目 来 源 教 授 稿 件 来 件 来 源 招 生 留 言 转 载 录 取 实 验 会 议 系 统 学 术 京 大 学 信 息 清 华 学 院 管 理 实 验 室 网 站 青 年 高 校 国 际 建 设 国 家 留 学 生 发 展 中 国 留 商 学 国 留 学 网 络 林 大 中 国 社 会 大 学 研 究 新 华 新 华 网 本 网 稿 件 技 术 项 目 会 议 中 国 学 术 文 北 京 成 果 信 息 同 济 设 计 实 验 生 产 录 取 一 般 学 院 社 会 吉 林 林 大 应 用 教 授 北 京 林 中 心 同 济 大 济 大 学 青 年 留 学 生 经 济 发 展 商 学 院

536 模 式 识 别 与 人 工 智 能 摇 摇 摇 19 卷 摇 摇 为 更 清 楚 地 看 出 方 法 对 内 容 无 关 词 的 过 滤 情 况, 表 4 给 出 了 分 别 用 和 方 法 得 到 4 的 y 6 类 ( 学 术 动 态 特 征 词 列 表, 表 中 特 征 词 按 其 值 的 大 小 排 序, 出 现 在 结 构 信 息 中 的 特 征 词 用 黑 avg 体 标 出. 由 于 采 用 N 蛳 gram 技 术 抽 取 特 征, 一 些 特 征 不 是 真 正 意 义 上 的 词, 如 验 室 冶 ( 应 为 实 验 室 冶 网 站 或 冶 的 研 冶. 此 外, 因 为 实 验 设 置 仅 选 取 蛳 gram 和 3 蛳 gram 项, 所 以 许 多 4 词 作 为 特 征 时 变 成 3 词 或 词, 如 吉 林 大 学 冶 成 为 吉 林 冶 林 大 冶, 同 济 大 学 冶 成 为 同 济 大 冶 济 大 学 冶, 这 是 N 蛳 gram 技 术 的 不 足, 借 助 词 典 可 避 免 这 一 问 题. 由 表 4 可 以 看 出, 采 用 得 到 的 特 征 4 数 分 别 为 15 40 36, 其 中, 采 用 度 量 时 15 个 特 征 词 中 有 65 个 是 出 现 在 结 构 信 息 中 的 与 内 容 无 关 的 噪 声 词 ( 噪 声 词 用 黑 体 标 出, 噪 声 词 占 该 类 特 征 词 总 数 的 5%. 采 用 度 量 时,40 个 特 征 词 中 4 有 11 个 噪 声 词, 占 该 类 特 征 词 的 7. 5%. 采 用 度 量 时,36 个 特 征 词 中 仅 有 6 个 噪 声 词, 占 该 类 特 征 词 的 16. 6%. 可 见 随 着 阈 值 n 的 增 加 噪 声 词 所 占 的 比 例 明 显 减 少. 从 而 可 以 得 出 以 下 结 论 : 基 于 的 评 估 函 数 可 以 有 效 滤 除 噪 声 词. 实 验 摇 分 类 实 验 为 比 较 基 于 最 小 词 频 阈 值 的 文 档 频 评 估 函 数 与 普 通 基 于 文 档 频 或 词 频 的 评 估 函 数 性 能 上 的 优 劣, 我 们 分 别 利 用 这 3 种 方 法 进 行 分 类 实 验. 首 先, 用 3 种 不 同 的 评 估 函 数 IG,MI, 构 造 3 种 规 模 的 特 征 集, 依 次 为 100 词,00 词 和 300 词. 每 种 评 估 函 数 的 每 个 规 模 的 特 征 集 分 别 采 用 TF 和 3 种 方 法 构 造, 方 法 的 最 小 词 频 阈 值 分 别 取 4 6 8 10 1, 因 此 每 个 评 估 函 数 在 每 种 规 模 下 都 产 生 8 个 特 征 集, 总 计 7 个 特 征 集. 然 后, 分 别 用 这 些 特 征 集 对 测 试 样 本 利 用 knn 方 法 分 类 [9], 得 到 如 图 1 所 示 的 [10] 分 类 结 果. 图 1 给 出 的 是 采 用 宏 平 均 F 1 值 评 估 的 [10] 分 类 结 果, 采 用 微 平 均 F 1 值 评 估 的 分 类 结 果 与 宏 平 均 F 1 值 的 结 果 类 似, 且 得 出 相 同 结 论, 因 篇 幅 有 限 略 去. 由 图 1 可 以 看 出, 如 果 3 种 评 估 函 数 采 用 方 法, 那 么 当 阈 值 n 取 在 某 一 范 围 内 时, 其 分 类 精 度 高 于 文 档 频 ( 方 法, 但 超 出 这 个 范 围 后 就 开 始 下 降. 分 析 认 为, 由 于 噪 声 词 的 词 频 普 遍 较 低, 因 此 在 这 一 范 围 内 噪 声 词 所 占 比 例 较 大, 通 过 设 定 最 小 词 频 就 可 以 有 效 滤 除 大 量 低 频 噪 声. 而 当 阈 值 不 断 提 高 时, 噪 声 词 的 比 例 显 著 减 少, 在 滤 除 噪 声 词 的 同 时 一 些 非 噪 声 特 征 也 被 过 滤, 当 滤 除 的 非 噪 声 特 征 过 多, 其 负 面 影 响 高 于 滤 除 噪 声 特 征 所 产 生 的 正 面 影 响 时, 分 类 精 度 开 始 下 降. 我 们 称 这 一 范 围 为 方 法 的 有 效 范 围, 在 有 效 范 围 内 方 法 的 分 类 准 确 性 高 于 方 法. 从 图 1 可 以 看 出,IG 和 评 估 函 数 的 方 法 的 有 效 范 围 是 n = ~ 6. 在 有 效 范 围 内, 基 于 方 法 的 IG 函 数 的 宏 平 均 F 1 值 比 方 法 提 高 1. 5% ~ 13%. 函 数 的 增 幅 为 3% ~ 14%. 而 对 于 MI, 这 一 范 围 是 n = 6 ~ 1, 与 其 它 两 种 评 估 函 数 相 比, 方 法 对 MI 性 能 的 提 高 最 为 显 著,MI 1 的 宏 平 均 F 1 值 比 MI TF 提 高 了 40%, 比 MI 提 高 了 16%. 当 n = 1 时, 几 种 评 估 函 数 的 F 1 值 相 同, 这 说 明 在 提 取 高 频 特 征 方 面,IG,MI 和 没 有 差 别, 因 而 文 献 [3] 中 提 到 的 不 同 特 征 评 估 函 数 间 存 在 的 性 能 差 异 主 要 是 由 不 同 评 估 函 数 对 低 频 特 征 的 选 择 能 力 不 同 造 成 的. 从 实 验 结 果 还 可 以 看 出,IG 和 的 分 类 准 确 性 由 高 到 低 依 次 是 :TF 方 法 方 法 方 法, 但 随 着 特 征 词 数 量 的 增 加,TF 方 法 的 优 势 逐 渐 缩 小. 对 MI 来 说, 方 法 显 然 是 最 好 的, 其 F 1 值 比 TF 和 方 法 高 出 16% ~ 50%, 这 与 MI 倾 向 于 选 择 稀 有 词 有 关, 因 为 方 法 中 滤 除 的 低 频 词 中 很 多 是 稀 有 的 噪 声 词. F 1 (% 图 1 摇 100 90 80 70 IG-100 60 IG-00 50 IG-300 MI-100 40 MI-00 MI-300 30-100 -00 0 x-300 10 TF 4 6 8 10 1 采 用 不 同 评 估 函 数 进 行 knn 分 类 的 宏 平 均 F 1 值 Fig. 1 摇 Macro 蛳 average F 1 value for knn based on different evaluation functions 5 摇 结 束 语 基 于 评 估 函 数 的 特 征 选 择 方 法 仅 关 心 词 的 统 计 特 性 而 缺 乏 必 要 的 与 文 本 内 容 相 关 的 信 息, 因 此 在 对 特 征 的 内 容 相 关 程 度 要 求 较 高 的 应 用 领 域, 如 关 键 词 抽 取 文 本 自 动 摘 要 等 方 面 显 得 力 不 从 心. 利 用 最 小 词 频 阈 值 方 法, 可 以 有 效 滤 除 与 内 容 无 关 的 信 息 或 弱 相 关 信 息. 由 于 这 些 信 息 的 滤 除, 使 得 在 进 行 文 本 信 息 处 理 过 程 中 不 需 要 再 对 这 些 信 息 进 行

4 期 摇 摇 摇 摇 陈 晓 云 摇 等 : 基 于 最 小 词 频 阈 值 的 文 档 特 征 选 择 537 比 较, 从 而 在 一 定 程 度 上 加 快 信 息 处 理 速 度, 并 且 由 于 无 关 信 息 的 有 效 去 除, 可 以 得 到 更 为 准 确 的 处 理 结 果. 参 考 文 献 [1] Zhou S G, Guan J H, Hu Y F, et al. A Chinese Document Catego 鄄 rization System without Dictionary Support and Segmentation Pro 鄄 cessing. Journal of Computer Research and Development, 001, 38 (7: 839-844 (in Chinese 摇 摇 ( 周 水 庚, 关 佶 红, 胡 运 发, 等. 一 个 无 需 词 典 支 持 和 切 词 处 理 的 中 文 文 档 分 类 算 法. 计 算 机 研 究 与 发 展, 001, 38 (7: 839-844 []Wu X Q, Wu L D, et al. A Machine Learning Based Word Segmen 鄄 tation System without Manual Dictionary. Pattern Recognition and Artificial Intelligence, 1996, 9(4: 97-303 ( in Chinese 摇 摇 ( 黄 萱 菁, 吴 立 德, 等. 基 于 机 器 学 习 的 无 需 人 工 编 制 词 典 的 切 词 系 统. 模 式 识 别 与 人 工 智 能,1996, 9(4: 97-303 [3] Yang Y M, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization. In: Proc of the 14th International Conference on Machine Learning. Nashville, USA, 1997, 41-40 [4] Mladenic' D, Grobelnik M. Feature Selection on Hierarchy of Web Documents. Decision Support Systems, 003, 35(1: 45-87 [5]Rogat M, Yang Y M. High 蛳 Performing Feature Selection for Text Classification. In: Proc of the 11th International Conference on In 鄄 formation and Knowledge Management. McLean, USA, 00, 659-661 [6]Chen Z P, Lin Y P, Peng Y, et al. A Irrelevant Information Prepro 鄄 cess Based on the Minimal Class Difference. Acta Electronica Sini 鄄 ca, 003, 31(11: 1750-1753 (in Chinese 摇 摇 ( 陈 治 平, 林 亚 平, 彭 雅, 等. 基 于 最 小 类 差 异 的 无 关 信 息 预 处 理 算 法. 电 子 学 报, 003, 31(11: 1750-1753 [7] John G H, Kohavi R, Pfleger K. Irrelevant Features and the Subset Selection Problem. In: Proc of the 11th International Conference on Machine Learning. New Brunswick, USA, 1994, 11-19 [8] Soucy P, Mineau P. A Simple Feature Selection Method for Text Classification. In: Proc of the 17th International Joint Conference on Artificial Intelligence. Seattle, USA, 001, 897-90 [9] Yang Y M, Liu X. A Re 蛳 Examination of Text Categorization Meth 鄄 ods. In: Proc of the nd Annual International ACM SIGIR Confer 鄄 ence on Research and Development in Information Retrieval. Berke 鄄 ley, USA, 1999, 4-49 [10]Zhou S G. The Key Techniques Research for Chinese Text Data 鄄 base. Ph. D Dissertation. College of Information, Fudan University, Shanghai, China, 000 ( in Chinese 摇 摇 ( 周 水 庚. 中 文 文 本 数 据 库 若 干 关 键 技 术 研 究. 博 士 学 位 论 文. 复 旦 大 学, 信 息 学 院, 上 海, 000