Microsoft Word - 122046.doc



Similar documents
第 02 期 1 医 疗 信 息 现 状 20% EMR Electronic Medical Record HIS HIS [1-2] 张 肖 等 : 基 于 大 数 据 的 医 疗 健 康 创 新 应 用 2 大 数 据 环 境 下 医 疗 数 据 特 征 分 析 PC [3]

2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

标题

1 引言

基于改进的TF-IDF算法的聚焦主题

Microsoft Word - A _ doc

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

, [3 ] Petri, 25 7, 500, [4,5 ], 3, (2), 2003, [ 6 ],,, ,, [7 ], 569, 26, ( ) : 2 ; 3 ; 4, ; 5, : (a) ( ) :,,

untitled

第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多

2005硕士论文模版

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

幻灯片 1



国家信息中心2012年部门预算

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

UDC The Design and Implementation of a Specialized Search Engine Based on Robot Technology 厦门大学博硕士论文摘要库

科研信息化技术与应用 2015, 6 (6) 联网交换中心 AP 等国内主要互联网运营商实现高 [1] 速互联 截至目前 美国 英国 新加坡 巴西 新西 兰 中国香港等国家和地区的政府机构均开展了宽带 况 在网络出现拥塞时能够快速定位问题 解决故 障 有针对性地提升我们的网络质量 并随着服务 质量的

标题

业 务 与 运 营 社 交 网 络 行 为 将 对 网 络 流 量 造 成 较 大 影 响 3) 即 时 通 信 类 业 务 包 括 微 信 QQ 等, 该 类 业 务 属 于 典 型 的 小 数 据 包 业 务, 有 可 能 带 来 较 大 的 信 令 开 呼 叫 建 立 的 时 延 销 即 时

ZS.indd

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

水利期刊网页制作格式说明


Revit Revit Revit BIM BIM 7-9 3D 1 BIM BIM 6 Revit 0 4D 1 2 Revit Revit 2. 1 Revit Revit Revit Revit 2 2 Autodesk Revit Aut

2013_6_3.indd

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

,, [1 ], [223 ] :, 1) :, 2) :,,, 3) :,, ( ),, [ 6 ],,, [ 3,728 ], ; [9222 ], ;,,() ;, : (1) ; (2),,,,, [23224 ] ; 2,, x y,,, x y R, ( ),,, :

McGraw-Hill School Education Group Physics : Principles and Problems G S 24

~ ~ ~ ~ ~ ~ ~ % % ~ 20% 50% ~ 60%

Microsoft Word - 01李惠玲ok.doc

标题

如 语 言 研 究 型 数 据 库 那 样 成 熟, 但 可 为 构 建 华 文 教 材 数 据 库 提 供 借 鉴 此 类 数 据 库 中 有 代 表 性 的 有 北 京 语 言 大 学 的 对 外 汉 语 教 材 检 索 数 据 库, 中 央 民 族 大 学 的 国 际 汉 语 教 学 国 别

untitled

(Microsoft Word - 22\264\301\261\306\252\ \247\271\246\250.doc)

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

UDC Empirical Researches on Pricing of Corporate Bonds with Macro Factors 厦门大学博硕士论文摘要库

标题

Microsoft Word - 04呂素端83-120

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

TMC TMC 159

pdf

标题

92

Microsoft Word - 31空中大學校稿檔.doc

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

Microsoft Word - A doc

<4D F736F F D D DBACEC0F25FD0A3B6D4B8E55F2DB6FED0A32D2D2DC8A5B5F4CDBCD6D0B5C4BBD8B3B5B7FBBAC52E646F63>

those four kinds of factors are significantly associated with the intention to institutional care of the elderly without ADL disability. However for t

Microsoft Word - A doc

Microsoft Word tb 谢涛.doc

Total Internet Connectivity in a Single Chip

/MPa / kg m - 3 /MPa /MPa 2. 1E ~ 56 ANSYS 6 Hz (a) 一阶垂向弯曲 (b) 一阶侧向弯曲 (c) 一阶扭转 (d) 二阶侧向弯曲 (e) 二阶垂向弯曲 (f) 弯扭组合 2 6 Hz

<4D F736F F D20B9D8D3DA C4EAC9EAB1A8D7A8D2B5BCBCCAF5C8FDBCB6B8DACEBBB5C4CDA8D6AA2E646F63>

(\244j\257d\276\307\274\351_ C.indd_70%.pdf)

文 每 由 充 羊 * 亚 就 N 有 达 品 周 成 虽 驰 水 拟 希 公 下 它 当 上 希 仿 上 潘 注 可 当 缪 歇 传 湖 也 也 对 多 生 古 反 或 只 牛 分 可 妙 西 4 期 杨 宏 芹 发 展 之 源 与 流 7 e < x ; > u 0 V 转 义 可 表 示 短

,2(1) 基 礎 上, 各 種 數 據 均 以 圖 形 化 方 式 表 達, 因 此 各 級 分 析 結 果 均 可 以 隨 時 檢 驗 另 外, 由 於 系 統 是 以 網 站 形 式 發 佈, 任 何 用 戶 均 可 通 過 網 絡 查 詢 瀏 覽 系 統 中 的 數 據, 因

θ 1 = φ n -n 2 2 n AR n φ i = 0 1 = a t - θ θ m a t-m 3 3 m MA m 1. 2 ρ k = R k /R 0 5 Akaike ρ k 1 AIC = n ln δ 2

IT 36% Computer Science Teachers Association, CSTA K K-12 CSTA K-12 K-12 K-6 K6-9 K STEM STEM STEM

理 成 可 做 關 聯 分 析 的 格 式, 再 應 用 統 計 統 計 計 算 軟 體 R (R Core Team, 2013) 中 的 延 伸 套 件 arules (Hahsler, Gruen, and Hornik, 2005; Hahsler, Buchta, Gruen, and H


在 应 用 实 践 上 指 导 性 建 议 ( 黄 白,2008) 近 几 年 来, 国 家 政 府 在 教 育 方 面 高 度 重 视 教 育 信 息 化 工 作, 相 继 出 台 一 系 列 政 策 文 件 和 规 范 来 促 进 和 推 动 信 息 技 术 在 教 育 教 学 领 域 的 广

F4

PCA+LDA 14 1 PEN mL mL mL 16 DJX-AB DJ X AB DJ2 -YS % PEN

Microsoft Word - 专论综述1.doc


2016 年 第 3 期 夏 咏 梅 : 农 村 初 中 数 学 区 域 性 资 源 与 教 材 资 源 的 有 效 整 合 研 究 65 一 题 的 提 出 1. 程 改 革 形 势 的 需 要 程 资 源 是 新 程 改 革 所 提 出 的 一 个 重 要 概 念, 没 有 程 资 源 的 广

48 Computer Education 课 程 体 系 设 置 2.1 科 学 设 置 培 养 方 案 课 程 模 块, 确 定 培 养 方 向 首 先, 我 们 通 过 对 人 才 市 场 需 求 分 析, 确 定 了 专 业 培 养 目 标 然 后, 根 据 教 育 部 高 等

Oates U

1 科 学 谋 划, 有 序 促 进 扶 贫 工 作 的 持 续 发 展 1.1 科 学 定 位, 精 准 发 现 地 方 的 需 求 按 照 国 家 生 态 功 能 区 的 划 分, 库 伦 旗 属 重 点 生 态 保 护 开 发 区 这 里 生 态 环 境 优 良 特 色 作 物 资 源 优 势

豐佳燕.PDF

水 平 考 试 管 理 部 门 办 理 报 名 登 记 手 续, 由 县 ( 市 区 ) 学 业 水 平 考 试 管 理 部 门 建 立 学 业 水 平 考 试 考 籍 ( 三 ) 在 云 南 省 借 考 的 外 省 户 籍 考 生, 经 本 人 申 请, 持 户 籍 等 相 关 材 料, 到 借


Microsoft Word - 103鐵路佐級-國文(二)

背 景 资 料 水 浒 传 写 的 是 北 宋 宣 和 年 间 (1119~1121 前 后 ) 宋 江 等 聚 众 起 义 的 故 事 全 书 描 写 北 宋 末 年 以 宋 江 为 首 的 一 百 零 八 人 在 山 东 梁 山 泊 聚 义 的 故 事 故 事 在 宋 史 和 宋 人 笔 记 里

产 品 出 口 企 业 当 年 减 半 缴 纳 企 业 所 得 税 的 核 准 外 商 投 资 企 业 财 产 转 让 收 益 分 期 计 入 应 纳 税 所 得 额 的 核 准 外 商 投 资 企 业 技 术 开 发 费 加 计 扣 除 的 核 准 财 政

学 习 贯 彻 中 央 尧 省 尧 市 纪 委 全 会 精 神 专 栏 中 国 共 产 党 第 十 八 届 中 央 纪 律 检 查 委 员 会 第 六 次 全 体 会 议 公 报 渊 2016 年 1 月 14 日 中 国 共 产 党 第 十 八 届 中 央 纪 律 检 查 委 员 会 第 六 次

Microsoft Word - 临政办发12.doc

中共山东省委高校工委

标题

目 录 第 一 部 分 国 家 知 识 产 权 局 概 况 一 主 要 职 能 二 部 门 预 算 单 位 构 成 第 二 部 分 国 家 知 识 产 权 局 2016 年 部 门 预 算 表 一 财 政 拨 款 收 支 总 表 二 一 般 公 共 预 算 支 出 表 三 一 般 公 共 预 算 基

ᄐ↓ᅯᄎ2015ᅣ↑ᄇ﾿ᅢᅤᅯ녜 ̄

科学技术部2013年度部门预算

一、二○○二年学校工作的简要回顾

Microsoft Word - 白俄罗斯公司法汉语译文2015年7月15日修改版.docx

第 一 部 分 中 国 气 象 局 职 责 及 概 况 一 主 要 职 责 ( 一 ) 拟 定 气 象 工 作 的 方 针 政 策 法 律 法 规 发 展 战 略 和 长 远 规 划 ; 制 定 发 布 气 象 工 作 的 规 章 制 度 技 术 标 准 和 规 范 并 监 督 实 施 ; 承 担

数学与统计学院教师支部“两学一做”学习教育实施计划

无 锡 职 业 技 术 学 院 国 有 资 产 管 理 办 法 第 一 章 总 则 第 一 条 为 加 强 学 校 国 有 资 产 管 理, 合 理 配 置 和 有 效 使 用 国 有 资 产, 确 保 国 有 资 产 安 全 与 完 整, 保 障 和 促 进 学 校 各 项 事 业 发 展, 根

省安委会2015冬防工作方案.doc

南 昌 大 学 人 力 资 源 工 作 简 讯 2015 年 第 2 期 ( 总 第 27 期 ) 目 录 1 人 力 资 源 综 合 信 息 2 人 员 调 配 及 机 构 编 制 管 理 信 息 3 劳 资 工 作 信 息 4 师 资 管 理 信 息 5 高 层 次 人 才 及 队 伍 建 设

国家邮政局2010年部门预算

国家邮政局2010年部门预算

11韶关市人力资源和社会保障局权责清单

三亚市政府投资建设项目代建制管理工作介绍

<4D F736F F D20C9FABBB7B9FAD6D CBB6CABFB8B4CAD4B7BDB0B8312E646F63>

目 录 一 部 门 职 责... 1 二 预 算 编 报 范 围... 3 三 2013 年 部 门 预 算 报 表 及 情 况 说 明... 5 收 支 预 算 总 表 及 情 况 说 明... 5 收 入 预 算 表 及 情 况 说 明... 7 支 出 预 算 表 及 情 况 说 明... 1

标题

目 录 一 重 要 提 示... 3 二 公 司 主 要 财 务 数 据 和 股 东 变 化... 3 三 重 要 事 项... 6 四 附 录 / 22

Transcription:

第 38 卷 第 20 期 Vol.38 No.20 计 算 机 工 程 Computer Engineering 2012 年 10 月 October 2012 人 工 智 能 及 识 别 技 术 摘 行 为 特 征 分 析 模 式 下 的 网 页 分 类 技 术 研 究 汤 亚 玲 1, 崔 志 明 (1. 安 徽 工 业 大 学 计 算 机 学 院, 安 徽 马 鞍 山 243002;2. 苏 州 大 学 智 能 信 息 处 理 及 应 用 研 究 所, 江 苏 苏 州 215006) 要 : 现 有 网 页 分 类 技 术 忽 略 用 户 个 性 行 为 的 差 异 为 此, 提 出 一 种 结 合 用 户 行 为 特 征 分 析 的 网 页 分 类 技 术 运 用 知 识 规 则 发 现 页 面 特 征 提 取 等 方 法, 分 析 Web 用 户 的 访 问 历 史 和 个 性 化 定 制 信 息, 学 习 并 掌 握 用 户 的 行 为 和 兴 趣 针 对 用 户 的 认 知 特 征, 提 供 合 适 的 Web 页 面 分 类 模 式, 能 在 一 定 程 度 上 改 进 单 纯 统 计 学 网 页 分 类 方 法 在 自 然 语 言 理 解 上 的 不 足 实 验 数 据 表 明, 该 分 类 方 法 与 多 种 统 计 学 方 法 相 结 合 实 施 网 页 分 类 均 能 有 效 地 提 高 分 类 准 确 率, 使 网 页 分 类 结 果 更 接 近 分 类 的 真 实 情 形 和 要 求 关 键 词 : 网 页 分 类 ; 行 为 特 征 ; 数 据 挖 掘 ; 逆 向 推 理 ; 关 联 规 则 ; 序 列 模 式 Research on Web Page Categorization Technology Under Behavior Characteristic Analysis Pattern TANG Ya-ling 1, CUI Zhi-ming 2 (1. School of Computer, Anhui University of Technology, Maanshan 243002, China; 2. Institute of Intelligent Information Processing and Application, Soochow University, Suzhou 215006, China) Abstract This paper introduces a kind of Web page categorization technology through analysis of characters of users behavior, along with current hotspot of researching on Web pages categorization. Trough grasping users behavior and interest by analyzing the history of Web user s access, and by concluding knowledge rules out also with pages characters distilled. It provides a kind of appropriate categorization pattern on Web pages based on users knowledge level, and surely improves classifying effect without language meanings understood contrast with pure statistic categorization. Experimental results indicate that this pattern of categorization combining kinds of statistic algorithm can improve accuracy of categorization, and make the classifying results more closer to real facts and people s knowledge desire. Key words Web page categorization; behavior characteristic; data mining; reverse-reasoning; association rule; sequence pattern DOI: 10.3969/j.issn.1000-3428.2012.20.046 文 章 编 号 :1000 3428(2012)20 0179 05 2 文 献 标 识 码 :A 中 图 分 类 号 :TP391 1 概 述 网 页 分 类 技 术 一 直 是 重 要 的 研 究 课 题, 是 当 前 国 内 外 信 息 技 术 研 究 的 热 点 问 题 之 一 在 该 领 域 的 研 究 中, 主 要 采 用 结 构 语 义 文 本 过 滤 自 然 语 言 理 解 [1-2], 通 过 字 间 的 相 关 信 息 词 频 及 页 面 的 标 记 信 息 等, 提 取 网 页 特 征, 计 算 词 频 加 权 参 数, 然 后 通 过 本 类 和 非 本 类 训 练, 建 立 专 家 数 据 库 等 技 术 实 现 Web 网 页 分 类 但 此 类 方 法 一 般 忽 略 了 用 户 因 受 教 育 程 度 不 同 导 致 个 性 行 为 特 征 存 在 的 差 异, 对 于 不 同 的 Web 用 户, 分 类 标 准 可 能 会 有 所 不 同 因 此, 网 页 分 类 也 因 不 同 的 Web 用 户, 体 现 出 细 节 上 的 差 异 及 不 同 的 分 类 结 果 而 不 同 的 分 类 结 果 也 是 Web 服 务 系 统 及 智 能 搜 索 引 擎 提 供 个 性 化 Web 服 务 的 重 要 知 识 依 据 [3] 深 层 次 的 网 页 分 类 不 仅 要 考 察 网 页 的 内 容 和 网 页 的 结 构 语 义 等 自 身 因 素, 而 且 应 根 据 使 用 者 的 认 知 能 力 和 个 性 特 征 提 供 更 深 层 次 的 分 类 依 据 和 分 类 结 果, 使 用 户 在 最 短 的 时 间 内 准 确 地 获 取 Web 上 感 兴 趣 和 关 注 的 信 息 本 文 通 过 分 析 当 前 网 页 分 类 技 术 的 问 题, 提 出 一 种 结 合 用 户 行 为 特 征 分 析 的 网 页 分 类 技 术 2 网 页 分 类 体 系 网 站 自 身 的 结 构 及 URL 往 往 提 供 了 重 要 的 网 页 分 类 信 息 [4], 如 果 网 页 来 源 于 不 同 网 站, 分 类 的 主 要 途 径 是 依 据 统 计 学 方 法 进 行, 同 时 结 合 知 识 规 则 进 行 辅 助 分 类 能 取 得 较 好 的 分 类 效 果 针 对 中 文 网 页, 本 文 提 出 一 种 结 合 用 户 特 征 分 析 的 网 页 分 类 技 术 CAC(Character Analysis Categorization) 结 合 推 理 技 术 进 行 分 类 研 究 的 网 页 分 类 系 统 主 要 由 2 个 部 分 组 成 : (1) 在 统 计 学 模 式 下 的 网 页 特 征 提 取 和 分 类 器 ; (2) 体 现 用 户 特 征 的 知 识 体 系 库 和 知 识 规 则 辅 助 分 类 机 制 基 金 项 目 : 国 家 自 然 科 学 基 金 资 助 项 目 (60473142); 安 徽 省 高 校 省 级 自 然 科 学 研 究 基 金 资 助 重 点 项 目 (KJ2010A051, KJ2011A039); 安 徽 省 高 校 省 级 优 秀 青 年 人 才 基 金 资 助 项 目 (2009SQRZ076) 作 者 简 介 : 汤 亚 玲 (1974-), 男, 副 教 授, 主 研 方 向 : 数 据 挖 掘, 网 络 数 据 库 系 统 ; 崔 志 明, 教 授 博 士 生 导 师 收 稿 日 期 :2011-12-12 修 回 日 期 :2012-02-10 E-mail:tangyl@ahut.edu.cn

180 计 算 机 工 程 2012 年 10 月 20 日 知 识 辅 助 在 网 页 分 类 时 发 挥 知 识 规 则 的 导 向 作 用, 其 提 取 用 户 行 为 特 征, 结 合 网 页 分 类 器 的 中 间 结 果, 在 遇 到 结 果 不 确 定 时 进 行 推 理, 从 而 决 定 网 页 的 最 终 所 属 类 别 式 (1) 给 出 了 用 网 页 作 为 组 成 元 素 的 关 联 规 则 知 识 表 达 形 式 : <url1,url 2,,url m >=><url m+k,url m+k+1,,url m+m > support=?,confidence=? (1) 其 中,url i 表 示 某 个 网 页 ;support 表 示 规 则 的 支 持 度 ; confidence 表 示 规 则 的 置 信 度 本 文 讨 论 的 特 征 模 式 下 网 页 分 类 模 式 如 图 1 所 示 知 识 库 体 现 了 Web 用 户 的 行 为 特 征, 其 建 立 是 通 过 数 据 挖 掘 的 方 式 实 现 的, 其 中 包 含 了 序 列 模 式 聚 类 模 式 关 联 规 则, 作 为 特 征 模 式 下 分 类 的 知 识 依 据, 其 来 源 于 对 Web 站 点 访 问 日 志 及 Web 站 点 拓 扑 结 构 的 数 据 挖 掘 过 程 图 1 特 征 模 式 下 网 页 分 类 模 式 知 识 库 建 立 基 本 过 程 如 下 : 息, 其 格 式 ({ } 内 为 可 选 项 ) 如 下 : 对 Web 服 务 器 端 的 访 问 日 志 实 施 提 取 分 析 和 去 噪 ( 数 据 净 化 ), 进 行 用 户 识 别 并 结 合 Web 站 点 拓 扑 结 构 进 行 会 话 识 别 路 径 补 充 事 务 分 割 频 繁 项 集 挖 掘 同 时 用 户 识 别 后 得 到 大 量 的 用 户 群 体 信 息, 对 不 同 用 户 分 析 其 访 问 行 为 建 立 起 用 户 行 为 描 述 向 量, 使 用 基 于 划 分 或 层 次 的 聚 类 算 法 ( 如 K- 平 均 Chameleon 算 法 ) 实 施 用 户 聚 类 得 到 聚 类 模 式, 而 后, 可 以 针 对 不 同 的 用 户 聚 类, 实 施 特 征 分 析 ( 通 过 Apriori FP 树 等 频 繁 项 集 挖 掘 算 法 ) 产 生 关 联 规 则 和 序 列 模 式 ( 结 合 用 户 访 问 页 面 的 时 间 序 ), 这 样 得 到 的 用 户 特 征 更 准 确, 针 对 性 更 强, 具 体 如 图 2 所 示 图 2 知 识 库 建 立 过 程 在 本 文 的 实 验 系 统 中,Web 站 点 ( 主 要 包 括 一 些 高 校 的 网 站 和 政 府 新 闻 网 站 ) 的 访 问 日 志 取 自 Web 服 务 器 下 配 置 的 访 问 日 志 文 件, 其 中, 如 安 徽 工 业 大 学 网 站 的 Tomcat Web 服 务 器, 其 服 务 器 端 记 录 的 日 志 文 件 名 为 Access_ log( 文 本 格 式 ), 其 中 记 录 了 用 户 访 问 页 面 的 一 些 重 要 信 IP 地 址 [ 请 求 时 间 ] 方 法 被 请 求 文 件 的 url Http 版 本 号 返 回 码 传 输 字 节 数 { 引 用 url}{ 代 理 } 在 网 页 分 类 时, 根 据 用 户 聚 类 模 式, 通 过 查 询 推 理 机, 由 推 理 机 提 取 对 应 该 类 用 户 的 知 识 库 存 储 的 相 关 知 识 规 则, 进 行 演 绎, 得 出 网 页 之 间 的 相 关 性 相 似 性 指 标 度 量 值, 实 现 知 识 模 式 下 的 辅 助 分 类 机 制, 见 图 1 在 对 Web 文 本 ( 页 面 ) 进 行 分 类 前, 首 先 需 要 对 训 练 文 本 进 行 预 处 理, 提 取 页 面 分 类 特 征 页 面 信 息 的 预 处 理 包 括 以 下 2 步 : (1) 文 本 分 词 中 文 文 本 分 词 有 不 少 成 熟 的 方 法, 如 基 于 字 符 串 匹 配 的 分 词 方 法 基 于 理 解 的 分 词 方 法 和 基 于 统 计 的 分 词 方 法 分 词 采 用 国 内 目 前 分 词 精 度 较 高 的 中 科 院 分 词 系 统 ICTCLAS, 其 准 确 率 达 到 97.5% 以 上 (2) 向 量 化 分 类 文 本 通 过 计 算 词 在 语 料 库 中 的 词 频 进 行 粗 略 的 降 维, 删 除 一 些 频 率 很 高 或 很 低 的 词, 这 些 词 对 分 类 作 用 不 大, 或 是 没 有 实 际 意 义 的 功 能 词, 此 后, 建 立 网 页 文 本 特 征 描 述 向 量 VSM(Vector Space Model) 特 征 词 根 据 其 词 频 和 位 置 等 相 关 信 息 赋 予 不 同 的 权 重 文 档 d=(w 1,w 2,,w n ),w i 表 示 第 i 个 特 征 词 的 权 重,n 代 表 所 有 的 词 条 数 目 w i 值 采 用 分 类 效 果 较 好 的 TF-IDF 加 权 方 法 [5] w i = lb tf ( t, d) lb( N / n ) + 1 i [ 1+ lb( N / n ) lb tf ( t, d) ] 2 t t i f_ pos(w i ) (2) 其 中,tf(t i,d) 代 表 特 征 词 t i 在 文 档 d 中 的 词 频 ;N 代 表 训 练 文 档 数 ;n t 表 示 训 练 文 本 集 中 出 现 t 的 文 本 个 数 ; 分 母 是 归 一 化 因 子 同 时 考 虑 特 征 词 在 网 页 文 本 中 的 位 置 ( 如

第 38 卷 第 20 期 汤 亚 玲, 崔 志 明 : 行 为 特 征 分 析 模 式 下 的 网 页 分 类 技 术 研 究 181 Title Keywords Description 等 位 置 的 权 重 给 予 适 当 的 增 加 ) 和 超 文 本 方 式, 给 权 值 一 个 合 适 的 系 数, 其 值 用 位 置 函 数 f_pos(w i ) 表 示, 实 验 测 定 表 1 的 取 值 比 较 合 理 表 1 页 面 特 征 词 权 值 函 数 值 特 征 词 位 置 funpos 值 Title 2.0 Keywords 2.7 Description 1.8 Hyper text 1.2~1.5 对 于 每 一 篇 文 档, 其 向 量 都 进 行 了 归 一 化, 即 长 度 相 等, 加 权 实 际 上 是 使 向 量 在 特 征 空 间 中 向 某 些 有 用 的 方 向 旋 转 一 定 的 角 度, 同 时 也 使 无 用 的 特 征 词 对 向 量 的 方 向 影 响 被 削 弱 此 外, 为 了 提 高 分 类 器 的 计 算 效 率, 必 须 对 文 本 向 量 做 进 一 步 的 降 维, 本 文 采 用 奇 异 值 分 解 (Sigular Value Decomposition, SVD) 对 文 本 降 维,SVD 方 法 能 够 删 除 噪 音, 进 一 步 提 高 聚 类 效 果, 降 维 后 大 大 减 少 了 词 的 数 目, 提 高 了 计 算 效 率 [6] 采 用 如 下 的 计 算 公 式 可 以 求 得 矩 阵 的 奇 异 值 分 解 : S=svd(A)% (3) 式 (3) 为 返 回 矩 阵 A 的 奇 异 值 向 量 [U,S,V]=svd(A)% 其 中,S 为 与 A 同 样 大 小 的 对 角 矩 阵 ;2 个 矩 阵 U 和 V 满 足 A=U S V'; 若 A 为 m n 阵, 则 U 为 m m 阵,V 为 n n 阵 ; 奇 异 值 在 S 的 对 角 线 上, 非 负 且 按 降 序 排 列 在 对 网 页 进 行 特 征 提 取 和 向 量 化 表 示 后, 构 建 网 页 分 类 器, 利 用 网 页 分 类 器 进 行 分 类 和 测 试 一 般 情 况 下, 针 对 文 本 的 分 类 器 都 可 以 用 在 Web 页 面 的 分 类 中, 如 Naive Bayes KNN 支 持 向 量 机 (Support Vector Machine, SVM) 等 [7] 本 文 讨 论 的 是 知 识 模 式 下 的 网 页 分 类 技 术, 重 点 是 测 试 知 识 辅 助 下 对 传 统 分 类 方 法 改 进 的 效 果 上 述 的 经 典 文 本 分 类 方 法 不 是 本 文 的 重 点, 限 于 篇 幅, 不 再 赘 述 在 实 验 过 程 中, 选 择 单 纯 的 Naive Bayes KNN SVM 等 分 类 算 法 和 结 合 特 征 模 式 的 Naive Bayes KNN SVM 等 分 类 算 法 进 行 了 对 比 测 试 研 究 3 行 为 特 征 模 式 下 的 网 页 分 类 体 现 用 户 特 征 的 知 识 规 则 由 数 据 挖 掘 模 块 获 取, 其 知 识 规 则 由 访 问 序 列 模 式 聚 类 规 则 页 面 关 联 规 则 等 组 成 其 中, 关 联 规 则 和 序 列 模 式 的 基 本 构 成 元 素 是 网 页, 这 些 知 识 规 则 反 映 了 Web 用 户 的 个 性 行 为 特 征 和 网 页 间 的 关 联 关 系 及 访 问 相 关 度, 一 定 程 度 上 体 现 了 网 页 间 的 类 别 关 系 在 实 施 网 页 分 类 时, 推 理 机 从 特 征 知 识 库 按 照 分 类 器 指 定 的 用 户 类 ( 即 聚 类 模 式 ) 提 取 相 应 的 关 联 规 则 和 序 列 模 式 并 加 以 推 理, 因 为 不 同 用 户 类 可 以 对 应 不 同 的 用 户 特 征 在 提 取 相 关 知 识 规 则 后, 分 类 器 在 对 网 页 分 类 的 过 程 中 会 结 合 传 统 的 网 页 分 类 算 法 ( 如 SVM Naive Bayes) 和 知 识 规 则 进 行 网 页 分 类 结 果 最 佳 抉 择, 提 高 网 页 分 类 结 果 的 准 确 性 和 个 性 化, 使 分 类 结 果 更 适 合 相 应 的 用 户 群 体 本 文 采 用 逆 向 推 理 和 查 询 的 方 式 推 测 网 页 间 是 否 存 在 类 别 关 联 关 系 逆 向 推 理 的 方 法 是, 如 网 页 URL m 及 类 别 属 性 C i 和 C j, 在 用 传 统 统 计 学 方 法 不 能 确 定 URL m 属 于 C i 还 是 C j 更 准 确 时, 比 如 存 在 多 标 记 分 类 的 情 形 [8], 如 果 此 时 存 在 一 个 网 页 URL n, 能 从 知 识 库 中 推 理 出 规 则 URL n =>URL m 或 URL m =>URL n, 则 说 明 这 2 个 网 页 之 间 存 在 较 大 的 相 似 性 和 关 联 关 系, 此 时 如 果 URL n 已 经 归 属 为 类 别 C i, 那 么 由 于 存 在 这 种 知 识 关 联, 因 此 可 以 把 网 页 URL m 也 划 归 到 类 别 C i 中 这 种 相 似 性 或 相 关 性 可 以 从 体 现 页 面 访 问 者 行 为 特 征 的 序 列 模 式 或 描 述 页 面 之 间 联 系 的 关 联 规 则 中 发 现 假 设 存 在 知 识 规 则 URL n =>URL m 或 URL m =>URL n, 将 它 们 提 交 给 逆 向 推 理 机 进 行 查 询, 利 用 推 理 的 结 论 推 断 规 则 的 有 效 性 逆 向 推 理 是 人 工 智 能 中 知 识 推 理 的 一 种 方 式, 在 针 对 关 联 规 则 形 式 进 行 推 理 时, 描 述 反 映 URL 关 系 的 关 联 规 则 中 有 支 持 度 和 置 信 度 的 量 化 标 准, 这 种 量 化 标 准 是 一 种 概 率 度 量, 是 非 确 定 的 下 面 简 单 介 绍 本 文 采 用 prolog 语 言 实 现 的 逆 向 推 理 机 制 定 义 1 规 则 是 一 种 条 件 产 生 式 : 结 论 成 立 IF 条 件 存 在, 并 且 可 信 度 因 子 (CF)( 最 大 值 设 定 为 100)> 阈 值 这 里 的 条 件 是 网 页 的 访 问 序 列, 结 论 是 某 个 网 页 或 网 页 序 列, 可 信 度 有 个 阈 值, 高 于 阈 值 的 规 则 是 有 效 的 当 CF=100 时 表 示 确 定 的 ; 取 CF=30 为 可 信 度 的 最 小 阈 值 定 义 2 规 则 的 推 理 机 制 包 括 合 取 析 取 规 则 约 减 和 规 则 终 止 规 则 合 取 : 如 果 规 则 的 前 件 ( 条 件 ) 由 若 干 前 提 用 and 连 接, 则 规 则 的 总 CF 值 是 它 们 的 最 小 值, 即 : CF(A1,A2, )=min(cf(a1),cf(a2), ) (4) 其 中,A1, A2, 是 规 则 规 则 析 取 : 如 规 则 的 前 件 由 用 or 运 算 连 接 的 若 干 个 条 件 组 成, 则 将 它 们 视 为 同 一 结 论 的 多 条 规 则, 对 于 此 种 情 形 的 CF 值, 计 算 方 法 为 : CF=CF 1 +CF 2 (CF 1 CF 2 )/100 (5) 可 以 证 明,CF 比 CF 1 和 CF 2 的 值 在 一 定 程 度 上 有 所 增 大, 但 不 会 超 过 CF 值 的 上 限 100; 在 多 条 规 则 析 取 时, 按 此 方 法 迭 代 进 行 计 算 规 则 约 减 : 如 果 前 提 条 件 的 可 信 度 是 非 确 定 的 (<100), 那 么 规 则 结 论 的 可 信 度 将 变 小, 且 结 论 的 可 信 度 等 于 前 提 条 件 的 可 信 度 乘 以 规 则 成 立 的 可 信 度, 依 据 是 概 率 中 的 条 件 概 率 模 型 规 则 终 止 : 当 规 则 的 前 提 条 件 的 CF 值 低 于 30 时, 该 规 则 将 失 败, 规 则 后 件 不 再 测 试 在 系 统 中, 可 假 定 一 个 事 实 结 论, 看 能 否 由 逆 向 推 理 机 用 现 有 的 知 识 库 ( 事 实 和 规 则 ) 推 理 出 来 在 网 页 分 类 系 统 中,Data mining 组 件 模 块 从 知 识 库 中 提 取 关 联 规 则 进 行 知 识 推 理, 因 为 关 联 规 则 本 身 就 符 合

182 计 算 机 工 程 2012 年 10 月 20 日 产 生 式 的 基 本 形 式, 同 时 关 联 规 则 有 支 持 度 和 置 信 度 的 量 化 指 标, 在 针 对 个 性 化 用 户 群 体 的 分 类 系 统 中, 提 取 出 其 相 应 的 关 联 规 则, 将 支 持 度 和 置 信 度 转 化 成 规 则 推 理 系 统 中 的 CF 值, 再 将 此 关 联 规 则 以 知 识 规 则 的 形 式 提 供 给 推 理 机, 供 分 类 页 面 时 查 询 使 用 其 中, 关 联 规 则 转 化 为 推 理 机 使 用 的 知 识 规 则, 其 形 式 如 下 : 据 的 双 向 流 动 ) 第 3 个 inference 子 句 是 当 存 在 可 以 匹 配 的 规 则 时 利 用 inferlist 子 句 进 行 推 理, 推 理 采 用 产 生 式 规 则 的 方 式, 如 果 产 生 的 规 则 满 足 CF 值 的 阈 值 要 求, 则 保 留 inferlist 采 用 递 归 方 式 定 义, 对 条 件 规 则 进 行 推 理, 直 到 规 则 为 空,findall 子 句 solve 子 句 求 析 取 方 式 下 的 CF 值,mincf 子 句 求 规 则 合 取 CF 值 url 1,url 2,,url m =>url 1,url 2,,url n CF=? (6) 如 存 在 关 联 规 则 :50,url 1 =>url 3 ; 60,url 1,url 3 =>url 5, 如 其 中,url i 表 示 具 体 页 面 地 址 ; => 符 号 左 右 两 边 各 代 表 一 个 页 面 序 列 ;m 1;n 1;CF 不 小 于 确 定 的 阈 值 一 般 情 况 下, 在 推 理 机 中 运 用 关 联 规 则 能 推 理 出 如 下 结 论 : url i =>url j 则 说 明 url i 和 url j 所 代 表 的 2 个 页 面 具 有 强 相 关 性, 可 将 此 作 为 把 它 们 归 为 某 一 类 的 依 据 如 前 所 述, 推 理 机 采 用 查 询 方 式 的 逆 向 推 理, 是 基 于 知 识 库 的 不 精 确 推 理, 保 证 较 高 概 率 的 规 则 有 效 性, 下 面 的 prolog 程 序 描 述 了 对 关 联 规 则 采 用 查 询 方 式 的 逆 向 推 理 机 核 心 思 想 : 果 在 实 施 网 页 分 类 时, 出 现 url 5 归 属 问 题, 例 如, 在 与 url 1 归 为 一 类 或 与 url 6 归 为 一 类 差 异 不 大 情 况 下, 可 以 查 询 推 理 机 是 否 存 在 规 则 url 1 =>url 5, 查 询 推 理 机 得 出 30,url 1 => url 5, 其 中,50 60 30 分 别 表 示 该 条 关 联 规 则 的 CF 值, 推 理 得 出 的 关 联 规 则 的 CF 值 (30) 满 足 阈 值 要 求 ( 30) 在 url 5 和 url 6 之 间 不 存 在 关 联 规 则 或 者 尽 管 存 在 但 其 CF 值 比 前 者 小 时, 则 可 以 将 url 1 和 url 5 归 为 一 类 类 似 的, 序 列 模 式 在 推 理 机 中 以 facts( 事 实 ) 的 形 式 作 为 推 理 的 依 据, 因 为 序 列 模 式 是 一 个 满 足 时 间 序 的 频 繁 模 predicates /* 谓 词 */ 式, 如 存 在 序 列 模 式 :url 1,url 2,,url m, 则 在 推 理 系 统 中, inference(data-type,string) /*string 是 规 则 的 表 示 形 式, 具 体 实 现 可 以 演 绎 出 :url i =>url j, 其 中 : 是 将 url 编 码 转 化 为 字 符 串 形 式 的 规 则 前 件 或 者 后 件 的 组 成 部 分, 前 1 i m, 1 j m, i j (7) 件 和 后 件 之 间 用 特 定 的 界 定 符 号 分 割 */ inferlist(data-list,string) 知 识 推 理 下 的 页 面 分 类 优 点 在 于, 当 页 面 分 类 出 现 难 database /* 知 识 库 */ 以 决 定 的 情 况 时 ( 比 如 分 类 的 页 面 通 过 向 量 空 间 模 型 模 式 facts(data-type,string) 表 示 后, 在 分 类 的 指 标 上 归 于 不 同 类 别 差 异 很 小 时 ), 提 clauses /* 子 句 说 明 */ 取 每 个 类 别 的 若 干 主 题 中 心 页 面, 看 分 类 页 面 与 这 些 主 题 inference(query,cf):-facts(query,cf),!. /* 判 断 是 否 存 在 事 实 可 以 页 面 间 是 否 存 在 一 定 的 关 联 关 系, 设 定 一 定 的 阈 值, 保 证 匹 配 成 功 */ inference(query,cf):-not(rule(-,query,-,-)),!, 查 询 逆 向 推 理 机 得 出 的 关 联 关 系 能 反 映 出 页 面 之 间 有 较 Write(Query, Cf= ),getresponse(cf), Assert(facts(Query,Cf)). inference(query,cf):-rule(-,query,cond-list,cf1), 强 的 关 联 关 系 如 存 在 这 种 关 联 关 系, 则 将 待 分 类 页 面 归 属 到 此 类 别, 这 样 能 有 效 提 高 分 类 精 度, 同 时 也 体 现 了 分 类 的 用 户 个 性 倾 向 特 征 inferlist(cond-list,cf2), Cf=Cf1*Cf2/100,Cf>=30. 4 实 验 结 果 与 分 析 inferlist([],100):-!. inferlist(cond-list,cf):-get-first(cond-list,cond,new-list), /* 得 到 用 网 络 爬 虫 从 互 联 网 上 获 取 各 类 网 页, 包 含 体 育 (C1) 科 技 (C2) 教 育 (C3) 社 会 时 事 (C4) 经 济 (C5) 娱 规 则 体 中 的 第 1 个 条 件 */ 乐 (C6) 等 6 类, 网 页 共 53 139 个, 选 择 其 中 3 000 个 网 页 findall(cf1,inference(cond,cf1),l),!, solve-cf(cf1,l),cf1>=30, 作 为 训 练 分 类 器, 其 余 23 139 个 网 页 作 为 测 试 网 页 体 现 interlist(new-list,cf2),mincf(cf,cf1,cf2) /* 计 算 CF 值 */ 其 中, 第 2 个 inference 子 句 是 在 不 存 在 可 以 匹 配 的 规 则 或 事 实 时 检 索 知 识 库 是 否 有 更 新 的 新 知 识, 如 果 从 更 新 的 知 识 库 查 询 到 新 的 知 识 规 则, 用 谓 词 Assert 将 新 事 实 写 入 知 识 库 ( 图 1 中 推 理 机 与 知 识 库 之 间 是 双 向 箭 头, 表 示 数 用 户 特 征 的 聚 类 模 式 关 联 规 则 和 序 列 模 式 主 要 从 网 站 的 访 问 日 志 中 运 用 数 据 挖 掘 方 法 得 出, 从 查 准 率 和 F1 值 进 行 分 类 器 性 能 评 估, 具 体 结 果 如 表 2 所 示, 其 中,CAC- Naive Bayes 表 示 特 征 分 析 模 式 下 的 Naive Bayes 分 类 器 ; 其 他 类 同 ;C1~C6 表 示 网 页 的 类 别 表 2 6 种 分 类 器 性 能 对 比 (%) 算 法 查 准 率 F1 C1 C2 C3 C4 C5 C6 C1 C2 C3 C4 C5 C6 Naive Bayes 90.52 92.14 91.27 93.50 92.51 96.11 90.52 92.14 91.27 93.50 92.51 96.11 CAC-Naive Bayes 92.04 93.78 92.92 93.26 94.01 95.79 92.04 93.78 92.92 93.26 94.01 95.79 KNN 90.03 91.26 91.09 92.25 91.34 93.66 90.03 91.26 91.09 92.25 91.34 93.66 CAC-KNN 90.27 91.74 91.86 93.12 92.01 94.25 90.27 91.74 91.86 93.12 92.01 94.25 SVM 91.28 93.21 90.97 94.10 93.62 97.31 91.28 93.21 90.97 94.10 93.62 97.31 CAC-SVM 91.33 94.26 92.08 95.30 93.69 97.91 91.33 94.26 92.08 95.30 93.69 97.91

第 38 卷 第 20 期 汤 亚 玲, 崔 志 明 : 行 为 特 征 分 析 模 式 下 的 网 页 分 类 技 术 研 究 183 其 中 : F1=2pr/(p+r) (8) 其 中,p 代 表 查 准 率 ;r 代 表 查 全 率 从 表 2 中 数 据 可 以 看 出, 对 于 各 种 分 类 算 法, 在 CAC 特 征 知 识 支 持 下 的 分 类 器 分 类 评 价 指 标 在 一 定 程 度 上 优 于 原 分 类 器 的 各 项 指 标 ; 对 于 原 指 标 值 偏 低 的 各 类 结 果, 如 C3 和 C5 类 的 评 价 指 标 有 较 明 显 的 提 高 图 3 是 6 种 分 类 算 法 的 F1 值 对 比 可 以 看 出 在 结 合 特 征 分 析 CAC 后, 页 面 分 类 指 标 均 比 单 纯 的 统 计 学 算 法 的 分 类 指 标 有 一 定 的 提 高 98 96 94 92 90 88 Naive Bayes 算 法 CAC-Naive Bayes 算 法 KNN 算 法 86 C1 C2 C3 C4 C5 C6 图 3 网 页 类 别 CAC-KNN 算 法 SVM 算 法 6 种 分 类 算 法 F1 值 对 比 CAC-SVM 算 法 5 结 束 语 通 过 数 据 挖 掘 知 识 学 习 及 知 识 归 类 等 手 段 后, 可 以 在 个 性 化 知 识 库 的 基 础 上, 针 对 不 同 用 户 提 供 不 同 知 识 库 进 行 个 性 化 网 页 分 类 在 具 体 实 施 时, 可 以 把 用 户 聚 类 模 式 作 为 提 取 知 识 库 的 入 口 依 据, 将 描 述 用 户 特 征 的 Web 关 联 规 则 及 序 列 模 式 存 储 在 数 据 库 中, 分 类 时 进 行 检 索 在 对 分 类 要 求 较 高 的 应 用 领 域, 采 用 结 合 用 户 行 为 特 征 知 识 库 的 模 式, 用 知 识 推 理 的 方 式 辅 助 分 类, 会 使 分 类 结 果 更 接 近 正 确 的 结 果 及 使 用 者 实 际 的 知 识 需 求 下 一 步 将 研 究 如 何 提 高 推 理 和 查 询 知 识 的 效 率 参 考 文 献 [1] Chang Chia-Hui, Kayed M, Girgis M R. A Survey of Web Information Extraction Systems[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1411-1428. [2] Han Jiawei, Chang K C. Data Mining for Web Intelligence[J]. Computer, 2002, 35(11): 64-70. [3] 王 实, 高 文, 李 锦 涛. 基 于 分 类 方 法 的 Web 站 点 实 时 个 性 化 推 荐 [J]. 计 算 机 学 报, 2002, 25(8): 845-851. [4] 汤 亚 玲, 秦 锋. Web 使 用 挖 掘 下 的 Web 页 面 层 次 分 类 技 术 研 究 [J]. 情 报 学 报, 2008, 27(3): 351-356. [5] 冯 和 龙, 夏 胜 平. 基 于 RSOM-Bayes 的 网 页 分 类 方 法 [J]. 计 算 机 工 程, 2008, 34(13): 61-63. [6] 刘 贵 龙, 王 慧 玲, 宋 柔. 矩 阵 的 奇 异 值 分 解 在 文 本 分 类 研 究 中 的 应 用 [J]. 计 算 机 工 程, 2002, 28(12): 17-18. [7] 李 杨, 曾 海 泉, 刘 庆 华, 等. 基 于 KNN 的 快 速 Web 文 档 分 类 [J]. 小 型 微 型 计 算 机 系 统, 2004, 25(4): 725-729. [8] Zhang M L, Zhou Z H. ML-NN: A Lazy Learning Approach to Multi-label Learning[J]. Pattern Recognition, 2007, 40(7): 2038-2048. 编 辑 张 正 兴 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ( 上 接 第 178 页 ) 可 见, 方 言 是 不 同 地 区 的 人 们 长 久 以 来 使 用 语 言 过 程 中 按 照 以 往 人 们 的 生 活 习 性 形 成 的 与 其 他 地 区 的 方 言 比 较, 喀 什 方 言 确 实 比 较 特 殊 而 且 维 吾 尔 语 的 词 性 结 构 复 参 考 文 献 [1] 朱 文 旭. 彝 语 方 言 学 [M]. 北 京 : 中 央 民 族 大 学 出 版 社, 2005. [2] 高 士 杰. 维 吾 尔 语 方 言 与 方 言 调 查 [M]. 北 京 : 中 央 民 族 大 学 出 版 社, 1994. 杂 词 汇 量 大 语 言 变 化 多 种 而 且 不 守 规 则, 因 此, 很 难 [3] 米 娜 瓦 尔 艾 比 不 拉. 维 吾 尔 语 方 言 和 方 言 调 查 [M]. 北 京 : 找 到 符 合 整 个 音 位 变 化 的 规 律 民 族 出 版 社, 2004. 5 结 束 语 本 文 分 析 了 标 准 维 吾 尔 语 语 言 与 喀 什 方 言 语 言 在 特 [4] 贾 珈, 蔡 莲 红, 李 明, 等. 汉 语 普 通 话 与 沈 阳 方 言 转 换 的 研 究 [J]. 清 华 大 学 学 报 : 自 然 科 学 版, 2009, 49(S1): 1309-1315. 殊 词 和 音 素 等 方 面 的 差 异, 探 讨 了 标 准 维 吾 尔 语 与 喀 什 方 言 转 换 的 可 行 性, 采 用 有 限 状 态 自 动 机 建 立 了 转 换 模 型, [5] 新 疆 维 吾 尔 自 治 区 社 会 科 学 院 语 言 研 究 所. 现 代 维 吾 尔 语 方 言 土 语 词 典 [M]. 北 京 : 民 族 出 版 社, 2007. [6] 木 海 拜 提 卡 斯 木. 现 代 维 吾 尔 语 方 言 词 汇 研 究 [M]. 乌 鲁 木 齐 : 并 用 编 程 工 具 实 现 了 标 准 维 吾 尔 语 语 言 与 喀 什 方 言 语 言 新 疆 人 民 出 版 社, 2006. 之 间 典 型 的 增 音 漏 音 和 转 音 等 音 素 变 换 算 法 实 验 结 果 [7] 艾 尼 瓦 尔 艾 合 买 提 江. 现 代 维 吾 尔 语 喀 什 话 及 其 语 音 词 汇 特 表 明, 自 动 转 换 算 法 具 有 比 较 良 好 的 运 行 效 果 由 于 特 殊 的 语 言 现 象, 因 此 仅 靠 规 则 来 完 成 变 换 是 不 够 的 下 一 步 工 作 除 了 完 善 转 换 规 则 外, 还 得 考 虑 利 用 词 语 的 词 干 词 性 标 注 等 信 息, 基 于 上 下 文 语 义 分 析 等 方 法 改 善 转 换 准 征 [J]. 喀 什 师 范 学 院 学 报, 2009, 30(2): 67-69. [8] Mohri M, Pereira F, Riley M. Weighted Finite-state Transducers in Speech Recognition[J]. Computer Speech & Language, 2002, 16(1): 69-88. 确 率 编 辑 张 正 兴