第 38 卷 第 20 期 Vol.38 No.20 计 算 机 工 程 Computer Engineering 2012 年 10 月 October 2012 人 工 智 能 及 识 别 技 术 摘 行 为 特 征 分 析 模 式 下 的 网 页 分 类 技 术 研 究 汤 亚 玲 1, 崔 志 明 (1. 安 徽 工 业 大 学 计 算 机 学 院, 安 徽 马 鞍 山 243002;2. 苏 州 大 学 智 能 信 息 处 理 及 应 用 研 究 所, 江 苏 苏 州 215006) 要 : 现 有 网 页 分 类 技 术 忽 略 用 户 个 性 行 为 的 差 异 为 此, 提 出 一 种 结 合 用 户 行 为 特 征 分 析 的 网 页 分 类 技 术 运 用 知 识 规 则 发 现 页 面 特 征 提 取 等 方 法, 分 析 Web 用 户 的 访 问 历 史 和 个 性 化 定 制 信 息, 学 习 并 掌 握 用 户 的 行 为 和 兴 趣 针 对 用 户 的 认 知 特 征, 提 供 合 适 的 Web 页 面 分 类 模 式, 能 在 一 定 程 度 上 改 进 单 纯 统 计 学 网 页 分 类 方 法 在 自 然 语 言 理 解 上 的 不 足 实 验 数 据 表 明, 该 分 类 方 法 与 多 种 统 计 学 方 法 相 结 合 实 施 网 页 分 类 均 能 有 效 地 提 高 分 类 准 确 率, 使 网 页 分 类 结 果 更 接 近 分 类 的 真 实 情 形 和 要 求 关 键 词 : 网 页 分 类 ; 行 为 特 征 ; 数 据 挖 掘 ; 逆 向 推 理 ; 关 联 规 则 ; 序 列 模 式 Research on Web Page Categorization Technology Under Behavior Characteristic Analysis Pattern TANG Ya-ling 1, CUI Zhi-ming 2 (1. School of Computer, Anhui University of Technology, Maanshan 243002, China; 2. Institute of Intelligent Information Processing and Application, Soochow University, Suzhou 215006, China) Abstract This paper introduces a kind of Web page categorization technology through analysis of characters of users behavior, along with current hotspot of researching on Web pages categorization. Trough grasping users behavior and interest by analyzing the history of Web user s access, and by concluding knowledge rules out also with pages characters distilled. It provides a kind of appropriate categorization pattern on Web pages based on users knowledge level, and surely improves classifying effect without language meanings understood contrast with pure statistic categorization. Experimental results indicate that this pattern of categorization combining kinds of statistic algorithm can improve accuracy of categorization, and make the classifying results more closer to real facts and people s knowledge desire. Key words Web page categorization; behavior characteristic; data mining; reverse-reasoning; association rule; sequence pattern DOI: 10.3969/j.issn.1000-3428.2012.20.046 文 章 编 号 :1000 3428(2012)20 0179 05 2 文 献 标 识 码 :A 中 图 分 类 号 :TP391 1 概 述 网 页 分 类 技 术 一 直 是 重 要 的 研 究 课 题, 是 当 前 国 内 外 信 息 技 术 研 究 的 热 点 问 题 之 一 在 该 领 域 的 研 究 中, 主 要 采 用 结 构 语 义 文 本 过 滤 自 然 语 言 理 解 [1-2], 通 过 字 间 的 相 关 信 息 词 频 及 页 面 的 标 记 信 息 等, 提 取 网 页 特 征, 计 算 词 频 加 权 参 数, 然 后 通 过 本 类 和 非 本 类 训 练, 建 立 专 家 数 据 库 等 技 术 实 现 Web 网 页 分 类 但 此 类 方 法 一 般 忽 略 了 用 户 因 受 教 育 程 度 不 同 导 致 个 性 行 为 特 征 存 在 的 差 异, 对 于 不 同 的 Web 用 户, 分 类 标 准 可 能 会 有 所 不 同 因 此, 网 页 分 类 也 因 不 同 的 Web 用 户, 体 现 出 细 节 上 的 差 异 及 不 同 的 分 类 结 果 而 不 同 的 分 类 结 果 也 是 Web 服 务 系 统 及 智 能 搜 索 引 擎 提 供 个 性 化 Web 服 务 的 重 要 知 识 依 据 [3] 深 层 次 的 网 页 分 类 不 仅 要 考 察 网 页 的 内 容 和 网 页 的 结 构 语 义 等 自 身 因 素, 而 且 应 根 据 使 用 者 的 认 知 能 力 和 个 性 特 征 提 供 更 深 层 次 的 分 类 依 据 和 分 类 结 果, 使 用 户 在 最 短 的 时 间 内 准 确 地 获 取 Web 上 感 兴 趣 和 关 注 的 信 息 本 文 通 过 分 析 当 前 网 页 分 类 技 术 的 问 题, 提 出 一 种 结 合 用 户 行 为 特 征 分 析 的 网 页 分 类 技 术 2 网 页 分 类 体 系 网 站 自 身 的 结 构 及 URL 往 往 提 供 了 重 要 的 网 页 分 类 信 息 [4], 如 果 网 页 来 源 于 不 同 网 站, 分 类 的 主 要 途 径 是 依 据 统 计 学 方 法 进 行, 同 时 结 合 知 识 规 则 进 行 辅 助 分 类 能 取 得 较 好 的 分 类 效 果 针 对 中 文 网 页, 本 文 提 出 一 种 结 合 用 户 特 征 分 析 的 网 页 分 类 技 术 CAC(Character Analysis Categorization) 结 合 推 理 技 术 进 行 分 类 研 究 的 网 页 分 类 系 统 主 要 由 2 个 部 分 组 成 : (1) 在 统 计 学 模 式 下 的 网 页 特 征 提 取 和 分 类 器 ; (2) 体 现 用 户 特 征 的 知 识 体 系 库 和 知 识 规 则 辅 助 分 类 机 制 基 金 项 目 : 国 家 自 然 科 学 基 金 资 助 项 目 (60473142); 安 徽 省 高 校 省 级 自 然 科 学 研 究 基 金 资 助 重 点 项 目 (KJ2010A051, KJ2011A039); 安 徽 省 高 校 省 级 优 秀 青 年 人 才 基 金 资 助 项 目 (2009SQRZ076) 作 者 简 介 : 汤 亚 玲 (1974-), 男, 副 教 授, 主 研 方 向 : 数 据 挖 掘, 网 络 数 据 库 系 统 ; 崔 志 明, 教 授 博 士 生 导 师 收 稿 日 期 :2011-12-12 修 回 日 期 :2012-02-10 E-mail:tangyl@ahut.edu.cn
180 计 算 机 工 程 2012 年 10 月 20 日 知 识 辅 助 在 网 页 分 类 时 发 挥 知 识 规 则 的 导 向 作 用, 其 提 取 用 户 行 为 特 征, 结 合 网 页 分 类 器 的 中 间 结 果, 在 遇 到 结 果 不 确 定 时 进 行 推 理, 从 而 决 定 网 页 的 最 终 所 属 类 别 式 (1) 给 出 了 用 网 页 作 为 组 成 元 素 的 关 联 规 则 知 识 表 达 形 式 : <url1,url 2,,url m >=><url m+k,url m+k+1,,url m+m > support=?,confidence=? (1) 其 中,url i 表 示 某 个 网 页 ;support 表 示 规 则 的 支 持 度 ; confidence 表 示 规 则 的 置 信 度 本 文 讨 论 的 特 征 模 式 下 网 页 分 类 模 式 如 图 1 所 示 知 识 库 体 现 了 Web 用 户 的 行 为 特 征, 其 建 立 是 通 过 数 据 挖 掘 的 方 式 实 现 的, 其 中 包 含 了 序 列 模 式 聚 类 模 式 关 联 规 则, 作 为 特 征 模 式 下 分 类 的 知 识 依 据, 其 来 源 于 对 Web 站 点 访 问 日 志 及 Web 站 点 拓 扑 结 构 的 数 据 挖 掘 过 程 图 1 特 征 模 式 下 网 页 分 类 模 式 知 识 库 建 立 基 本 过 程 如 下 : 息, 其 格 式 ({ } 内 为 可 选 项 ) 如 下 : 对 Web 服 务 器 端 的 访 问 日 志 实 施 提 取 分 析 和 去 噪 ( 数 据 净 化 ), 进 行 用 户 识 别 并 结 合 Web 站 点 拓 扑 结 构 进 行 会 话 识 别 路 径 补 充 事 务 分 割 频 繁 项 集 挖 掘 同 时 用 户 识 别 后 得 到 大 量 的 用 户 群 体 信 息, 对 不 同 用 户 分 析 其 访 问 行 为 建 立 起 用 户 行 为 描 述 向 量, 使 用 基 于 划 分 或 层 次 的 聚 类 算 法 ( 如 K- 平 均 Chameleon 算 法 ) 实 施 用 户 聚 类 得 到 聚 类 模 式, 而 后, 可 以 针 对 不 同 的 用 户 聚 类, 实 施 特 征 分 析 ( 通 过 Apriori FP 树 等 频 繁 项 集 挖 掘 算 法 ) 产 生 关 联 规 则 和 序 列 模 式 ( 结 合 用 户 访 问 页 面 的 时 间 序 ), 这 样 得 到 的 用 户 特 征 更 准 确, 针 对 性 更 强, 具 体 如 图 2 所 示 图 2 知 识 库 建 立 过 程 在 本 文 的 实 验 系 统 中,Web 站 点 ( 主 要 包 括 一 些 高 校 的 网 站 和 政 府 新 闻 网 站 ) 的 访 问 日 志 取 自 Web 服 务 器 下 配 置 的 访 问 日 志 文 件, 其 中, 如 安 徽 工 业 大 学 网 站 的 Tomcat Web 服 务 器, 其 服 务 器 端 记 录 的 日 志 文 件 名 为 Access_ log( 文 本 格 式 ), 其 中 记 录 了 用 户 访 问 页 面 的 一 些 重 要 信 IP 地 址 [ 请 求 时 间 ] 方 法 被 请 求 文 件 的 url Http 版 本 号 返 回 码 传 输 字 节 数 { 引 用 url}{ 代 理 } 在 网 页 分 类 时, 根 据 用 户 聚 类 模 式, 通 过 查 询 推 理 机, 由 推 理 机 提 取 对 应 该 类 用 户 的 知 识 库 存 储 的 相 关 知 识 规 则, 进 行 演 绎, 得 出 网 页 之 间 的 相 关 性 相 似 性 指 标 度 量 值, 实 现 知 识 模 式 下 的 辅 助 分 类 机 制, 见 图 1 在 对 Web 文 本 ( 页 面 ) 进 行 分 类 前, 首 先 需 要 对 训 练 文 本 进 行 预 处 理, 提 取 页 面 分 类 特 征 页 面 信 息 的 预 处 理 包 括 以 下 2 步 : (1) 文 本 分 词 中 文 文 本 分 词 有 不 少 成 熟 的 方 法, 如 基 于 字 符 串 匹 配 的 分 词 方 法 基 于 理 解 的 分 词 方 法 和 基 于 统 计 的 分 词 方 法 分 词 采 用 国 内 目 前 分 词 精 度 较 高 的 中 科 院 分 词 系 统 ICTCLAS, 其 准 确 率 达 到 97.5% 以 上 (2) 向 量 化 分 类 文 本 通 过 计 算 词 在 语 料 库 中 的 词 频 进 行 粗 略 的 降 维, 删 除 一 些 频 率 很 高 或 很 低 的 词, 这 些 词 对 分 类 作 用 不 大, 或 是 没 有 实 际 意 义 的 功 能 词, 此 后, 建 立 网 页 文 本 特 征 描 述 向 量 VSM(Vector Space Model) 特 征 词 根 据 其 词 频 和 位 置 等 相 关 信 息 赋 予 不 同 的 权 重 文 档 d=(w 1,w 2,,w n ),w i 表 示 第 i 个 特 征 词 的 权 重,n 代 表 所 有 的 词 条 数 目 w i 值 采 用 分 类 效 果 较 好 的 TF-IDF 加 权 方 法 [5] w i = lb tf ( t, d) lb( N / n ) + 1 i [ 1+ lb( N / n ) lb tf ( t, d) ] 2 t t i f_ pos(w i ) (2) 其 中,tf(t i,d) 代 表 特 征 词 t i 在 文 档 d 中 的 词 频 ;N 代 表 训 练 文 档 数 ;n t 表 示 训 练 文 本 集 中 出 现 t 的 文 本 个 数 ; 分 母 是 归 一 化 因 子 同 时 考 虑 特 征 词 在 网 页 文 本 中 的 位 置 ( 如
第 38 卷 第 20 期 汤 亚 玲, 崔 志 明 : 行 为 特 征 分 析 模 式 下 的 网 页 分 类 技 术 研 究 181 Title Keywords Description 等 位 置 的 权 重 给 予 适 当 的 增 加 ) 和 超 文 本 方 式, 给 权 值 一 个 合 适 的 系 数, 其 值 用 位 置 函 数 f_pos(w i ) 表 示, 实 验 测 定 表 1 的 取 值 比 较 合 理 表 1 页 面 特 征 词 权 值 函 数 值 特 征 词 位 置 funpos 值 Title 2.0 Keywords 2.7 Description 1.8 Hyper text 1.2~1.5 对 于 每 一 篇 文 档, 其 向 量 都 进 行 了 归 一 化, 即 长 度 相 等, 加 权 实 际 上 是 使 向 量 在 特 征 空 间 中 向 某 些 有 用 的 方 向 旋 转 一 定 的 角 度, 同 时 也 使 无 用 的 特 征 词 对 向 量 的 方 向 影 响 被 削 弱 此 外, 为 了 提 高 分 类 器 的 计 算 效 率, 必 须 对 文 本 向 量 做 进 一 步 的 降 维, 本 文 采 用 奇 异 值 分 解 (Sigular Value Decomposition, SVD) 对 文 本 降 维,SVD 方 法 能 够 删 除 噪 音, 进 一 步 提 高 聚 类 效 果, 降 维 后 大 大 减 少 了 词 的 数 目, 提 高 了 计 算 效 率 [6] 采 用 如 下 的 计 算 公 式 可 以 求 得 矩 阵 的 奇 异 值 分 解 : S=svd(A)% (3) 式 (3) 为 返 回 矩 阵 A 的 奇 异 值 向 量 [U,S,V]=svd(A)% 其 中,S 为 与 A 同 样 大 小 的 对 角 矩 阵 ;2 个 矩 阵 U 和 V 满 足 A=U S V'; 若 A 为 m n 阵, 则 U 为 m m 阵,V 为 n n 阵 ; 奇 异 值 在 S 的 对 角 线 上, 非 负 且 按 降 序 排 列 在 对 网 页 进 行 特 征 提 取 和 向 量 化 表 示 后, 构 建 网 页 分 类 器, 利 用 网 页 分 类 器 进 行 分 类 和 测 试 一 般 情 况 下, 针 对 文 本 的 分 类 器 都 可 以 用 在 Web 页 面 的 分 类 中, 如 Naive Bayes KNN 支 持 向 量 机 (Support Vector Machine, SVM) 等 [7] 本 文 讨 论 的 是 知 识 模 式 下 的 网 页 分 类 技 术, 重 点 是 测 试 知 识 辅 助 下 对 传 统 分 类 方 法 改 进 的 效 果 上 述 的 经 典 文 本 分 类 方 法 不 是 本 文 的 重 点, 限 于 篇 幅, 不 再 赘 述 在 实 验 过 程 中, 选 择 单 纯 的 Naive Bayes KNN SVM 等 分 类 算 法 和 结 合 特 征 模 式 的 Naive Bayes KNN SVM 等 分 类 算 法 进 行 了 对 比 测 试 研 究 3 行 为 特 征 模 式 下 的 网 页 分 类 体 现 用 户 特 征 的 知 识 规 则 由 数 据 挖 掘 模 块 获 取, 其 知 识 规 则 由 访 问 序 列 模 式 聚 类 规 则 页 面 关 联 规 则 等 组 成 其 中, 关 联 规 则 和 序 列 模 式 的 基 本 构 成 元 素 是 网 页, 这 些 知 识 规 则 反 映 了 Web 用 户 的 个 性 行 为 特 征 和 网 页 间 的 关 联 关 系 及 访 问 相 关 度, 一 定 程 度 上 体 现 了 网 页 间 的 类 别 关 系 在 实 施 网 页 分 类 时, 推 理 机 从 特 征 知 识 库 按 照 分 类 器 指 定 的 用 户 类 ( 即 聚 类 模 式 ) 提 取 相 应 的 关 联 规 则 和 序 列 模 式 并 加 以 推 理, 因 为 不 同 用 户 类 可 以 对 应 不 同 的 用 户 特 征 在 提 取 相 关 知 识 规 则 后, 分 类 器 在 对 网 页 分 类 的 过 程 中 会 结 合 传 统 的 网 页 分 类 算 法 ( 如 SVM Naive Bayes) 和 知 识 规 则 进 行 网 页 分 类 结 果 最 佳 抉 择, 提 高 网 页 分 类 结 果 的 准 确 性 和 个 性 化, 使 分 类 结 果 更 适 合 相 应 的 用 户 群 体 本 文 采 用 逆 向 推 理 和 查 询 的 方 式 推 测 网 页 间 是 否 存 在 类 别 关 联 关 系 逆 向 推 理 的 方 法 是, 如 网 页 URL m 及 类 别 属 性 C i 和 C j, 在 用 传 统 统 计 学 方 法 不 能 确 定 URL m 属 于 C i 还 是 C j 更 准 确 时, 比 如 存 在 多 标 记 分 类 的 情 形 [8], 如 果 此 时 存 在 一 个 网 页 URL n, 能 从 知 识 库 中 推 理 出 规 则 URL n =>URL m 或 URL m =>URL n, 则 说 明 这 2 个 网 页 之 间 存 在 较 大 的 相 似 性 和 关 联 关 系, 此 时 如 果 URL n 已 经 归 属 为 类 别 C i, 那 么 由 于 存 在 这 种 知 识 关 联, 因 此 可 以 把 网 页 URL m 也 划 归 到 类 别 C i 中 这 种 相 似 性 或 相 关 性 可 以 从 体 现 页 面 访 问 者 行 为 特 征 的 序 列 模 式 或 描 述 页 面 之 间 联 系 的 关 联 规 则 中 发 现 假 设 存 在 知 识 规 则 URL n =>URL m 或 URL m =>URL n, 将 它 们 提 交 给 逆 向 推 理 机 进 行 查 询, 利 用 推 理 的 结 论 推 断 规 则 的 有 效 性 逆 向 推 理 是 人 工 智 能 中 知 识 推 理 的 一 种 方 式, 在 针 对 关 联 规 则 形 式 进 行 推 理 时, 描 述 反 映 URL 关 系 的 关 联 规 则 中 有 支 持 度 和 置 信 度 的 量 化 标 准, 这 种 量 化 标 准 是 一 种 概 率 度 量, 是 非 确 定 的 下 面 简 单 介 绍 本 文 采 用 prolog 语 言 实 现 的 逆 向 推 理 机 制 定 义 1 规 则 是 一 种 条 件 产 生 式 : 结 论 成 立 IF 条 件 存 在, 并 且 可 信 度 因 子 (CF)( 最 大 值 设 定 为 100)> 阈 值 这 里 的 条 件 是 网 页 的 访 问 序 列, 结 论 是 某 个 网 页 或 网 页 序 列, 可 信 度 有 个 阈 值, 高 于 阈 值 的 规 则 是 有 效 的 当 CF=100 时 表 示 确 定 的 ; 取 CF=30 为 可 信 度 的 最 小 阈 值 定 义 2 规 则 的 推 理 机 制 包 括 合 取 析 取 规 则 约 减 和 规 则 终 止 规 则 合 取 : 如 果 规 则 的 前 件 ( 条 件 ) 由 若 干 前 提 用 and 连 接, 则 规 则 的 总 CF 值 是 它 们 的 最 小 值, 即 : CF(A1,A2, )=min(cf(a1),cf(a2), ) (4) 其 中,A1, A2, 是 规 则 规 则 析 取 : 如 规 则 的 前 件 由 用 or 运 算 连 接 的 若 干 个 条 件 组 成, 则 将 它 们 视 为 同 一 结 论 的 多 条 规 则, 对 于 此 种 情 形 的 CF 值, 计 算 方 法 为 : CF=CF 1 +CF 2 (CF 1 CF 2 )/100 (5) 可 以 证 明,CF 比 CF 1 和 CF 2 的 值 在 一 定 程 度 上 有 所 增 大, 但 不 会 超 过 CF 值 的 上 限 100; 在 多 条 规 则 析 取 时, 按 此 方 法 迭 代 进 行 计 算 规 则 约 减 : 如 果 前 提 条 件 的 可 信 度 是 非 确 定 的 (<100), 那 么 规 则 结 论 的 可 信 度 将 变 小, 且 结 论 的 可 信 度 等 于 前 提 条 件 的 可 信 度 乘 以 规 则 成 立 的 可 信 度, 依 据 是 概 率 中 的 条 件 概 率 模 型 规 则 终 止 : 当 规 则 的 前 提 条 件 的 CF 值 低 于 30 时, 该 规 则 将 失 败, 规 则 后 件 不 再 测 试 在 系 统 中, 可 假 定 一 个 事 实 结 论, 看 能 否 由 逆 向 推 理 机 用 现 有 的 知 识 库 ( 事 实 和 规 则 ) 推 理 出 来 在 网 页 分 类 系 统 中,Data mining 组 件 模 块 从 知 识 库 中 提 取 关 联 规 则 进 行 知 识 推 理, 因 为 关 联 规 则 本 身 就 符 合
182 计 算 机 工 程 2012 年 10 月 20 日 产 生 式 的 基 本 形 式, 同 时 关 联 规 则 有 支 持 度 和 置 信 度 的 量 化 指 标, 在 针 对 个 性 化 用 户 群 体 的 分 类 系 统 中, 提 取 出 其 相 应 的 关 联 规 则, 将 支 持 度 和 置 信 度 转 化 成 规 则 推 理 系 统 中 的 CF 值, 再 将 此 关 联 规 则 以 知 识 规 则 的 形 式 提 供 给 推 理 机, 供 分 类 页 面 时 查 询 使 用 其 中, 关 联 规 则 转 化 为 推 理 机 使 用 的 知 识 规 则, 其 形 式 如 下 : 据 的 双 向 流 动 ) 第 3 个 inference 子 句 是 当 存 在 可 以 匹 配 的 规 则 时 利 用 inferlist 子 句 进 行 推 理, 推 理 采 用 产 生 式 规 则 的 方 式, 如 果 产 生 的 规 则 满 足 CF 值 的 阈 值 要 求, 则 保 留 inferlist 采 用 递 归 方 式 定 义, 对 条 件 规 则 进 行 推 理, 直 到 规 则 为 空,findall 子 句 solve 子 句 求 析 取 方 式 下 的 CF 值,mincf 子 句 求 规 则 合 取 CF 值 url 1,url 2,,url m =>url 1,url 2,,url n CF=? (6) 如 存 在 关 联 规 则 :50,url 1 =>url 3 ; 60,url 1,url 3 =>url 5, 如 其 中,url i 表 示 具 体 页 面 地 址 ; => 符 号 左 右 两 边 各 代 表 一 个 页 面 序 列 ;m 1;n 1;CF 不 小 于 确 定 的 阈 值 一 般 情 况 下, 在 推 理 机 中 运 用 关 联 规 则 能 推 理 出 如 下 结 论 : url i =>url j 则 说 明 url i 和 url j 所 代 表 的 2 个 页 面 具 有 强 相 关 性, 可 将 此 作 为 把 它 们 归 为 某 一 类 的 依 据 如 前 所 述, 推 理 机 采 用 查 询 方 式 的 逆 向 推 理, 是 基 于 知 识 库 的 不 精 确 推 理, 保 证 较 高 概 率 的 规 则 有 效 性, 下 面 的 prolog 程 序 描 述 了 对 关 联 规 则 采 用 查 询 方 式 的 逆 向 推 理 机 核 心 思 想 : 果 在 实 施 网 页 分 类 时, 出 现 url 5 归 属 问 题, 例 如, 在 与 url 1 归 为 一 类 或 与 url 6 归 为 一 类 差 异 不 大 情 况 下, 可 以 查 询 推 理 机 是 否 存 在 规 则 url 1 =>url 5, 查 询 推 理 机 得 出 30,url 1 => url 5, 其 中,50 60 30 分 别 表 示 该 条 关 联 规 则 的 CF 值, 推 理 得 出 的 关 联 规 则 的 CF 值 (30) 满 足 阈 值 要 求 ( 30) 在 url 5 和 url 6 之 间 不 存 在 关 联 规 则 或 者 尽 管 存 在 但 其 CF 值 比 前 者 小 时, 则 可 以 将 url 1 和 url 5 归 为 一 类 类 似 的, 序 列 模 式 在 推 理 机 中 以 facts( 事 实 ) 的 形 式 作 为 推 理 的 依 据, 因 为 序 列 模 式 是 一 个 满 足 时 间 序 的 频 繁 模 predicates /* 谓 词 */ 式, 如 存 在 序 列 模 式 :url 1,url 2,,url m, 则 在 推 理 系 统 中, inference(data-type,string) /*string 是 规 则 的 表 示 形 式, 具 体 实 现 可 以 演 绎 出 :url i =>url j, 其 中 : 是 将 url 编 码 转 化 为 字 符 串 形 式 的 规 则 前 件 或 者 后 件 的 组 成 部 分, 前 1 i m, 1 j m, i j (7) 件 和 后 件 之 间 用 特 定 的 界 定 符 号 分 割 */ inferlist(data-list,string) 知 识 推 理 下 的 页 面 分 类 优 点 在 于, 当 页 面 分 类 出 现 难 database /* 知 识 库 */ 以 决 定 的 情 况 时 ( 比 如 分 类 的 页 面 通 过 向 量 空 间 模 型 模 式 facts(data-type,string) 表 示 后, 在 分 类 的 指 标 上 归 于 不 同 类 别 差 异 很 小 时 ), 提 clauses /* 子 句 说 明 */ 取 每 个 类 别 的 若 干 主 题 中 心 页 面, 看 分 类 页 面 与 这 些 主 题 inference(query,cf):-facts(query,cf),!. /* 判 断 是 否 存 在 事 实 可 以 页 面 间 是 否 存 在 一 定 的 关 联 关 系, 设 定 一 定 的 阈 值, 保 证 匹 配 成 功 */ inference(query,cf):-not(rule(-,query,-,-)),!, 查 询 逆 向 推 理 机 得 出 的 关 联 关 系 能 反 映 出 页 面 之 间 有 较 Write(Query, Cf= ),getresponse(cf), Assert(facts(Query,Cf)). inference(query,cf):-rule(-,query,cond-list,cf1), 强 的 关 联 关 系 如 存 在 这 种 关 联 关 系, 则 将 待 分 类 页 面 归 属 到 此 类 别, 这 样 能 有 效 提 高 分 类 精 度, 同 时 也 体 现 了 分 类 的 用 户 个 性 倾 向 特 征 inferlist(cond-list,cf2), Cf=Cf1*Cf2/100,Cf>=30. 4 实 验 结 果 与 分 析 inferlist([],100):-!. inferlist(cond-list,cf):-get-first(cond-list,cond,new-list), /* 得 到 用 网 络 爬 虫 从 互 联 网 上 获 取 各 类 网 页, 包 含 体 育 (C1) 科 技 (C2) 教 育 (C3) 社 会 时 事 (C4) 经 济 (C5) 娱 规 则 体 中 的 第 1 个 条 件 */ 乐 (C6) 等 6 类, 网 页 共 53 139 个, 选 择 其 中 3 000 个 网 页 findall(cf1,inference(cond,cf1),l),!, solve-cf(cf1,l),cf1>=30, 作 为 训 练 分 类 器, 其 余 23 139 个 网 页 作 为 测 试 网 页 体 现 interlist(new-list,cf2),mincf(cf,cf1,cf2) /* 计 算 CF 值 */ 其 中, 第 2 个 inference 子 句 是 在 不 存 在 可 以 匹 配 的 规 则 或 事 实 时 检 索 知 识 库 是 否 有 更 新 的 新 知 识, 如 果 从 更 新 的 知 识 库 查 询 到 新 的 知 识 规 则, 用 谓 词 Assert 将 新 事 实 写 入 知 识 库 ( 图 1 中 推 理 机 与 知 识 库 之 间 是 双 向 箭 头, 表 示 数 用 户 特 征 的 聚 类 模 式 关 联 规 则 和 序 列 模 式 主 要 从 网 站 的 访 问 日 志 中 运 用 数 据 挖 掘 方 法 得 出, 从 查 准 率 和 F1 值 进 行 分 类 器 性 能 评 估, 具 体 结 果 如 表 2 所 示, 其 中,CAC- Naive Bayes 表 示 特 征 分 析 模 式 下 的 Naive Bayes 分 类 器 ; 其 他 类 同 ;C1~C6 表 示 网 页 的 类 别 表 2 6 种 分 类 器 性 能 对 比 (%) 算 法 查 准 率 F1 C1 C2 C3 C4 C5 C6 C1 C2 C3 C4 C5 C6 Naive Bayes 90.52 92.14 91.27 93.50 92.51 96.11 90.52 92.14 91.27 93.50 92.51 96.11 CAC-Naive Bayes 92.04 93.78 92.92 93.26 94.01 95.79 92.04 93.78 92.92 93.26 94.01 95.79 KNN 90.03 91.26 91.09 92.25 91.34 93.66 90.03 91.26 91.09 92.25 91.34 93.66 CAC-KNN 90.27 91.74 91.86 93.12 92.01 94.25 90.27 91.74 91.86 93.12 92.01 94.25 SVM 91.28 93.21 90.97 94.10 93.62 97.31 91.28 93.21 90.97 94.10 93.62 97.31 CAC-SVM 91.33 94.26 92.08 95.30 93.69 97.91 91.33 94.26 92.08 95.30 93.69 97.91
第 38 卷 第 20 期 汤 亚 玲, 崔 志 明 : 行 为 特 征 分 析 模 式 下 的 网 页 分 类 技 术 研 究 183 其 中 : F1=2pr/(p+r) (8) 其 中,p 代 表 查 准 率 ;r 代 表 查 全 率 从 表 2 中 数 据 可 以 看 出, 对 于 各 种 分 类 算 法, 在 CAC 特 征 知 识 支 持 下 的 分 类 器 分 类 评 价 指 标 在 一 定 程 度 上 优 于 原 分 类 器 的 各 项 指 标 ; 对 于 原 指 标 值 偏 低 的 各 类 结 果, 如 C3 和 C5 类 的 评 价 指 标 有 较 明 显 的 提 高 图 3 是 6 种 分 类 算 法 的 F1 值 对 比 可 以 看 出 在 结 合 特 征 分 析 CAC 后, 页 面 分 类 指 标 均 比 单 纯 的 统 计 学 算 法 的 分 类 指 标 有 一 定 的 提 高 98 96 94 92 90 88 Naive Bayes 算 法 CAC-Naive Bayes 算 法 KNN 算 法 86 C1 C2 C3 C4 C5 C6 图 3 网 页 类 别 CAC-KNN 算 法 SVM 算 法 6 种 分 类 算 法 F1 值 对 比 CAC-SVM 算 法 5 结 束 语 通 过 数 据 挖 掘 知 识 学 习 及 知 识 归 类 等 手 段 后, 可 以 在 个 性 化 知 识 库 的 基 础 上, 针 对 不 同 用 户 提 供 不 同 知 识 库 进 行 个 性 化 网 页 分 类 在 具 体 实 施 时, 可 以 把 用 户 聚 类 模 式 作 为 提 取 知 识 库 的 入 口 依 据, 将 描 述 用 户 特 征 的 Web 关 联 规 则 及 序 列 模 式 存 储 在 数 据 库 中, 分 类 时 进 行 检 索 在 对 分 类 要 求 较 高 的 应 用 领 域, 采 用 结 合 用 户 行 为 特 征 知 识 库 的 模 式, 用 知 识 推 理 的 方 式 辅 助 分 类, 会 使 分 类 结 果 更 接 近 正 确 的 结 果 及 使 用 者 实 际 的 知 识 需 求 下 一 步 将 研 究 如 何 提 高 推 理 和 查 询 知 识 的 效 率 参 考 文 献 [1] Chang Chia-Hui, Kayed M, Girgis M R. A Survey of Web Information Extraction Systems[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1411-1428. [2] Han Jiawei, Chang K C. Data Mining for Web Intelligence[J]. Computer, 2002, 35(11): 64-70. [3] 王 实, 高 文, 李 锦 涛. 基 于 分 类 方 法 的 Web 站 点 实 时 个 性 化 推 荐 [J]. 计 算 机 学 报, 2002, 25(8): 845-851. [4] 汤 亚 玲, 秦 锋. Web 使 用 挖 掘 下 的 Web 页 面 层 次 分 类 技 术 研 究 [J]. 情 报 学 报, 2008, 27(3): 351-356. [5] 冯 和 龙, 夏 胜 平. 基 于 RSOM-Bayes 的 网 页 分 类 方 法 [J]. 计 算 机 工 程, 2008, 34(13): 61-63. [6] 刘 贵 龙, 王 慧 玲, 宋 柔. 矩 阵 的 奇 异 值 分 解 在 文 本 分 类 研 究 中 的 应 用 [J]. 计 算 机 工 程, 2002, 28(12): 17-18. [7] 李 杨, 曾 海 泉, 刘 庆 华, 等. 基 于 KNN 的 快 速 Web 文 档 分 类 [J]. 小 型 微 型 计 算 机 系 统, 2004, 25(4): 725-729. [8] Zhang M L, Zhou Z H. ML-NN: A Lazy Learning Approach to Multi-label Learning[J]. Pattern Recognition, 2007, 40(7): 2038-2048. 编 辑 张 正 兴 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ( 上 接 第 178 页 ) 可 见, 方 言 是 不 同 地 区 的 人 们 长 久 以 来 使 用 语 言 过 程 中 按 照 以 往 人 们 的 生 活 习 性 形 成 的 与 其 他 地 区 的 方 言 比 较, 喀 什 方 言 确 实 比 较 特 殊 而 且 维 吾 尔 语 的 词 性 结 构 复 参 考 文 献 [1] 朱 文 旭. 彝 语 方 言 学 [M]. 北 京 : 中 央 民 族 大 学 出 版 社, 2005. [2] 高 士 杰. 维 吾 尔 语 方 言 与 方 言 调 查 [M]. 北 京 : 中 央 民 族 大 学 出 版 社, 1994. 杂 词 汇 量 大 语 言 变 化 多 种 而 且 不 守 规 则, 因 此, 很 难 [3] 米 娜 瓦 尔 艾 比 不 拉. 维 吾 尔 语 方 言 和 方 言 调 查 [M]. 北 京 : 找 到 符 合 整 个 音 位 变 化 的 规 律 民 族 出 版 社, 2004. 5 结 束 语 本 文 分 析 了 标 准 维 吾 尔 语 语 言 与 喀 什 方 言 语 言 在 特 [4] 贾 珈, 蔡 莲 红, 李 明, 等. 汉 语 普 通 话 与 沈 阳 方 言 转 换 的 研 究 [J]. 清 华 大 学 学 报 : 自 然 科 学 版, 2009, 49(S1): 1309-1315. 殊 词 和 音 素 等 方 面 的 差 异, 探 讨 了 标 准 维 吾 尔 语 与 喀 什 方 言 转 换 的 可 行 性, 采 用 有 限 状 态 自 动 机 建 立 了 转 换 模 型, [5] 新 疆 维 吾 尔 自 治 区 社 会 科 学 院 语 言 研 究 所. 现 代 维 吾 尔 语 方 言 土 语 词 典 [M]. 北 京 : 民 族 出 版 社, 2007. [6] 木 海 拜 提 卡 斯 木. 现 代 维 吾 尔 语 方 言 词 汇 研 究 [M]. 乌 鲁 木 齐 : 并 用 编 程 工 具 实 现 了 标 准 维 吾 尔 语 语 言 与 喀 什 方 言 语 言 新 疆 人 民 出 版 社, 2006. 之 间 典 型 的 增 音 漏 音 和 转 音 等 音 素 变 换 算 法 实 验 结 果 [7] 艾 尼 瓦 尔 艾 合 买 提 江. 现 代 维 吾 尔 语 喀 什 话 及 其 语 音 词 汇 特 表 明, 自 动 转 换 算 法 具 有 比 较 良 好 的 运 行 效 果 由 于 特 殊 的 语 言 现 象, 因 此 仅 靠 规 则 来 完 成 变 换 是 不 够 的 下 一 步 工 作 除 了 完 善 转 换 规 则 外, 还 得 考 虑 利 用 词 语 的 词 干 词 性 标 注 等 信 息, 基 于 上 下 文 语 义 分 析 等 方 法 改 善 转 换 准 征 [J]. 喀 什 师 范 学 院 学 报, 2009, 30(2): 67-69. [8] Mohri M, Pereira F, Riley M. Weighted Finite-state Transducers in Speech Recognition[J]. Computer Speech & Language, 2002, 16(1): 69-88. 确 率 编 辑 张 正 兴