http://www.cki.et/kcms/detail/11.44.n.0150930.1533.011.html 北 京 大 学 学 报 ( 自 然 科 学 版 ) Acta Scietiarum Naturalium Uiversitatis Pekiesis doi: 10.1309/.0479-803.016.009 基 于 现 代 汉 语 语 义 词 典 的 未 登 录 词 语 义 预 测 研 究 1, 尚 芬 芬 1,, 顾 彦 慧 3 戴 茹 冰 3 李 斌 1, 周 俊 生 1, 曲 维 光 1. 南 京 师 范 大 学 计 算 机 科 学 与 技 术 学 院, 南 京 1003;. 江 苏 省 信 息 安 全 保 密 技 术 工 程 研 究 中 心, 南 京 1003; 3. 南 京 师 范 大 学 文 学 院, 南 京 10097; 通 信 作 者, E-mail: gu@u.edu.c 摘 要 基 于 现 代 汉 语 语 义 词 典, 首 先 建 立 不 同 语 义 层 次 的 词 典, 根 据 词 典 分 别 构 建 模 型 并 进 行 语 义 预 测, 然 后 将 各 个 模 型 进 行 集 成, 通 过 集 成 模 型 再 对 未 登 录 词 进 行 语 义 预 测, 得 到 较 好 的 预 测 性 能 在 此 基 础 上, 利 用 预 测 模 型 对 000 年 人 民 日 报 语 料 进 行 未 登 录 词 语 义 预 测 和 标 注, 最 终 得 到 带 有 未 登 录 词 语 义 义 项 标 注 的 语 料 资 源 关 键 词 汉 语 未 登 录 词 ; 语 义 预 测 ; 语 义 标 注 ; 集 成 学 习 中 图 分 类 号 TP391 Research o the Sese Guessig of Chiese Ukow Words Based o Sematic Kowledge-base of Moder Chiese SHANG Fefe 1,, GU Yahui 1,,, DAI Rubig 3, Li Bi 3, ZHOU Jusheg 1,, QU Weiguag 1, 1. School of Computer Sciece ad Techology, Naig Normal Uiversity, Naig 1003;. Jiagsu Research Ceter of Iformatio Security & Privacy Techology, Naig 1003; 3. School of Chiese Laguage ad Culture, Naig 10097; Correspodig author, E-mail: gu@u.edu.c Abstract Based o the research issue of sese guessig of Chiese ukow words, differet levels of sematic dictioary have bee itroduced by applyig Sematic Kowledge-base of Moder Chiese. The models have bee costructed ad sese guessig by usig these dictioary. Fially, each model has bee itergrated to predict the ukow words ad obtaied better performace. Sematic predictio ad aotatio of the ukow words i People s Daily which published i 000 based o each model have bee evaluated. Fially, corpus resources with the sese aotatio of ukow words have bee obtaied. Key words Chiese ukow words; sese guessig; sematic aotatio; esemble learig 语 义 问 题 一 直 是 自 然 语 言 处 理 领 域 的 研 究 热 点 文 本 内 容 的 理 解 必 须 建 立 在 对 文 本 中 每 一 个 词 语 的 语 义 理 解 基 础 之 上 然 而, 由 于 大 量 未 登 录 词 的 存 在, 其 语 义 未 知, 文 本 中 没 有 标 注 未 登 录 词 的 句 法 和 语 义 类 别 标 记, 因 此 很 难 做 到 获 取 所 有 词 语 的 语 义, 这 对 很 多 自 然 语 言 处 理 (atural laguage processig, NLP) 技 术 和 其 他 以 语 义 为 基 础 的 研 究 是 一 个 挑 战 汉 语 未 登 录 词 的 语 义 预 测 研 究 可 以 为 未 登 录 词 提 供 语 义 预 测, 从 而 为 研 究 者 提 供 语 义 参 考, 对 许 多 NLP 应 用, 如 机 器 翻 译 信 息 检 索 语 义 分 析 词 典 编 纂 等 都 有 重 要 意 义 汉 语 未 登 录 词 语 义 预 测 的 研 究 难 度 较 大, 因 此 相 关 研 究 工 作 较 少, 除 了 使 用 基 于 知 识 的 模 型 和 基 于 语 料 的 模 型 及 其 混 合 模 型 之 外, 很 少 有 新 的 模 型 提 出 在 已 有 的 研 究 中 使 用 的 词 典 资 源 也 比 较 有 限, 使 用 较 多 的 是 同 义 词 词 林 本 文 通 过 构 建 国 家 自 然 科 学 基 金 (6171, 6147191) 国 家 社 会 科 学 基 金 (11CYY030, 10CYY01) 江 苏 省 社 会 科 学 基 金 (1YYA00) 和 江 苏 省 高 校 自 然 科 学 基 金 (14KJB500) 资 助 收 稿 日 期 : 0150619; 修 回 日 期 : 0150903; 网 络 出 版 时 间 : 015-09-30 15:33:04 1
北 京 大 学 学 报 ( 自 然 科 学 版 ) 多 种 语 义 预 测 模 型, 利 用 现 代 汉 语 语 义 词 典 进 行 未 登 录 词 语 义 预 测, 并 对 000 年 人 民 日 报 语 料 中 的 未 登 录 词 进 行 语 义 预 测 和 标 注 1 相 关 研 究 在 对 汉 语 未 登 录 词 的 语 义 预 测 研 究 中, 学 者 们 先 后 提 出 不 同 的 模 型 方 法, Che 等 [1-3] Lu [4-5] [6-7] [8-9] Tseg 等 以 及 Qiu 等 等 都 为 汉 语 未 登 录 词 语 义 预 测 的 研 究 做 出 贡 献 有 研 究 指 出, 对 于 一 个 8 万 词 的 词 典 而 言, 大 约 有 3.51% 的 未 登 录 词 存 在 [10] 这 些 未 登 录 词 中 包 含 复 合 名 词 51%, 复 合 动 词 34%, 专 业 名 词 只 占 15% [11] 目 前 对 专 业 名 词 已 有 大 量 的 研 究 来 确 定 其 语 义 类 别, 与 只 占 15% 的 专 有 名 词 相 比, 占 85% 的 复 合 词 语 的 语 义 类 别 预 测 研 究 显 得 更 为 重 要 [1-15] 因 此, 近 期 的 研 究 更 多 倾 向 于 未 登 录 词 中 复 合 词 语 的 语 义 猜 测, 比 如 Che 等 [3] 和 Lua [16] 的 研 究 关 于 汉 语 未 登 录 词 语 义 预 测, 现 有 研 究 大 多 采 用 基 于 词 语 结 构 信 息 和 基 于 规 则 的 方 法, 也 有 利 用 未 登 录 词 上 下 文 信 息, 通 过 计 算 与 已 知 词 类 词 语 上 下 文 的 相 似 度 来 进 行 预 测 依 据 模 型 和 算 法 的 不 同, 归 纳 为 以 下 3 种 方 法 1) 基 于 知 识 的 方 法 大 部 分 学 者 对 未 登 录 词 语 义 预 测 的 研 究 基 于 知 识 的 模 型, 使 用 该 方 法 最 早 的 研 究 者 之 一 是 Lua [16], 目 的 是 把 双 音 节 中 文 词 分 类 到 同 义 词 词 林 中 的 大 类 或 者 中 类, 使 用 三 层 反 向 传 播 神 经 网 络, 模 拟 双 音 节 词 的 语 义 类 别 与 其 两 个 组 成 字 的 语 义 类 别 之 间 的 依 赖 性 此 后, 又 发 展 出 [3] 基 于 实 例 的 方 法 以 及 基 于 相 似 度 的 方 法 [] ; 文 献 [4-5] 的 研 究 涉 及 重 叠 字 模 型 字 - 类 别 关 联 模 型 以 及 基 于 规 则 的 模 型 此 外, 还 有 基 于 知 网 的 模 型 [17-18] ) 基 于 语 料 的 方 法 Lu [4-5] 提 出 的 基 于 语 料 的 模 型 是 根 据 未 登 录 词 出 现 的 上 下 文 预 测 其 语 义 类 别, 从 语 料 中 抽 取 出 同 义 词 词 林 中 每 个 语 义 类 别 的 广 义 上 下 文, 再 计 算 未 登 录 词 的 上 下 文 与 每 个 候 选 语 义 类 别 的 广 义 上 下 文 之 间 的 相 似 度, 通 过 相 似 度 的 大 小 来 确 定 未 登 录 词 的 语 义 类 别 3) 基 于 知 识 和 基 于 语 料 的 混 合 方 法 Lu [4-5] 提 出 基 于 知 识 和 基 于 语 料 的 混 合 模 型, 使 用 基 于 知 识 的 模 型 为 每 个 未 登 录 词 提 供 候 选 语 义 类 别, 然 后 从 语 料 中 抽 取 出 同 义 词 词 林 中 每 个 语 义 类 别 的 广 义 上 下 文, 再 计 算 出 未 登 录 词 的 上 下 文 与 每 个 候 选 语 义 类 别 的 广 义 上 下 文 之 间 的 相 似 度 综 观 前 人 研 究 成 果 可 以 发 现, 早 前 的 研 究 主 要 集 中 在 基 于 知 识 的 模 型, 随 后 出 现 加 入 上 下 文 信 息 的 模 型 研 究, 但 效 果 不 是 很 好, 接 着 使 用 基 于 知 识 的 模 型 与 基 于 上 下 文 信 息 松 散 结 合 的 混 合 模 型, 效 果 也 不 理 想 近 期 的 研 究 更 加 紧 密 地 把 未 登 录 词 的 知 识 与 上 下 文 信 息 结 合 成 混 合 模 型, 取 得 较 好 的 预 测 效 果 语 义 资 源 及 词 典 构 建 汉 语 未 登 录 词 语 义 预 测 的 研 究 使 用 较 多 的 语 义 资 源 是 同 义 词 词 林 (Cili), 少 部 分 研 究 中 使 用 知 网 (HowNet), 几 乎 没 有 相 关 研 究 使 用 现 代 汉 语 语 义 词 典 现 代 汉 语 语 义 词 典 拥 有 丰 富 的 语 义 义 项 分 类, 并 且 各 个 义 项 下 有 充 分 的 成 员 词 语, 因 此, 本 文 利 用 该 词 典 进 行 未 登 录 词 语 义 预 测 的 研 究.1 语 义 资 源 介 绍 本 文 未 登 录 词 语 义 预 测 研 究 使 用 的 语 义 资 源 是 现 代 汉 语 语 义 词 典 (The Sematic Kowledgebase of Moder Chiese, SKCC) [19-0], 它 是 一 部 面 向 NLP 的 语 义 知 识 库, 收 录 6.5 万 余 条 汉 语 实 词 作 为 综 合 型 语 言 知 识 库 (Comprehesive Laguage Kowledge Base, CLKB) 的 一 部 分, SKCC 广 泛 应 用 于 计 算 词 汇 语 义 学 的 基 础 研 究 和 应 用 研 究 中 SKCC 采 用 Microsoft Access 数 据 库 实 现, 其 中 包 含 全 部 词 语 的 总 库 1 个, 每 类 词 语 ( 实 词 ) 各 建 一 库, 每 个 库 文 件 中 都 包 含 词 语 和 其 语 义 的 关 系 由 于 名 词 库 的 分 类 较 为 详 细, 因 此 本 文 主 要 研 究 名 词 库 的 词 语 根 据 SKCC 名 词 库 的 语 义 分 类, 可 以 分 五 级 对 语 义 词 典 SKCC 名 词 库 中 不 同 语 义 层 次 的 词 语 数 目 进 行 统 计, 如 表 1 所 示 表 1 语 义 词 典 SKCC 名 词 库 中 不 同 语 义 层 次 的 词 语 数 目 Table 1 Word umber of SKCC Sematic dictioary uder differet sematic level 语 义 层 数 包 含 词 语 数 目 1 396 80 3 641 4 111 5 9553
尚 芬 芬 等 基 于 现 代 汉 语 语 义 词 典 的 未 登 录 词 语 义 预 测 研 究. 词 典 构 建 利 用 SKCC 进 行 未 登 录 词 语 义 预 测 属 于 基 于 词 典 的 方 法, 是 根 据 词 典 中 词 语 的 信 息 构 造 预 测 模 型 这 里 需 要 词 典 中 词 语 位 于 词 典 树 型 结 构 的 同 一 语 义 层 次, 才 便 于 统 计 每 个 语 义 类 别 中 的 词 语 信 息 SKCC 的 语 义 体 系 呈 现 树 型 结 构, 但 是 语 义 词 典 SKCC 名 词 库 中 的 词 语 并 不 是 全 都 划 分 到 树 型 结 构 的 最 底 层, 而 是 划 分 到 不 同 的 语 义 层 次, 这 样 不 便 于 语 义 分 类 (SKCC 名 词 库 的 部 分 树 结 构 如 图 1 所 示 ) 因 此, 先 构 造 出 语 义 类 别 的 树 型 结 构, 再 将 所 有 词 语 都 归 为 第 一 级 来 构 造 词 典 由 于 划 分 到 第 一 级 语 义 类 别 粒 度 较 大, 因 此 再 将 词 语 尽 量 ( 这 里 尽 量 指 当 词 语 无 法 向 下 级 语 义 划 分 时, 则 将 该 词 去 除 ) 归 为 第 二 级 和 第 三 级, 由 第 二 级 和 第 三 级 词 语 信 息 构 造 词 典 本 文 分 别 构 建 3 个 SKCC 词 典..1 第 一 级 语 义 类 别 SKCC1 将 SKCC 中 所 有 词 语 都 归 为 第 一 级 语 义 类 别 汇 总, 记 为 SKCC1 第 一 级 的 各 个 语 义 类 别 所 包 含 的 词 语 数 目 如 表 所 示.. 第 二 级 语 义 类 别 SKCC 语 义 词 典 SKCC 的 词 语 划 分 到 第 二 级 语 义 类 别 中 所 构 造 的 词 典, 记 为 SKCC 构 造 语 义 词 典 SKCC 时, 语 义 词 典 SKCC 的 词 语 语 义 类 别 向 上 划 分 全 部 可 以 划 分 到 父 节 点, 也 就 是 第 一 级 语 义 类 别 中, 但 是 如 果 划 分 到 第 二 级 语 义 类 别 中 时, 所 有 归 属 于 第 一 级 语 义 类 别 的 词 语 就 无 法 向 下 划 分 到 第 二 级 的 语 义 类 别 中 因 此, 基 于 SKCC 词 典 的 研 表 SKCC1 的 各 个 语 义 类 别 词 语 数 目 Table Word umber uder differet sematic level of SKCC1 类 别 名 词 数 过 程 1908 时 间 906 抽 象 事 物 8643 空 间 3195 具 体 事 物 5149 究 只 包 含 属 于 二 级 及 以 下 类 别 的 词 语, 并 且 把 这 些 词 语 都 向 上 划 分 到 第 二 级 父 节 点 上 的 词 语 第 二 级 语 义 类 别 分 为 16 个 SKCC 名 词 库 划 到 第 二 级 的 16 个 语 义 类 别 的 词 语 数 目 如 表 3 所 示..3 第 三 级 语 义 类 别 SKCC3 语 义 词 典 SKCC 的 词 语 划 分 到 第 三 级 语 义 类 别 中 所 构 造 的 词 典, 记 为 SKCC3 将 词 语 划 归 到 第 三 级 语 义 层 次 时, 所 有 归 属 于 第 一 级 和 第 二 级 语 义 类 别 的 词 语 由 于 所 属 语 义 节 点 层 次 高, 难 以 向 下 划 分 到 第 三 级 的 语 义 类 别 中 因 此, 在 基 于 SKCC3 词 典 的 研 究 只 包 含 属 于 三 级 及 以 下 类 别 的 表 3 SKCC 的 各 个 语 义 类 别 及 类 别 下 词 语 数 目 Table 3 Word umber uder differet sematic level of SKCC 类 别 词 数 方 位 10 心 理 特 征 691 Fig. 1 矩 形 表 示 语 义 类 别, 椭 圆 形 表 示 词 语 图 1 SKCC 中 语 义 类 别 和 词 语 结 构 Sematic category ad word structure i SKCC 领 域 75 相 对 时 间 669 非 生 物 1541 构 件 1474 动 机 39 自 然 现 象 17 生 理 669 信 息 757 绝 对 时 间 109 属 性 944 法 规 318 生 物 838 事 件 1657 处 所 49 3
北 京 大 学 学 报 ( 自 然 科 学 版 ) 表 4 SKCC3 的 各 个 语 义 类 别 及 类 别 下 词 语 数 目 Table 4 Word umber uder differet sematic level of SKCC3 词 数 自 然 物 003 颜 色 88 外 形 307 身 体 构 件 1040 人 593 情 感 10 意 识 574 植 物 1155 模 糊 属 性 35 量 化 属 性 448 微 生 物 76 可 听 现 象 35 非 生 物 构 件 0 排 泄 物 100 可 视 现 象 108 动 物 1063 人 工 物 1811 词 语, 并 且 把 这 些 词 语 都 向 上 划 分 到 第 三 级 父 节 点 上 第 三 级 语 义 类 别 分 为 17 个, 具 体 语 义 类 别 和 词 语 数 目 如 表 4 所 示 其 中, 语 义 类 别 非 生 物 构 件 的 词 数 为 0, 原 因 是 词 语 划 分 到 其 祖 先 类 别 中, 该 类 别 没 有 词 语 和 子 类 别 3 模 型 构 建 根 据 词 典 词 语 信 息, 分 别 构 建 基 于 重 叠 字 的 模 型 基 于 字 - 类 别 关 联 的 模 型 基 于 规 则 的 模 型 3.1 基 于 重 叠 字 的 模 型 根 据 现 代 汉 语 的 构 词 规 则, 大 多 数 新 词 的 语 义 都 与 其 组 成 词 素 相 关, 两 者 之 间 有 着 相 同 或 者 相 近 的 语 义, 不 同 词 语 共 享 相 同 的 组 成 词 素 极 为 常 见, 因 此 利 用 词 语 组 成 词 素 相 重 叠 的 知 识 可 以 更 好 地 预 测 新 构 成 词 语 的 语 义 义 项 重 叠 字 模 型 通 过 计 算 未 登 录 词 与 每 个 语 义 类 别 成 员 词 的 重 叠 字 个 数 来 预 测 未 登 录 词 的 语 义 类 别 对 于 Cili 中 的 每 个 语 义 类 别, 抽 取 出 其 成 员 词 的 所 有 不 重 复 的 字, 并 且 统 计 出 每 个 字 出 现 在 词 头 词 中 词 尾 的 总 频 数 根 据 这 些 信 息, 提 出 3 对 变 式 在 每 一 对 变 式 中, 变 式 a 通 过 计 算 类 别 和 未 登 录 词 的 重 叠 字 的 数 目, 计 算 出 未 登 录 词 的 一 个 类 别 的 得 分 相 应 地, 变 式 b 计 算 上 述 分 数 的 一 个 带 权 值 的 或 归 一 化 的 副 本 这 些 变 式 中, Score(Cat, w) 表 示 分 配 类 别 Cat 为 未 登 录 词 类 别 的 得 分 ; 代 表 未 登 录 词 w 的 长 度 ; c i 代 表 未 登 录 词 w 的 第 i 个 字 ; P i 表 示 第 i 个 字 c i 在 词 w 中 的 位 置, 包 括 { 词 头, 词 中, 词 尾 }; f(c i ) 表 示 类 别 Cat 中 第 i 个 字 的 全 部 频 率 ; f(c i, p i ) 表 示 在 Cat 中 位 于 p i 的 c i 的 频 率 ; N 表 示 在 Cat 中 的 字 的 总 数 ; N pi 表 示 在 类 别 Cat 中, 位 于 位 置 p i 的 字 的 总 数 ; N w 表 示 在 类 别 Cat 中 词 的 总 数 变 式 1: 变 式 1a 中, 类 别 的 得 分 是 这 个 类 别 中 未 登 录 词 的 每 个 组 成 字 出 现 次 数 的 总 和 ; 变 式 1b 中, 每 个 次 数 都 由 类 别 中 字 的 总 数 加 权 得 到 变 式 1a: 变 式 1b: Score (Cat, w) f( c ), (1) f ( ci ) Score (Cat, w) N () 变 式 : 变 式 a 中, 类 别 的 得 分 是 这 个 类 别 中 未 登 录 词 的 每 个 组 成 字 在 未 登 录 词 的 相 应 位 置 出 现 次 数 的 总 和 ; 变 式 b 中, 每 个 次 数 由 类 别 中 字 在 未 登 录 词 相 应 位 置 出 现 的 总 数 加 权 得 到 变 式 a: 变 式 b: Score (Cat, w) f( c, p ), (3) f ( ci, pi) Score (Cat, w) N (4) 变 式 3: 变 式 3a 中, 类 别 的 得 分 是 这 个 类 别 中 未 登 录 词 的 尾 字 c 在 未 登 录 词 的 词 尾 p 出 现 的 数 的 总 和 ; 变 式 3b 中, 得 分 是 由 类 别 中 所 有 词 总 数 加 权 得 到 变 式 3a: Score (Cat, w) f( c, p ), (5) 变 式 3b: f ( c, p) Score (Cat, w) (6) N 变 式 1 用 最 直 接 的 方 法 得 到 重 叠 字 语 义 的 预 测, 变 式 与 每 个 组 成 字 在 未 登 录 词 和 类 别 的 成 员 词 中 出 现 的 位 置 相 关, 变 式 3 只 考 虑 未 登 录 词 的 最 后 一 个 字 和 每 个 类 别 成 员 词 的 最 后 一 个 字 每 一 个 变 式, 得 分 最 高 的 类 别 被 推 荐 为 未 登 录 词 的 类 别 3. 基 于 字 类 别 关 联 的 模 型 字 - 类 别 关 联 模 型 (Character-Category Associatio Model) 采 用 多 种 复 杂 的 信 息 理 论 模 型 来 估 算 词 语 组 成 字 与 语 义 类 别 之 间 的 关 联, 再 估 算 词 i pi w i i 4
尚 芬 芬 等 基 于 现 代 汉 语 语 义 词 典 的 未 登 录 词 语 义 预 测 研 究 语 与 语 义 类 别 之 间 的 关 联, 为 未 登 录 词 预 测 合 适 的 语 义 字 - 类 别 关 联 模 型 计 算 字 与 语 义 类 别 之 间 的 关 联 值 使 用 的 统 计 量 包 括 互 信 息 和, 如 式 (7)~(9) 所 示 : P (Char,Cat ), (7) Asso MI(Char, Cat ) log P (Char)P(Cat ) (Char, Cat ) Asso (Char, Cat ), (8) Max (Char, Cat ) ( Char, Cat ) k f (Char, Cat ) (9) f(char) f(cat ) 其 中, Asso(Char, Cat ) 表 示 字 符 Char 与 语 义 类 别 Cat 的 关 联, P(x) 和 f(x) 分 别 表 示 x 的 概 率 和 频 率 计 算 出 字 类 关 联 后, 词 类 关 联 就 可 以 通 过 对 类 别 和 词 的 每 个 组 成 字 的 关 联 加 权 求 和 计 算 出 来, 如 式 (10) 所 示 : W Asso(W, Cat ) Asso (Char, Cat ), (10) i 其 中, Char i 表 示 词 W 的 第 i 个 字 符, W 表 示 词 W 的 长 度, λ i 表 示 Char i 与 Cat 之 间 关 联 的 权 重 λ i 的 和 为 1 3.3 基 于 规 则 的 模 型 基 于 规 则 模 型 的 原 理 是 观 察 未 登 录 词 的 组 成 结 构 信 息, 对 之 进 行 归 纳 总 结, 获 得 可 以 匹 配 到 更 多 未 登 录 词 词 语 结 构 的 规 则 通 过 设 定 的 规 则 模 式 进 行 未 登 录 词 语 义 的 预 测, 实 际 上 是 依 据 未 登 录 词 组 成 字 的 句 法 和 语 义 类 别 来 预 测 未 登 录 词 子 集 的 语 义 类 别 基 于 规 则 的 方 法 是 对 不 同 长 度 的 未 登 录 词 分 别 设 计 不 同 的 规 则 集 例 如 : 对 于 三 字 长 的 未 登 录 词 ABC, 如 果 BC 与 学 家 相 同, 猜 测 ABC 为 SKCC1 的 类 别 具 体 事 物, 如 表 5 所 示 表 5 三 字 词 ABC 规 则 A+ 学 家 举 例 Table 5 Examples of 3-gram words ABC uder A+ expert 词 语 规 则 语 义 类 别 文 学 家 A+BC: 文 + 学 家 具 体 事 物 神 学 家 A+BC: 神 + 学 家 具 体 事 物 农 学 家 A+BC: 农 + 学 家 具 体 事 物 史 学 家 A+BC: 史 + 学 家 具 体 事 物 医 学 家 A+BC: 医 + 学 家 具 体 事 物 4 模 型 实 验 4.1 实 验 语 料 与 预 处 理 实 验 使 用 的 语 料 是 1998 年 1 月 的 人 民 日 报 语 料, 该 语 料 主 要 用 于 抽 选 出 测 试 词 测 试 词 抽 取 条 件 是 : 分 别 从 构 造 的 语 义 词 典 中 随 机 抽 取 ; 存 在 于 1998 年 1 月 的 人 民 日 报 语 料 中 ; 词 语 长 度 为 ~4 个 字 ; 词 语 词 性 为 名 词 对 1998 年 1 月 的 人 民 日 报 语 料 做 如 下 的 预 处 理 : 1) 处 理 为 包 含 词 语 词 性 标 记 和 词 频 信 息 的 格 式 ; ) 过 滤 掉 停 用 词 和 命 名 实 体 ; 3) 抽 取 出 词 性 标 记 为 的 词 语 4. 实 验 与 分 析 从 SKCC1 中 随 机 抽 取 出 3000 个 测 试 词, 这 些 词 语 是 已 知 语 义 类 别 的 词 语, 再 从 SKCC1 中 去 除 这 3000 个 词 语 接 下 来, 基 于 去 除 测 试 词 的 SKCC1, 利 用 构 建 的 模 型 进 行 语 义 预 测, 并 对 比 其 正 确 的 语 义 类 别, 计 算 出 语 义 分 类 的 正 确 率 实 验 1 基 于 重 叠 字 模 型 的 6 个 变 式 的 未 登 录 词 语 义 预 测 正 确 数 和 正 确 率 抽 取 未 登 录 词 的 总 数 为 3000, 实 验 结 果 如 表 6 所 示 结 果 显 示, 这 些 模 型 的 正 确 率 都 较 高, 其 中 最 高 值 是 变 式 a 得 到 的 77.0% 实 验 基 于 字 类 别 关 联 模 型 不 同 统 计 量 的 未 登 录 词 语 义 预 测 正 确 数 和 正 确 率 抽 取 未 登 录 词 的 总 数 为 3000, 实 验 结 果 如 表 7 所 示 结 果 显 示, 统 计 量 MI 和 相 比, 得 到 更 高 的 语 义 预 测 正 确 率, 为 74.3% 实 验 3 基 于 规 则 模 型 的 未 登 录 词 语 义 预 测 正 确 数 和 正 确 率 所 抽 取 的 未 登 录 词 总 数 为 861, 即 在 3000 个 测 试 词 语 中, 模 型 预 测 出 语 义 的 词 语 共 有 861 个, 实 验 结 果 如 表 8 所 示 可 以 看 出, 正 确 表 6 基 于 SKCC1 词 典 的 重 叠 字 模 型 预 测 结 果 Table 6 Predictio results of overlappig words based o SKCC1 dictioary 变 式 名 正 确 数 正 确 率 /% 1a 179 7.6 1b 134 71.1 a 309 77.0 b 1694 56.5 3a 93 76.4 3b 1963 65.4 5
北 京 大 学 学 报 ( 自 然 科 学 版 ) 表 7 基 于 SKCC1 词 典 的 字 类 别 关 联 模 型 预 测 结 果 Table 7 Predictio results based o SKCC1 dictioary uder word-type models 统 计 量 正 确 数 正 确 率 /% MI 170 56.7 χ 30 74.3 表 8 基 于 SKCC1 词 典 的 规 则 模 型 的 未 登 录 词 语 义 预 测 结 果 Table 8 Results of ukow words based o SKCC1 dictioary 有 语 义 返 回 词 数 正 确 数 正 确 率 /% 召 回 率 /% 861 770 89.4 8.7 表 9 基 于 SKCC1 词 典 的 集 成 模 型 语 义 预 测 结 果 Table 9 Results of itergratio models based o SKCC1 正 确 数 正 确 率 /% 337 77.9 率 很 高, 但 是 召 回 率 很 低 实 验 4 多 模 型 的 集 成 由 于 基 于 规 则 的 模 型 得 到 的 预 测 正 确 率 较 高, 但 召 回 率 较 低, 因 此 本 实 验 设 计 基 于 规 则 的 模 型 与 其 他 模 型 的 集 成 集 成 模 型 的 预 测 语 义 由 以 下 两 条 确 定 1) 如 果 能 够 由 基 于 规 则 的 模 型 预 测 出 语 义, 则 将 这 个 语 义 作 为 混 合 模 型 预 测 语 义 ) 如 果 基 于 规 则 的 模 型 不 能 够 给 出 预 测 语 义, 那 么 对 基 于 重 叠 字 模 型 和 基 于 字 类 别 关 联 模 型 的 语 义 预 测 进 行 投 票, 对 投 票 结 果 进 行 排 序, 取 票 数 最 高 的 语 义 类 别 作 为 该 未 登 录 词 的 混 合 模 型 预 测 语 义 集 成 模 型 对 所 抽 取 出 的 3000 个 未 登 录 词 进 行 语 义 预 测, 得 到 的 正 确 数 和 正 确 率 如 表 9 所 示 可 见 集 成 模 型 得 到 较 高 的 正 确 率 (77.9%), 同 时 也 克 服 了 基 于 规 则 模 型 召 回 率 较 低 的 问 题, 获 得 较 好 的 未 登 录 词 语 义 预 测 性 能 5 汉 语 未 登 录 词 语 义 预 测 应 用 在 基 于 不 同 词 典 和 不 同 模 型 对 000 年 人 民 日 报 语 料 的 未 登 录 词 标 注 中, 基 于 规 则 的 模 型 得 到 的 预 测 正 确 率 较 高, 但 是 其 覆 盖 率 较 低 比 如 词 语 股 东 会, 在 基 于 规 则 模 型 中, 基 于 SKCC3 得 到 预 测 语 义 人 ; 该 词 在 字 类 别 关 联 模 型 的 预 测 结 果 为 SKCC3 人, 人 ; 在 重 叠 字 模 型 中, 该 词 语 的 预 测 结 果 为 SKCC3 人 预 测 语 义 都 与 对 应 人 工 标 注 相 同 集 成 模 型 结 合 了 基 于 规 则 的 模 型 与 其 他 模 型, 得 到 较 高 的 正 确 率, 可 见 集 成 模 型 对 基 于 SKCC3 的 语 义 预 测 性 能 较 好 本 文 根 据 基 于 SKCC3 的 集 成 模 型 所 获 得 的 未 登 录 词 预 测 语 义 标 注 到 000 年 人 民 日 报 语 料 中, 所 得 到 的 语 料 示 例 如 表 10 所 示 表 10 的 语 料 示 例 中 共 有 3 个 未 登 录 名 词, 分 别 是 主 景 凹 版 凹 凸 感 其 中, 词 语 凹 凸 感 语 义 预 测 有 误, 正 确 语 义 应 该 为 意 识 而 不 是 情 感, 其 余 两 个 词 语 语 义 预 测 正 确 在 基 于 SKCC 对 000 年 人 民 日 报 语 料 的 研 究 中, 未 登 录 词 的 语 义 可 以 划 分 到 SKCC 第 二 级 和 第 三 级 但 是, 由 于 尚 无 对 000 年 人 民 日 报 语 料 未 登 录 词 语 义 标 注 的 标 准 语 料, 无 法 确 定 未 登 录 词 预 测 语 义 的 正 确 性 针 对 这 个 问 题, 本 文 取 基 于 SKCC 已 标 注 的 第 二 级 语 义 和 第 三 级 语 义 进 行 分 析 假 设 未 登 录 词 W 预 测 出 的 第 三 级 语 义 为 GuessThirdCat(W), GuessThirdCat(W) 在 SKCC 树 型 语 义 结 构 的 上 一 级 语 义 为 SecodCat(W), 预 测 出 的 在 SKCC 中 第 二 级 的 语 义 为 GuessSecodCat(W), 如 果 GuessSecodCat(W) = SecodCat(W), 那 么 认 为 该 未 登 录 词 W 所 预 测 的 二 级 语 义 为 正 确 的 使 用 该 评 估 方 法 可 以 判 定 000 年 人 民 日 报 语 料 中 116 个 未 登 录 词 的 预 测 语 义 正 确, 正 确 率 为 7.% 表 10 基 于 SKCC3 标 注 未 登 录 词 语 义 语 料 示 例 Table 10 Examples of ukow words based o SKCC3 原 始 语 料 0000130-03-009-007/m 正 面 /b 主 景 / 毛 /rf 泽 东 /rg 头 像 /, /wd 采 用 /v 手 工 /d 雕 刻 /v 凹 版 / 印 刷 /v 工 艺 /, /wd 形 象 / 逼 真 /a /wu 传 神 /a /wu 凹 凸 感 / 强 /a ; /wf 标 注 语 料 0000130-03-009-007/m 正 面 /b 主 景 // 人 工 物 毛 /rf 泽 东 /rg 头 像 /, /wd 采 用 /v 手 工 /d 雕 刻 /v 凹 版 // 外 形 印 刷 /v 工 艺 /, /wd 形 象 / 逼 真 /a /wu 传 神 /a /wu 凹 凸 感 // 情 感 强 /a ; /wf 6
尚 芬 芬 等 基 于 现 代 汉 语 语 义 词 典 的 未 登 录 词 语 义 预 测 研 究 6 总 结 与 展 望 本 文 首 次 使 用 现 代 汉 语 语 义 词 典 进 行 汉 语 未 登 录 词 语 义 预 测 的 研 究, 通 过 构 建 的 模 型 对 000 年 人 民 日 报 语 料 的 未 登 录 词 进 行 语 义 预 测 和 标 注, 得 到 具 有 未 登 录 词 语 义 标 注 的 语 料 在 未 来 的 工 作 中, 我 们 将 探 索 改 进 语 义 预 测 方 法, 并 尝 试 将 未 登 录 词 语 义 预 测 拓 展 到 实 际 应 用 中 参 考 文 献 [1] Che H, Li C. Sese-taggig Chiese corpus // Proceedigs of ACL-000 Workshop o Chiese Laguage. Hog Kog, 000: 7 14 [] Che C. Character-sese associatio ad compoudig template similarity: automatic sematic classificatio of Chiese compouds // Proceedigs of the 3rd SIGHAN Workshop o Chiese Laguage Processig. Barceloa, 004: 33 40 [3] Che K, Che C. Automatic sematic classificatio for Chiese ukow compoud ous // Proceedigs of the 18th Iteratioal Coferece o Computatioal Liguistics (COLING). Saarbrücke, 000: 173 179 [4] Lu Xiaofei. Hybrid model for Chiese ukow word resolutio [D]. Ohio: The Ohio State Uiversity, 006 [5] Lu Xiaofei. Hybrid model for sematic classificatio of Chiese ukow words // Proceedigs of North America Chapter of the Associatio for Computatioal Liguistics: Huma Laguage Techologies. Rochester, 007: 188 195 [6] Tseg, H. Sematic classificatio of Chiese ukow words // Proceedigs of the Studet Research Workshop at the 41st Aual Meetig of the Associatio for Computatioal Liguistics (ACL). Sapporo, 003: 7 79 [7] Tseg H, Che K J. Desig of Chiese morphological aalyzer // Proceedigs of the First SIGHAN Workshop o Chiese Laguage Processig. Stroudsburg, 00: 1 7 [8] Qiu Liku, Wu Yufag, Shao Yaqiu. Combiig cotextual ad structural iformatio for supersese taggig of Chiese ukow words // Proceedigs of CICLig, PartⅠ, LNCS 6608. Tokyo, 011: 15 8 [9] Qiu Liku, Zhao Kai, Hu Chagia. A hybrid model for sese guessig of Chiese ukow words // Proceedigs of 3rd Pacific Asia Coferece o Laguage, Iformatio ad Computatio (PACLIC). Hog Kog, 009: 464 473 [10] Che H, Li C. Sese-taggig Chiese corpus // Proceedigs of ACL-000 Workshop o Chiese Laguage. Hog Kog, 000: 7 14 [11] Che K, Che C. Automatic sematic classificatio for Chiese ukow compoud ous // Proceedigs of the 18th Iteratioal Coferece o Computatioal Liguistics (COLING). Saarbrücke, 000: 173 179 [1] Cucerza S. Large-scale amed etity disambiguatio based o wikipedia data // Procedigs of the 007 Joit Coferece o Empirical Methods i Natural Laguage Processig ad Computatioal Natural Laguage Learig. Prague, 007: 708 716 [13] 周 俊 生, 戴 新 宇, 尹 存 燕, 等. 基 于 层 叠 条 件 随 机 场 模 型 的 中 文 机 构 名 自 动 识 别. 电 子 学 报, 006, 34(5): 804 809 [14] 陈 钰 枫, 宗 成 庆, 苏 克 毅. 汉 英 双 语 命 名 实 体 识 别 与 对 齐 的 交 互 式 方 法. 计 算 机 学 报, 011, 34(9): 1688 1696 [15] 冯 元 勇, 孙 乐, 张 大 鲲, 等. 基 于 小 规 模 尾 字 特 征 的 中 文 命 名 实 体 识 别 研 究. 电 子 学 报, 008, 36(9): 1833 1837 [16] Lua K T. Predictio of meaig of bi-syllabic Chiese compoud words usig back propagatio eural etwork. Computatioal Processig of Orietal Laguages, 1997, 11(): 133 144 [17] 张 瑞 霞, 肖 汉. 基 于 知 网 的 词 图 构 造. 华 北 水 利 水 电 学 院 学 报, 008, 9(3): 53 56 [18] 张 瑞 霞, 杨 国 增, 闫 新 庆. 基 于 知 网 的 汉 语 普 通 未 登 录 词 语 义 分 析 模 型. 计 算 机 应 用 与 软 件, 01, 9(8): 16 130 [19] 王 惠, 詹 卫 东, 俞 士 汶. 现 代 汉 语 语 义 词 典 规 格 说 明 书. 汉 语 语 言 与 计 算 学 报, 003, 13(): 159 176 [0] Bai M H, Hsieh Y M, Che K J, et al. Traslatig Chiese ukow words by automatically acquired templates // Proceedigs of the Sixth Iteratioal Joit Coferece o Natural Laguage Processig (IJCNLP). Nagoya, 013: 839 843 7