北 京 大 学 学 报 ( 自 然 科 学 版 ) 多 种 语 义 预 测 模 型, 利 用 现 代 汉 语 语 义 词 典 进 行 未 登 录 词 语 义 预 测, 并 对 000 年 人 民 日 报 语 料 中 的 未 登 录 词 进 行 语 义 预 测 和 标 注 1 相 关 研 究 在 对



Similar documents
何 秋 琳 张 立 春 视 觉 学 习 研 究 进 展 视 觉 注 意 视 觉 感 知

说 明 为 了 反 映 教 运 行 的 基 本 状 态, 为 校 和 院 制 定 相 关 政 策 和 进 行 教 建 设 与 改 革 提 供 据 依 据, 校 从 程 资 源 ( 开 类 别 开 量 规 模 ) 教 师 结 构 程 考 核 等 维 度, 对 2015 年 春 季 期 教 运 行 基

( ) 信 号 与 系 统 Ⅰ 学 科 基 础 必 修 课 教 周 2016 年 06 月 13 日 (08:00-09:35) ( )

龚 亚 夫 在 重 新 思 考 基 础 教 育 英 语 教 学 的 理 念 一 文 中 援 引 的 观 点 认 为 当 跳 出 本 族 语 主 义 的 思 维 定 式 后 需 要 重 新 思 考 许 多 相 连 带 的 问 题 比 如 许 多 发 音 的 细 微 区 别 并 不 影 响 理 解 和


伊 犁 师 范 学 院 611 语 言 学 概 论 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 2-2 语 言 学 纲 要 笔 记, 由 考 取 本 校 本 专 业 高 分 研 究 生 总 结 而 来, 重 点 突 出, 借 助 此 笔 记 可 以 大 大 提 高 复 习 效

,,,,, :,, (.,, );, (, : ), (.., ;. &., ;.. &.., ;, ;, ),,,,,,, ( ) ( ),,,,.,,,,,, : ;, ;,.,,,,, (., : - ),,,, ( ),,,, (, : ),, :,

名 称 生 命 科 学 学 院 环 境 科 学 1 生 物 学 仅 接 收 院 内 调 剂, 初 试 分 数 满 足 我 院 生 物 学 复 试 最 低 分 数 线 生 命 科 学 学 院 生 态 学 5 生 态 学 或 生 物 学 生 命 科 学 学 院


抗 日 战 争 研 究 年 第 期

马 克 思 主 义 公 正 观 的 基 本 向 度 及 方 法 论 原 则!! # #

中 中 中 中 部 中 岗 位 条 件 历 其 它 历 史 师 地 理 师 生 物 师 体 与 健 康 师 从 事 中 历 史 工 从 事 中 地 理 工 从 事 中 生 物 工 从 事 中 体 与 健 康 工 2. 课 程 与 论 ( 历 史 ); 2. 科 ( 历 史 )

<433A5C446F63756D656E E E67735C41646D696E F725CD7C0C3E65CC2DBCEC4CFB5CDB3CAB9D3C3D6B8C4CFA3A8BCF2BBAFA3A95CCAB9D3C3D6B8C4CF31302D31392E646F63>

Microsoft Word - 第7章 图表反转形态.doc

一 公 共 卫 生 硕 士 专 业 学 位 论 文 的 概 述 学 位 论 文 是 对 研 究 生 进 行 科 学 研 究 或 承 担 专 门 技 术 工 作 的 全 面 训 练, 是 培 养 研 究 生 创 新 能 力, 综 合 运 用 所 学 知 识 发 现 问 题, 分 析 问 题 和 解 决

思 想 政 治 理 论 经 核 查 无 误 思 想 政 治 理 论 经 核 查 无 误 思 想 政 治 理 论 经 核 查 无 误 思 想

评 委 : 李 炎 斌 - 个 人 技 术 标 资 信 标 初 步 审 查 明 细 表 序 号 投 标 单 位 投 标 函 未 按 招 标 文 件 规 定 填 写 漏 填 或 内 容 填 写 错 误 的 ; 不 同 投 标 人 的 投 标 文 件 由 同 一 台 电 脑 或 同 一 家 投 标 单

深圳市新亚电子制程股份有限公司


3 月 30 日 在 中 国 证 券 报 上 海 证 券 报 证 券 时 报 证 券 日 报 和 上 海 证 券 交 易 所 网 站 上 发 出 召 开 本 次 股 东 大 会 公 告, 该 公 告 中 载 明 了 召 开 股 东 大 会 的 日 期 网 络 投 票 的 方 式 时 间 以 及 审

珠江钢琴股东大会

课程类 别

Template BR_Rec_2005.dot

2006年顺德区高中阶段学校招生录取分数线

一 开 放 性 的 政 策 与 法 规 二 两 岸 共 同 的 文 化 传 承 三 两 岸 高 校 各 自 具 有 专 业 优 势 远 见 杂 志 年 月 日

浙 江 海 洋 学 院 417 普 通 生 态 学 与 鱼 类 学 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 2-2 基 础 生 态 学 笔 记, 此 笔 记 为 高 分 研 究 生 复 习 所 用, 借 助 此 笔 记 可 以 大 大 提 高 复 习 效 率, 把 握 报

!!!!!!!!!!

随着执业中医师资格考试制度的不断完善,本着为我校中医学专业认证服务的目的,本文通过对我校中医类毕业生参加2012年和2013年的中医执业医师考试成绩及通过率、掌握率进行分析,并与全国的平均水平进行差异比较分析,以此了解我校执业中医师考试的现状,进而反映我校中医类课程总体教学水平,发现考核知识模块教学中存在的不足,反馈给相关学院和教学管理部门,以此提高教学和管理水平。

第 期 李 伟 等 用 方 法 对 中 国 历 史 气 温 数 据 插 值 可 行 性 讨 论

中 国 软 科 学 年 第 期!!!

ETF、分级基金规模、份额变化统计

I

18 上 报 该 学 期 新 生 数 据 至 阳 光 平 台 第 一 学 期 第 四 周 至 第 六 周 19 督 促 学 习 中 心 提 交 新 增 专 业 申 请 第 一 学 期 第 四 周 至 第 八 周 20 编 制 全 国 网 络 统 考 十 二 月 批 次 考 前 模 拟 题 第 一 学

上证指数

抗 战 时 期 国 民 政 府 的 银 行 监 理 体 制 探 析 % # % % % ) % % # # + #, ) +, % % % % % % % %

西 南 民 族 学 院 学 报 哲 学 社 会 科 学 版 第 卷 资 料 来 源 中 国 统 计 年 鉴 年 年 新 中 国 五 十 年 统 计 资 料 汇 编 中 国 人 口 统 计 年 鉴 年 数 据 资 料 来 源 中 国 统 计 年 鉴 中 国 统 计 出 版 社 年 版 资 料 来 源

内 容 二 : 建 立 并 完 善 了 三 点 的 网 络 教 学 管 理 体 系 内 容 三 : 注 重 培 养 学 生 的 听 说 能 力 14

11-24学院

简 报 要 点 ESI 共 有 22 个 学 科 门 类, 江 苏 高 校 目 前 只 有 16 个 学 科 门 类 进 入 了 世 界 1%, 分 别 是 一 般 社 会 科 学 临 床 医 学 农 业 科 学 分 子 生 物 学 和 遗 传 学 动 植 物 科 学 化 学 地 球 科 学 工 程

一 六 年 级 下 册 教 科 书 总 体 说 明 ( 一 ) 教 学 内 容 本 册 教 科 书 一 共 安 排 了 5 个 教 学 单 元, 其 中 前 4 个 单 元 为 新 知 识, 第 五 单 元 是 对 整 个 小 学 阶 段 所 学 数 学 知 识 系 统 的 整 理 和 复 习


Microsoft Word - 文件汇编.doc

<4D F736F F D20B9D8D3DAB0BABBAAA3A8C9CFBAA3A3A9D7D4B6AFBBAFB9A4B3CCB9C9B7DDD3D0CFDEB9ABCBBE C4EAC4EAB6C8B9C9B6ABB4F3BBE1B7A8C2C9D2E2BCFBCAE92E646F6378>

<433A5C C6B73625C B746F705CB9FABCCAD6D0D2BDD2A9D7A8D2B5B8DFBCB6BCBCCAF5D6B0B3C6C6C0C9F3C9EAC7EBD6B8C4CFA3A CDA8D3C3B0E6A3A92E646F63>

评 委 : 徐 岩 宇 - 个 人 技 术 标 资 信 标 初 步 审 查 明 细 表 序 号 投 标 单 位 投 标 函 未 按 招 标 文 件 规 定 填 写 漏 填 或 内 容 填 写 错 误 的 ; 不 同 投 标 人 的 投 标 文 件 由 同 一 台 电 脑 或 同 一 家 投 标 单

002 电 子 科 学 与 工 程 学 院 拟 招 生 150 人 联 系 人 : 周 老 师, 电 话 物 理 电 子 学 电 路 分 析 电 磁 场 理 论 01 电 磁 物 理 与 微 波 电 子 学 02 光 子 学 与 光 电 技 术 03 微 纳


公 开 刊 物 须 有 国 内 统 一 刊 (CN), 发 表 文 章 的 刊 物 需 要 在 国 家 新 闻 出 版 广 电 总 局 ( 办 事 服 务 便 民 查 询 新 闻 出 版 机 构 查 询 ) 上 能 够 查 到 刊 凡 在 有 中 国 标 准 书 公 开

学 年 第 二 学 期 集 中 考 试 安 排 (18 周 ) 考 试 日 期 :6 月 27 日 星 期 一 8:10-9:50 第 二 公 共 教 学 楼 A 区 A 高 等 数 学 ( 理 二 2) 复 材 材 料 科 学 与 工 程


年 第 期 % %! & % % % % % % &

测 谱 学 基 础 宽 波 段 遥 感

<4D F736F F D D323630D6D0B9FAD3A6B6D4C6F8BAF2B1E4BBAFB5C4D5FEB2DFD3EBD0D0B6AF C4EAB6C8B1A8B8E6>

证券代码: 证券简称:长城电脑 公告编号:

!!!!!

中 国 社 会 科 学 年 第 期!!!! ( ( ) % ) ) ) % % % %

小 学 语 文 是 小 学 语 文 是 小 学 语 文 是 小 学 语 文

修改版-操作手册.doc


一 女 儿 国 形 象 历 史 溯 源 二 双 性 同 体 的 新 女 性

( 二 ) 现 行 统 一 高 考 制 度 不 利 于 培 养 人 的 创 新 精 神,,,,,,,,,,,,, [ ],,,,,,,,,,, :, ;,,,,,,? ( 三 ) 现 行 统 一 高 考 制 度 不 利 于 全 体 学 生 都 获 得 全 面 发 展,, [ ],,,,,,,,,,,

境 外 上 市 外 资 股 股 东 持 有 股 份 总 数 (H 股 ) 489,157,907 3 出 席 会 议 的 股 东 所 持 有 表 决 权 股 份 数 占 公 司 有 表 决 权 股 份 总 数 的 其 中 :A 股 股 东 持 股 占 股 份 总 数 的

国 际 中 国 研 究 动 态 是 中 国 社 会 科 学 院 国 际 中 国 学 研 究 中 心 出 品 的 以 介 绍 国 际 中 国 问 题 研 究 最 新 成 果 为 宗 旨 的 电 子 杂 志 计 划 每 月 出 版 一 期 除 编 译 和 摘 编 网 络 和 中 外 期 刊 库 上 可

金 不 少 于 800 万 元, 净 资 产 不 少 于 960 万 元 ; (3) 近 五 年 独 立 承 担 过 单 项 合 同 额 不 少 于 1000 万 元 的 智 能 化 工 程 ( 设 计 或 施 工 或 设 计 施 工 一 体 ) 不 少 于 2 项 ; (4) 近 三 年 每 年

目 录 第 一 部 分 概 况 一 主 要 职 能 二 部 门 预 算 单 位 构 成 第 二 部 分 15 年 部 门 预 算 表 一 15 年 收 支 预 算 总 表 二 15 年 收 入 预 算 表 三 15 年 支 出 预 算 表 ( 按 科 目 ) 四 15 年 支 出 预 算 表 ( 按

HSK( 一 级 ) 考 查 考 生 的 日 常 汉 语 应 用 能 力, 它 对 应 于 国 际 汉 语 能 力 标 准 一 级 欧 洲 语 言 共 同 参 考 框 架 (CEF) A1 级 通 过 HSK( 一 级 ) 的 考 生 可 以 理 解 并 使 用 一 些 非 常 简 单 的 汉 语

中 日 信 息 化 的 比 较 与 合 作 一 中 日 信 息 化 的 规 模 比 较


2.5 选 举 陈 晓 非 女 士 为 第 六 届 董 事 会 董 事 候 选 人 的 议 案 ; 2.6 选 举 卢 婕 女 士 为 第 六 届 董 事 会 董 事 候 选 人 的 议 案 ; 2.7 选 举 张 文 君 先 生 为 第 六 届 董 事 会 独 立 董 事 候 选 人 的 议 案

¹ º ¹ º 农 业 流 动 人 口 是 指 户 口 性 质 为 农 业 户 口 在 流 入 地 城 市 工 作 生 活 居 住 一 个 月 及 以 上 的 流 动 人 口 非 农 流 动 人 口 是 指 户 口 性 质 为 非 农 户 口 在 流 入 地 城 市 工 作 生 活 居 住 一 个

全国建筑市场注册执业人员不良行为记录认定标准(试行).doc


<4D F736F F D20CAAEC8FDCEE5B9E6BBAED7EED6D5B8E5352E33312E646F63>

资 料 来 源 延 边 中 级 人 民 法 院 小 野 和 子 指 出 年 实 施 婚 姻 法 后 的 年 间 中 国 有 万 人 因 婚 姻 问 题 自 杀 或 被 杀 离 婚 自 由 对 社 会 和 家 庭 稳 定 带 来 了 很 大 的 影 响 因 婚 姻 问 题 刑 事 案 件 频 发 已


第二讲 数列


<4D F736F F D20D0A3B7A2A1B A1B BAC5B9D8D3DAD7E9D6AFBFAAD5B9C8ABD0A3BDCCD6B0B9A4B8DACEBBC6B8D3C3B1E4B6AFB9A4D7F7B5C4CDA8D6AA2E646F63>

 编号:

工 程 勘 察 资 质 标 准 根 据 建 设 工 程 勘 察 设 计 管 理 条 例 和 建 设 工 程 勘 察 设 计 资 质 管 理 规 定, 制 定 本 标 准 一 总 则 ( 一 ) 本 标 准 包 括 工 程 勘 察 相 应 专 业 类 型 主 要 专 业 技 术 人 员 配 备 技 术

untitled

类 似 地, 又 可 定 义 变 下 限 的 定 积 分 : ( ). 与 ψ 统 称 为 变 限 积 分. f ( ) d f ( t) dt,, 注 在 变 限 积 分 (1) 与 () 中, 不 可 再 把 积 分 变 量 写 成 的 形 式 ( 例 如 ) 以 免 与 积 分 上 下 限 的

附 件 : 上 海 市 建 筑 施 工 企 业 施 工 现 场 项 目 管 理 机 构 关 键 岗 位 人 员 配 备 指 南 二 一 四 年 九 月 十 一 日 2

103 历 史 文 化 学 院 沈 艳 历 史 教 学 论 0602 中 国 史 01 历 史 文 献 学 02 专 门 史 03 中 国 古 代 史 04 中 国 近 现 代 史 英 语 历 史 学 基 础 01 历 史 文 献 学 02 中 国

研 究 对 象 研 究 角 度 研 究 工 具 数 据 收 集 和 预 处 理 网 络 密 度 与 平 均 距 离 分 析

浙 江 天 册 律 师 事 务 所 关 于 杭 州 电 缆 股 份 有 限 公 司 2015 年 年 度 股 东 大 会 的 法 律 意 见 书 发 文 号 :TCYJS2016H0228 致 : 杭 州 电 缆 股 份 有 限 公 司 根 据 中 华 人 民 共 和 国 证 券 法 ( 下 称 证

《C语言基础入门》课程教学大纲


0 年 上 半 年 评 价 与 考 核 细 则 序 号 部 门 要 素 值 考 核 内 容 考 核 方 式 考 核 标 准 考 核 ( 扣 原 因 ) 考 评 得 3 安 全 生 产 目 30 无 同 等 责 任 以 上 道 路 交 通 亡 人 事 故 无 轻 伤 责 任 事 故 无 重 大 质 量

定 位 和 描 述 : 程 序 设 计 / 办 公 软 件 高 级 应 用 级 考 核 内 容 包 括 计 算 机 语 言 与 基 础 程 序 设 计 能 力, 要 求 参 试 者 掌 握 一 门 计 算 机 语 言, 可 选 类 别 有 高 级 语 言 程 序 设 计 类 数 据 库 编 程 类

年 8 月 11 日, 公 司 召 开 2015 年 第 五 次 临 时 股 东 大 会, 审 议 通 过 了 关 于 公 司 <2015 年 股 票 期 权 激 励 计 划 ( 草 案 )> 及 其 摘 要 的 议 案 关 于 提 请 股 东 大 会 授 权 董 事 会 办 理 公

江 苏 瑞 峰 建 设 集 团 有 限 公 有 限 公 江 苏 鲁 工 建 设 工 程 有 限 公 江 苏 溧 鸿 建 设 有 限 公 江 苏 明 创 科 技 园 发 展 有 限 公 公 公 有 限 公 江 苏 茂 盛 建 设 有 限 公 江 苏 鼎 洪 建 工 有 限 公 富 强 机 电 安 装

第2章 数据类型、常量与变量

一 从 分 封 制 到 郡 县 制 一 从 打 虎 亭 汉 墓 说 起

北 京 德 恒 律 师 事 务 所 关 于 一 汽 轿 车 股 份 有 限 公 司 2012 年 度 股 东 大 会 的 法 律 意 见 致 : 一 汽 轿 车 股 份 有 限 公 司 德 恒 D BJ-02 号 北 京 德 恒 律 师 事 务 所 ( 以 下 简

新, 各 地 各 部 门 ( 单 位 ) 各 文 化 事 业 单 位 要 高 度 重 视, 切 实 加 强 领 导, 精 心 组 织 实 施 要 根 据 事 业 单 位 岗 位 设 置 管 理 的 规 定 和 要 求, 在 深 入 调 查 研 究 广 泛 听 取 意 见 的 基 础 上, 研 究 提

桂 林 理 工 大 学 611 分 析 化 学 ( 含 仪 器 分 析 40%) 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 2-2 分 析 化 学 笔 记, 此 笔 记 为 高 分 研 究 生 复 习 所 用, 借 助 此 笔 记 可 以 大 大 提 高 复 习 效 率,

外语

!!

第 卷 第 辑 高 明 华 蔡 卫 星 曾 诚 股 权 结 构 与 信 息 披 露 质 量 来 自 证 券 分 析 师 盈 余 预 测 特 征 的 证 据!!

Transcription:

http://www.cki.et/kcms/detail/11.44.n.0150930.1533.011.html 北 京 大 学 学 报 ( 自 然 科 学 版 ) Acta Scietiarum Naturalium Uiversitatis Pekiesis doi: 10.1309/.0479-803.016.009 基 于 现 代 汉 语 语 义 词 典 的 未 登 录 词 语 义 预 测 研 究 1, 尚 芬 芬 1,, 顾 彦 慧 3 戴 茹 冰 3 李 斌 1, 周 俊 生 1, 曲 维 光 1. 南 京 师 范 大 学 计 算 机 科 学 与 技 术 学 院, 南 京 1003;. 江 苏 省 信 息 安 全 保 密 技 术 工 程 研 究 中 心, 南 京 1003; 3. 南 京 师 范 大 学 文 学 院, 南 京 10097; 通 信 作 者, E-mail: gu@u.edu.c 摘 要 基 于 现 代 汉 语 语 义 词 典, 首 先 建 立 不 同 语 义 层 次 的 词 典, 根 据 词 典 分 别 构 建 模 型 并 进 行 语 义 预 测, 然 后 将 各 个 模 型 进 行 集 成, 通 过 集 成 模 型 再 对 未 登 录 词 进 行 语 义 预 测, 得 到 较 好 的 预 测 性 能 在 此 基 础 上, 利 用 预 测 模 型 对 000 年 人 民 日 报 语 料 进 行 未 登 录 词 语 义 预 测 和 标 注, 最 终 得 到 带 有 未 登 录 词 语 义 义 项 标 注 的 语 料 资 源 关 键 词 汉 语 未 登 录 词 ; 语 义 预 测 ; 语 义 标 注 ; 集 成 学 习 中 图 分 类 号 TP391 Research o the Sese Guessig of Chiese Ukow Words Based o Sematic Kowledge-base of Moder Chiese SHANG Fefe 1,, GU Yahui 1,,, DAI Rubig 3, Li Bi 3, ZHOU Jusheg 1,, QU Weiguag 1, 1. School of Computer Sciece ad Techology, Naig Normal Uiversity, Naig 1003;. Jiagsu Research Ceter of Iformatio Security & Privacy Techology, Naig 1003; 3. School of Chiese Laguage ad Culture, Naig 10097; Correspodig author, E-mail: gu@u.edu.c Abstract Based o the research issue of sese guessig of Chiese ukow words, differet levels of sematic dictioary have bee itroduced by applyig Sematic Kowledge-base of Moder Chiese. The models have bee costructed ad sese guessig by usig these dictioary. Fially, each model has bee itergrated to predict the ukow words ad obtaied better performace. Sematic predictio ad aotatio of the ukow words i People s Daily which published i 000 based o each model have bee evaluated. Fially, corpus resources with the sese aotatio of ukow words have bee obtaied. Key words Chiese ukow words; sese guessig; sematic aotatio; esemble learig 语 义 问 题 一 直 是 自 然 语 言 处 理 领 域 的 研 究 热 点 文 本 内 容 的 理 解 必 须 建 立 在 对 文 本 中 每 一 个 词 语 的 语 义 理 解 基 础 之 上 然 而, 由 于 大 量 未 登 录 词 的 存 在, 其 语 义 未 知, 文 本 中 没 有 标 注 未 登 录 词 的 句 法 和 语 义 类 别 标 记, 因 此 很 难 做 到 获 取 所 有 词 语 的 语 义, 这 对 很 多 自 然 语 言 处 理 (atural laguage processig, NLP) 技 术 和 其 他 以 语 义 为 基 础 的 研 究 是 一 个 挑 战 汉 语 未 登 录 词 的 语 义 预 测 研 究 可 以 为 未 登 录 词 提 供 语 义 预 测, 从 而 为 研 究 者 提 供 语 义 参 考, 对 许 多 NLP 应 用, 如 机 器 翻 译 信 息 检 索 语 义 分 析 词 典 编 纂 等 都 有 重 要 意 义 汉 语 未 登 录 词 语 义 预 测 的 研 究 难 度 较 大, 因 此 相 关 研 究 工 作 较 少, 除 了 使 用 基 于 知 识 的 模 型 和 基 于 语 料 的 模 型 及 其 混 合 模 型 之 外, 很 少 有 新 的 模 型 提 出 在 已 有 的 研 究 中 使 用 的 词 典 资 源 也 比 较 有 限, 使 用 较 多 的 是 同 义 词 词 林 本 文 通 过 构 建 国 家 自 然 科 学 基 金 (6171, 6147191) 国 家 社 会 科 学 基 金 (11CYY030, 10CYY01) 江 苏 省 社 会 科 学 基 金 (1YYA00) 和 江 苏 省 高 校 自 然 科 学 基 金 (14KJB500) 资 助 收 稿 日 期 : 0150619; 修 回 日 期 : 0150903; 网 络 出 版 时 间 : 015-09-30 15:33:04 1

北 京 大 学 学 报 ( 自 然 科 学 版 ) 多 种 语 义 预 测 模 型, 利 用 现 代 汉 语 语 义 词 典 进 行 未 登 录 词 语 义 预 测, 并 对 000 年 人 民 日 报 语 料 中 的 未 登 录 词 进 行 语 义 预 测 和 标 注 1 相 关 研 究 在 对 汉 语 未 登 录 词 的 语 义 预 测 研 究 中, 学 者 们 先 后 提 出 不 同 的 模 型 方 法, Che 等 [1-3] Lu [4-5] [6-7] [8-9] Tseg 等 以 及 Qiu 等 等 都 为 汉 语 未 登 录 词 语 义 预 测 的 研 究 做 出 贡 献 有 研 究 指 出, 对 于 一 个 8 万 词 的 词 典 而 言, 大 约 有 3.51% 的 未 登 录 词 存 在 [10] 这 些 未 登 录 词 中 包 含 复 合 名 词 51%, 复 合 动 词 34%, 专 业 名 词 只 占 15% [11] 目 前 对 专 业 名 词 已 有 大 量 的 研 究 来 确 定 其 语 义 类 别, 与 只 占 15% 的 专 有 名 词 相 比, 占 85% 的 复 合 词 语 的 语 义 类 别 预 测 研 究 显 得 更 为 重 要 [1-15] 因 此, 近 期 的 研 究 更 多 倾 向 于 未 登 录 词 中 复 合 词 语 的 语 义 猜 测, 比 如 Che 等 [3] 和 Lua [16] 的 研 究 关 于 汉 语 未 登 录 词 语 义 预 测, 现 有 研 究 大 多 采 用 基 于 词 语 结 构 信 息 和 基 于 规 则 的 方 法, 也 有 利 用 未 登 录 词 上 下 文 信 息, 通 过 计 算 与 已 知 词 类 词 语 上 下 文 的 相 似 度 来 进 行 预 测 依 据 模 型 和 算 法 的 不 同, 归 纳 为 以 下 3 种 方 法 1) 基 于 知 识 的 方 法 大 部 分 学 者 对 未 登 录 词 语 义 预 测 的 研 究 基 于 知 识 的 模 型, 使 用 该 方 法 最 早 的 研 究 者 之 一 是 Lua [16], 目 的 是 把 双 音 节 中 文 词 分 类 到 同 义 词 词 林 中 的 大 类 或 者 中 类, 使 用 三 层 反 向 传 播 神 经 网 络, 模 拟 双 音 节 词 的 语 义 类 别 与 其 两 个 组 成 字 的 语 义 类 别 之 间 的 依 赖 性 此 后, 又 发 展 出 [3] 基 于 实 例 的 方 法 以 及 基 于 相 似 度 的 方 法 [] ; 文 献 [4-5] 的 研 究 涉 及 重 叠 字 模 型 字 - 类 别 关 联 模 型 以 及 基 于 规 则 的 模 型 此 外, 还 有 基 于 知 网 的 模 型 [17-18] ) 基 于 语 料 的 方 法 Lu [4-5] 提 出 的 基 于 语 料 的 模 型 是 根 据 未 登 录 词 出 现 的 上 下 文 预 测 其 语 义 类 别, 从 语 料 中 抽 取 出 同 义 词 词 林 中 每 个 语 义 类 别 的 广 义 上 下 文, 再 计 算 未 登 录 词 的 上 下 文 与 每 个 候 选 语 义 类 别 的 广 义 上 下 文 之 间 的 相 似 度, 通 过 相 似 度 的 大 小 来 确 定 未 登 录 词 的 语 义 类 别 3) 基 于 知 识 和 基 于 语 料 的 混 合 方 法 Lu [4-5] 提 出 基 于 知 识 和 基 于 语 料 的 混 合 模 型, 使 用 基 于 知 识 的 模 型 为 每 个 未 登 录 词 提 供 候 选 语 义 类 别, 然 后 从 语 料 中 抽 取 出 同 义 词 词 林 中 每 个 语 义 类 别 的 广 义 上 下 文, 再 计 算 出 未 登 录 词 的 上 下 文 与 每 个 候 选 语 义 类 别 的 广 义 上 下 文 之 间 的 相 似 度 综 观 前 人 研 究 成 果 可 以 发 现, 早 前 的 研 究 主 要 集 中 在 基 于 知 识 的 模 型, 随 后 出 现 加 入 上 下 文 信 息 的 模 型 研 究, 但 效 果 不 是 很 好, 接 着 使 用 基 于 知 识 的 模 型 与 基 于 上 下 文 信 息 松 散 结 合 的 混 合 模 型, 效 果 也 不 理 想 近 期 的 研 究 更 加 紧 密 地 把 未 登 录 词 的 知 识 与 上 下 文 信 息 结 合 成 混 合 模 型, 取 得 较 好 的 预 测 效 果 语 义 资 源 及 词 典 构 建 汉 语 未 登 录 词 语 义 预 测 的 研 究 使 用 较 多 的 语 义 资 源 是 同 义 词 词 林 (Cili), 少 部 分 研 究 中 使 用 知 网 (HowNet), 几 乎 没 有 相 关 研 究 使 用 现 代 汉 语 语 义 词 典 现 代 汉 语 语 义 词 典 拥 有 丰 富 的 语 义 义 项 分 类, 并 且 各 个 义 项 下 有 充 分 的 成 员 词 语, 因 此, 本 文 利 用 该 词 典 进 行 未 登 录 词 语 义 预 测 的 研 究.1 语 义 资 源 介 绍 本 文 未 登 录 词 语 义 预 测 研 究 使 用 的 语 义 资 源 是 现 代 汉 语 语 义 词 典 (The Sematic Kowledgebase of Moder Chiese, SKCC) [19-0], 它 是 一 部 面 向 NLP 的 语 义 知 识 库, 收 录 6.5 万 余 条 汉 语 实 词 作 为 综 合 型 语 言 知 识 库 (Comprehesive Laguage Kowledge Base, CLKB) 的 一 部 分, SKCC 广 泛 应 用 于 计 算 词 汇 语 义 学 的 基 础 研 究 和 应 用 研 究 中 SKCC 采 用 Microsoft Access 数 据 库 实 现, 其 中 包 含 全 部 词 语 的 总 库 1 个, 每 类 词 语 ( 实 词 ) 各 建 一 库, 每 个 库 文 件 中 都 包 含 词 语 和 其 语 义 的 关 系 由 于 名 词 库 的 分 类 较 为 详 细, 因 此 本 文 主 要 研 究 名 词 库 的 词 语 根 据 SKCC 名 词 库 的 语 义 分 类, 可 以 分 五 级 对 语 义 词 典 SKCC 名 词 库 中 不 同 语 义 层 次 的 词 语 数 目 进 行 统 计, 如 表 1 所 示 表 1 语 义 词 典 SKCC 名 词 库 中 不 同 语 义 层 次 的 词 语 数 目 Table 1 Word umber of SKCC Sematic dictioary uder differet sematic level 语 义 层 数 包 含 词 语 数 目 1 396 80 3 641 4 111 5 9553

尚 芬 芬 等 基 于 现 代 汉 语 语 义 词 典 的 未 登 录 词 语 义 预 测 研 究. 词 典 构 建 利 用 SKCC 进 行 未 登 录 词 语 义 预 测 属 于 基 于 词 典 的 方 法, 是 根 据 词 典 中 词 语 的 信 息 构 造 预 测 模 型 这 里 需 要 词 典 中 词 语 位 于 词 典 树 型 结 构 的 同 一 语 义 层 次, 才 便 于 统 计 每 个 语 义 类 别 中 的 词 语 信 息 SKCC 的 语 义 体 系 呈 现 树 型 结 构, 但 是 语 义 词 典 SKCC 名 词 库 中 的 词 语 并 不 是 全 都 划 分 到 树 型 结 构 的 最 底 层, 而 是 划 分 到 不 同 的 语 义 层 次, 这 样 不 便 于 语 义 分 类 (SKCC 名 词 库 的 部 分 树 结 构 如 图 1 所 示 ) 因 此, 先 构 造 出 语 义 类 别 的 树 型 结 构, 再 将 所 有 词 语 都 归 为 第 一 级 来 构 造 词 典 由 于 划 分 到 第 一 级 语 义 类 别 粒 度 较 大, 因 此 再 将 词 语 尽 量 ( 这 里 尽 量 指 当 词 语 无 法 向 下 级 语 义 划 分 时, 则 将 该 词 去 除 ) 归 为 第 二 级 和 第 三 级, 由 第 二 级 和 第 三 级 词 语 信 息 构 造 词 典 本 文 分 别 构 建 3 个 SKCC 词 典..1 第 一 级 语 义 类 别 SKCC1 将 SKCC 中 所 有 词 语 都 归 为 第 一 级 语 义 类 别 汇 总, 记 为 SKCC1 第 一 级 的 各 个 语 义 类 别 所 包 含 的 词 语 数 目 如 表 所 示.. 第 二 级 语 义 类 别 SKCC 语 义 词 典 SKCC 的 词 语 划 分 到 第 二 级 语 义 类 别 中 所 构 造 的 词 典, 记 为 SKCC 构 造 语 义 词 典 SKCC 时, 语 义 词 典 SKCC 的 词 语 语 义 类 别 向 上 划 分 全 部 可 以 划 分 到 父 节 点, 也 就 是 第 一 级 语 义 类 别 中, 但 是 如 果 划 分 到 第 二 级 语 义 类 别 中 时, 所 有 归 属 于 第 一 级 语 义 类 别 的 词 语 就 无 法 向 下 划 分 到 第 二 级 的 语 义 类 别 中 因 此, 基 于 SKCC 词 典 的 研 表 SKCC1 的 各 个 语 义 类 别 词 语 数 目 Table Word umber uder differet sematic level of SKCC1 类 别 名 词 数 过 程 1908 时 间 906 抽 象 事 物 8643 空 间 3195 具 体 事 物 5149 究 只 包 含 属 于 二 级 及 以 下 类 别 的 词 语, 并 且 把 这 些 词 语 都 向 上 划 分 到 第 二 级 父 节 点 上 的 词 语 第 二 级 语 义 类 别 分 为 16 个 SKCC 名 词 库 划 到 第 二 级 的 16 个 语 义 类 别 的 词 语 数 目 如 表 3 所 示..3 第 三 级 语 义 类 别 SKCC3 语 义 词 典 SKCC 的 词 语 划 分 到 第 三 级 语 义 类 别 中 所 构 造 的 词 典, 记 为 SKCC3 将 词 语 划 归 到 第 三 级 语 义 层 次 时, 所 有 归 属 于 第 一 级 和 第 二 级 语 义 类 别 的 词 语 由 于 所 属 语 义 节 点 层 次 高, 难 以 向 下 划 分 到 第 三 级 的 语 义 类 别 中 因 此, 在 基 于 SKCC3 词 典 的 研 究 只 包 含 属 于 三 级 及 以 下 类 别 的 表 3 SKCC 的 各 个 语 义 类 别 及 类 别 下 词 语 数 目 Table 3 Word umber uder differet sematic level of SKCC 类 别 词 数 方 位 10 心 理 特 征 691 Fig. 1 矩 形 表 示 语 义 类 别, 椭 圆 形 表 示 词 语 图 1 SKCC 中 语 义 类 别 和 词 语 结 构 Sematic category ad word structure i SKCC 领 域 75 相 对 时 间 669 非 生 物 1541 构 件 1474 动 机 39 自 然 现 象 17 生 理 669 信 息 757 绝 对 时 间 109 属 性 944 法 规 318 生 物 838 事 件 1657 处 所 49 3

北 京 大 学 学 报 ( 自 然 科 学 版 ) 表 4 SKCC3 的 各 个 语 义 类 别 及 类 别 下 词 语 数 目 Table 4 Word umber uder differet sematic level of SKCC3 词 数 自 然 物 003 颜 色 88 外 形 307 身 体 构 件 1040 人 593 情 感 10 意 识 574 植 物 1155 模 糊 属 性 35 量 化 属 性 448 微 生 物 76 可 听 现 象 35 非 生 物 构 件 0 排 泄 物 100 可 视 现 象 108 动 物 1063 人 工 物 1811 词 语, 并 且 把 这 些 词 语 都 向 上 划 分 到 第 三 级 父 节 点 上 第 三 级 语 义 类 别 分 为 17 个, 具 体 语 义 类 别 和 词 语 数 目 如 表 4 所 示 其 中, 语 义 类 别 非 生 物 构 件 的 词 数 为 0, 原 因 是 词 语 划 分 到 其 祖 先 类 别 中, 该 类 别 没 有 词 语 和 子 类 别 3 模 型 构 建 根 据 词 典 词 语 信 息, 分 别 构 建 基 于 重 叠 字 的 模 型 基 于 字 - 类 别 关 联 的 模 型 基 于 规 则 的 模 型 3.1 基 于 重 叠 字 的 模 型 根 据 现 代 汉 语 的 构 词 规 则, 大 多 数 新 词 的 语 义 都 与 其 组 成 词 素 相 关, 两 者 之 间 有 着 相 同 或 者 相 近 的 语 义, 不 同 词 语 共 享 相 同 的 组 成 词 素 极 为 常 见, 因 此 利 用 词 语 组 成 词 素 相 重 叠 的 知 识 可 以 更 好 地 预 测 新 构 成 词 语 的 语 义 义 项 重 叠 字 模 型 通 过 计 算 未 登 录 词 与 每 个 语 义 类 别 成 员 词 的 重 叠 字 个 数 来 预 测 未 登 录 词 的 语 义 类 别 对 于 Cili 中 的 每 个 语 义 类 别, 抽 取 出 其 成 员 词 的 所 有 不 重 复 的 字, 并 且 统 计 出 每 个 字 出 现 在 词 头 词 中 词 尾 的 总 频 数 根 据 这 些 信 息, 提 出 3 对 变 式 在 每 一 对 变 式 中, 变 式 a 通 过 计 算 类 别 和 未 登 录 词 的 重 叠 字 的 数 目, 计 算 出 未 登 录 词 的 一 个 类 别 的 得 分 相 应 地, 变 式 b 计 算 上 述 分 数 的 一 个 带 权 值 的 或 归 一 化 的 副 本 这 些 变 式 中, Score(Cat, w) 表 示 分 配 类 别 Cat 为 未 登 录 词 类 别 的 得 分 ; 代 表 未 登 录 词 w 的 长 度 ; c i 代 表 未 登 录 词 w 的 第 i 个 字 ; P i 表 示 第 i 个 字 c i 在 词 w 中 的 位 置, 包 括 { 词 头, 词 中, 词 尾 }; f(c i ) 表 示 类 别 Cat 中 第 i 个 字 的 全 部 频 率 ; f(c i, p i ) 表 示 在 Cat 中 位 于 p i 的 c i 的 频 率 ; N 表 示 在 Cat 中 的 字 的 总 数 ; N pi 表 示 在 类 别 Cat 中, 位 于 位 置 p i 的 字 的 总 数 ; N w 表 示 在 类 别 Cat 中 词 的 总 数 变 式 1: 变 式 1a 中, 类 别 的 得 分 是 这 个 类 别 中 未 登 录 词 的 每 个 组 成 字 出 现 次 数 的 总 和 ; 变 式 1b 中, 每 个 次 数 都 由 类 别 中 字 的 总 数 加 权 得 到 变 式 1a: 变 式 1b: Score (Cat, w) f( c ), (1) f ( ci ) Score (Cat, w) N () 变 式 : 变 式 a 中, 类 别 的 得 分 是 这 个 类 别 中 未 登 录 词 的 每 个 组 成 字 在 未 登 录 词 的 相 应 位 置 出 现 次 数 的 总 和 ; 变 式 b 中, 每 个 次 数 由 类 别 中 字 在 未 登 录 词 相 应 位 置 出 现 的 总 数 加 权 得 到 变 式 a: 变 式 b: Score (Cat, w) f( c, p ), (3) f ( ci, pi) Score (Cat, w) N (4) 变 式 3: 变 式 3a 中, 类 别 的 得 分 是 这 个 类 别 中 未 登 录 词 的 尾 字 c 在 未 登 录 词 的 词 尾 p 出 现 的 数 的 总 和 ; 变 式 3b 中, 得 分 是 由 类 别 中 所 有 词 总 数 加 权 得 到 变 式 3a: Score (Cat, w) f( c, p ), (5) 变 式 3b: f ( c, p) Score (Cat, w) (6) N 变 式 1 用 最 直 接 的 方 法 得 到 重 叠 字 语 义 的 预 测, 变 式 与 每 个 组 成 字 在 未 登 录 词 和 类 别 的 成 员 词 中 出 现 的 位 置 相 关, 变 式 3 只 考 虑 未 登 录 词 的 最 后 一 个 字 和 每 个 类 别 成 员 词 的 最 后 一 个 字 每 一 个 变 式, 得 分 最 高 的 类 别 被 推 荐 为 未 登 录 词 的 类 别 3. 基 于 字 类 别 关 联 的 模 型 字 - 类 别 关 联 模 型 (Character-Category Associatio Model) 采 用 多 种 复 杂 的 信 息 理 论 模 型 来 估 算 词 语 组 成 字 与 语 义 类 别 之 间 的 关 联, 再 估 算 词 i pi w i i 4

尚 芬 芬 等 基 于 现 代 汉 语 语 义 词 典 的 未 登 录 词 语 义 预 测 研 究 语 与 语 义 类 别 之 间 的 关 联, 为 未 登 录 词 预 测 合 适 的 语 义 字 - 类 别 关 联 模 型 计 算 字 与 语 义 类 别 之 间 的 关 联 值 使 用 的 统 计 量 包 括 互 信 息 和, 如 式 (7)~(9) 所 示 : P (Char,Cat ), (7) Asso MI(Char, Cat ) log P (Char)P(Cat ) (Char, Cat ) Asso (Char, Cat ), (8) Max (Char, Cat ) ( Char, Cat ) k f (Char, Cat ) (9) f(char) f(cat ) 其 中, Asso(Char, Cat ) 表 示 字 符 Char 与 语 义 类 别 Cat 的 关 联, P(x) 和 f(x) 分 别 表 示 x 的 概 率 和 频 率 计 算 出 字 类 关 联 后, 词 类 关 联 就 可 以 通 过 对 类 别 和 词 的 每 个 组 成 字 的 关 联 加 权 求 和 计 算 出 来, 如 式 (10) 所 示 : W Asso(W, Cat ) Asso (Char, Cat ), (10) i 其 中, Char i 表 示 词 W 的 第 i 个 字 符, W 表 示 词 W 的 长 度, λ i 表 示 Char i 与 Cat 之 间 关 联 的 权 重 λ i 的 和 为 1 3.3 基 于 规 则 的 模 型 基 于 规 则 模 型 的 原 理 是 观 察 未 登 录 词 的 组 成 结 构 信 息, 对 之 进 行 归 纳 总 结, 获 得 可 以 匹 配 到 更 多 未 登 录 词 词 语 结 构 的 规 则 通 过 设 定 的 规 则 模 式 进 行 未 登 录 词 语 义 的 预 测, 实 际 上 是 依 据 未 登 录 词 组 成 字 的 句 法 和 语 义 类 别 来 预 测 未 登 录 词 子 集 的 语 义 类 别 基 于 规 则 的 方 法 是 对 不 同 长 度 的 未 登 录 词 分 别 设 计 不 同 的 规 则 集 例 如 : 对 于 三 字 长 的 未 登 录 词 ABC, 如 果 BC 与 学 家 相 同, 猜 测 ABC 为 SKCC1 的 类 别 具 体 事 物, 如 表 5 所 示 表 5 三 字 词 ABC 规 则 A+ 学 家 举 例 Table 5 Examples of 3-gram words ABC uder A+ expert 词 语 规 则 语 义 类 别 文 学 家 A+BC: 文 + 学 家 具 体 事 物 神 学 家 A+BC: 神 + 学 家 具 体 事 物 农 学 家 A+BC: 农 + 学 家 具 体 事 物 史 学 家 A+BC: 史 + 学 家 具 体 事 物 医 学 家 A+BC: 医 + 学 家 具 体 事 物 4 模 型 实 验 4.1 实 验 语 料 与 预 处 理 实 验 使 用 的 语 料 是 1998 年 1 月 的 人 民 日 报 语 料, 该 语 料 主 要 用 于 抽 选 出 测 试 词 测 试 词 抽 取 条 件 是 : 分 别 从 构 造 的 语 义 词 典 中 随 机 抽 取 ; 存 在 于 1998 年 1 月 的 人 民 日 报 语 料 中 ; 词 语 长 度 为 ~4 个 字 ; 词 语 词 性 为 名 词 对 1998 年 1 月 的 人 民 日 报 语 料 做 如 下 的 预 处 理 : 1) 处 理 为 包 含 词 语 词 性 标 记 和 词 频 信 息 的 格 式 ; ) 过 滤 掉 停 用 词 和 命 名 实 体 ; 3) 抽 取 出 词 性 标 记 为 的 词 语 4. 实 验 与 分 析 从 SKCC1 中 随 机 抽 取 出 3000 个 测 试 词, 这 些 词 语 是 已 知 语 义 类 别 的 词 语, 再 从 SKCC1 中 去 除 这 3000 个 词 语 接 下 来, 基 于 去 除 测 试 词 的 SKCC1, 利 用 构 建 的 模 型 进 行 语 义 预 测, 并 对 比 其 正 确 的 语 义 类 别, 计 算 出 语 义 分 类 的 正 确 率 实 验 1 基 于 重 叠 字 模 型 的 6 个 变 式 的 未 登 录 词 语 义 预 测 正 确 数 和 正 确 率 抽 取 未 登 录 词 的 总 数 为 3000, 实 验 结 果 如 表 6 所 示 结 果 显 示, 这 些 模 型 的 正 确 率 都 较 高, 其 中 最 高 值 是 变 式 a 得 到 的 77.0% 实 验 基 于 字 类 别 关 联 模 型 不 同 统 计 量 的 未 登 录 词 语 义 预 测 正 确 数 和 正 确 率 抽 取 未 登 录 词 的 总 数 为 3000, 实 验 结 果 如 表 7 所 示 结 果 显 示, 统 计 量 MI 和 相 比, 得 到 更 高 的 语 义 预 测 正 确 率, 为 74.3% 实 验 3 基 于 规 则 模 型 的 未 登 录 词 语 义 预 测 正 确 数 和 正 确 率 所 抽 取 的 未 登 录 词 总 数 为 861, 即 在 3000 个 测 试 词 语 中, 模 型 预 测 出 语 义 的 词 语 共 有 861 个, 实 验 结 果 如 表 8 所 示 可 以 看 出, 正 确 表 6 基 于 SKCC1 词 典 的 重 叠 字 模 型 预 测 结 果 Table 6 Predictio results of overlappig words based o SKCC1 dictioary 变 式 名 正 确 数 正 确 率 /% 1a 179 7.6 1b 134 71.1 a 309 77.0 b 1694 56.5 3a 93 76.4 3b 1963 65.4 5

北 京 大 学 学 报 ( 自 然 科 学 版 ) 表 7 基 于 SKCC1 词 典 的 字 类 别 关 联 模 型 预 测 结 果 Table 7 Predictio results based o SKCC1 dictioary uder word-type models 统 计 量 正 确 数 正 确 率 /% MI 170 56.7 χ 30 74.3 表 8 基 于 SKCC1 词 典 的 规 则 模 型 的 未 登 录 词 语 义 预 测 结 果 Table 8 Results of ukow words based o SKCC1 dictioary 有 语 义 返 回 词 数 正 确 数 正 确 率 /% 召 回 率 /% 861 770 89.4 8.7 表 9 基 于 SKCC1 词 典 的 集 成 模 型 语 义 预 测 结 果 Table 9 Results of itergratio models based o SKCC1 正 确 数 正 确 率 /% 337 77.9 率 很 高, 但 是 召 回 率 很 低 实 验 4 多 模 型 的 集 成 由 于 基 于 规 则 的 模 型 得 到 的 预 测 正 确 率 较 高, 但 召 回 率 较 低, 因 此 本 实 验 设 计 基 于 规 则 的 模 型 与 其 他 模 型 的 集 成 集 成 模 型 的 预 测 语 义 由 以 下 两 条 确 定 1) 如 果 能 够 由 基 于 规 则 的 模 型 预 测 出 语 义, 则 将 这 个 语 义 作 为 混 合 模 型 预 测 语 义 ) 如 果 基 于 规 则 的 模 型 不 能 够 给 出 预 测 语 义, 那 么 对 基 于 重 叠 字 模 型 和 基 于 字 类 别 关 联 模 型 的 语 义 预 测 进 行 投 票, 对 投 票 结 果 进 行 排 序, 取 票 数 最 高 的 语 义 类 别 作 为 该 未 登 录 词 的 混 合 模 型 预 测 语 义 集 成 模 型 对 所 抽 取 出 的 3000 个 未 登 录 词 进 行 语 义 预 测, 得 到 的 正 确 数 和 正 确 率 如 表 9 所 示 可 见 集 成 模 型 得 到 较 高 的 正 确 率 (77.9%), 同 时 也 克 服 了 基 于 规 则 模 型 召 回 率 较 低 的 问 题, 获 得 较 好 的 未 登 录 词 语 义 预 测 性 能 5 汉 语 未 登 录 词 语 义 预 测 应 用 在 基 于 不 同 词 典 和 不 同 模 型 对 000 年 人 民 日 报 语 料 的 未 登 录 词 标 注 中, 基 于 规 则 的 模 型 得 到 的 预 测 正 确 率 较 高, 但 是 其 覆 盖 率 较 低 比 如 词 语 股 东 会, 在 基 于 规 则 模 型 中, 基 于 SKCC3 得 到 预 测 语 义 人 ; 该 词 在 字 类 别 关 联 模 型 的 预 测 结 果 为 SKCC3 人, 人 ; 在 重 叠 字 模 型 中, 该 词 语 的 预 测 结 果 为 SKCC3 人 预 测 语 义 都 与 对 应 人 工 标 注 相 同 集 成 模 型 结 合 了 基 于 规 则 的 模 型 与 其 他 模 型, 得 到 较 高 的 正 确 率, 可 见 集 成 模 型 对 基 于 SKCC3 的 语 义 预 测 性 能 较 好 本 文 根 据 基 于 SKCC3 的 集 成 模 型 所 获 得 的 未 登 录 词 预 测 语 义 标 注 到 000 年 人 民 日 报 语 料 中, 所 得 到 的 语 料 示 例 如 表 10 所 示 表 10 的 语 料 示 例 中 共 有 3 个 未 登 录 名 词, 分 别 是 主 景 凹 版 凹 凸 感 其 中, 词 语 凹 凸 感 语 义 预 测 有 误, 正 确 语 义 应 该 为 意 识 而 不 是 情 感, 其 余 两 个 词 语 语 义 预 测 正 确 在 基 于 SKCC 对 000 年 人 民 日 报 语 料 的 研 究 中, 未 登 录 词 的 语 义 可 以 划 分 到 SKCC 第 二 级 和 第 三 级 但 是, 由 于 尚 无 对 000 年 人 民 日 报 语 料 未 登 录 词 语 义 标 注 的 标 准 语 料, 无 法 确 定 未 登 录 词 预 测 语 义 的 正 确 性 针 对 这 个 问 题, 本 文 取 基 于 SKCC 已 标 注 的 第 二 级 语 义 和 第 三 级 语 义 进 行 分 析 假 设 未 登 录 词 W 预 测 出 的 第 三 级 语 义 为 GuessThirdCat(W), GuessThirdCat(W) 在 SKCC 树 型 语 义 结 构 的 上 一 级 语 义 为 SecodCat(W), 预 测 出 的 在 SKCC 中 第 二 级 的 语 义 为 GuessSecodCat(W), 如 果 GuessSecodCat(W) = SecodCat(W), 那 么 认 为 该 未 登 录 词 W 所 预 测 的 二 级 语 义 为 正 确 的 使 用 该 评 估 方 法 可 以 判 定 000 年 人 民 日 报 语 料 中 116 个 未 登 录 词 的 预 测 语 义 正 确, 正 确 率 为 7.% 表 10 基 于 SKCC3 标 注 未 登 录 词 语 义 语 料 示 例 Table 10 Examples of ukow words based o SKCC3 原 始 语 料 0000130-03-009-007/m 正 面 /b 主 景 / 毛 /rf 泽 东 /rg 头 像 /, /wd 采 用 /v 手 工 /d 雕 刻 /v 凹 版 / 印 刷 /v 工 艺 /, /wd 形 象 / 逼 真 /a /wu 传 神 /a /wu 凹 凸 感 / 强 /a ; /wf 标 注 语 料 0000130-03-009-007/m 正 面 /b 主 景 // 人 工 物 毛 /rf 泽 东 /rg 头 像 /, /wd 采 用 /v 手 工 /d 雕 刻 /v 凹 版 // 外 形 印 刷 /v 工 艺 /, /wd 形 象 / 逼 真 /a /wu 传 神 /a /wu 凹 凸 感 // 情 感 强 /a ; /wf 6

尚 芬 芬 等 基 于 现 代 汉 语 语 义 词 典 的 未 登 录 词 语 义 预 测 研 究 6 总 结 与 展 望 本 文 首 次 使 用 现 代 汉 语 语 义 词 典 进 行 汉 语 未 登 录 词 语 义 预 测 的 研 究, 通 过 构 建 的 模 型 对 000 年 人 民 日 报 语 料 的 未 登 录 词 进 行 语 义 预 测 和 标 注, 得 到 具 有 未 登 录 词 语 义 标 注 的 语 料 在 未 来 的 工 作 中, 我 们 将 探 索 改 进 语 义 预 测 方 法, 并 尝 试 将 未 登 录 词 语 义 预 测 拓 展 到 实 际 应 用 中 参 考 文 献 [1] Che H, Li C. Sese-taggig Chiese corpus // Proceedigs of ACL-000 Workshop o Chiese Laguage. Hog Kog, 000: 7 14 [] Che C. Character-sese associatio ad compoudig template similarity: automatic sematic classificatio of Chiese compouds // Proceedigs of the 3rd SIGHAN Workshop o Chiese Laguage Processig. Barceloa, 004: 33 40 [3] Che K, Che C. Automatic sematic classificatio for Chiese ukow compoud ous // Proceedigs of the 18th Iteratioal Coferece o Computatioal Liguistics (COLING). Saarbrücke, 000: 173 179 [4] Lu Xiaofei. Hybrid model for Chiese ukow word resolutio [D]. Ohio: The Ohio State Uiversity, 006 [5] Lu Xiaofei. Hybrid model for sematic classificatio of Chiese ukow words // Proceedigs of North America Chapter of the Associatio for Computatioal Liguistics: Huma Laguage Techologies. Rochester, 007: 188 195 [6] Tseg, H. Sematic classificatio of Chiese ukow words // Proceedigs of the Studet Research Workshop at the 41st Aual Meetig of the Associatio for Computatioal Liguistics (ACL). Sapporo, 003: 7 79 [7] Tseg H, Che K J. Desig of Chiese morphological aalyzer // Proceedigs of the First SIGHAN Workshop o Chiese Laguage Processig. Stroudsburg, 00: 1 7 [8] Qiu Liku, Wu Yufag, Shao Yaqiu. Combiig cotextual ad structural iformatio for supersese taggig of Chiese ukow words // Proceedigs of CICLig, PartⅠ, LNCS 6608. Tokyo, 011: 15 8 [9] Qiu Liku, Zhao Kai, Hu Chagia. A hybrid model for sese guessig of Chiese ukow words // Proceedigs of 3rd Pacific Asia Coferece o Laguage, Iformatio ad Computatio (PACLIC). Hog Kog, 009: 464 473 [10] Che H, Li C. Sese-taggig Chiese corpus // Proceedigs of ACL-000 Workshop o Chiese Laguage. Hog Kog, 000: 7 14 [11] Che K, Che C. Automatic sematic classificatio for Chiese ukow compoud ous // Proceedigs of the 18th Iteratioal Coferece o Computatioal Liguistics (COLING). Saarbrücke, 000: 173 179 [1] Cucerza S. Large-scale amed etity disambiguatio based o wikipedia data // Procedigs of the 007 Joit Coferece o Empirical Methods i Natural Laguage Processig ad Computatioal Natural Laguage Learig. Prague, 007: 708 716 [13] 周 俊 生, 戴 新 宇, 尹 存 燕, 等. 基 于 层 叠 条 件 随 机 场 模 型 的 中 文 机 构 名 自 动 识 别. 电 子 学 报, 006, 34(5): 804 809 [14] 陈 钰 枫, 宗 成 庆, 苏 克 毅. 汉 英 双 语 命 名 实 体 识 别 与 对 齐 的 交 互 式 方 法. 计 算 机 学 报, 011, 34(9): 1688 1696 [15] 冯 元 勇, 孙 乐, 张 大 鲲, 等. 基 于 小 规 模 尾 字 特 征 的 中 文 命 名 实 体 识 别 研 究. 电 子 学 报, 008, 36(9): 1833 1837 [16] Lua K T. Predictio of meaig of bi-syllabic Chiese compoud words usig back propagatio eural etwork. Computatioal Processig of Orietal Laguages, 1997, 11(): 133 144 [17] 张 瑞 霞, 肖 汉. 基 于 知 网 的 词 图 构 造. 华 北 水 利 水 电 学 院 学 报, 008, 9(3): 53 56 [18] 张 瑞 霞, 杨 国 增, 闫 新 庆. 基 于 知 网 的 汉 语 普 通 未 登 录 词 语 义 分 析 模 型. 计 算 机 应 用 与 软 件, 01, 9(8): 16 130 [19] 王 惠, 詹 卫 东, 俞 士 汶. 现 代 汉 语 语 义 词 典 规 格 说 明 书. 汉 语 语 言 与 计 算 学 报, 003, 13(): 159 176 [0] Bai M H, Hsieh Y M, Che K J, et al. Traslatig Chiese ukow words by automatically acquired templates // Proceedigs of the Sixth Iteratioal Joit Coferece o Natural Laguage Processig (IJCNLP). Nagoya, 013: 839 843 7