本 体 上 下 位 关 系 在 招 生 问 答 机 器 人 中 的 * 应 用 研 究 余 昕 聪 1,2 李 红 莲 1 吕 学 强 1 ( 北 京 信 息 科 技 大 学 信 息 与 通 信 工 程 学 院 北 京 100101) 2 2 ( 北 京 信 息 科 技 大 学 网 络 文 化 与 数 字 传 播 北 京 市 重 点 实 验 室 北 京 100101) 摘 要 : 目 的 提 高 问 答 系 统 准 确 率, 提 升 目 前 问 答 系 统 的 满 意 度 应 用 背 景 在 自 然 语 言 处 理 领 域, 问 答 系 统 已 成 为 一 个 重 要 研 究 热 点, 但 现 阶 段 问 答 系 统 的 准 确 率 较 低 方 法 对 智 能 聊 天 机 器 人 ALICE 源 码 进 行 分 析 研 究, 并 对 其 进 行 二 次 开 发, 加 入 中 文 分 词, 在 其 内 部 推 理 分 析 的 基 础 上, 提 出 一 种 利 用 本 体 上 下 位 关 系 对 用 户 查 询 问 题 的 推 荐 方 法 结 果 将 领 域 本 体 库 融 入 到 ALICE 机 器 人 中, 对 用 户 问 题 进 行 分 析, 并 从 中 提 取 关 键 词, 从 本 体 库 中 查 询 所 提 取 的 相 关 关 键 词, 得 出 与 用 户 提 问 相 匹 配 的 答 案 并 推 荐 给 用 户 结 论 实 验 结 果 证 明, 加 入 本 体 的 推 荐 结 果 后, 用 户 满 意 度 有 较 大 提 升 关 键 词 : 问 答 系 统 ALICE 中 文 分 词 上 下 位 关 系 用 户 推 荐 分 类 号 : TP393 G35 1 引 言 随 着 高 校 生 源 的 不 断 增 加, 考 生 通 常 利 用 高 校 的 招 生 咨 询 平 台 更 全 面 地 了 解 学 校 的 资 源 配 置 招 生 计 划 报 考 要 求 等 信 息 高 校 可 以 全 方 位 地 展 示 学 校 实 力 与 水 平, 让 考 生 家 长 和 社 会 更 多 地 了 解 学 校, 从 而 争 取 到 更 多 更 好 的 生 源 然 而 传 统 的 招 生 咨 询 工 作 面 临 着 许 多 问 题, 例 如 大 部 分 考 生 或 家 长 咨 询 的 问 题 都 类 似, 客 服 人 员 重 复 性 的 工 作 浪 费 了 许 多 人 力 财 力 和 时 间 资 源 随 着 自 然 语 言 处 理 技 术 的 深 入 发 展 与 研 究, 招 生 问 答 领 域 的 自 动 问 答 机 器 人 应 运 而 生 目 前 的 对 话 机 器 人, 其 处 理 问 题 的 基 本 流 程 是 : 获 取 用 户 问 题 对 用 户 问 题 进 行 分 析 并 获 取 用 户 意 图 从 语 料 库 中 选 择 相 应 的 问 题 答 案 然 而 当 前 的 问 答 机 器 人 的 模 式 是 一 问 一 答, 结 构 单 一 ; 而 且 通 常 由 于 语 料 规 模 的 限 制 以 及 对 用 户 查 询 意 图 的 推 测 不 准 确 等 问 题, 并 不 能 对 所 有 的 问 题 给 出 回 答 结 果, 也 没 有 给 出 相 关 联 的 推 荐 内 容 本 研 究 针 对 招 生 问 答 领 域 的 人 机 问 答 系 统 存 在 的 一 些 不 足, 将 ALICE 开 源 聊 天 机 器 人 进 行 二 次 开 发, 并 利 用 构 建 的 领 域 本 体 的 上 下 位 关 系 对 用 户 所 提 问 题 进 行 用 户 意 图 挖 掘, 进 而 给 出 相 关 内 容 推 荐, 使 得 考 生 在 没 有 获 取 到 相 关 问 题 答 案 时 也 能 得 到 一 些 相 关 联 内 容 的 推 荐 结 果, 从 而 提 高 问 答 系 统 的 满 意 度 2 国 内 外 研 究 自 动 问 答 系 统 的 研 究 已 有 50 多 年 的 历 史, 并 成 为 自 然 语 言 处 理 和 信 息 检 索 的 一 个 重 要 分 支 和 研 究 热 点 [1] 现 有 的 问 答 系 统 可 以 分 为 聊 天 机 器 人 基 于 通 讯 作 者 : 余 昕 聪, ORCID: 0000-0002-5806-1311, E-mail: 243858952@qq.com * 本 文 系 国 家 自 然 科 学 基 金 项 目 基 于 本 体 的 专 利 自 动 标 引 研 究 ( 项 目 编 号 :61271304) 和 北 京 市 教 委 科 技 发 展 计 划 重 点 项 目 暨 北 京 市 自 然 科 学 基 金 B 类 重 点 项 目 面 向 领 域 的 互 联 网 多 模 态 信 息 精 准 搜 索 方 法 研 究 ( 项 目 编 号 :KZ201311232037) 的 研 究 成 果 之 一 XIANDAI TUSHU QINGBAO JISHU 65
应 用 论 文 知 识 库 的 问 答 系 统 问 答 式 检 索 系 统 基 于 自 由 文 本 的 问 答 系 统 等 [2] 国 外 在 智 能 聊 天 机 器 人 方 面 研 究 较 早, 而 且 也 更 成 熟 如 密 歇 根 大 学 的 AnswerBus, 是 一 个 面 向 开 放 领 域 的 问 答 系 统, 接 受 自 然 语 言 提 问, 从 Web 中 提 取 问 题 可 能 的 答 案, 并 支 持 多 种 语 言 的 提 问 方 式 [3] ; START 是 由 麻 省 理 工 大 学 人 工 智 能 实 验 室 研 发 的, 采 用 基 于 知 识 库 和 信 息 检 索 的 混 合 模 式, 如 果 用 户 的 问 题 在 知 识 库 中 可 以 找 到, 则 直 接 返 回 ; 如 果 找 不 到, 则 通 过 搜 索 引 擎 检 索 并 返 回 查 询 结 果 [4] ; ALICE 是 由 美 国 宾 夕 法 尼 亚 大 学 研 发 的 基 于 经 验 的 人 工 智 能 聊 天 机 器 人, 其 对 应 的 AIML 知 识 库 具 有 丰 富 的 标 签, 在 英 文 领 域 具 有 较 好 的 应 用 前 景 [5] 在 国 内 的 自 动 问 答 技 术 研 究 中, 由 于 汉 语 本 身 的 原 因, 使 得 中 文 领 域 的 自 动 问 答 更 加 困 难, 比 如 中 文 分 词 词 性 歧 义 等 问 题 国 内 的 研 究 通 常 采 用 句 子 相 似 度 匹 配 的 方 法, 从 问 题 库 中 获 取 与 用 户 问 题 相 似 度 [5] 最 高 的 问 题 答 案 作 为 回 答 内 容 冯 德 虎 实 现 了 基 于 ALICE 的 研 究 生 招 生 咨 询 智 能 聊 天 机 器 人, 在 ALICE 中 嵌 入 中 文 分 词 模 块, 对 分 词 的 算 法 进 行 改 进, 并 构 建 AIML 知 识 库 对 问 题 和 答 案 进 行 组 织 该 系 统 利 用 模 糊 匹 配 的 方 式, 根 据 内 部 推 理 机 制 从 AIML 知 识 库 [6] 中 寻 找 相 似 度 最 高 的 问 题 并 返 回 问 题 答 案 周 永 梅 实 现 了 基 于 本 体 的 自 动 问 答 系 统, 通 过 对 用 户 问 题 进 行 分 词 停 用 词 处 理 和 相 似 度 计 算, 从 FAQ 库 中 寻 找 与 用 户 问 题 相 似 度 最 大 的 问 题, 其 在 语 义 相 似 度 计 算 和 句 子 相 似 度 计 算 过 程 中 利 用 本 体 的 概 念 结 构, 提 升 了 利 用 知 网 相 似 度 计 算 的 准 确 度 和 问 答 系 统 的 准 确 [7] 率 陈 小 宾 通 过 将 领 域 本 体 加 入 移 动 问 答 中, 应 用 主 题 识 别 等 技 术 将 问 句 中 的 概 念 提 取 出 来, 应 用 领 域 本 体 中 概 念 之 间 的 语 义 关 系 和 层 次 关 系 进 行 综 合 匹 配, 进 而 确 定 主 题 概 念, 从 而 提 高 问 句 主 题 分 析 的 准 确 性 上 述 研 究 中, 国 外 的 研 究 内 容 大 多 采 取 模 式 匹 配 以 及 基 于 经 验 的 问 答 模 式, 在 英 文 领 域 具 有 较 好 的 前 景, 而 在 中 文 发 展 方 面 还 有 一 定 的 不 足 之 处 国 内 的 一 些 研 究 中, 基 于 FAQ 库 的 方 法 虽 然 实 现 了 基 本 的 用 户 问 答, 然 而 目 前 的 语 义 相 似 度 计 算 和 句 子 相 似 度 计 算 准 确 率 较 低, 而 且 在 用 户 问 句 较 长 问 句 特 殊 的 情 况 下, 往 往 得 不 到 准 确 的 回 答 在 基 于 ALICE 的 问 答 机 器 人 中, 其 采 用 推 理 和 模 糊 匹 配 的 方 式 准 确 率 较 高, 然 而 中 文 的 AIML 知 识 库 的 构 建 成 为 了 系 统 的 瓶 颈 领 域 本 体 在 词 的 概 念 层 面 的 语 义 关 系 计 算 较 为 准 确, 然 而 在 问 句 中 的 应 用 和 问 题 匹 配 有 一 定 的 局 限 性 上 述 问 答 系 统 中, 都 是 采 用 一 问 一 答 的 模 式, 缺 少 与 用 户 的 交 互 和 用 户 意 图 的 挖 掘 本 研 究 以 ALICE 机 器 人 为 基 础, 将 领 域 本 体 作 为 问 答 系 统 的 附 加 知 识 库, 在 实 现 基 本 问 答 的 基 础 上, 利 用 本 体 的 上 下 位 信 息 对 用 户 提 问 给 出 相 关 内 容 推 荐 3 基 于 ALICE 的 招 生 问 答 机 器 人 本 研 究 利 用 开 源 的 ALICE 智 能 聊 天 机 器 人, 并 对 其 进 行 修 改 以 适 应 在 招 生 领 域 的 应 用 实 验 包 括 三 个 方 面 的 内 容 : 对 原 始 ALICE 聊 天 机 器 人 的 开 发, 使 其 支 持 中 文 字 符 处 理 ; 加 入 中 文 分 词 模 块 ; AIML 知 识 库 构 建 模 块 并 最 终 实 现 中 文 的 自 动 问 答 3.1 ALICE 聊 天 机 器 人 (1) ALICE 简 介 ALICE (Artificial Linguistic Internet Computer Entity) 1 是 由 美 国 宾 西 法 尼 亚 州 利 哈 伊 大 学 的 Wallace 博 士 开 发 的 一 个 基 于 经 验 的 人 工 智 能 聊 天 机 器 人 最 初 版 本 的 ALICE 支 持 英 语 德 语 法 语 等 语 言, 却 不 支 持 中 文 在 对 ALICE 源 码 进 行 分 析 时 发 现, 其 预 处 理 时 的 筛 选 机 制 把 汉 字 排 除 在 外, 因 而 需 要 在 源 码 中 加 入 中 文 文 字 支 持 的 代 码 (2) AIML 标 签 语 言 ALICE 内 部 包 含 推 理 及 模 式 匹 配 机 制, 采 用 AIML(Artificial Intelligence Markup Language) 作 为 知 识 库 描 述 语 言 它 目 前 利 用 一 种 类 似 于 XML 的 标 签 型 语 言 结 构 对 知 识 库 内 容 进 行 组 织 [8] 1AIML 语 法 构 成 要 素 AIML 是 利 用 XML 标 准 定 义 的 一 种 服 务 于 人 工 智 能 领 域 需 要 的 特 定 语 言, 它 描 述 了 被 称 为 AIML 对 象 的 一 组 数 据 对 象, 并 且 描 述 了 处 理 这 些 数 据 对 象 的 程 序 的 行 为 在 AIML 中, 基 本 的 知 识 单 元 是 由 分 类 (Category) 构 成 的, 而 每 一 个 分 类 又 是 由 用 户 输 入 的 问 题 ALICE 输 出 的 答 案 和 可 选 上 下 文 环 境 (Optional Context) 所 组 成 一 个 简 单 的 分 类 如 下 所 示 1http://www.pandorabots.com/pandora/talk?botid=f5d922d97e345aa1. 66 现 代 图 书 情 报 技 术
<category> <pattern>what IS YOUR NAME</pattern> <template>my name is alice! </template> </category> 其 中, 模 式 <pattern> 部 分 代 表 用 户 输 入 的 问 话, 模 板 <template> 部 分 则 代 表 用 户 输 入 这 一 问 句 后, 系 统 应 该 给 出 的 答 案 2AIML 知 识 树 AIML 知 识 库 是 以 树 的 形 式 存 储 在 计 算 机 内 存 中, 树 的 每 个 节 点 代 表 模 式 中 的 一 个 词 组 或 通 配 符, 根 据 它 在 模 板 中 出 现 的 位 置 前 后 相 连, 每 个 叶 子 节 点 包 含 一 个 模 板 属 性, 当 该 模 式 匹 配 成 功 后 将 返 回 叶 子 节 点 的 模 板 信 息 许 多 包 含 不 同 领 域 知 识 的 AIML 文 件 可 以 合 并 成 一 个 知 识 库, 提 高 系 统 的 扩 展 性 和 兼 容 性 3AIML 推 理 过 程 AIML 的 推 理 机 制 是 根 据 用 户 输 入 的 内 容 从 分 类 中 查 询 并 找 到 匹 配 的 模 板 内 容 ALICE 系 统 的 工 作 流 程 如 图 1 所 示 : 高 速 度 快 等 优 点 且 可 以 加 入 自 定 义 词 典, 比 如 分 数 线 考 研 复 试 流 程 等 综 上, 问 答 系 统 在 获 取 到 用 户 输 入 内 容 时, 调 用 中 文 处 理 模 块 进 行 分 词 和 去 除 无 关 词 操 作 (2) ALICE 知 识 库 构 建 ALICE 需 要 AIML 知 识 库 做 支 撑, 因 而 需 要 对 招 生 问 答 领 域 的 问 题 和 答 案 构 建 为 AIML 知 识, 在 本 实 验 中, 通 过 事 先 获 取 的 某 学 校 招 生 网 站 的 内 容, 将 招 生 的 内 容 进 行 组 织 并 按 照 AIML 语 言 的 规 范 构 建 语 料 库 例 如, 贵 校 今 年 招 生 人 数 是 多 少? 请 问 计 算 机 专 业 自 主 招 生 吗? 那 么 这 两 个 问 题 的 构 建 的 匹 配 模 板 分 别 为 : <pattern>* 招 生 * 人 数 *</pattern> <pattern>* 计 算 机 专 业 * 自 主 * 招 生 *</pattern> 本 实 验 对 相 关 的 招 生 内 容 进 行 组 织 并 构 建 1 000 条 相 关 的 匹 配 模 板 (3) 答 案 获 取 问 答 系 统 获 取 到 用 户 输 入 后, 调 用 ICTCLAS 分 词 器 对 输 入 问 句 进 行 分 词 去 除 停 用 词 操 作 并 将 问 句 提 交 给 ALICE; ALICE 获 取 用 户 输 入 内 容 后, 利 用 模 糊 匹 配 的 方 法 以 及 内 部 推 理 机 制 从 AIML 知 识 库 中 选 择 最 佳 答 案, 招 生 问 答 系 统 的 工 作 流 程 如 图 2 所 示 : 图 1 ALICE 工 作 流 程 3.2 招 生 问 答 机 器 人 相 关 技 术 及 其 工 作 流 程 ALICE 聊 天 机 器 人 不 能 直 接 应 用 于 招 生 问 答, 因 而 需 要 将 其 进 行 修 改 以 适 应 招 生 问 答 领 域 基 于 ALICE 的 问 答 系 统 框 架 包 含 4 个 模 块 : 中 文 分 词 处 理 模 块 ALICE 知 识 库 构 建 模 块 答 案 获 取 模 块 用 户 交 互 模 块 (1) 中 文 分 词 处 理 由 于 ALICE 原 始 内 容 没 有 包 含 中 文 处 理 模 块, 因 此 需 要 加 入 中 文 分 词 解 析 器, 本 文 采 用 中 国 科 学 院 计 1 算 技 术 研 究 所 ICTCLAS 分 词 器, 其 具 有 分 词 准 确 度 图 2 招 生 问 答 工 作 流 程 (4) 用 户 交 互 用 户 交 互 模 块 主 要 负 责 用 户 与 机 器 人 的 交 互, 用 户 输 入 问 题, 机 器 人 调 用 中 文 分 词 和 去 除 停 用 词 处 理, 将 处 理 后 的 结 果 交 给 机 器 人 内 部 推 理 机 制 处 理 再 去 除 无 关 词 以 及 分 析 推 理 后, 从 模 板 中 寻 找 匹 配 答 案 并 最 终 将 答 案 呈 现 给 用 户 4 基 于 ALICE 的 本 体 上 下 位 信 息 推 荐 机 制 基 于 ALICE 的 招 生 问 答 机 器 人 由 于 语 料 规 模 的 1http://ictclas.nlpir.org/. XIANDAI TUSHU QINGBAO JISHU 67
应 用 论 文 限 制 以 及 对 用 户 查 询 意 图 的 推 测 不 准 确 等 问 题, 并 不 能 对 所 有 的 问 题 给 出 回 答 结 果, 使 得 用 户 对 问 答 系 统 的 满 意 度 下 降 本 研 究 将 领 域 本 体 作 为 问 答 机 器 人 的 附 加 知 识 库, 根 据 用 户 的 问 题 内 容, 给 出 相 关 内 容 推 荐, 从 而 提 高 问 答 系 统 整 体 的 满 意 度 本 研 究 对 问 答 系 统 的 改 进 包 括 两 个 方 面 的 工 作 : 领 域 本 体 的 构 建 与 解 析 用 户 推 荐 4.1 领 域 本 体 构 建 及 解 析 领 域 本 体 (Domain Ontology) 是 专 业 性 的 本 体, 描 述 的 是 特 定 领 域 中 的 概 念 和 概 念 之 间 的 关 系, 提 供 了 某 个 专 业 学 科 领 域 中 概 念 的 词 表 以 及 概 念 间 的 关 系, 或 在 该 领 域 里 占 主 导 地 位 的 理 论 [9] Protégé [10] 是 斯 坦 福 大 学 为 知 识 获 取 而 开 发 的 一 个 工 具, 本 研 究 首 先 获 取 一 些 有 关 招 生 领 域 的 概 念 组 建 领 域 概 念 结 构, 并 利 用 Protégé 工 具 进 行 本 体 的 构 建 在 本 体 解 析 过 程, 即 获 取 词 语 上 下 位 信 息 时, 本 文 使 用 Jena [11] 工 具 对 构 建 的 领 域 本 体 库 进 行 解 析 实 验 中 所 用 到 的 本 体 库 是 针 对 招 生 领 域 的 领 域 本 体 库, 内 容 涉 及 学 科 机 构 等 内 容 比 如 概 念 学 科 下 的 分 支 有 计 算 机 学 经 济 学 会 计 学, 计 算 机 学 下 边 又 有 分 支 软 件 工 程 计 算 机 应 用 等, 再 比 如 概 念 机 构 下 的 分 支 有 招 生 办 公 室 教 务 处 政 教 处 等 利 用 Protégé 构 建 的 部 分 领 域 本 体 展 示 如 图 3 所 示 : 哈 尔 滨 工 业 大 学 停 用 词 表 去 除 其 中 的 停 用 词 通 常 在 句 子 中, 用 户 所 提 问 题 中 的 名 词 和 动 词 在 句 子 中 起 着 比 较 重 要 的 作 用, 并 且 名 词 往 往 比 动 词 承 载 着 更 多 的 信 息 量 在 关 键 词 提 取 时, 可 适 当 赋 予 名 词 和 动 词 一 定 的 权 重 值 有 效 词 以 及 权 重 定 义 如 下 : 定 义 1 有 效 词, 即 能 体 现 句 子 核 心 词 的 词 语, 主 要 由 名 词 动 词 性 成 分 组 成 定 义 2 有 效 词 权 重, 即 对 句 子 中 有 效 词 的 数 值 化 表 示 有 效 词 权 重 的 计 算 如 公 式 (1) 所 以 : i Ci n v o 其 中, n 表 示 句 子 中 的 名 词, v 表 示 句 子 中 的 动 词, o 表 示 其 他 词, i 表 示 词 的, 系 数 α=0.5, β=0.3, γ=0.2, 代 表 不 同 词 性 的 重 要 程 度 利 用 有 效 词 计 算 之 后, 将 所 得 到 的 关 键 词 按 照 权 重 从 大 到 小 的 顺 序 排 列, 作 为 本 体 查 询 的 候 选 词, 从 本 体 知 识 库 中 查 询 有 效 词 的 上 下 位 信 息, 得 到 的 推 荐 结 果 返 回 给 用 户 推 荐 方 法 的 流 程 如 图 4 所 示 : (1) 图 3 领 域 本 体 部 分 内 容 示 意 图 原 始 的 ALICE 源 码 中 并 没 有 对 本 体 的 解 析 模 块, 因 而 需 要 将 源 码 进 行 改 进, 添 加 解 析 本 体 的 接 口, 其 中 包 含 获 取 上 位 关 系 的 接 口 getsuperclass 和 获 取 下 位 关 系 的 接 口 getsubclass 4.2 用 户 推 荐 在 用 户 输 入 问 题 后, 将 用 户 问 题 进 行 分 词, 采 用 图 4 推 荐 方 法 流 程 ALICE 获 取 到 用 户 输 入 后, 共 有 两 条 处 理 流 程 : 从 知 识 库 中 获 取 问 题 答 案 ; 将 用 户 输 入 内 容 提 取 关 键 词 列 表, 根 据 关 键 词, 利 用 ALICE 中 融 入 的 Jena 工 具 从 领 域 本 体 库 中 获 取 上 下 位 信 息 并 返 回 给 用 户 下 面 以 具 体 例 子 ( 问 句 ) 请 问 计 算 机 专 业 怎 么 样? 为 例 进 行 验 证 68 现 代 图 书 情 报 技 术
问 句 : 请 问 计 算 机 专 业 怎 么 样? 分 词 结 果 : 请 问 计 算 机 专 业 怎 么 样? 去 除 停 用 词 后, 问 句 的 关 键 词 为 : 计 算 机 专 业 怎 么 样 其 中, 在 AIML 语 料 库 中 存 在 匹 配 模 板 <pattern>* 计 算 机 专 业 * 怎 么 样 * </pattern> 问 答 系 统 会 给 出 对 应 模 板 中 的 问 答 内 容, 在 加 入 领 域 本 体 后, 从 问 句 提 取 到 的 关 键 词 有 计 算 机 专 业 录 取 分 数 线 三 个 关 键 词, 从 构 建 领 域 本 体 库 中 获 取 这 些 关 键 词 的 上 下 位 信 息 后 的 查 询 结 果 为 : 软 件 工 程, 计 算 机 科 学 与 技 术, 计 算 机 应 用 等 内 容 查 询 到 初 步 结 果 后, 对 结 果 按 照 不 同 词 类 依 权 重 排 序, 相 同 词 类 自 然 排 序 返 回 给 用 户 加 入 领 域 本 体 后 的 回 答 内 容 如 图 5 所 示 : 图 5 加 入 领 域 本 体 库 后 的 回 答 内 容 5 实 验 与 分 析 5.1 实 验 设 置 本 实 验 的 结 果 评 价 利 用 推 荐 关 联 度 和 用 户 满 意 度 两 个 方 面 进 行 综 合 衡 量 推 荐 关 联 度 RC (Recommended Correlation) 和 用 户 满 意 度 US(User Satisfaction) 的 定 义 如 下 : 定 义 3 推 荐 关 联 度, 指 推 荐 的 结 果 中 与 用 户 所 提 问 题 是 否 相 关 的 度 量 其 计 算 公 式 如 下 : 与 问 题 相 关 的 推 荐 RC = 所 有 推 荐 推 荐 关 联 的 计 算 以 用 户 对 推 荐 条 目 的 判 断 计 量 定 义 4 用 户 满 意 度, 指 用 户 对 问 答 系 统 的 回 答 及 其 推 荐 内 容 的 满 意 程 度, 分 别 由 系 统 回 答 的 准 确 率 和 推 荐 的 关 联 度 构 成 其 计 算 公 式 如 下 : n N RC US N N RC 其 中, N 表 示 用 户 所 提 问 题 的, n 表 示 回 答 准 确 的 问 题 (2) ( 3) 在 上 文 所 举 例 子 中, 推 荐 为 5, 由 于 考 生 咨 询 的 是 某 专 业 的 分 数 线, 因 而 认 为 计 算 机 科 学 与 技 术 软 件 工 程 计 算 机 应 用 与 推 荐 的 内 容 是 相 关 的, 而 与 其 所 属 的 父 类 即 上 位 学 科 是 不 相 关 的, 其 他 的 词 语 暂 无 推 荐 内 容, 其 最 终 的 推 荐 关 联 度 为 0.8 5.2 实 验 对 比 目 前 国 内 的 基 于 ALICE 的 问 答 机 器 人 相 对 较 少, 实 验 与 已 上 线 的 基 于 ALICE 的 招 生 问 答 系 统 进 行 对 比 实 验 过 程 中, 事 先 从 网 上 获 取 关 于 招 生 的 一 些 问 题, 将 其 加 入 到 问 题 列 表 中, 并 将 问 题 列 表 中 的 问 题 进 行 分 类, 最 终 问 题 分 布 为 : 常 见 简 单 问 题 列 表 Q1, 119 条 ; 复 杂 问 句 列 表 Q2, 47 条 简 单 问 句 形 式 如 有 计 算 机 历 年 真 题 吗? 学 院 招 生 分 数 线 是 多 少? ; 复 杂 问 句 形 式 如 请 问 贵 校 计 算 机 专 业 招 生 人 数 是 多 少, 是 自 主 招 生 吗? 请 问 计 算 机 学 院 的 专 业 有 哪 些, 录 取 分 数 线 是 多 少? 采 用 分 组 测 试 模 式 对 问 答 内 容 进 行 评 分, 实 验 分 为 三 组, 每 组 8 人 根 据 获 取 到 的 问 题 列 表 中 的 问 题 对 系 统 进 行 提 问, 提 问 的 问 题 为 简 单 问 句 和 复 杂 问 句, 并 对 答 案 进 行 正 确 度 统 计 5.3 结 果 分 析 传 统 的 评 价 方 式 采 用 中 国 科 学 院 自 动 化 研 究 所 的 汉 语 问 答 系 统 评 测 方 法 ( 简 称 EPCQA), 使 用 准 确 率 来 衡 量 问 答 系 统 的 好 坏, 公 式 如 下 : 答 对 的 问 题 准 确 率 = 总 的 问 题 [5] 以 目 前 已 上 线 的 招 生 问 答 系 统 作 为 Baseline 实 验, 与 本 文 方 法 进 行 对 比 三 组 实 验 设 置 如 下 : (1) 第 一 组 : 简 单 句 70 句 复 杂 句 10 句 (2) 第 二 组 : 简 单 句 70 句 复 杂 句 20 句 (3) 第 三 组 : 简 单 句 80 句 复 杂 句 10 句 各 分 组 的 简 单 句 和 复 杂 句 中, 重 叠 部 分 的 问 题 内 容 相 同, 多 于 其 他 分 组 的 简 单 句 和 复 杂 句 是 从 问 题 库 中 随 机 挑 选 的 不 重 复 问 题 所 得 结 果 如 表 1 所 示 其 中, B 表 示 Baseline 实 验 结 果, S 表 示 本 文 方 法 结 果 由 表 1 可 得, 第 一 组 和 第 三 组 的 实 验 结 果 中, 本 文 方 法 比 Baseline 略 高, 而 对 于 第 二 组 实 验, 低 于 Baseline 通 过 前 两 组 实 验 所 得, 随 着 复 杂 问 句 的 增 多, 系 统 回 答 的 准 确 率 有 所 下 降 ; 由 第 一 组 与 第 三 组 实 验 可 得, 在 复 杂 问 题 相 同 的 条 件 下, 系 统 对 (4) XIANDAI TUSHU QINGBAO JISHU 69
应 用 论 文 分 组 简 单 问 句 表 1 问 答 结 果 统 计 复 杂 问 句 正 确 系 统 回 答 准 确 率 第 一 组 70 10 30/37 0.375/0.4625 第 二 组 70 20 27/21 0.3/0.2333 第 三 组 80 10 34/44 0.3778/0.4889 总 和 220 40 91/102 0.35/0.3923 简 单 问 题 的 回 答 准 确 率 较 高 整 体 来 看, 本 文 方 法 准 确 率 略 高 于 Baseline 系 统 的 回 答 准 确 率 较 低 的 原 因 是 目 前 的 问 答 系 统 中, 对 于 用 户 输 入 问 题 的 正 确 理 解 和 问 题 处 理 过 程 仍 然 存 在 一 些 不 足, 问 题 理 解 的 效 果 对 整 个 问 答 系 统 的 性 能 有 至 关 重 要 的 影 响 其 次, 本 研 究 所 采 用 的 基 于 ALICE 的 AIML 语 料 库 有 限, 不 能 包 含 全 面 的 匹 配 模 式, 这 也 是 准 确 率 较 低 的 因 素 在 加 入 本 体 推 荐 的 模 块 后, 相 同 条 件 下 采 用 本 实 验 设 置 的 用 户 满 意 度 对 Baseline 和 本 文 方 法 进 行 对 比, 结 果 如 表 2 所 示 : 分 组 简 单 问 句 表 2 加 入 推 荐 后 的 实 验 结 果 复 杂 问 句 正 确 推 荐 推 荐 关 联 US 第 一 组 70 10 30/37 0/32 0/18 0.375/0.656 第 二 组 70 20 27/21 0/46 0/29 0.3/0.5298 第 三 组 80 10 34/44 0/36 0/17 0.3778/0.6528 总 和 220 40 91/102 0/114 0/64 0.35/0.611 由 实 验 结 果 可 知, 第 二 组 实 验 的 推 荐 关 联 较 多, 分 析 是 由 于 复 杂 问 句 中 包 含 较 多 的 关 键 词 信 息, 因 而 利 用 关 键 词 在 领 域 本 体 中 能 够 获 取 到 较 多 的 相 关 内 容 推 荐 从 最 终 的 用 户 满 意 度 来 看, 在 加 入 了 本 体 上 下 位 信 息 推 荐 的 问 答 系 统 中, 有 些 问 题 虽 然 没 有 给 出 准 确 的 回 答, 但 是 根 据 提 取 的 关 键 词 推 荐 的 内 容 却 是 和 问 题 相 关 的, 这 在 一 定 程 度 上 提 高 了 用 户 对 问 答 系 统 的 整 体 满 意 度 通 过 本 文 的 关 联 推 荐 方 法, 可 以 减 少 因 问 答 系 统 对 复 杂 问 句 得 不 到 准 确 回 答 而 降 低 用 户 使 用 满 意 度 的 问 题, 从 而 提 高 问 答 系 统 的 有 效 性 6 结 语 目 前, 问 答 系 统 的 准 确 率 还 比 较 低, 在 TREC 会 议 中, 一 般 问 答 系 统 的 准 确 率 都 在 30% 左 右 [12] 虽 然 当 前 问 答 系 统 仍 处 于 比 较 初 级 的 阶 段, 但 广 阔 的 发 展 前 景 正 推 动 着 自 动 问 答 系 统 技 术 的 完 善 和 进 一 步 发 展 在 本 文 中, 利 用 本 体 上 下 位 的 关 系, 对 问 答 系 统 进 行 了 扩 展 应 用, 改 善 了 问 答 内 容 不 全 面 的 缺 陷, 提 高 了 用 户 对 问 答 系 统 的 整 体 满 意 度 然 而, 虽 然 根 据 关 键 词 给 出 了 相 关 内 容 的 推 荐 结 果, 但 是 其 推 荐 结 果 的 关 联 度 仍 然 不 高 因 此, 在 后 续 工 作 中, 如 何 提 高 推 荐 结 果 的 关 联 度 将 成 为 研 究 重 点, 而 且 可 以 结 合 用 户 历 史 问 题 对 用 户 所 关 心 的 问 题 进 行 综 合 推 荐 也 成 为 一 个 研 究 方 向 参 考 文 献 : [1] 冯 志 伟. 自 然 语 言 问 答 系 统 的 发 展 与 现 状 [J]. 外 国 语 : 上 海 外 国 语 大 学 学 报, 2012, 35(6): 2-16. (Feng Zhiwei. Question-Answer System of Natural Language: Past and Present [J]. Journal of Foreign Languages, 2013, 35(6): 2-16.) [2] 王 树 西. 问 答 系 统 : 核 心 技 术 发 展 趋 势 [J]. 计 算 机 工 程 与 应 用, 2005, 41(18): 1-3. (Wang Shuxi. Question Answering System: Core Technology, Application [J]. Computer Engineering and Applications, 2005, 41 (18): 1-3.) [3] Zheng Z. AnswerBus Question Answering System [C]. In: Proceedings of the 2nd International Conference on Human Language Technology Research, 2002: 399-404. [4] The START Natural Language Question Answering System [DB/OL]. [2006-12-16]. http://start.csail.mit.edu. [5] 冯 德 虎. 基 于 ALICE 的 研 究 生 招 生 咨 询 智 能 聊 天 机 器 人 研 究 与 实 现 [D]. 成 都 : 西 南 交 通 大 学, 2013. (Feng Dehu. Research and Implementation of the Graduate Admissions Counseling Intelligent Chat Robot Based on ALICE [D]. Chengdu: Southwest Jiaotong University, 2013.) [6] 周 永 梅. 基 于 本 体 的 自 动 问 答 系 统 [D]. 镇 江 : 江 苏 科 技 大 学, 2011. (Zhou Yongmei. Research on Automatic Question Answering System Based on Ontology [D]. Zhenjiang: Jiangsu University of Science and Technology, 2011.) [7] 陈 小 宾. 领 域 本 体 及 其 在 移 动 问 答 中 的 应 用 研 究 [D]. 大 连 : 大 连 理 工 大 学, 2009. (Chen Xiaobin. Research on Domain Ontology and the Application in Mobile Question Answering [D]. Dalian: Dalian University of Technology, 2009.) [8] Zhang H, Kishore R, Sharman R, et al. Agile Integration Modeling Language (AIML): A Conceptual Modeling Grammar for Agile Integrative Business Information Systems [J]. Decision Support Systems, 2007, 44(1): 266-284. [9] 刘 汉 兴, 林 旭 东, 田 绪 红. 基 于 本 体 的 自 动 答 疑 系 统 的 研 究 与 实 现 [J]. 计 算 机 应 用, 2010, 30(2): 415-418. (Liu 70 现 代 图 书 情 报 技 术
Hanxing, Lin Xudong, Tian Xuhong. Research and Implementation of Automatic Question Answering System Based on Ontology [J]. Computer Applications, 2010, 30 (2): 415-418.) [10] 刘 宇 松. 本 体 构 建 方 法 和 开 发 工 具 研 究 [J]. 现 代 情 报, 2009, 29(9): 17-24. (Liu Yusong. Research on Ontology Construction Methods and Development Tools [J]. Modern Intelligence, 2009, 29 (9): 17-24.) [11] Jena 2: A Semantic Web Framework for Java [CP]. [2006-05-04]. http://jena.sourceforge.net/index.html. [12] 刘 里, 曾 庆 田. 自 动 问 答 系 统 研 究 综 述 [J]. 山 东 科 技 大 学 学 报 : 自 然 科 学 版, 2007, 26(4): 73-76. (Liu Li, Zeng Qingtian. Overview of Automatic Question Answering System [J]. Journal of Shandong University of Science and Technology: Natural Science Edition, 2007, 26 (4): 73-76.) 作 者 贡 献 声 明 : 余 昕 聪, 李 红 莲, 吕 学 强 : 提 出 研 究 思 路, 设 计 研 究 方 案, 论 文 最 终 版 本 修 订 ; 余 昕 聪 : 程 序 开 发 实 现, 数 据 采 集 整 理 ; 余 昕 聪, 李 红 莲 : 论 文 起 草 收 稿 日 期 : 2015-06-03 收 修 改 稿 日 期 : 2015-08-18 Research on the Application of Hyponymy in the Enrollment Robot Yu Xincong 1,2 Li Honglian 1 Lv Xueqiang 2 1 (School of Information Communication Engineering, Beijing Information Science and Technology University, Beijing 100101, China) 2 (Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China) Abstract: [Objective] This paper aims at increasing the accuracy, and improving the satisfaction of question answer system. [Context] In the field of Natural Language Processing, question answering system has become an important research point, but the accuracy of system is low at present. How to improve the satisfaction of the system becomes the burning question. [Methods] This paper analyzes the source code of ALICE for modification by using the Chinese word segmentation. Based on the analysis of its internal reasoning, this paper puts forward a recommend method. [Results] Integrate the domain Ontology into ALICE robot, then analyze the user question, extract key words. Finally, search the Ontology and then give the recommends. [Conclusions] Experiments show that after introducing Ontology of recommended results, customer satisfaction is increased greatly. Keywords: Question answer system ALICE Chinese word segmentation Hyponymy User recommendation XIANDAI TUSHU QINGBAO JISHU 71