自 然 语 言 处 理 让 输 入 法 变 得 更 聪 明 王 砚 峰 贾 剑 峰 张 扬 1. 引 言 随 着 电 脑 的 普 及 和 互 联 网 的 发 展, 输 入 法 已 经 成 为 了 人 们 生 活 和 工 作 中 最 不 可 或 缺 的 工 具 软 件, 人 们 在 网 上 聊 天 中 的 对 话 交 流, 以 及 工 作 中 的 电 子 邮 件 和 文 档 报 告, 都 是 通 过 输 入 法 来 完 成 的 用 户 使 用 输 入 法 目 的, 是 打 出 为 了 表 达 自 己 意 图 所 需 要 的 字 词 句, 那 么 输 入 法 的 聪 明 程 度, 也 就 是 输 入 法 对 用 户 意 图 的 猜 测 能 力, 实 际 上 决 定 了 用 户 输 入 的 效 率 ; 进 一 步 的, 从 更 大 的 视 角 来 看, 在 以 文 字 为 交 流 载 体 的 信 息 社 会 中, 更 聪 明 的 输 入 法 实 际 上 代 表 了 更 先 进 的 生 产 工 具, 它 意 味 着 更 大 的 经 济 效 益 和 社 会 价 值 因 此, 虽 然 当 前 的 输 入 法 软 件 尚 没 有 上 好 的 商 业 模 式, 不 能 带 来 直 接 的 商 业 利 益, 但 还 是 各 大 互 联 网 IT 公 司 仍 然 不 遗 余 力 的 投 入 到 这 个 看 似 不 大 的 战 场 上 进 行 角 逐, 并 且 各 自 宣 称, 自 己 的 输 入 法 是 最 聪 明 的 那 么, 究 竟 什 么 样 的 输 入 法 是 一 个 聪 明 的 输 入 法 呢? 输 入 法 又 是 如 何 变 聪 明 的 呢? 文 本 就 将 带 你 走 进 自 然 语 言 处 理 技 术 的 世 界, 为 你 揭 开 输 入 法 智 能 性 的 神 秘 面 纱 2. 传 统 输 入 法 与 智 能 输 入 法 所 谓 传 统 输 入 法, 是 指 智 能 输 入 法 出 现 之 前 的 输 入 法, 典 型 的 代 表 作 就 是 智 能 ABC 它 的 主 要 特 点 是 : 只 能 基 于 字 和 词 的 输 入, 每 个 拼 音 下 面 的 汉 字 结 果 采 用 固 定 的 排 序, 同 时 能 直 接 打 出 的 词 的 个 数 十 分 有 限, 词 库 中 只 有 几 千 到 几 万 个 高 频 的 常 用 词, 而 且 通 常 都 是 经 过 某 专 业 机 构 人 工 收 集 整 理 得 到 的 显 而 易 见, 在 使 用 这 个 输 入 法 时 是 十 分 低 效 的 例 如 用 户 想 输 入 一 个 宋 词 词 牌 鹧 鸪 天, 这 个 词 不 是 很 常 用, 因 此 不 会 在 词 库 中, 同 时 鹧 鸪 都 是 相 对 很 低 频 的 字, 因 此 用 户 想 输 入 这 个 词 的 时 候 需 要 大 量 的 翻 页 查 找 操 作 另 外, 按 照 目 前 互 联 网 上 信 息 的 膨 胀 速 度, 每 天 互 联 网 上 都 会 随 着 各 种 事 件 的 发 生 产 生 相 应 的 新 词, 比 如 兽 兽 门 犀 利 哥, 这 些 网 络 新 词 就 更 是 传 统 输 入 法 所 望 尘 莫 及 的 了
然 而 打 开 目 前 市 场 上 流 行 的 任 意 一 款 智 能 输 入 法, 上 面 提 到 的 词 都 会 被 轻 轻 松 松 的 输 出 来 ; 不 仅 如 此, 所 有 的 智 能 输 入 法 都 支 持 用 户 短 句 级 别 以 及 句 子 级 别 的 输 入 方 法, 并 且 能 够 保 证 相 对 较 高 的 准 确 率 ; 同 一 个 拼 音 下, 不 同 词 语 的 排 序 也 不 再 人 为 的 固 定, 比 如 当 你 刚 刚 输 入 了 我 的 的 时 候, 再 输 入 daxue 的 第 一 位 会 是 大 学, 而 如 果 你 刚 刚 输 入 了 漫 天 时, 再 输 入 daxue 的 第 一 位 则 是 大 雪, 就 像 输 入 法 真 的 可 以 读 懂 你 的 心 思 一 样 那 么 智 能 输 入 法 是 如 何 做 到 这 一 点 的 呢? 答 案 就 是 基 于 统 计 的 自 然 语 言 处 理 技 术 3. 给 力 的 统 计 自 然 语 言 处 理 技 术 统 计 自 然 语 言 处 理, 顾 名 思 义, 根 本 方 法 是 概 率 统 计 统 计 自 然 语 言 处 理, 就 是 利 用 统 计 的 方 法, 得 到 自 然 语 言 处 理 中 的 各 种 语 言 现 象 的 整 体 描 述, 并 采 用 概 率 的 方 法, 来 解 决 语 言 现 象 中 出 现 的 歧 义 问 题 比 如 一 个 经 典 的 问 题 : 文 字 南 京 市 长 江 大 桥, 是 指 在 南 京 市 里 面 的 长 江 大 桥 呢, 还 是 说 南 京 有 个 市 长 名 字 叫 江 大 桥 呢? 统 计 自 然 语 言 处 理 包 括 多 种 方 向, 比 如 配 搭 发 现 语 言 模 型 词 性 标 注 语 义 消 歧 词 聚 类 概 率 语 法 分 析 等, 也 应 用 于 多 个 方 向 比 如 语 音 识 别 机 器 翻 译 分 词 信 息 检 索 等 输 入 法 本 质 上 是 语 音 识 别, 用 户 输 入 的 拼 音 即 可 理 解 为 语 音, 本 文 着 重 讲 述 统 计 自 然 语 言 处 理 技 术 在 输 入 法 方 向 中 的 应 用 在 这 之 前, 我 们 作 如 下 的 假 设 : 1. 在 统 计 自 然 语 言 处 理 中, 一 项 最 基 本 的 前 提 条 件 是, 必 须 有 大 量 的 语 料 供 统 计 使 用 实 际 上, 搜 狗 输 入 法 能 够 依 托 于 搜 狗 搜 索 的 网 络 爬 虫, 每 天 得 到 网 上 最 新 鲜 的 大 量 的 语 料 本 文 中 假 定 我 们 已 经 获 得 了 并 且 初 步 处 理 了 这 些 语 料 2. 我 们 已 经 具 有 了 一 个 人 工 整 理 过 的 常 用 词 库, 并 且 我 们 具 有 出 色 的 分 词 工 具, 能 够 将 我 们 的 词 库 带 入 到 语 料 中, 得 到 基 本 正 确 的 分 词 结 果 3. 在 后 面 的 叙 述 中, 没 有 字 的 概 念, 只 有 词 的 概 念, 单 个 的 字 也 成 为 词 I. 互 信 息 发 现 成 词 的 搭 配 据 搜 狗 输 入 法 对 样 本 用 户 输 入 的 统 计, 每 天 用 户 输 入 中 93% 的 词 来 自 于 搜 狗 输 入 法 系 统 词 库, 可 见 输 入 法 词 库 之 全 ; 同 时, 现 代 的 智 能 输 入 法 每 天 都 会 给 用 户 推 送 大 量 的 网 络 新 词, 来 满 足 用 户 实 时 性 方 面 的 输 入 需 求, 可 见 输 入 法 词 库 之 新 如 此 全 而 新 之 需 求 是 如 何 得 以 满 足 的 呢? 本 文 把 不 在 目 前 输 入 法 词 库 中 的 词 称 为 未 登 录 词, 我 们 的 问 题 是 : 给 定 一 个 很 大 的
语 料 库 (TB 级 别 ), 一 个 基 本 词 库, 以 及 一 个 分 词 工 具, 如 何 从 语 料 库 中 找 到 更 多 的 未 登 录 词, 以 提 高 词 库 的 覆 盖 率 一 个 直 观 的 想 法 是, 利 用 基 本 词 库 对 语 料 库 分 词 后, 进 行 词 对 儿 的 统 计, 然 后 把 高 频 词 对 儿 提 取 出 来, 扔 掉 其 中 不 符 合 词 法 规 则 ( 比 如 动 宾, 形 名, 动 补 等 ) 的 组 合, 剩 下 的 就 是 未 登 录 词 但 这 种 方 法 一 方 面 依 赖 于 分 词 时 词 性 标 注 的 正 确 性, 另 一 方 面 中 华 文 字 包 罗 万 象, 很 多 都 不 是 词 法 规 则 可 以 涵 盖 的, 因 此 效 果 并 不 理 想 互 信 息 是 发 现 成 词 搭 配 的 极 佳 方 式, 它 的 定 义 如 下 : p( x, y) I( x, y) log 2 ( x, y) 为 左 右 相 邻 的 一 对 儿 搭 配 p( x) p( y) 只 看 log 函 数 里 面 的 部 分, 公 式 的 含 义 是 : 一 个 搭 配 在 语 料 中 出 现 的 概 率, 除 以 组 成 这 个 搭 配 的 各 个 部 分 在 语 料 中 出 现 的 概 率 可 以 从 这 样 的 角 度 来 理 解 互 信 息 公 式 : 如 果 假 定 搭 配 中 的 两 个 词 是 相 互 独 立 的, 那 么 两 个 高 频 词 同 时 出 现 的 先 验 概 率, 是 比 两 个 低 频 词 同 时 出 现 的 先 验 概 率 要 大 的 但 在 实 际 的 语 言 中, 两 个 词 很 少 是 完 全 独 立 的, 如 果 统 计 得 到 的 两 个 低 频 词 同 时 出 现 的 概 率, 反 倒 大 于 了 两 个 高 频 词 同 时 出 现 的 概 率 时, 那 么 这 个 两 个 低 频 词 就 是 非 常 的 不 独 立, 也 就 是 有 着 紧 密 的 搭 配 关 系 因 此 一 个 搭 配 的 互 信 息 值 越 高, 代 表 这 两 个 词 之 间 的 搭 配 关 系 也 越 紧 密, 他 们 形 成 一 个 词 的 可 能 性 也 越 大 比 如 杯 具 之 间 的 互 信 息 要 远 远 大 于 的 了, 因 此 它 作 为 词 的 可 能 性 也 就 更 大 通 过 互 信 息 度 量, 不 必 引 入 复 杂 的 和 不 确 定 的 词 法 规 则, 就 可 以 自 动 的 发 现 未 登 录 词 并 且 系 统 可 以 采 用 迭 代 的 办 法, 发 现 更 长 的 未 登 录 词 第 一 次 迭 代 中, 通 过 鹧 鸪 间 的 互 信 息 发 现 了 鹧 鸪 这 个 词 ; 接 着 在 第 二 轮 迭 代 中, 又 可 以 通 过 鹧 鸪 天 间 的 互 信 息 进 一 步 发 现 鹧 鸪 天 这 个 词 ; 最 后 再 看 鹧 鸪 是 否 只 出 现 在 鹧 鸪 天 单 一 语 境 中 : 如 果 是, 那 么 鹧 鸪 只 是 鹧 鸪 天 的 一 个 片 段 ( 或 称 碎 词 ), 可 以 不 作 为 未 登 录 词 发 现 的 结 果 实 际 上, 搜 狗 输 入 法 的 新 词 发 现, 以 及 大 词 库 制 作, 都 是 采 用 互 信 息 为 度 量, 并 且 得 到 了 令 人 满 意 的 结 果 II. 统 计 语 言 模 型 神 奇 的 马 尔 科 夫 链 起 初, 在 解 决 语 音 识 别 问 题 的 时 候, 人 们 倾 向 于 使 用 语 言 学 中 的 语 法 规 则 来 解 决 句 子 识 别 的 问 题, 但 在 几 十 年 间 从 来 就 没 有 取 得 过 任 何 突 破, 直 到 贾 里 尼 克 (Fred Jelinek) 把 统 计 语 言 模 型 带 入 这 个 领 域 统 计 语 言 模 型 假 定 : 一 个 句 子 中 某 个 位 置 出 现 的 词, 只 受 到 这 个 位 置 之 前 出 现 的 k 个 词 的 影 响 那 么 一 个 句 子 :
S = w 0 w 1 w 2 w 3 w N-2 w N-1 w N 在 k=3 的 时 候, 概 率 计 算 公 式 就 是 : P(w 0,,w N ) = P(w 0 ) P(w 1 w 0 ) P(w 2 w 0 w 1 ),, P(w N w N-2 w N-1 ) 这 种 句 子 的 概 率 计 算 方 法 称 之 为 n 元 文 法, 当 k=3 时 便 为 三 元 文 法 三 元 文 法 是 研 究 界 采 用 的 普 遍 模 型, 因 为 三 元 文 法 可 以 比 较 好 的 克 服 局 部 最 优 的 缺 点, 同 时 数 据 稀 疏 问 题 不 那 么 严 重 可 以 直 观 的 想 象,n 越 大, 越 接 近 全 局 最 优 解, 但 统 计 组 合 空 间 也 越 大, 相 应 的 数 据 稀 疏 问 题 也 越 严 重 出 于 存 储 与 性 能 的 考 虑, 目 前 桌 面 智 能 输 入 法 多 采 用 二 元 文 法, 即 当 前 位 置 出 现 的 词 只 受 前 一 个 位 置 的 词 影 响, 而 云 输 入 法 采 用 三 元 或 者 更 长 的 语 言 模 型 至 此, 智 能 输 入 法 在 处 理 用 户 短 语 及 句 子 输 入 时 的 方 法 已 经 浮 出 水 面 例 如, 当 用 户 输 入 wohenfanganta 的 时 候 ( 很 大 的 概 率 他 是 要 我 很 反 感 他 ), 会 有 多 种 词 汇 的 组 合, 比 如 我 恨 - 方 案 - 他 我 恨 - 反 感 - 他 我 很 - 方 案 - 他 以 及 我 很 - 反 感 - 他 等 通 过 二 元 文 法, 我 很 反 感 与 反 感 他 这 些 常 用 的 语 言 搭 配 现 象 就 会 以 概 率 的 方 式 贡 献 到 整 体 句 子 的 概 率 中, 从 而 得 到 正 确 的 结 果 回 到 本 文 第 二 章 提 出 的 问 题, 用 户 上 一 次 输 入 了 漫 天 之 后, 为 什 么 输 入 daxue 的 时 候, 返 回 的 首 选 是 大 雪 而 不 是 大 学? 显 而 易 见, 漫 天 大 雪 比 漫 天 大 学 更 常 见 的 出 现 于 我 们 日 常 的 语 言 中, 那 么 通 过 漫 天 来 预 测 大 雪 是 非 常 合 理 的 到 这 里, 其 实 敏 感 的 读 者 已 经 发 现,N 元 文 法 其 实 就 是 一 条 马 尔 科 夫 链, 足 见 信 息 论 的 祖 师 爷 香 农 (Claude Shannon) 对 人 类 在 人 工 智 能 方 面 的 贡 献 是 何 等 的 伟 大 III. 词 聚 类 预 测 未 知 世 界 数 据 挖 掘 中 的 聚 类, 提 出 的 目 的 本 来 是 用 于 给 数 据 降 维, 或 者 对 数 据 进 行 一 个 高 层 次 的 全 局 描 述 但 在 自 然 语 言 处 理 领 域, 经 常 这 样 使 用 聚 类 : 首 先 把 某 种 度 量 函 数 下 特 征 很 相 似 的 个 体 们 看 成 一 个 整 体, 然 后 把 整 体 中 大 部 分 个 体 都 具 有 的 特 征 作 为 整 体 自 身 的 特 征, 最 后 利 用 整 体 的 特 征 对 个 体 特 征 形 成 反 馈, 弥 补 个 体 由 于 数 据 稀 疏 问 题 造 成 的 特 征 缺 失 层 次 化 聚 类 前 文 讲 述 的 二 元 文 法 中 的 搭 配 关 系, 有 一 定 的 数 据 稀 疏 问 题 比 如 用 户 想 要 输 入 铁 板 鳕 鱼 的 时 候, 如 果 铁 板 鳕 鱼 之 间 的 二 元 关 系 不 在 语 料 中 出 现, 那 么 最 终 输 入 法 给 出 的 结 果 会 是 铁 板 雪 域 但 如 果 事 先 能 把 能 够 很 多 食 物 类 词 语 聚 成 一 个 类, 我 们 可 能 会 得 到 铁 板 类 食 物 这 样 的 二 元 关 系, 同 时 因 鳕 鱼 属 于 类 食 物, 我 们 就 可 以 预 测 铁 板
与 鳕 鱼 之 间 有 一 定 的 二 元 关 系 不 难 发 现, 我 们 此 时 使 用 的 聚 类 特 征 是 上 下 文, 处 理 基 于 上 下 文 的 聚 类 的 时 候, 一 个 常 用 的 方 法 是 层 次 化 聚 类 层 次 化 聚 类 的 算 法 思 想 是 : 先 找 出 特 征 最 相 似 的 个 体 进 行 合 并, 合 并 后 的 整 体 看 成 是 新 的 个 体, 继 续 参 加 合 并, 直 到 我 们 认 为 整 体 数 目 已 经 足 够 小, 或 者 找 不 到 我 们 认 为 可 以 合 并 的 个 体 对 为 止 迭 代 聚 类 与 层 次 化 聚 类 相 对 的, 迭 代 聚 类 是 首 先 随 机 指 定 一 种 聚 类 方 式, 并 且 定 义 一 种 代 价 函 数, 然 后 通 过 移 动 聚 类 中 的 元 素 到 其 他 类, 不 断 地 优 化 代 价 函 数, 最 后 得 到 一 个 近 似 全 局 最 优 代 价 值, 同 时 得 到 聚 类 的 结 果 典 型 的 代 表 就 是 LDA(Latent Dirichlet Allocation) 聚 类, 它 主 要 利 用 词 与 词 的 同 现, 进 行 同 一 主 题 词 的 聚 类 通 过 这 种 把 同 一 主 题 的 词 聚 成 一 类 的 方 法, 我 们 可 以 形 成 对 应 主 题 类 的 分 类 词 库 比 如 大 的 游 戏 类 下, 可 能 有 魔 兽 词 库 天 龙 八 部 词 库 三 国 词 库 ; 语 言 类 下, 可 以 聚 出 各 个 地 方 不 同 的 方 言 词 库 ; 即 使 都 是 关 于 汽 车, 也 会 被 聚 成 汽 车 品 牌 词 库 和 汽 车 术 语 不 同 的 分 类 词 库 得 到 这 些 分 类 词 库 以 后, 针 对 一 个 用 户, 看 该 用 户 是 否 已 经 使 用 了 词 库 中 的 一 些 词, 以 此 推 测 这 个 用 户 于 这 个 主 题 之 间 潜 在 的 关 联 度 如 果 关 联 度 比 较 大, 那 么 可 以 把 这 个 词 库 中 的 其 他 该 用 户 没 有 使 用 过 的 词 加 载 给 用 户, 方 便 用 户 未 来 的 使 用 例 如, 我 们 发 现 一 个 用 户 输 入 了 二 校 门 照 澜 院 这 样 的 词, 那 么 我 们 有 理 由 相 信, 用 户 在 未 来 很 可 能 输 入 紫 荆, 西 操 这 样 的 词, 因 为 看 起 来 他 像 是 一 个 清 华 院 内 的 用 户 IV. More and more 统 计 自 然 语 言 处 理 技 术 在 输 入 法 中 的 能 施 展 的 功 夫 远 不 止 上 面 提 到 的, 比 如 通 过 实 体 命 名 识 别 提 高 输 入 法 对 实 体 词 的 输 入 准 确 率 ; 利 用 信 道 模 型 结 合 语 言 模 型 进 行 用 户 拼 音 纠 错 ; 通 过 上 下 文 无 关 文 法 分 析 和 依 存 语 法 进 一 步 提 高 输 入 法 整 句 输 入 的 正 确 率 等 等, 这 里 就 不 一 一 描 述 了 可 以 说, 以 中 文 输 入 法 为 代 表 的 语 音 识 别 领 域, 涵 盖 了 大 部 分 自 然 语 言 处 理 理 论 要 解 决 的 问 题, 一 个 公 司 本 身 输 入 法 产 品 的 好 坏, 也 代 表 着 这 个 公 司 中 文 处 理 技 术 方 面 的 能 力 4. 总 结 文 本 讲 述 了 智 能 输 入 法 相 比 于 传 统 输 入 法 的 优 点, 并 简 要 介 绍 了 智 能 输 入 法 中 使 用 的 自
然 语 言 处 理 技 术 总 之, 有 了 统 计 自 然 语 言 处 理 技 术, 才 有 了 智 能 输 入 法 的 出 现 与 不 断 地 发 展 ; 输 入 法 的 聪 明 程 度 也 会 随 着 自 然 语 言 处 理 理 论 本 身 的 进 步 而 不 断 提 高 参 考 文 献 : [1] Hinrich.: Foundations of Statistical Natural Language Processing, Electronics Industry, 2005 [2] Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome: The Elements of Statistical Learning (2nd ed.). New York: Springer. 2009 [3] Peter F. Brown,Peter V. Desouza,Robert L. Mercer,Jenifer C. Lai: Class-Based n-gram Models of Natural Language, Computational Linguistics, Vol. 18, No. 4. pp. 467-479, 1992 [4] Blei, D.M., Ng, A.Y., Jordan, M.I.: Latent Dirichlet allocation. Journal of Machine Learning Research, 2003 [5] Church, Kenneth Ward, and Patrick Hanks: Word association norms, mutual information and lexicography. In ACL 27, pp.76-83, 1992 [6] 吴 根 清, 统 计 语 言 模 型 研 究 及 其 应 用, 清 华 大 学 博 士 论 文,2004. 作 者 列 表 王 砚 峰, 搜 狗 公 司 研 究 员, 硕 士, 目 前 研 究 方 向 为 自 然 语 言 处 理,wangyanfeng@sogou-inc.com 贾 剑 峰, 搜 狗 公 司 副 研 究 员, 硕 士, 目 前 研 究 方 向 为 自 然 语 言 处 理,jiajianfeng@sogou-inc.com 张 扬, 搜 狗 公 司 副 研 究 员, 硕 士, 目 前 研 究 方 向 为 自 然 语 言 处 理,zhangyang@sogou-inc.com