文 章 编 号 :3-77(2)-- 文 章 编 号 :92 基 于 中 文 拼 音 输 入 法 数 据 的 汉 语 方 言 词 汇 自 动 识 别 张 燕, 张 扬 2, 孙 茂 松 (. 清 华 大 学 计 算 机 系, 北 京 市 84;2. 搜 狗 科 技 公 司, 北 京 市 84) 摘 要 : 方 言 研 究 领 域 中 的 语 音 研 究 词 汇 研 究 及 语 法 研 究 是 方 言 研 究 的 三 个 重 要 组 成 部 分, 如 何 识 别 方 言 词 汇, 是 方 言 词 汇 研 究 首 要 的 环 节 目 前, 汉 语 方 言 词 汇 研 究 的 语 料 收 集 与 整 理 主 要 通 过 专 家 人 工 整 理 的 形 式 进 行, 耗 时 耗 力 随 着 信 息 技 术 的 发 展, 人 们 的 交 流 广 泛 通 过 网 络 进 行, 而 输 入 法 数 据 包 含 海 量 的 语 料 资 源 以 及 地 域 信 息, 可 以 帮 助 进 行 方 言 词 汇 语 料 的 自 动 发 现 然 而, 目 前 尚 没 有 文 献 研 究 如 何 利 用 拼 音 输 入 法 数 据 对 方 言 词 汇 进 行 系 统 化 分 析, 因 此 在 本 文 中, 我 们 探 讨 借 助 中 文 输 入 法 的 用 户 行 为 来 自 动 发 现 各 地 域 方 言 词 汇 的 方 法 特 别 的, 我 们 归 纳 得 到 输 入 法 数 据 中 表 征 方 言 词 汇 的 两 类 特 征, 并 基 于 对 特 征 的 不 同 组 合 识 别 方 言 词 汇 最 后 我 们 通 过 实 验 评 价 了 两 类 特 征 的 不 同 组 合 方 法 对 方 言 词 汇 识 别 效 果 的 影 响 关 键 词 : 方 言 词 汇 识 别 ; 中 文 拼 音 输 入 法 ; 特 征 融 合 中 图 分 类 号 :T39 文 献 标 识 码 :A Automatic Identification of Chinese Dialect based on the Data from Chinese inyin Input Method ZHANG Yan, ZHANG Yang 2, SUN Maosong (.Tsinghua University, Beijing 84, China ; 2. Sogou Inc., Beijing 84, China) Abstract: The study of dialect is composed of voice study, vocabulary study and grammar study, of which the first step is to recognize the dialect vocabulary. By now, collection of Chinese idiom words is mainly accomplished by experts, and it is time-consuming and labor-intensive. With the development of information technology, people communicate widely through the network, and thus input method data contains vast amount of vocabulary resources as well as the geographical information, which can help automatically discover dialect words corpus. However, in literature, there have been very few studies on how to exploit the input method data to systematically investigate the dialects. Therefore this paper analyzes the user behavior of Chinese input method, and based on which we propose to automatically discover the geographical dialect vocabulary. Specifically, the paper gets the two representative features of dialects in Chinese input method, and uses different combinations of these two features to recognize dialect words. Finally, extensive experiments are performed to evaluate the impacts of the feature combinations on the dialect word recognition. Key words: Dialect detection;chinese inyin input method;feature combination 引 言 方 言 词 汇 研 究 是 方 言 研 究 的 一 个 重 要 方 面, 其 中 方 言 词 汇 的 识 别 是 方 言 词 汇 研 究 的 首 要 环 节 方 言 词 汇 研 究 在 语 言 学 研 究 信 息 检 索 机 器 翻 译 刑 事 侦 查 等 方 面 都 有 重 要 的 应 用 价 值 [] 但 目 前 方 言 词 汇 研 究 的 语 料 收 集 工 作 主 要 依 赖 于 专 家 的 人 工 整 理 [2,3], 这 一 工 作 需 要 耗 费 大 量 的 时 间 和 精 力 信 息 技 术 的 不 断 发 展, 特 别 是 中 文 输 入 法 的 广 泛 应 用, 为 人 们 收 稿 日 期 :23-6- 定 稿 日 期 :23-7-5 基 金 项 目 : 国 家 自 然 科 学 基 金 重 点 项 目 (6332); 国 家 863 计 划 项 目 (22AA2) 作 者 简 介 : 张 燕 (98 ), 女, 博 士 在 读, 主 要 研 究 为 自 然 语 言 处 理 机 器 学 习 ; 张 扬 (98 ), 男, 研 究 员, 主 要 研 究 方 向 为 自 然 语 言 处 理 机 器 学 习 输 入 法 ; 孙 茂 松 (962 ), 男, 教 授, 主 要 研 究 方 向 为 自 然 语 言 处 理 信 息 检 索 和 社 会 计 算
日 常 的 网 络 交 流 带 来 很 大 便 捷, 而 输 入 法 中 所 记 录 的 用 户 行 为, 特 别 是 带 有 用 户 地 理 信 息 的 输 入 记 录, 能 够 反 映 出 不 同 地 域 用 户 的 语 言 使 用 习 惯 及 地 域 相 关 词 汇 的 特 征 基 于 此, 本 文 中 我 们 主 要 考 虑 借 助 中 文 拼 音 输 入 法 的 记 录 来 自 动 发 现 汉 语 方 言 词 汇, 为 汉 语 方 言 词 汇 研 究 提 供 语 料 库 图 输 入 法 用 户 记 录 示 例 图 中 的 数 据 是 某 中 文 拼 音 输 入 法 记 录 的 一 段 用 户 输 入 行 为 从 图 中 我 们 可 以 看 出, 用 户 的 输 入 记 录 中 包 含 用 户 的 地 理 信 息 ( 即 用 户 的 I 地 址 ) 拼 音 选 词 习 惯 录 入 习 惯 以 及 使 用 环 境 ( 即 调 用 拼 音 输 入 法 的 应 用 程 序 ) 通 过 用 户 的 I 信 息, 我 们 可 以 根 据 I 地 址 库 来 确 定 用 户 所 在 的 地 理 位 置, 而 这 样 的 地 理 位 置 是 我 们 赖 以 发 现 汉 语 方 言 词 汇 的 重 要 数 据 依 据 由 于 中 文 输 入 法 可 以 自 动 记 录 用 户 的 输 入 行 为, 不 需 要 用 户 的 主 动 参 与 即 可 采 集 到 大 量 的 方 言 词 汇 数 据, 从 而 为 方 言 研 究 提 供 大 规 模 语 料 然 而 目 前 在 研 究 界, 少 有 利 用 中 文 输 入 法 数 据 来 进 行 方 言 研 究 的, 只 有 郑 亚 斌 等 人 [4] 的 工 作 在 中 文 输 入 法 数 据 的 基 础 上 研 究 了 中 文 的 地 域 相 关 词 条, 主 要 目 的 为 扩 充 中 文 输 入 法 词 库, 并 非 针 对 中 文 方 言 词 汇 进 行 自 动 发 现 本 文 正 是 基 于 这 样 的 考 虑, 试 图 通 过 输 入 法 数 据 中 的 用 户 行 为, 来 分 析 现 代 汉 语 在 使 用 过 程 中 所 体 现 出 的 地 域 分 布 性 质, 从 而 自 动 发 现 汉 语 方 言 词 汇 并 研 究 其 时 空 分 布 本 文 的 主 要 贡 献 是 :) 我 们 提 出 了 一 种 通 过 中 文 拼 音 输 入 法 中 记 录 的 用 户 行 为 信 息 来 发 现 并 分 析 汉 语 方 言 词 汇 的 方 法 ;2) 其 次, 我 们 基 于 人 工 标 注 的 方 言 语 料 分 析 了 地 理 信 息 使 用 环 境 等 特 征 及 其 特 征 组 合 对 识 别 汉 语 方 言 词 汇 的 影 响 ;3) 最 后 我 们 将 分 析 得 到 的 有 效 特 征 组 合 通 过 特 征 排 序 的 方 法 获 得 了 全 国 各 地 域 的 方 言 词 表 本 文 的 主 要 安 排 如 下 : 首 先 在 第 2 节 根 据 标 注 语 料 库 来 确 定 数 据 的 归 一 化 等 预 处 理, 对 语 料 库 中 的 词 条 进 行 向 量 化 处 理, 获 得 汉 语 词 条 的 地 理 信 息 时 间 信 息 使 用 频 度 信 息 等 ; 在 第 3 节, 分 析 并 提 取 标 注 语 料 的 特 征 并 验 证 其 有 效 性 ; 最 后, 在 第 4 节 对 有 效 特 征 进 行 融 合 通 过 排 序 的 方 法 获 得 全 国 各 地 域 的 方 言 词 汇 2 问 题 描 述 2. 汉 语 方 言 词 汇 的 概 念 及 特 征 汉 语 方 言 词 汇 是 基 于 现 代 汉 语 词 汇 的 横 向 比 较 研 究 而 产 生 的, 是 语 言 的 地 域 变 体 [3,5] 方 言 是 一 定 区 域 内 的 交 流 工 具, 因 此 方 言 词 汇 的 使 用 频 度 在 地 域 分 布 上 具 有 区 内 较 高 区 外 较 低 的 特 征, 且 由 于 方 言 多 在 日 常 交 流 中 使 用, 方 言 词 汇 的 口 语 化 程 度 较 高 [6], 所 以 我 们 主 要 通 过 地 域 分 布 以 及 口 语 化 程 度 这 两 个 特 点 来 考 察 方 言 词 汇 2.2 中 文 拼 音 输 入 法 用 户 记 录 由 于 中 文 输 入 法 数 据 可 以 提 供 词 汇 的 使 用 频 度, 故 我 们 可 以 定 量 分 析 方 言 词 汇 的 地 域 分 布 特 点 以 及 口 语 化 程 度, 进 而 根 据 这 两 个 特 点 来 识 别 方 言 词 汇 图 中 给 出 了 一 段 具 体 的 输
入 法 用 户 记 录, 由 此 记 录 我 们 可 以 获 得 以 下 信 息 : 用 户 输 入 的 词 条, 用 户 的 录 入 时 间, 用 户 调 用 输 入 法 的 应 用 程 序, 以 及 用 户 的 I 地 址 大 量 的 用 户 输 入 记 录 可 以 获 得 中 文 词 条 在 各 地 域 的, 以 及 在 不 同 的 应 用 程 序 中 使 用 的 频 度 其 中 词 条 在 各 地 域 的 可 用 以 描 述 词 条 在 地 域 分 布 上 的 特 征, 而 词 条 在 不 同 的 应 用 程 序 中 的 使 用 频 度 则 可 以 描 述 词 条 的 口 语 化 程 度, 即 在 以 使 用 口 语 为 主 的 程 序 中 出 现 频 度 较 高 的 词 条 则 口 语 化 程 度 相 对 较 高 由 于 我 们 的 输 入 法 数 据 包 含 了 全 国 共 34 个 省 级 地 域 的 用 户 记 录, 所 以 每 一 个 词 条 均 可 以 获 得 一 个 34 维 的 地 域 分 布 特 征 相 关 的 向 量, 而 用 户 调 用 中 文 输 入 法 的 应 用 程 序 数 目 较 多, 我 们 仅 选 取 有 代 表 性 的 频 率 最 高 的 前 个 应 用 程 序, 每 一 个 应 用 程 序 可 以 根 据 其 主 要 作 用 标 注 为 口 语 型 或 书 面 语 型 应 用 程 序, 例 如 iexplore.exe 是 浏 览 器 程 序, 我 们 将 其 标 注 为 书 面 语 型 的 应 用 程 序, 而 QQ.exe 是 即 时 通 讯 软 件, 多 用 于 用 户 之 间 的 日 常 交 流, 故 我 们 标 注 其 为 口 语 型 应 用 程 序 对 数 据 集 中 的 每 个 词 条, 我 们 均 可 以 获 得 一 个 34 维 的 地 域 分 布 向 量, 以 及 一 个 维 的 用 以 衡 量 词 条 口 语 化 程 度 的 向 量 方 便 起 见, 我 们 记 录 该 词 条 为, 分 别 根 据 该 词 条 在 全 国 34 个 省 级 地 域 的 使 用 频 度 在 个 应 用 程 序 中 的 这 2 类 特 征, 生 成 一 个 包 含 34 个 特 征 值 的 向 量, 可 以 参 考 图 2 中 的 表 示 图 2: 词 条 差 头 ( 出 租 车 ) 的 向 量 化 表 示 2.3 方 言 词 汇 在 中 文 拼 音 输 入 法 数 据 中 的 特 点 如 上 所 述, 方 言 词 汇 的 使 用 频 度 在 地 域 分 布 上 具 有 区 内 较 高 区 外 较 低 的 特 征, 并 且 在 口 语 中 较 常 使 用, 而 在 书 面 语 中 出 现 较 少 根 据 这 一 特 征, 我 们 分 别 列 举 了 差 头 ( 出 租 车 ) 水 门 汀 ( 水 泥 ) 新 闸 路 这 3 个 词 条 在 全 国 34 个 省 级 地 域 的 频 度 分 布 及 其 在 个 应 用 程 序 中 的, 参 考 图 3 5 2 3 省 级 地 域 4 2 2 3 省 级 地 域 5 2 3 省 级 地 域 (a) 5 口 语 型 书 面 语 型 2 4 6 8 应 用 程 序 2 口 语 型 书 面 语 型 2 4 6 8 应 用 程 序 口 语 型 书 面 语 型 5 2 4 6 8 应 用 程 序 (b) 图 3: 词 条 差 头 ( 出 租 车 ) 水 门 汀 ( 水 泥 ) 新 闸 路 (a): 在 各 省 级 地 域 的 输 入 频 度 ; (b): 在 各 应 用 程 序 中 的 图 3 中 的 左 图, 自 上 而 下 分 别 是 差 头 ( 出 租 车 ) 水 门 汀 ( 水 泥 ) 新 闸 路 这 3
个 词 条 在 全 国 34 个 省 级 区 域 的 分 布, 可 以 看 出, 这 3 个 词 条 均 在 上 海 地 区 ( 横 坐 标 为 6) 时 达 到 峰 值, 这 与 实 际 情 况 是 相 符 的 因 为 差 头 与 水 门 汀 均 属 洋 泾 浜 英 语, 在 上 海 地 区 使 用 人 数 最 多, 而 在 其 余 省 级 地 域 很 少 使 用, 这 两 个 词 条 可 以 通 过 地 域 分 布 特 征 提 取 出 来, 而 新 闸 路 属 于 上 海 的 地 名, 但 并 不 是 上 海 地 区 的 方 言 词 汇, 虽 然 其 只 在 上 海 地 区 使 用, 但 单 纯 通 过 地 域 特 征 计 算 会 混 淆 在 上 海 方 言 词 汇 中 而 被 提 取 出 来, 这 本 质 上 是 区 分 地 域 词 汇 和 方 言 的 困 难 所 致 图 3 中 的 右 图, 自 上 而 下 分 别 给 出 了 上 述 3 个 词 条 在 个 应 用 程 序 中 的, 其 中 虚 线 左 部 为 口 语 化 应 用 程 序, 而 右 部 为 书 面 语 型 应 用 程 序 从 右 图 中 可 以 看 出, 由 于 新 闸 路 为 地 名, 除 去 其 在 口 语 化 应 用 程 序 中 会 出 现 之 外, 在 书 面 语 型 的 应 用 程 序 中 也 会 出 现, 而 且 频 度 甚 至 比 在 口 语 化 应 用 程 序 中 出 现 的 更 多, 故 我 们 可 以 考 虑 通 过 应 用 程 序 的 口 语 化 程 度 来 过 滤 部 分 地 名 受 本 例 启 发, 我 们 试 图 通 过 选 择 合 适 的 词 条 特 征 来 鉴 别 方 言 词 汇 下 面 我 们 给 出 中 文 拼 音 输 入 法 记 录 中 的 汉 语 词 条 地 域 分 布 特 征 及 口 语 化 程 度 的 分 析 及 计 算 3 汉 语 方 言 特 征 分 析 3. 特 征 分 析 及 其 计 算 如 前 所 述, 方 言 词 汇 的 使 用 频 度 在 地 域 分 布 上 具 有 区 内 较 高 区 外 较 低 的 特 征, 据 此, 我 们 对 方 言 词 汇 在 各 省 级 地 域 上 的 频 度 分 布 以 及 在 个 应 用 程 序 中 的 分 别 进 行 了 统 计, 归 纳 得 到 两 类 特 征, 用 以 辨 识 词 条 是 否 属 于 地 域 的 方 言 词 汇 表 是 对 这 两 类 特 征 的 说 明 其 中, 概 率 比 的 特 征 R 是 对 应 地 理 区 域 性 的, 而 口 语 化 程 度 的 计 算 则 是 在 应 用 程 序 中 的 基 础 上 进 行 的, 即 不 同 应 用 程 序 中 的 频 率 概 率 比 R 具 体 的 每 个 特 征 的 表 征 意 义 参 考 表 表 : 特 征 说 明 表 示 符 号 说 明 特 点 R 不 同 地 域 内 的 频 度 概 率 比 词 条 在 该 地 域 多 而 其 余 地 域 少 R 不 同 应 用 程 序 中 的 频 度 概 率 比 词 条 口 语 中 使 用 较 多 而 书 面 语 中 较 少 表 中 所 列 的 特 征, 计 算 如 下 : ) 特 征 R 主 要 用 以 判 断 词 条 是 否 属 于 某 地 域 l 的 相 关 词 条, 假 设 给 定 词 条 w 的 归 一 化 特 征 向 量 为 v, 该 特 征 的 计 算 如 下 : pwl ( ) Freqwl (, )/ Freql ( ) R R( w, l) () ( w l ) Freq( w, l )/ Freq( l ) 其 中, R 表 示 的 是 词 条 w 在 地 域 l 中 的 分 布 概 率 与 其 在 地 域 l 之 外 的 地 域 ( 即 公 式 中 的 l ) 分 布 的 概 率 之 比, 此 值 越 大, 则 表 明 词 条 w 属 于 地 域 l 的 方 言 词 汇 的 可 能 性 越 大 2) 特 征 R 主 要 用 以 判 断 词 条 是 否 属 于 口 语 化 词 汇, 因 为 方 言 词 汇 在 口 语 化 的 应 用 程 序 中 使 用 较 多, 而 在 书 面 语 的 应 用 程 序 中 使 用 较 少, 所 以 我 们 通 过 计 算 词 条 在 不 同 类 型 的 应 用 程 序 中 的 频 度 分 布 概 率 比 来 度 量 词 条 属 于 方 言 词 汇 的 可 能 性, 其 计 算 方 法 如 下 : pw ( p ) Freqwp (, )/ Freqp ( ) R R( w, p) (2) p( w p ) Freq( w, p )/ Freq( p )
其 中, R 描 述 的 是 词 条 w 在 口 语 化 应 用 程 序 ( 即 公 式 中 的 p ) 中 使 用 的 概 率 与 书 面 语 应 用 程 序 ( 即 公 式 中 的 p ) 中 的 概 率 之 比, 比 值 越 大, 越 能 说 明 词 条 w 是 方 言 词 汇 的 可 能 性 较 大 3.2 特 征 组 合 由 上 面 的 计 算 公 式 可 以 看 出, 两 部 分 的 特 征 可 以 统 一 看 作 词 条 w 属 于 某 地 域 l 的 概 率 比, 以 及 属 于 口 语 化 词 汇 的 概 率 比, 这 两 类 特 征 可 以 看 作 是 概 率 比 公 式 的 统 一 计 算, 而 且 两 者 的 取 值 范 围 均 在 [,] 之 间, 故 我 们 考 虑 通 过 加 权 调 和 平 均 的 特 征 组 合 方 式 来 考 察 两 种 特 征 对 于 方 言 词 汇 自 动 识 别 的 贡 献 我 们 分 别 假 设 两 种 特 征 的 权 重 为 和, 对 上 述 2 种 特 征 进 行 组 合, 参 见 公 式 (3) 在 下 面 的 实 验 部 分 我 们 考 察 了 权 重 参 数 对 实 验 结 果 的 影 响 ( w) ( ) (3) R R 公 式 (3) 中, 参 数 [,], 用 以 调 整 特 征 R 与 特 征 属 于 方 言 词 汇 的 概 率 我 们 通 过 对 w ( ) 的 排 序 来 确 定 方 言 词 汇 R 的 权 重, ( w ) 则 用 以 表 示 w 4 实 验 结 果 和 分 析 4. 数 据 描 述 我 们 的 输 入 法 数 据 是 从 搜 狗 拼 音 输 入 法 中 获 得 的 2.7.-2.7.7 之 间 共 7 天 的 用 户 输 入 记 录, 共 约 262GByte 的 数 据, 过 滤 掉 总 频 度 低 于 5 的 低 频 词 条 后, 可 以 获 得 输 入 记 录 的 词 条 数 目 为 2,478,39, 这 些 词 条 作 向 量 化 处 理 后, 最 后 得 到 2,478,39 个 34 维 向 量 的 集 合 为 了 对 比 汉 语 词 语 的 地 域 性, 我 们 根 据 语 言 学 专 家 提 供 的 数 据 集, 选 取 标 注 了 3 个 语 料 库 作 为 观 察 数 据, 包 括 : 北 京 方 言 [6] 上 海 方 言 [7] 以 及 常 用 词 条 [8] 针 对 这 三 个 观 察 数 据 集, 我 们 可 以 获 得 数 据 集 中 的 词 条 在 搜 狗 拼 音 输 入 法 中 的 记 录 去 除 了 总 频 度 低 于 5 的 低 频 词 条 之 后 的 上 海 方 言 词 汇 为 69 条, 北 京 方 言 以 及 现 代 汉 语 常 用 三 千 词 在 搜 狗 拼 音 输 入 法 中 出 现 的 词 条 数 则 分 别 为 3 和 2565 由 于 上 海 方 言 的 词 汇 集 合 较 小, 而 北 京 方 言 及 常 用 词 的 数 目 较 多, 为 了 实 验 的 可 比 性, 我 们 最 终 选 择 上 海 方 言 69 条, 随 机 选 取 北 京 方 言 常 用 词 条 各 2 条, 作 为 我 们 的 标 注 数 据 集, 以 观 测 权 重 参 数 对 实 验 结 果 的 影 响, 从 而 指 导 未 标 注 集 合 上 的 方 言 词 汇 识 别 4.2 评 价 指 标 对 于 上 文 提 到 的 两 种 特 征, 我 们 将 计 算 在 不 同 的 权 重 参 数 下, 这 两 种 特 征 在 北 京 标 注 方 言 与 上 海 标 注 方 言 数 据 集 上 的 性 能, 为 了 评 价 我 们 提 取 的 方 言 词 汇 的 准 确 性, 我 们 采 用 以 下 指 标 : ) 前 N 个 返 回 结 果 的 准 确 率 ( 记 为 @ N ) 其 中, @ N [9] 计 算 在 返 回 的 前 N 个 最 优 结 果 的 准 确 率, 这 一 标 准 常 用 在 信 息 检 索 领 域 中 来 衡 量 检 索 结 果 的 准 确 度 针 对 北 京 上 海 方 言 的 标 注 集 合, 对 于 评 价 系 统 对 北 京 标 注 方 言 的 返 回 性 能, 我 们 主 要 考 虑 @, @2, @5, @, @2这 5 个 指 标, 而 对 于 评 价 上 海 标 注 方 言, 由 于 我 们 标 注 的 上 海 方 言 词 汇 在 输 入 法 数 据 中 仅 有 69 个 词 条 有 记 录, 所 以 我 们 采 用 @, @2, @5, @, @69这 5 个 指 标
2) 二 元 偏 好 值 ( 记 为 Bpref ) 根 据 文 献 [], Bpref 用 以 评 价 返 回 结 果 中, 正 确 词 条 与 非 正 确 词 条 的 相 对 位 置, 主 要 用 以 评 价 系 统 能 否 将 相 关 词 条 在 不 相 关 词 条 之 前 返 回, 其 计 算 公 式 如 下 : n Bpref (4) R R 其 中 n 是 排 在 r 之 前 的 正 确 的 词 条 的 个 数 对 于 Bpref 的 计 算, 我 们 选 取 R 2 4.3 权 重 参 数 的 影 响 针 对 北 京 及 上 海 方 言, 我 们 计 算 了 根 据 各 地 域 总 频 度 进 行 归 一 化 的 情 况 下, 标 注 数 据 集 合 中 北 京 上 海 两 地 方 言 词 汇, 随 特 征 权 重 参 数 变 化 的 识 别 效 果 具 体 情 况 参 考 图 4 及 图 5 r 北 京 方 言 词 汇 的 @2 值.8.6.4.2 -.2.5.2.4.6.8..2.4.6 权 重 参 数.8 (a)
北 京 方 言 词 汇 的 Bpref 值.8.6.4.2 -.2.5.2.4.6.8..2.4.6 权 重 参 数.8 (b) 图 4: 权 重 参 数 对 北 京 方 言 词 汇 识 别 结 果 的 影 响 (a): @2;(b): Bpref 上 海 方 言 词 汇 的 @69 值.8.6.4.2 -.2.5.2.4.6.8..2.4.6 权 重 参 数.8 (a)
上 海 方 言 词 汇 的 Bpref 值.8.6.4.2 -.2.5.2.4.6.8..2.4.6 权 重 参 数.8 (b) 图 5: 权 重 参 数 对 上 海 方 言 词 汇 识 别 结 果 的 影 响 (a): @69;(b): Bpref 图 4 中, 左 图 (a) 以 及 右 图 (b) 中 的 曲 线 分 别 是 权 重 参 数, 在 [,] 之 间 按 照 步 长. 取 不 同 的 值 时, 北 京 方 言 词 汇 识 别 的 Bpref 和 @2的 结 果 各 个 子 图 中 的 内 嵌 图 是 对 大 图 中 最 高 取 值 区 间 的 细 分, 左 图 (a) 中 是 在 [,.] 之 间 按 照 步 长. 取 不 同 的 值 时, 北 京 方 言 识 别 结 果 的 Bpref 值, 而 右 图 则 是 @2的 值 同 样 的, 图 5 中 的 左 图 (a) 与 右 图 (b) 则 分 别 是 上 海 方 言 识 结 果 的 Bpref 值 与 @69 的 值 综 合 图 4 图 5 中 可 以 看 出, 当.8, 在 观 察 数 据 上 可 以 获 得 的 北 京 方 言 及 上 海 方 言 词 汇 的 准 确 率 以 及 二 元 偏 好 值 均 较 高, 而 且 试 验 效 果 受 地 域 分 布 相 关 特 征 R 的 影 响 较 大, 而 口 语 化 相 关 特 征 R 则 相 对 而 言 不 是 非 常 敏 感 在 此 后 的 试 验 中, 我 们 均 采 用 设 置 权 重 参 数.8 由 于 试 验 结 果 受 地 域 相 关 特 征 影 响 较 大, 所 以 对 地 域 的 更 细 划 分, 会 更 有 助 于 我 们 的 试 验, 这 部 分 将 作 为 我 们 下 一 步 的 工 作 继 续 研 究 4.3 实 验 结 果 及 分 析 根 据 标 注 集 合 的 评 价 结 果, 我 们 确 定 了 特 征 组 合 方 式 及 权 重 系 数, 针 对 未 标 注 数 据, 我 们 分 别 计 算 了 全 国 34 个 地 域 的 方 言 词 汇, 并 在 表 2 中 给 出 了 6 个 方 言 区 中 的 6 个 有 代 表 性 的 地 域 上 的 方 言 检 测 的 前 个 结 果 在 这 里 之 所 以 没 有 给 出 客 家 方 言 区 的 代 表 区 域, 是 因 为 客 家 方 言 的 分 布 比 较 复 杂, 集 中 分 布 在 某 几 个 地 区 的 某 几 个 区 域, 由 于 我 们 目 前 采 用 的 地 域 分 区 只 细 分 到 省 份, 所 以 不 能 确 切 地 给 出 客 家 方 言 的 代 表 区 域 从 表 2 中 可 以 看 到 各 个 代 表 地 域 检 测 出 的 前 个 方 言 词 汇, 在 不 同 的 应 用 程 序 及 地 域 分 布 都 是 比 较 集 中 的
表 2: 方 言 词 汇 识 别 的 结 果 方 言 区 北 方 方 言 吴 方 言 区 粤 方 言 区 闽 方 言 区 湘 鄂 方 言 赣 方 言 区 代 表 北 京 上 海 广 东 福 建 湖 北 江 西 有 地 么 测 那 淫 龙 收 我 为 徒 吧 么 思 婉 清 2 吗 去 了 瓦 拉 马 兰 开 花 各 税 么 昂 哟 里 3 你 吗 呢 噶 散 户 老 虎 哥 哥 火 毛 洗 了 睡 逼 战 4 真 孙 子 满 叫 浪 险 靠 妖 静 之 恰 噶 5 嘛 去 一 炮 无 喺 米 加 氨 搞 么 斯 该 枪 6 有 什 么 能 是 伐 啦 果 到 有 傻 利 马 杂 处 7 杀 星 不 乖 囡 做 紧 乜 颠 趴 屋 地 小 乃 8 叶 卡 你 比 样 体 紧 喝 铁 观 音 麽 办 让 费 9 你 是 北 京 人 吗 快 来 西 唔 入 无 语 掉 莫 样 瓦 擦 擦 嘛 呢 你 去 伐 哩 几 日 私 麦 麽 比 蝙 蝠 魔 可 以 看 出, 我 们 的 算 法 在 南 方 的 五 大 方 言 区 的 检 测 效 果 较 好, 而 在 以 北 京 地 区 为 代 表 的 北 方 方 言 的 检 测 效 果 最 差 这 是 由 于 北 京 地 域 的 方 言 与 普 通 话 的 差 异 较 小, 要 更 好 检 测 出 北 京 方 言, 还 需 要 引 入 其 他 的 特 征, 由 于 篇 幅 关 系, 我 们 下 一 步 工 作 将 详 细 研 究 为 了 评 测 为 标 注 集 合 上 各 个 特 征 的 性 能, 我 们 选 取 了 北 京 上 海 广 东 三 地 各 6 组 结 果 中 的 前 2 个 返 回 结 果 进 行 人 工 评 测, 根 据 4.2 节 给 出 的 2 种 评 价 标 准 统 计 了 人 工 标 注 的 结 果, 参 考 图 6 其 中 可 以 看 出, 综 合 考 虑 了 地 域 相 关 的 特 征 以 及 程 序 口 语 化 特 征 的 情 况 下, 北 京 上 海 广 东 这 3 个 地 区 的 方 言 检 测 结 果 均 比 只 考 虑 了 地 域 相 关 特 征 的 效 果 有 明 显 改 善, 特 别 是 对 北 京 上 海 地 区 的 方 言, 前 2 个 返 回 结 果 中, 能 提 高 5% 以 上 的 效 果
.9.8.7.6 @N.5.4.3.2. 北 京 : R +R 上 海 : R +R 广 东 : R +R 北 京 : R 上 海 : R 广 东 : R 2 4 6 8 2 4 6 8 2 方 言 词 条 返 回 结 果 数 N 图 6: 北 京 上 海 广 东 地 区 方 言 返 回 结 果 同 样 的, 针 对 评 价 指 标 Bpref 的 结 果, 表 3 中 可 以 看 出, 两 种 特 征 结 果 之 后 的 检 测 结 果 相 比 只 考 虑 了 地 域 相 关 特 征 的 结 果, 在 上 海 广 东 地 区, 能 提 高 9% 以 上, 而 在 北 京 地 区 则 能 提 高 32% 以 上 这 说 明, 两 种 特 征 结 合 的 效 果 优 于 只 考 虑 了 地 域 相 关 特 征 的 效 果, 因 此 再 一 次 验 证 了 引 入 输 入 法 记 录 词 条 的 口 语 化 相 关 的 特 征 是 必 要 的 表 3: 北 京 上 海 广 东 地 区 方 言 返 回 结 果 : Bpref R R R 北 京 上 海 广 东 北 京 上 海 广 东.6564.9936.948.3282.44.76 5 总 结 及 下 一 步 工 作 本 文 首 先 提 出 了 一 种 利 用 中 文 拼 音 输 入 法 中 记 录 的 用 户 行 为 来 识 别 并 分 析 汉 语 方 言 词 汇 的 方 法 ; 基 于 此 方 法, 我 们 对 人 工 标 注 的 方 言 语 料 的 特 性 进 行 统 计, 分 析 了 地 理 信 息 语 言 特 征 对 汉 语 方 言 识 别 中 的 影 响 ; 最 后 我 们 通 过 交 叉 验 证 的 方 法 来 调 节 有 效 特 征 的 权 重 参 数, 对 特 征 融 合 后 通 过 排 序 的 方 法 获 得 了 全 国 各 地 域 的 方 言 词 汇 基 于 本 文 的 工 作, 一 旦 获 得 个 地 域 方 言 词 汇 库, 下 一 步 我 们 可 以 对 地 域 划 分 得 更 细, 分 析 各 地 域 方 言 的 异 同, 从 而 对 全 国 方 言 进 行 更 细 的 分 区
参 考 文 献 [] 顾 明 亮, 沈 兆 勇. 基 于 语 音 配 列 的 汉 语 方 言 辨 识 [J]. 中 文 信 息 学 报,vol.2, No.5, 77-82. [2] 李 如 龙. 谈 汉 语 方 言 的 比 较 研 究 兼 评 汉 语 方 言 大 词 典 [J]. 辞 书 研 究,2,(4). [3] 詹 伯 慧. 汉 语 方 言 及 方 言 调 查 [M]. 湖 北 教 育 出 版 社,2. [4] 郑 亚 斌. 中 文 用 户 输 入 法 用 户 行 为 分 析 及 其 应 用 [D]. 清 华 大 学 博 士 学 位 论 文,2. [5] 邢 向 东. 关 于 深 化 汉 语 方 言 词 汇 研 究 的 思 考 [J]. 语 言 文 字 学 研 究, 27, (2):7-22. [6] 董 树 人. 新 编 北 京 方 言 词 典 [M]. 商 务 印 书 馆,2. [7] 李 庆 鸿. 上 海 话 托 福 ( 常 用 词 汇 )[M]. 学 林 出 版 社,2. [8] 郑 林 曦. 普 通 话 三 千 常 用 词 表 [M].987, 文 字 改 革 出 版 社. [9]Yates R, Neto B. Modern information retrieval[m]. Addison-Wesley ongman ublishing Co.,Inc., 999. [] Buckley C,Voorhees E. Retrieval evaluation with incomplete information[c]. roceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM, 24.25 32.