基 于 SVM 和 泛 化 模 板 协 作 的 藏 语 人 物 属 性 抽 取 朱 臻 1,2, 孙 媛 (1. 中 央 民 族 大 学 信 息 工 程 学 院, 北 京 市 100081; 2. 中 央 民 族 大 学 国 家 语 言 资 源 监 测 与 研 究 中 心 少 数 民 族 语 言 分 中 心, 北 京 市 100081) 摘 要 : 该 文 提 出 了 一 种 基 于 SVM 和 泛 化 模 板 协 作 的 藏 语 人 物 属 性 抽 取 方 法 该 方 法 首 先 构 建 了 基 于 藏 语 语 言 规 则 的 模 板 系 统, 收 集 了 包 括 格 助 词 特 殊 动 词 等 具 有 明 显 语 义 信 息 的 特 征 建 设 模 板 并 泛 化 针 对 规 则 方 法 的 局 限 性, 该 文 在 模 板 的 基 础 上, 采 用 SVM 机 器 学 习 方 法, 设 计 了 一 种 处 理 多 分 类 问 题 的 层 次 分 类 器 结 构, 同 时 对 多 样 化 的 特 征 选 取 给 予 说 明 最 后, 实 验 结 果 表 明, 基 于 SVM 和 模 板 相 结 合 的 方 式 可 以 对 人 物 属 性 抽 取 的 性 能 有 较 大 提 高 关 键 词 : 人 物 属 性 抽 取 ; 藏 语 语 言 处 理 ;SVM; 层 次 分 类 器 中 图 分 类 号 :TP391 文 献 标 识 码 :A Tibetan Person Attributes Extraction Based on SVM and Pattern Zhen Zhu 1,2, Yuan Sun 1,2 (1.School of Information Engineering, Minzu University of China,Beijing, 100081, China; 2. Minority Languages Branch, National Language Resource and Monitoring Research Center, 1,2 Beijing, 100081, China) Abstract: This paper proposes an SVM and pattern based approach to Tibetan person attributes extraction. Starting from the pattern system built with language rules. In which, the Tibetan language features with clear semantic information are vital, such as case-auxiliary words, particular verb and etc., and then normalization by some experimental results. Secondly, considering the shortage of rule method, machine learning approach are introduced, the SVMs with multiply feature vectors are used and organized by a hierarchy classifier strategy. Finally, experiment results prove this method has greater improvement in person attributes extraction. Keywords: Person attributes extraction; Tibetan language processing; SVM; Hierarchy classifier 1 引 言 随 着 互 联 网 的 快 速 普 及, 特 别 是 发 展 中 国 家 互 联 网 用 户 的 快 速 增 加, 网 络 上 非 英 语 文 本 资 源 数 量 急 速 增 长, 其 增 长 速 度 远 远 超 过 了 10 年 前 的 速 度, 并 且 越 来 越 多 的 网 上 信 息 以 多 语 言 的 形 式 发 布 据 中 央 民 族 大 学 国 家 语 言 资 源 监 测 与 研 究 中 心 少 数 民 族 语 言 分 中 心 调 查 : 截 止 到 2013 年 12 月 底, 大 陆 少 数 民 族 语 言 文 字 的 网 站 总 量 在 1,250 个 左 右, 其 中 维 吾 尔 文 网 站 840 个 藏 文 网 站 146 个 蒙 古 文 网 站 136 个 与 全 国 网 民 增 长 速 度 相 比, 少 数 民 族 网 民 的 增 速 较 为 突 出, 例 如 藏 族 网 民 增 幅 达 86%, 远 远 高 于 全 国 平 均 增 长 速 度 [1] Web 内 容 的 爆 炸 式 增 长, 使 得 对 Web 的 社 会 网 络 研 究 已 经 不 再 局 限 于 对 Web 结 构 的 分 析, 而 是 转 向 以 Web 内 容 为 研 究 对 象 的 分 析 [2], 其 中 知 识 图 谱 (Knowledge Graph) 成 为 大 数 据 时 代 自 然 语 言 处 理 领 域 的 一 个 研 究 热 点 知 识 图 谱 以 结 点 代 表 实 体 或 者 概 念, 边 代 表 实 体 / 概 念 之 间 的 各 种 语 义 关 系, 其 中 实 体 知 识 的 抽 取 是 主 要 研 究 内 容 之 一 知 识 图 谱 以 全 面 完 整 的 知 识 体 系 为 信 息 检 索 问 答 系 统 知 识 库 构 建 等 领 域 的 研 究 提 供 了 资 源 和 支 撑, 而 目 前 已 有 的 Google( 超 过 5.7 亿 实 体,18 亿 关 系 ),DBpedia( 超 过 1900 万 实 体,1 亿 关 系 ),Wiki-links(4000 万 排 除 歧 义 的 关 系 ),Wolframalpha(10 万 亿 关 系 ), 收 稿 日 期 :2015-06-15 定 稿 日 期 :2015-08-10 基 金 项 目 : 国 家 自 然 科 学 基 金 项 目 (No.61331013); 北 京 青 年 英 才 资 助 计 划 (No.YETP1291); 国 家 语 委 项 目 (No.ZDI125-36,No.YB125-139); 中 央 民 族 大 学 自 主 科 研 项 目 (No.2015MDQN11); 中 央 民 族 大 学 国 家 语 言 资 源 监 测 与 研 究 中 心 少 数 民 族 语 言 分 中 心 项 目 (No.CML15B02)
Probase( 超 过 265 万 实 体 ), 百 度 知 心, 搜 狗 知 立 方 等 知 识 图 谱 只 提 供 英 汉 法 等 语 言 的 相 关 知 识 [3], 少 数 民 族 语 言 知 识 图 谱 的 构 建 才 刚 刚 起 步 例 如, 当 搜 索 ཏ ལའ བ མ ( 达 赖 喇 嘛 ) 时,Google 会 出 现 64,100 条 结 果 ; 而 当 搜 索 ར ལ བ ར ན པ ཆ ( 嘉 瓦 仁 波 切 ) 时,Google 会 出 现 586,000 条 结 果 在 藏 语 中, 通 常 称 ཏ ལའ བ མ ( 达 赖 喇 嘛 ) 为 ར ལ བ ར ན པ ཆ ( 嘉 瓦 仁 波 切 ), 而 目 前 的 搜 索 引 擎 却 没 有 显 示 两 者 之 间 的 关 系 此 外, 所 有 搜 索 结 果 以 含 有 关 键 词 的 文 本 显 示 为 主, 没 有 知 识 的 结 构 表 示 如 果 具 有 了 实 体 与 实 体 之 间 的 语 义 链 接, 有 了 实 体 知 识, 那 么 将 会 获 得 更 全 面 的 信 息, 实 现 信 息 的 深 度 挖 掘 因 此, 本 文 针 对 藏 语 语 言 的 特 点, 提 出 了 一 种 基 于 SVM 和 泛 化 模 板 协 作 的 藏 语 人 物 属 性 抽 取 方 法 藏 语 人 物 属 性 抽 取 的 研 究, 是 藏 语 知 识 图 谱 构 建 的 基 础, 为 藏 语 知 识 问 答 信 息 检 索 信 息 抽 取 等 领 域 研 究 提 供 支 撑, 对 提 高 少 数 民 族 地 区 的 社 会 管 理 科 学 化 水 平 维 护 民 族 团 结 和 国 家 统 一 构 建 和 谐 社 会 具 有 重 要 意 义 2 国 内 外 研 究 现 状 及 发 展 动 态 分 析 人 物 属 性 抽 取 是 信 息 抽 取 领 域 的 一 个 重 要 领 域 [4], 该 概 念 在 2009 年 的 国 际 TAC KBP 会 议 开 始 引 入 [5] 人 物 属 性 抽 取 是 指 自 动 从 无 结 构 或 者 半 结 构 的 文 本 语 料 中 抽 取 特 定 的 人 物 属 性, 其 中 包 括 人 物 性 别, 出 生 年 月, 出 生 地, 工 作 地 点 等 但 是 人 物 属 性 抽 取 一 直 面 临 着 两 大 问 题 [6], 即 人 物 属 性 识 别 问 题 和 人 物 属 性 关 系 判 别 问 题 人 物 属 性 一 般 为 命 名 实 体, 例 如 人 名 地 名 和 组 织 机 构 名 命 名 实 体 识 别 在 自 然 语 言 处 理 领 域 仍 是 一 件 尚 未 完 全 解 决 的 工 作 因 此, 在 人 物 属 性 抽 取 工 作 前, 需 要 准 备 高 准 确 度 命 名 实 体 标 注 语 料 [7] 为 了 实 现 大 规 模 数 据 的 信 息 抽 取, 很 多 机 器 学 习 算 法 被 引 入 到 信 息 抽 取 领 域 Freitag 采 用 HMM 结 构 进 行 信 息 抽 取 [8],Laffery 使 用 条 件 随 机 场 抽 取 数 据 [9],Kambhatla 把 多 种 特 征 用 于 最 大 熵 模 型 并 取 得 了 较 好 的 抽 取 效 果 [10] 而 应 用 最 广 的 是 支 持 向 量 机 方 法 [11][12] 作 为 信 息 抽 取 领 域 的 一 个 分 支, 把 统 计 的 方 法 运 用 于 人 物 属 性 抽 取, 通 常 采 用 基 于 特 征 向 量 的 方 式 [13] 其 中, 经 典 的 基 于 特 征 向 量 的 机 器 学 习 方 法 包 括 最 大 熵 模 型 [14] 和 支 持 向 量 机 [15] 另 外, 特 征 选 取 对 于 基 于 特 征 向 量 的 方 式 至 关 重 要 Miler 构 建 了 一 种 语 义 解 析 树, 树 中 整 合 了 概 念 间 关 系 的 多 种 语 义 信 息, 包 括 词 性 标 注, 命 名 实 体 识 别 标 记 和 其 他 一 些 语 言 上 的 强 特 征, 这 些 特 征 给 分 类 器 提 供 了 很 好 的 依 据 [16] Culotta 根 据 依 存 树 构 建 了 核 函 数, 并 将 其 用 于 机 器 学 习 算 法 [17] Zelenko 引 入 了 一 种 树 核 的 方 法 [18] 但 是, 目 前 对 于 藏 语 的 实 体 知 识 抽 取 领 域 的 研 究 较 少, 主 要 研 究 集 中 于 藏 语 的 命 名 实 体 识 别 方 法 [19-21], 而 对 于 实 体 关 系 抽 取 特 别 是 人 物 属 性 抽 取 的 研 究 尚 未 有 成 熟 的 成 果 归 纳 原 因, 藏 语 任 务 属 性 抽 取 存 在 的 困 难 如 下 :(1) 训 练 语 料 匮 乏 ;(2) 藏 语 在 句 子 和 篇 章 级 的 信 息 处 理 研 究 还 处 于 起 步 阶 段, 因 此, 英 汉 实 体 关 系 抽 取 中 的 核 函 数 方 法 无 法 直 接 应 用 于 藏 语 实 体 关 系 抽 取 中 因 此, 本 文 针 对 藏 语 的 特 点, 构 建 了 一 定 规 模 的 训 练 语 料, 提 出 一 种 基 于 SVM 和 泛 化 模 板 的 藏 语 人 物 属 性 关 系 抽 取 方 法 其 中, 模 板 构 建 重 点 选 取 包 括 藏 语 后 置 谓 词, 相 关 的 格 信 息 等 主 要 特 征 此 外, 针 对 模 板 方 式 的 局 限 性, 本 文 采 用 SVM 机 器 学 习 方 法, 设 计 了 一 种 处 理 多 分 类 问 题 的 层 次 分 类 器 进 行 属 性 关 系 抽 取 最 后, 本 文 分 别 采 用 模 板 SVM 以 及 模 板 和 SVM 结 合 的 方 法 进 行 实 验, 实 验 结 果 表 明, 通 过 模 板 和 SVM 结 合 的 方 式 有 效 提 高 了 人 物 属 性 抽 取 的 正 确 性 3 整 体 框 架
图 1 基 于 SVM 和 泛 化 模 板 相 结 合 的 藏 语 人 物 属 性 关 系 抽 取 方 法 通 过 可 配 置 的 爬 虫 系 统 从 多 个 藏 文 网 站 获 取 语 料, 从 中 筛 选 出 关 于 人 物 介 绍 的 文 章 并 对 这 些 句 子 做 预 处 理, 包 括 分 词, 词 性 标 注 和 命 名 实 体 识 别 首 先, 根 据 训 练 语 料 构 建 模 板 系 统 此 外, 为 了 应 对 开 放 语 料 的 多 样 性 问 题, 引 入 了 SVM 方 法 进 行 预 测, 而 模 板 中 的 语 言 规 则 作 为 辅 助 工 具 最 终 将 处 理 完 成 的 数 据 装 入 人 物 - 属 性 库 中 4 模 板 构 建 一 定 量 的 训 练 语 料 标 注 之 后, 可 以 进 入 模 板 系 统 建 设 阶 段, 本 章 将 分 别 介 绍 藏 语 特 征 选 择, 模 板 建 设 和 泛 化 过 程 4.1 主 要 藏 语 特 征 选 择 不 同 于 汉 语 和 英 语, 藏 语 是 谓 语 后 置 型 语 言, 动 词 是 句 子 的 核 心 动 词 附 近 的 格 标 记 含 有 丰 富 的 语 义 角 色 信 息, 格 标 记 在 一 定 程 度 上 反 映 出 句 子 中 谓 词 与 主 体 词 之 间 的 关 系, 而 且 这 些 格 标 记 的 出 现 存 在 一 定 的 规 律 因 此, 对 格 标 记 做 了 整 理, 这 些 格 标 记 对 藏 文 人 物 属 性 抽 取 起 到 重 要 的 作 用, 如 表 1 所 示 表 1 藏 语 格 标 记 的 类 型 与 作 用 类 型 格 标 记 的 列 举 包 含 类 型 语 法 语 义 作 用 主 格 施 格 指 明 动 作 的 施 动 者 工 具 格 指 明 动 作 的 工 具 方 式 等 属 格 表 示 领 属 关 系 拉 格 业 格 指 明 对 象 地 点 等 为 格 依 格 同 体 格 时 间 格 表 示 受 益 的 对 象 和 动 作 表 示 依 存 或 所 在 等 表 示 事 物 的 状 态 表 示 发 生 的 时 间 从 格 4.2 模 板 建 设 表 示 动 作 或 状 态 的 来 源 与 汉 语 和 英 语 不 同, 模 板 建 设 中 更 加 注 重 藏 语 特 有 的 格 标 记 和 周 围 的 动 词, 在 语 料 标 注 的 基 础 上 构 建 特 征 模 板, 如 例 1-4 例 1:ཚ བར ན ས ལ མ ན བ ད ལ ངས གཞ ས ཀ ར ར ས འཁ ངས ( 才 旦 卓 玛 出 生 在 西 藏 日 喀 则 ) 模 板 :< 人 名 /nh>(ན /v)< 地 点 /ns>(ར /k)(ས ས 出 生 /v) 例 2:བས ན འཛ ན ར མཚ འ ཡབ ཆ ས ས ང ཚ ར ང ཡ ན ( 旦 增 加 措 的 父 亲 是 其 将 才 让 ) 模 板 :< 人 名 /nh>(འ /k)(ཡབ 父 亲 /n)(ན 是 /v)< 人 名 /nh> 例 3:ཚ མཁན པ བས ད ནམས དར ར ས ས ལ ༡༩༦༢ལ ར ས འཁ ངས ( 堪 布 索 南 达 吉 出 生 于 公 元 1962 年 ) 模 板 :< 人 名 /nh>< 时 间 /t>(ར /k)(ས འཁ ངས 出 生 于 /v) 例 4:པཎ ཆ ན ས ཕ ང བར ད པ བས ན པའ དབང ཕ ག ག ཡ མ བཀ ཤ ས ལ མ ( 班 禅 第 八 世 丹 巴 昂 秀 的 妈 妈 是 扎 西 拉 姆 ) 模 板 :< 人 名 /nh>(ག /k)(ཡ མ 妈 妈 /n)(ན 是 /v)< 人 名 /nh>
词 性 标 记 采 用 国 家 语 言 资 源 监 测 与 研 究 中 心 少 数 民 族 语 言 分 中 心 的 信 息 处 理 用 现 代 藏 语 词 类 标 记 集 规 范, 其 中, /nh 表 示 人 名 /t 表 示 时 间 /ns 表 示 地 名 /k 表 示 格 标 记 /v 表 示 动 词 4.3 泛 化 在 语 料 模 板 建 设 完 成 后, 发 现 众 多 模 板 具 有 相 似 性, 我 们 整 合 修 改 并 泛 化 模 板 使 其 能 应 用 于 更 广 泛 的 语 料 对 于 微 小 区 别 模 板, 例 如 仅 是 动 词 的 差 别, 只 需 将 不 同 的 动 词 添 加 的 集 合 来 合 并 模 板 对 于 模 板 中 不 重 要 的 修 饰 性 成 分, 将 其 从 模 板 中 删 除, 模 板 样 式 如 例 5-8 例 5:ཚ བར ན ས ལ མ ན བ ད ལ ངས གཞ ས ཀ ར ར ས འཁ ངས ( 才 旦 卓 玛 出 生 在 西 藏 日 喀 则 ) 模 板 :< 人 名 /nh>(ན /v)< 地 点 /ns>(ས ར ར ད ཏ ལ ན /k)(ས ས འཁ ངས 出 生 /v) 例 6:ས ལ དཀར ག ཕ ཡ ལ ན མཚ བ ད ད ཡ ན ( 卓 嘎 的 家 乡 在 青 海 ) 模 板 : < 人 名 /nh>(ག ག ཀ འ ཡ /k)(ཕ ཡ ལ 家 乡 /n)(ན 指 示 词 /r)< 地 名 /ns>(ས ར ར ལ ཏ ད ན/k)(ཡ ན 是 /v) 例 7:ཚ མཁན པ བས ད ནམས དར ར ས ས ལ ༡༩༦༢ལ ར ས འཁ ངས ( 堪 布 索 南 达 吉 出 生 于 公 元 1962 年 ) 模 板 :< 人 名 /nh>< 时 间 /t>(ས ར ར ད ཏ ལ ན /k)(ས འཁ ངས 出 生 于 /v) 例 8:ཚ དབང ག ས ས ས ར ན 1988ལ འ ཟ 10བའ ཚ ས1ཉ ན ཡ ན ( 次 旺 的 生 日 是 1988 年 10 月 1 日 ) 模 板 :< 人 名 /nh>(ག ག ཀ འ ཡ /k)(ས ས ས ར 生 日 /n)(ན 指 示 词 /r)< 时 间 /t>(ཡ ན 是 /v) 5 基 于 SVM 的 层 次 分 类 虽 然 基 于 特 征 模 板 的 方 法 在 特 定 的 测 试 语 料 中 可 以 取 得 较 高 的 准 确 度, 但 是 它 需 要 很 多 人 工 的 介 入 并 且 对 于 模 板 系 统 尚 未 覆 盖 的 内 容 无 能 为 力 因 此, 对 于 不 同 的 语 料 准 确 率 和 召 回 率 差 别 很 大, 特 别 是 对 于 模 板 系 统 比 较 生 疏 的 语 料, 基 于 模 板 的 抽 取 系 统 召 回 率 非 常 低 因 此, 引 入 了 基 于 特 征 向 量 的 SVM 方 法, 并 设 计 了 层 次 分 类 器 5.1 特 征 选 取 特 征 选 择 至 关 重 要 一 定 程 度 上, 特 征 的 质 量 决 定 了 分 类 效 果 本 文 的 特 征 向 量 主 要 选 取 关 键 词 特 征, 标 注 组 合 特 征, 实 体 词 周 围 标 记 特 征 5.1.1 关 键 词 特 征 关 键 词 指 出 现 频 率 较 高 并 且 含 有 极 强 区 分 特 性 的 名 词 或 动 词 这 些 特 征 大 多 是 从 模 板 系 统 提 取 出 来 的, 虽 然 关 键 词 特 征 向 量 数 量 并 不 多, 但 是 这 些 词 往 往 具 有 很 强 的 区 分 度 并 且 这 些 特 征 会 以 高 的 频 率 出 现 在 某 一 属 性 类 别 中, 例 如, 关 键 词 名 词 ཡ མ ཨ མ ( 妈 妈 母 亲 ) 5.1.2 基 于 多 种 标 记 的 组 合 特 征 相 比 于 基 于 词 本 身 的 特 征, 基 于 词 性 标 注 的 特 征 更 具 有 广 泛 性 但 是 不 是 每 个 标 记 都 可 以 作 为 特 征 向 量, 因 为 众 多 标 记 并 没 有 区 分 度 因 此, 本 文 主 要 采 用 标 记 组 合 特 征, 特 别 是 格 标 记 和 词 性 或 命 名 实 体 标 记 组 合 往 往 能 起 到 较 好 的 分 类 效 果 例 如, 时 间 标 记 /t + 格 标 记 /k +/v( 如 ས འཁ ངས 出 生 ) 对 于 识 别 出 生 年 月 属 性 有 较 大 的 帮 助 5.1.3 实 体 词 周 围 标 记 特 征 实 体 词 周 围 标 记 特 征 是 指 在 实 体 词 周 围 的 词 标 记 构 成 的 特 征, 包 括 词 性 标 记 和 命 名 实 体 标 记 本 文 认 为 离 实 体 词 越 近 的 标 记 越 重 要, 而 离 实 体 词 距 离 越 远 的 标 记 则 较 不 重 要 因 此, 选 取 实 体 词 向 前 2 个 词 距 和 向 后 1 个 词 距 内 的 词 性 标 注 标 记 和 前 后 3 个 词 距 内 的 命 名 实 体 标 记 5.2 构 造 层 次 分 类 器 SVM 目 前 是 信 息 抽 取 领 域 应 用 较 为 成 功 的 分 类 器 之 一 SVM 通 过 在 高 维 空 间 上 寻 找 最 优 超 平 面, 从 而 达 到 分 类 目 的 对 于 非 线 性 可 分 的 样 本 集, 一 般 是 通 过 升 维 实 现 样 本 空 间 映 射, 从 而 转 变 成 线 性 可 分 的 问 题 为 了 使 问 题 可 计 算, 即 避 免 出 现 维 度 灾 难 问 题, 引 入 了 核 函 数 的 方 法, 从 而 达 到 把 计 算 在 低 维 空 间 完 成 的 目 的 对 于 人 物 属 性 抽 取 问 题, 一 个 关 键 问 题 是 构 建 高 性 能 的 SVM 分 类 器 SVM 最 初 被 设 计 用 来 解 决 二 分 类 问 题, 但 是 属 性 抽 取 往 往 都 是 复
杂 的 多 分 类 问 题 例 如, 人 物 属 性 可 以 分 为 出 生 年 月, 出 生 地, 性 别 等 多 个 类 别 那 么, 如 何 组 织 这 些 分 类 器 则 是 多 分 类 问 题 必 须 解 决 的 问 题 目 前 主 流 的 分 类 器 组 织 形 式 分 为 两 种 : (1) 一 对 多 的 方 式 假 如 一 共 有 k 个 属 性 类 别, 那 么 需 要 构 建 k 个 分 类 器, 并 且 对 于 每 个 属 性 确 定 平 均 需 要 进 行 k /2次 预 测, 此 方 式 分 类 效 果 欠 佳 (2) 一 对 一 的 方 式 同 样 如 果 存 在 k 个 属 性 类 别, 那 么 需 要 构 建 kk ( 1) / 2 个 分 类 器, 然 后 通 过 kk ( 1) / 2 次 预 测, 再 计 算 累 加 权 重, 获 得 累 加 值 最 大 的 类 别 则 为 所 属 类 别 这 种 方 式 比 前 者 好, 但 是 分 类 器 数 量 过 多, 对 于 属 性 抽 取 等 类 别 数 量 较 多 的 问 题 适 用 性 较 差 因 此, 本 文 引 入 了 一 种 层 次 分 类 器 的 构 造 方 法 该 方 法 结 合 两 种 传 统 方 法 的 长 处, 同 一 层 面 采 用 一 对 一 的 方 式, 逐 层 向 下 同 时, 利 用 模 板 系 统 中 获 取 的 语 言 规 律 建 设 快 速 通 道, 从 而 进 一 步 优 化 层 次 分 类 器 的 分 类 效 果 和 分 类 速 度 具 体 构 造 如 图 2 所 示 图 2 层 次 分 类 器 的 构 造 (1) 过 滤 器 : 在 进 入 层 次 分 类 器 系 统 之 前 需 要 对 语 料 做 筛 选, 将 没 有 任 何 属 性 实 体 存 在 的 部 分 干 扰 句 直 接 剔 除, 可 以 一 定 程 度 上 减 少 层 次 分 类 器 工 作 负 荷 从 而 提 高 效 率 (2) 逐 层 向 下 : 进 入 层 次 分 类 器 系 统 后, 标 准 的 分 类 模 式 是 从 第 一 层 分 类 器 开 始 逐 层 向 下 直 至 类 别 叶 节 点, 中 间 的 分 类 器 会 将 一 些 无 关 类 别 的 数 据 剔 除 这 一 步 骤 对 于 属 性 抽 取 过 程 中 大 量 负 样 本 的 处 理 是 非 常 重 要 的 (3) 同 层 多 分 类 问 题 : 对 于 单 个 分 类 器, 采 用 一 对 一 的 方 式 处 理 多 分 类 问 题 经 过 层 次 分 类 后, 每 个 多 分 类 处 理 的 类 别 都 不 会 太 多, 所 以 不 会 出 现 传 统 一 对 一 问 题 分 类 器 数 量 过 大 的 问 题 分 类 器 的 个 数 为 N 时 这 样 做 可 以 保 留 一 对 一 分 类 器 的 分 类 准 确 性 高 的 特 点 sum n i 1 pi( pi 1) / 2, 其 中, p i 为 每 个 分 类 器 中 类 别 的 个 数 同 (4) 快 速 通 道 : 本 文 设 计 了 根 据 实 体 - 属 性 标 注 构 造 的 快 速 通 道, 这 些 快 速 通 道 可 以 有 效 的 提 高 层 次 分 类 器 的 分 类 效 果 和 速 度 因 为 在 属 性 抽 取 任 务 中, 属 性 实 体 本 身 往 往 带 有 明 显 的 区 分 性 例 如, 当 出 现 时 间 为 第 二 个 实 体 词 时, 只 可 能 出 现 出 生 年 月 属 性 而 不 会 是 父 亲 或 出 生 地 的 属 性 因 此 可 以 通 过 快 速 通 道 直 接 跳 至 关 于 出 生 年 月 类 别 和 无 关 类 别 的 分 类 决 策 器 6 实 验 结 果 与 分 析
6.1 语 料 来 源 6.1.1 数 据 爬 取 及 筛 选 本 文 语 料 来 源 于 7 家 藏 语 网 站, 如 表 2 所 示 我 们 研 究 关 注 的 人 物 属 性 主 要 包 括 : 人 名 出 生 日 期 人 名 出 生 地 人 名 父 亲 人 名 母 亲 表 2 语 料 来 源 语 料 来 源 维 基 百 科 ( 藏 语 版 ) 中 国 藏 族 中 学 网 康 巴 传 媒 网 喜 马 拉 雅 苯 教 ( 藏 语 版 ) AMDO 藏 语 HIMALAYABON 网 站 网 址 http://bo.wikipedia.org http://www.tibetanms.cn/ http://ti.kbcmw.com http://old.himalayabon.com/ http://www.amdotibet.cn/ http://www.himalayabon.com/ 宗 喀 巴 网 http://bo.jetsongkhapa.org/ 我 们 从 大 量 网 页 文 本 中 选 取 2400 句 包 含 人 物 属 性 的 句 子 其 中,1975 句 是 包 含 上 述 4 种 人 物 属 性 关 系 的 句 子, 剩 余 425 句 为 其 他 人 物 属 性 关 系 的 句 子 我 们 将 1600 句 作 为 训 练 语 料, 其 余 800 句 作 为 测 试 语 料 6.1.2 语 料 预 处 理 我 们 对 选 取 的 2400 句 进 行 分 词 词 性 命 名 实 体 识 别, 并 标 注 了 实 体 之 间 的 关 系 <e1>ཚ བར ན ས ལ མ /nh</e1>ན /v<e2>བ ད ལ ངས གཞ ས ཀ ར /ns</e2>ར /kས འཁ ངས/v /w 人 物 - 出 生 地 (e1,e2) <e1>མཁན པ བས ད ནམས དར ར ས /nh</e1><e2>ས ལ ༡༩༦༢ལ /t</e2>ར /kས འཁ ངས /v</e2> /w 人 物 - 出 生 年 月 (e1,e2) 6.2 实 验 分 析 与 评 价 首 先 使 用 基 于 模 板 的 方 法 在 1600 句 训 练 语 料 集 上 做 测 试 ( 共 包 含 1705 个 属 性 ), 实 验 结 果 如 表 3 所 示 表 3 基 于 模 板 的 藏 语 人 物 属 性 抽 取 在 封 闭 训 练 集 上 的 结 果 属 性 类 别 数 量 ( 个 ) 百 分 比 (%) Total Identified Correct P R F1 出 生 年 月 452 432 403 93.29% 89.16% 91.18% 出 生 地 458 443 407 91.87% 88.86% 90.34% 父 亲 363 359 331 92.20% 91.18% 91.69% 母 亲 432 425 401 94.35% 92.82% 93.58% 但 是, 把 这 些 模 板 应 用 在 800 句 测 试 语 料 集 ( 共 846 个 属 性 ) 时, 实 验 结 果 如 表 4 所 示 表 4 基 于 模 板 的 藏 语 人 物 属 性 抽 取 在 开 放 测 试 集 上 的 结 果 属 性 类 别 数 量 ( 个 ) 百 分 比 (%) Total Identified Correct P R F1 出 生 年 月 219 162 91 56.17% 41.55% 47.77% 出 生 地 223 168 78 46.43% 34.98% 39.90% 父 亲 184 144 73 50.69% 39.67% 44.51% 母 亲 220 171 87 50.88% 39.55% 44.50% 上 述 实 验 结 果 表 明, 基 于 模 板 的 方 法 应 用 在 模 板 系 统 不 熟 悉 的 语 料 中 性 能 下 降 明 显 主
要 原 因 在 于, 基 于 模 板 的 方 式 缺 少 学 习 能 力 而 必 须 通 过 一 些 人 工 参 与 构 建, 虽 然 通 过 不 停 的 泛 化 和 修 正, 性 能 会 逐 渐 提 升, 但 是 过 多 的 人 工 介 入 和 较 大 的 工 作 量 成 为 该 方 法 的 瓶 颈 此 外, 不 同 藏 语 地 区 或 不 同 风 格 的 网 站 的 语 言 会 有 一 些 区 别, 考 虑 语 言 的 丰 富 性, 难 以 通 过 基 于 模 板 的 方 式 做 到 完 备 下 面, 我 们 采 用 基 于 SVM 的 层 次 分 类 器 进 行 人 物 属 性 抽 取, 本 文 采 用 层 次 分 类 器 在 分 类 速 度 上 较 之 一 对 一 的 分 类 器 有 较 大 提 升, 而 两 种 方 法 的 准 确 性 相 差 不 大 并 通 过 语 言 规 则 构 建 的 快 速 通 道 使 分 类 性 能 更 好 在 实 验 中, 我 们 对 比 常 见 的 核 函 数 方 法, 最 终 选 型 为 RBF( 径 向 基 函 数 ) 并 设 置 参 数 1/k, k 为 类 别 个 数 同 时 考 虑 到 语 料 普 遍 存 在 不 均 衡 性, 负 样 本 大 大 多 于 正 样 本, 因 此, 对 正 负 样 本 分 别 设 置 了 不 同 的 惩 罚 因 子 C 和 C 其 中,C 为 3, 正 样 本 满 足 C ( Num / Num ) C 其 中 Num 为 负 样 本 数, Num 为 正 样 本 数, 我 们 通 过 增 大 正 样 本 的 惩 罚 因 子, 从 而 减 少 因 为 数 据 倾 斜 造 成 的 影 响 实 验 结 果 如 表 5 所 示 表 5 基 于 SVM 的 藏 语 人 物 属 性 抽 取 在 开 放 测 试 集 上 的 结 果 属 性 类 别 数 量 ( 个 ) 百 分 比 (%) Total Identified Correct P R F1 出 生 年 月 219 202 103 50.99% 47.03% 48.93% 出 生 地 223 211 94 44.55% 42.15% 43.32% 父 亲 184 176 83 47.16% 45.11% 46.11% 母 亲 220 208 101 48.56% 45.91% 47.20% 实 验 结 果 表 明, 相 比 于 模 板 的 方 法,SVM 方 法 提 高 了 人 物 属 性 抽 取 的 召 回 率, 但 是 准 确 率 并 没 有 提 高 主 要 原 因 在 于,SVM 的 结 果 在 对 于 一 些 不 明 显 的 分 类, 通 过 多 样 化 的 特 征 向 量 反 而 可 以 取 到 较 好 的 预 测 效 果 但 是 对 于 一 些 非 常 明 显 的 分 类 问 题 却 判 断 错 误, 我 们 认 为, 部 分 原 因 在 于 训 练 语 料 不 足 和 训 练 语 料 不 均 匀 造 成 的 最 后, 本 文 采 用 基 于 模 板 和 SVM 相 结 合 的 方 式 进 行 实 验 实 验 结 果 如 表 6 所 示 表 6 基 于 SVM 和 泛 化 模 板 协 作 的 藏 语 人 物 属 性 抽 取 在 开 放 测 试 集 上 的 结 果 属 性 类 别 数 量 ( 个 ) 百 分 比 (%) Total Identified Correct P R F1 出 生 年 月 219 201 131 65.17% 59.82% 62.38% 出 生 地 223 209 133 63.64% 59.64% 61.57% 父 亲 184 161 108 67.08% 58.70% 62.61% 母 亲 220 201 128 63.68% 58.18% 60.81% 首 先 对 前 期 建 设 的 模 板 系 统 精 心 筛 选, 只 保 存 在 抽 取 实 验 中 准 确 率 接 近 100% 的 这 部 分 模 板 虽 然 这 样 会 使 召 回 率 在 模 板 系 统 部 分 急 剧 下 降, 但 是, 随 后 我 们 就 将 所 有 模 板 没 有 抽 取 出 属 性 所 剩 下 的 所 有 句 子 数 据 化 并 交 给 SVM 预 测 这 样, 对 于 那 些 模 板 并 未 抽 取 的 属 性 可 以 通 过 SVM 预 测 出, 保 护 了 一 些 原 本 特 征 明 显 的 属 性 句 子 不 被 SVM 误 判 所 以 在 整 体 上 并 未 影 响 召 回 率, 同 时 还 提 高 了 抽 取 的 效 果 提 高 图 3 基 于 SVM 和 泛 化 模 板 协 作 和 基 于 模 板 的 藏 语 人 物 属 性 抽 取 比 较 由 图 3 可 以 看 出, 采 用 模 板 和 SVM 相 结 合 的 方 式 比 只 采 用 SVM 的 方 式, 性 能 上 有 较 大 的
6.3 实 验 结 果 的 展 示 通 过 SVM 和 模 板 结 合 的 人 物 属 性 抽 取 后 的 结 果 如 表 7 所 示 通 过 人 物 属 性 抽 取, 把 属 性 放 入 人 物 - 属 性 库 中, 为 藏 语 人 物 收 集, 藏 语 知 识 图 谱 建 设 等 应 用 提 供 数 据 支 撑 表 7 关 于 人 物 ས ང བཙན ས མ པ ( 松 赞 干 布 ) 的 属 性 抽 取 结 果 属 性 类 别 抽 取 属 性 值 属 性 所 在 句 子 出 生 地 ག ང ཁ ར ལ སའ ཤར ཕ གས སའ ས ར ང ཐག ལ དབར བཅ ཕག ཙམ ཡ ད ས ང བཙན ས མ པ ན ག ང ཁ ར ལ སའ ཤར ཕ གས སའ ས ར ང ཐག ལ དབར བཅ ཕག ཙམ པའ དབ ར མལ ག ར མ ཕ བ ང བ མས པ མ འག ར ག ང ཡ ད པའ དབ ར མལ ག ར མ ཕ བ ང བ མས པ མ འག ར ག ང ནས འཁ ངས 出 生 年 月 བ ད མ གང (༦༢༧)ལ ར འཁ ངས ས ང བཙན ས མ པ ན བ ད མ གང (༦༢༧)ལ ར འཁ ངས 父 亲 ར གནམ ར ས ང བཙན ས ང བཙན ས མ པ འ ཡབ ན ར གནམ ར ས ང བཙན ཡ ན 母 亲 འབ བཟའ ཐ ད དཀར ཚ ས ང བཟའ ས ང བཙན ས མ པ འ ཡ མ ན འབ བཟའ ཐ ད དཀར ཚ ས ང བཟའ ཡ ན 7 结 论 通 过 对 上 述 实 验 结 果 的 分 析, 发 现 对 于 人 物 属 性 关 系 抽 取 的 问 题 采 用 SVM 和 模 板 相 结 合 的 方 式, 比 仅 采 用 SVM 或 者 仅 采 用 模 板 的 方 式 性 能 更 好 部 分 原 因 在 于 彼 此 对 于 不 同 情 况 的 分 类 问 题 具 有 各 自 的 优 势, 通 过 整 合 两 者 方 法, 让 它 们 协 同 工 作, 从 而 使 实 验 方 法 性 能 提 高 通 过 该 方 法 提 取 的 属 性 可 以 广 泛 应 用 于 专 门 数 据 库 的 建 设 知 识 图 谱 构 建 和 智 能 问 答 等 领 域 在 将 来 的 工 作 中, 需 要 扩 充 语 料 库 并 增 加 人 物 属 性 的 类 别, 从 而 提 升 成 果 的 价 值 参 考 文 献 [1] 李 光, 钟 雅 琼. 大 陆 研 拟 藏 维 文 网 络 舆 情 监 测 系 统 监 控 分 裂 风 险 [J]. 凤 凰 周 刊, 2012(18). [2] Bizer C,Heath T,Berners-Lee T. Linked data-the story so far [J].International Journal on Semantic Web and Information Systems (IJSWIS),2009,5(3): 1-22. [3] 张 静, 唐 杰. 下 一 代 搜 索 引 擎 的 焦 点 : 知 识 图 谱 [J]. 中 国 计 算 机 学 会 通 讯, 2012,9(4):64-68. [4] Kong Fang, Zhou Guodong, Zhu Qiaoming. Survey on Coreference Resolution [J]. Computer Engineering, 2010, 36(8): 33-36. [5] Bikel D., Castelli V., Florian R. Entity linking and slot filling through statistical processing and inference rules[a]. In Proc. TAC 2009 Workshop[C], November 2009. [6] Burman, A., Jayapal, A., Kannan, S.Entity linking, slot filling and temporal bounding[a].kbp[c] 2011. [7] Axel Bernal, Koby Crammer, Artemis Hatzigeorgiou. Global discriminative learning for higher-accuracy computational gene prediction[j] PLoS Computational Biology, 2007, 3(3). [8] Freitag D., and McCallum A. Information extraction with HMM structures learned by stochastic optimization[a].aaai Press[C], Menlo Park, CA: 2000, 584-589. [9] Lafferty, J., McCallum, A., Pereira. F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[a]. In Proc. 18th International Conf. on Machine Learning[C], Morgan Kaufmann, San Francisco, CA: 2001, 282-289 [10] Kambhatla N. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[a]. Proceedings of 42th Annual Meeting of the Association for Computational Linguistic[C], July Barcelona, Spain: 2004, 21-26. [11] Zhou G., Su, J., Zhang, J., Zhang, M. Combining Various Knowledge in Relation Extraction[A].Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics[C],2005. [12] Zelenko D., Aone C., Richardella. Kernel methods for relation extraction[j]. Journal of Machine Learning Research, 2003, 1083-1106. [13] Nadia Ghamrawi and Andrew McCallum. Collective multi-label classification[a]. In Conference on Information and Knowledge Management (CIKM)[C], 2005. [14] Nanda Kambhatla. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[a]. Proceedings of ACL[C], 2004, 178-181. [15] Zhao S B, Grishman R. Extracting relations with integrated information using kernel methods [A]. Proceedings of ACL[C], 2005, 419-426. [16] Miller S., Fox H., Ramshaw L. and Weischedel R. A novel use of statistical parsing to extract information from text [A]. In Proceedings of 6th Applied Natural Language Processing Conference[C], Seattle, USA. 2000.
[17] Culotta A. and Sorensen J.Dependency tree kernels for relation extraction[a]. In Proceedings of 42th Annual Meeting of the Association for Computational Linguistics[C], Barcelona, Spain: July 2004, 21-26. [18] Zelenko D., Aone C. and Richardella. Kernel methods for relation extraction[j]. Journal of Machine Learning Research, 2003, 1083-1106. [19] 加 羊 吉, 李 亚 超, 宗 成 庆, 于 洪 志. 最 大 熵 和 条 件 随 机 场 模 型 相 融 合 的 藏 文 人 名 识 别 方 法 [J]. 中 文 信 息 学 报,2013. [20] 才 智 杰. 藏 文 自 动 分 词 系 统 中 紧 缩 词 的 识 别 [J]. 中 文 信 息 学 报,2009,23(1): 35-37. [21] Sun Yuan, Zhao Xiaobing. Research on automatic recognition of Tibetan personal names based on multi-features [A]. Proceedings of International Conference on Natural Language Processing and Knowledge Engineering[C], 2010. 作 者 简 介 : 朱 臻 (1988 ), 男, 硕 士 研 究 生, 主 要 研 究 领 域 为 自 然 语 言 处 理 信 息 检 索 数 据 挖 掘 E mail:19057736389@163.com 孙 媛 (1979 ), 通 信 作 者, 女, 副 教 授, 中 文 信 息 学 会 会 员, 主 要 研 究 领 域 为 自 然 语 言 处 理 信 息 抽 取 Email:tracy.yuan.sun@gmail.com