Probase( 超 过 265 万 实 体 ), 百 度 知 心, 搜 狗 知 立 方 等 知 识 图 谱 只 提 供 英 汉 法 等 语 言 的 相 关 知 识 [3], 少 数 民 族 语 言 知 识 图 谱 的 构 建 才 刚 刚 起 步 例 如, 当 搜 索 ཏ ལའ བ མ ( 达 赖

Similar documents
说 明 为 了 反 映 教 运 行 的 基 本 状 态, 为 校 和 院 制 定 相 关 政 策 和 进 行 教 建 设 与 改 革 提 供 据 依 据, 校 从 程 资 源 ( 开 类 别 开 量 规 模 ) 教 师 结 构 程 考 核 等 维 度, 对 2015 年 春 季 期 教 运 行 基

何 秋 琳 张 立 春 视 觉 学 习 研 究 进 展 视 觉 注 意 视 觉 感 知

Microsoft Word - 第7章 图表反转形态.doc

18 上 报 该 学 期 新 生 数 据 至 阳 光 平 台 第 一 学 期 第 四 周 至 第 六 周 19 督 促 学 习 中 心 提 交 新 增 专 业 申 请 第 一 学 期 第 四 周 至 第 八 周 20 编 制 全 国 网 络 统 考 十 二 月 批 次 考 前 模 拟 题 第 一 学

,,,,, :,, (.,, );, (, : ), (.., ;. &., ;.. &.., ;, ;, ),,,,,,, ( ) ( ),,,,.,,,,,, : ;, ;,.,,,,, (., : - ),,,, ( ),,,, (, : ),, :,

<433A5C446F63756D656E E E67735C41646D696E F725CD7C0C3E65CC2DBCEC4CFB5CDB3CAB9D3C3D6B8C4CFA3A8BCF2BBAFA3A95CCAB9D3C3D6B8C4CF31302D31392E646F63>

抗 战 时 期 国 民 政 府 的 银 行 监 理 体 制 探 析 % # % % % ) % % # # + #, ) +, % % % % % % % %

龚 亚 夫 在 重 新 思 考 基 础 教 育 英 语 教 学 的 理 念 一 文 中 援 引 的 观 点 认 为 当 跳 出 本 族 语 主 义 的 思 维 定 式 后 需 要 重 新 思 考 许 多 相 连 带 的 问 题 比 如 许 多 发 音 的 细 微 区 别 并 不 影 响 理 解 和

( ) 信 号 与 系 统 Ⅰ 学 科 基 础 必 修 课 教 周 2016 年 06 月 13 日 (08:00-09:35) ( )


深圳市新亚电子制程股份有限公司

Microsoft Word - 文件汇编.doc



<4D F736F F D D323630D6D0B9FAD3A6B6D4C6F8BAF2B1E4BBAFB5C4D5FEB2DFD3EBD0D0B6AF C4EAB6C8B1A8B8E6>

马 克 思 主 义 公 正 观 的 基 本 向 度 及 方 法 论 原 则!! # #

课程类 别

¹ º ¹ º 农 业 流 动 人 口 是 指 户 口 性 质 为 农 业 户 口 在 流 入 地 城 市 工 作 生 活 居 住 一 个 月 及 以 上 的 流 动 人 口 非 农 流 动 人 口 是 指 户 口 性 质 为 非 农 户 口 在 流 入 地 城 市 工 作 生 活 居 住 一 个

抗 日 战 争 研 究 年 第 期

第 期 李 伟 等 用 方 法 对 中 国 历 史 气 温 数 据 插 值 可 行 性 讨 论

中 国 软 科 学 年 第 期!!!

<433A5C C6B73625C B746F705CB9FABCCAD6D0D2BDD2A9D7A8D2B5B8DFBCB6BCBCCAF5D6B0B3C6C6C0C9F3C9EAC7EBD6B8C4CFA3A CDA8D3C3B0E6A3A92E646F63>

HSK( 一 级 ) 考 查 考 生 的 日 常 汉 语 应 用 能 力, 它 对 应 于 国 际 汉 语 能 力 标 准 一 级 欧 洲 语 言 共 同 参 考 框 架 (CEF) A1 级 通 过 HSK( 一 级 ) 的 考 生 可 以 理 解 并 使 用 一 些 非 常 简 单 的 汉 语

珠江钢琴股东大会

一 公 共 卫 生 硕 士 专 业 学 位 论 文 的 概 述 学 位 论 文 是 对 研 究 生 进 行 科 学 研 究 或 承 担 专 门 技 术 工 作 的 全 面 训 练, 是 培 养 研 究 生 创 新 能 力, 综 合 运 用 所 学 知 识 发 现 问 题, 分 析 问 题 和 解 决

 编号:

评 委 : 李 炎 斌 - 个 人 技 术 标 资 信 标 初 步 审 查 明 细 表 序 号 投 标 单 位 投 标 函 未 按 招 标 文 件 规 定 填 写 漏 填 或 内 容 填 写 错 误 的 ; 不 同 投 标 人 的 投 标 文 件 由 同 一 台 电 脑 或 同 一 家 投 标 单

2006年顺德区高中阶段学校招生录取分数线

修改版-操作手册.doc

名 称 生 命 科 学 学 院 环 境 科 学 1 生 物 学 仅 接 收 院 内 调 剂, 初 试 分 数 满 足 我 院 生 物 学 复 试 最 低 分 数 线 生 命 科 学 学 院 生 态 学 5 生 态 学 或 生 物 学 生 命 科 学 学 院


附 件 : 上 海 市 建 筑 施 工 企 业 施 工 现 场 项 目 管 理 机 构 关 键 岗 位 人 员 配 备 指 南 二 一 四 年 九 月 十 一 日 2

<4D F736F F D20B9D8D3DAB0BABBAAA3A8C9CFBAA3A3A9D7D4B6AFBBAFB9A4B3CCB9C9B7DDD3D0CFDEB9ABCBBE C4EAC4EAB6C8B9C9B6ABB4F3BBE1B7A8C2C9D2E2BCFBCAE92E646F6378>

附件1:

随着执业中医师资格考试制度的不断完善,本着为我校中医学专业认证服务的目的,本文通过对我校中医类毕业生参加2012年和2013年的中医执业医师考试成绩及通过率、掌握率进行分析,并与全国的平均水平进行差异比较分析,以此了解我校执业中医师考试的现状,进而反映我校中医类课程总体教学水平,发现考核知识模块教学中存在的不足,反馈给相关学院和教学管理部门,以此提高教学和管理水平。

一 从 分 封 制 到 郡 县 制 一 从 打 虎 亭 汉 墓 说 起

《C语言基础入门》课程教学大纲

一 开 放 性 的 政 策 与 法 规 二 两 岸 共 同 的 文 化 传 承 三 两 岸 高 校 各 自 具 有 专 业 优 势 远 见 杂 志 年 月 日

0 年 上 半 年 评 价 与 考 核 细 则 序 号 部 门 要 素 值 考 核 内 容 考 核 方 式 考 核 标 准 考 核 ( 扣 原 因 ) 考 评 得 3 安 全 生 产 目 30 无 同 等 责 任 以 上 道 路 交 通 亡 人 事 故 无 轻 伤 责 任 事 故 无 重 大 质 量

伊 犁 师 范 学 院 611 语 言 学 概 论 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 2-2 语 言 学 纲 要 笔 记, 由 考 取 本 校 本 专 业 高 分 研 究 生 总 结 而 来, 重 点 突 出, 借 助 此 笔 记 可 以 大 大 提 高 复 习 效

导 数 和 微 分 的 概 念 导 数 的 几 何 意 义 和 物 理 意 义 函 数 的 可 导 性 与 连 续 性 之 间 的 关 系 平 面 曲 线 的 切 线 和 法 线 导 数 和 微 分 的 四 则 运 算 基 本 初 等 函 数 的 导 数 复 合 函 数 反 函 数 隐 函 数 以

采 取 行 动 的 机 会 90% 开 拓 成 功 的 道 路 2

3 月 30 日 在 中 国 证 券 报 上 海 证 券 报 证 券 时 报 证 券 日 报 和 上 海 证 券 交 易 所 网 站 上 发 出 召 开 本 次 股 东 大 会 公 告, 该 公 告 中 载 明 了 召 开 股 东 大 会 的 日 期 网 络 投 票 的 方 式 时 间 以 及 审

<4D F736F F D C4EAB9A4B3CCCBB6CABFCAFDD1A7D7A8D2B5BFCEBFBCCAD4B4F3B8D9D3EBD2AAC7F3>

新, 各 地 各 部 门 ( 单 位 ) 各 文 化 事 业 单 位 要 高 度 重 视, 切 实 加 强 领 导, 精 心 组 织 实 施 要 根 据 事 业 单 位 岗 位 设 置 管 理 的 规 定 和 要 求, 在 深 入 调 查 研 究 广 泛 听 取 意 见 的 基 础 上, 研 究 提

2014年中央财经大学研究生招生录取工作简报

Microsoft Word - 资料分析练习题09.doc

untitled

Microsoft Word - 第3章.doc

中 中 中 中 部 中 岗 位 条 件 历 其 它 历 史 师 地 理 师 生 物 师 体 与 健 康 师 从 事 中 历 史 工 从 事 中 地 理 工 从 事 中 生 物 工 从 事 中 体 与 健 康 工 2. 课 程 与 论 ( 历 史 ); 2. 科 ( 历 史 )

ETF、分级基金规模、份额变化统计

评 委 : 徐 岩 宇 - 个 人 技 术 标 资 信 标 初 步 审 查 明 细 表 序 号 投 标 单 位 投 标 函 未 按 招 标 文 件 规 定 填 写 漏 填 或 内 容 填 写 错 误 的 ; 不 同 投 标 人 的 投 标 文 件 由 同 一 台 电 脑 或 同 一 家 投 标 单

金 不 少 于 800 万 元, 净 资 产 不 少 于 960 万 元 ; (3) 近 五 年 独 立 承 担 过 单 项 合 同 额 不 少 于 1000 万 元 的 智 能 化 工 程 ( 设 计 或 施 工 或 设 计 施 工 一 体 ) 不 少 于 2 项 ; (4) 近 三 年 每 年

西 南 民 族 学 院 学 报 哲 学 社 会 科 学 版 第 卷 资 料 来 源 中 国 统 计 年 鉴 年 年 新 中 国 五 十 年 统 计 资 料 汇 编 中 国 人 口 统 计 年 鉴 年 数 据 资 料 来 源 中 国 统 计 年 鉴 中 国 统 计 出 版 社 年 版 资 料 来 源

上证指数

公 开 刊 物 须 有 国 内 统 一 刊 (CN), 发 表 文 章 的 刊 物 需 要 在 国 家 新 闻 出 版 广 电 总 局 ( 办 事 服 务 便 民 查 询 新 闻 出 版 机 构 查 询 ) 上 能 够 查 到 刊 凡 在 有 中 国 标 准 书 公 开

I



第 六 章 债 券 股 票 价 值 评 估 1 考 点 一 : 债 券 价 值 的 影 响 因 素 2

证券代码: 证券简称:长城电脑 公告编号:


Template BR_Rec_2005.dot

第二讲 数列

工 程 勘 察 资 质 标 准 根 据 建 设 工 程 勘 察 设 计 管 理 条 例 和 建 设 工 程 勘 察 设 计 资 质 管 理 规 定, 制 定 本 标 准 一 总 则 ( 一 ) 本 标 准 包 括 工 程 勘 察 相 应 专 业 类 型 主 要 专 业 技 术 人 员 配 备 技 术

第二部分 阅读理解(Part II Reabing Comprehension)

!!!!!!!!!!

内 容 二 : 建 立 并 完 善 了 三 点 的 网 络 教 学 管 理 体 系 内 容 三 : 注 重 培 养 学 生 的 听 说 能 力 14

!!

物 流 从 业 人 员 职 业 能 力 等 级 证 书 分 为 四 个 级 别, 分 别 为 初 级 助 理 级 中 级 和 高 级 ; 采 购 从 业 人 员 职 业 能 力 等 级 证 书 分 为 三 个 级 别, 分 别 为 中 级 高 级 和 注 册 级 请 各 有 关 单 位 按 照 通

( 二 ) 现 行 统 一 高 考 制 度 不 利 于 培 养 人 的 创 新 精 神,,,,,,,,,,,,, [ ],,,,,,,,,,, :, ;,,,,,,? ( 三 ) 现 行 统 一 高 考 制 度 不 利 于 全 体 学 生 都 获 得 全 面 发 展,, [ ],,,,,,,,,,,

二 工 资 制 度 与 教 师 道 德 风 险 行 为

现 场 会 议 时 间 为 :2016 年 5 月 19 日 网 络 投 票 时 间 为 :2016 年 5 月 18 日 年 5 月 19 日 其 中 通 过 深 圳 证 券 交 易 所 交 易 系 统 进 行 网 络 投 票 的 时 间 为 2016 年 5 月 19 日 9:30-

思 想 政 治 理 论 经 核 查 无 误 思 想 政 治 理 论 经 核 查 无 误 思 想 政 治 理 论 经 核 查 无 误 思 想

境 外 上 市 外 资 股 股 东 持 有 股 份 总 数 (H 股 ) 489,157,907 3 出 席 会 议 的 股 东 所 持 有 表 决 权 股 份 数 占 公 司 有 表 决 权 股 份 总 数 的 其 中 :A 股 股 东 持 股 占 股 份 总 数 的

三武一宗灭佛研究

第2章 数据类型、常量与变量

《应用数学Ⅰ》教学大纲

研 究 对 象 研 究 角 度 研 究 工 具 数 据 收 集 和 预 处 理 网 络 密 度 与 平 均 距 离 分 析

第1篇 道路桥梁工程技术核心专业课程标准及学习绩效考评体系




用节点法和网孔法进行电路分析



Transcription:

基 于 SVM 和 泛 化 模 板 协 作 的 藏 语 人 物 属 性 抽 取 朱 臻 1,2, 孙 媛 (1. 中 央 民 族 大 学 信 息 工 程 学 院, 北 京 市 100081; 2. 中 央 民 族 大 学 国 家 语 言 资 源 监 测 与 研 究 中 心 少 数 民 族 语 言 分 中 心, 北 京 市 100081) 摘 要 : 该 文 提 出 了 一 种 基 于 SVM 和 泛 化 模 板 协 作 的 藏 语 人 物 属 性 抽 取 方 法 该 方 法 首 先 构 建 了 基 于 藏 语 语 言 规 则 的 模 板 系 统, 收 集 了 包 括 格 助 词 特 殊 动 词 等 具 有 明 显 语 义 信 息 的 特 征 建 设 模 板 并 泛 化 针 对 规 则 方 法 的 局 限 性, 该 文 在 模 板 的 基 础 上, 采 用 SVM 机 器 学 习 方 法, 设 计 了 一 种 处 理 多 分 类 问 题 的 层 次 分 类 器 结 构, 同 时 对 多 样 化 的 特 征 选 取 给 予 说 明 最 后, 实 验 结 果 表 明, 基 于 SVM 和 模 板 相 结 合 的 方 式 可 以 对 人 物 属 性 抽 取 的 性 能 有 较 大 提 高 关 键 词 : 人 物 属 性 抽 取 ; 藏 语 语 言 处 理 ;SVM; 层 次 分 类 器 中 图 分 类 号 :TP391 文 献 标 识 码 :A Tibetan Person Attributes Extraction Based on SVM and Pattern Zhen Zhu 1,2, Yuan Sun 1,2 (1.School of Information Engineering, Minzu University of China,Beijing, 100081, China; 2. Minority Languages Branch, National Language Resource and Monitoring Research Center, 1,2 Beijing, 100081, China) Abstract: This paper proposes an SVM and pattern based approach to Tibetan person attributes extraction. Starting from the pattern system built with language rules. In which, the Tibetan language features with clear semantic information are vital, such as case-auxiliary words, particular verb and etc., and then normalization by some experimental results. Secondly, considering the shortage of rule method, machine learning approach are introduced, the SVMs with multiply feature vectors are used and organized by a hierarchy classifier strategy. Finally, experiment results prove this method has greater improvement in person attributes extraction. Keywords: Person attributes extraction; Tibetan language processing; SVM; Hierarchy classifier 1 引 言 随 着 互 联 网 的 快 速 普 及, 特 别 是 发 展 中 国 家 互 联 网 用 户 的 快 速 增 加, 网 络 上 非 英 语 文 本 资 源 数 量 急 速 增 长, 其 增 长 速 度 远 远 超 过 了 10 年 前 的 速 度, 并 且 越 来 越 多 的 网 上 信 息 以 多 语 言 的 形 式 发 布 据 中 央 民 族 大 学 国 家 语 言 资 源 监 测 与 研 究 中 心 少 数 民 族 语 言 分 中 心 调 查 : 截 止 到 2013 年 12 月 底, 大 陆 少 数 民 族 语 言 文 字 的 网 站 总 量 在 1,250 个 左 右, 其 中 维 吾 尔 文 网 站 840 个 藏 文 网 站 146 个 蒙 古 文 网 站 136 个 与 全 国 网 民 增 长 速 度 相 比, 少 数 民 族 网 民 的 增 速 较 为 突 出, 例 如 藏 族 网 民 增 幅 达 86%, 远 远 高 于 全 国 平 均 增 长 速 度 [1] Web 内 容 的 爆 炸 式 增 长, 使 得 对 Web 的 社 会 网 络 研 究 已 经 不 再 局 限 于 对 Web 结 构 的 分 析, 而 是 转 向 以 Web 内 容 为 研 究 对 象 的 分 析 [2], 其 中 知 识 图 谱 (Knowledge Graph) 成 为 大 数 据 时 代 自 然 语 言 处 理 领 域 的 一 个 研 究 热 点 知 识 图 谱 以 结 点 代 表 实 体 或 者 概 念, 边 代 表 实 体 / 概 念 之 间 的 各 种 语 义 关 系, 其 中 实 体 知 识 的 抽 取 是 主 要 研 究 内 容 之 一 知 识 图 谱 以 全 面 完 整 的 知 识 体 系 为 信 息 检 索 问 答 系 统 知 识 库 构 建 等 领 域 的 研 究 提 供 了 资 源 和 支 撑, 而 目 前 已 有 的 Google( 超 过 5.7 亿 实 体,18 亿 关 系 ),DBpedia( 超 过 1900 万 实 体,1 亿 关 系 ),Wiki-links(4000 万 排 除 歧 义 的 关 系 ),Wolframalpha(10 万 亿 关 系 ), 收 稿 日 期 :2015-06-15 定 稿 日 期 :2015-08-10 基 金 项 目 : 国 家 自 然 科 学 基 金 项 目 (No.61331013); 北 京 青 年 英 才 资 助 计 划 (No.YETP1291); 国 家 语 委 项 目 (No.ZDI125-36,No.YB125-139); 中 央 民 族 大 学 自 主 科 研 项 目 (No.2015MDQN11); 中 央 民 族 大 学 国 家 语 言 资 源 监 测 与 研 究 中 心 少 数 民 族 语 言 分 中 心 项 目 (No.CML15B02)

Probase( 超 过 265 万 实 体 ), 百 度 知 心, 搜 狗 知 立 方 等 知 识 图 谱 只 提 供 英 汉 法 等 语 言 的 相 关 知 识 [3], 少 数 民 族 语 言 知 识 图 谱 的 构 建 才 刚 刚 起 步 例 如, 当 搜 索 ཏ ལའ བ མ ( 达 赖 喇 嘛 ) 时,Google 会 出 现 64,100 条 结 果 ; 而 当 搜 索 ར ལ བ ར ན པ ཆ ( 嘉 瓦 仁 波 切 ) 时,Google 会 出 现 586,000 条 结 果 在 藏 语 中, 通 常 称 ཏ ལའ བ མ ( 达 赖 喇 嘛 ) 为 ར ལ བ ར ན པ ཆ ( 嘉 瓦 仁 波 切 ), 而 目 前 的 搜 索 引 擎 却 没 有 显 示 两 者 之 间 的 关 系 此 外, 所 有 搜 索 结 果 以 含 有 关 键 词 的 文 本 显 示 为 主, 没 有 知 识 的 结 构 表 示 如 果 具 有 了 实 体 与 实 体 之 间 的 语 义 链 接, 有 了 实 体 知 识, 那 么 将 会 获 得 更 全 面 的 信 息, 实 现 信 息 的 深 度 挖 掘 因 此, 本 文 针 对 藏 语 语 言 的 特 点, 提 出 了 一 种 基 于 SVM 和 泛 化 模 板 协 作 的 藏 语 人 物 属 性 抽 取 方 法 藏 语 人 物 属 性 抽 取 的 研 究, 是 藏 语 知 识 图 谱 构 建 的 基 础, 为 藏 语 知 识 问 答 信 息 检 索 信 息 抽 取 等 领 域 研 究 提 供 支 撑, 对 提 高 少 数 民 族 地 区 的 社 会 管 理 科 学 化 水 平 维 护 民 族 团 结 和 国 家 统 一 构 建 和 谐 社 会 具 有 重 要 意 义 2 国 内 外 研 究 现 状 及 发 展 动 态 分 析 人 物 属 性 抽 取 是 信 息 抽 取 领 域 的 一 个 重 要 领 域 [4], 该 概 念 在 2009 年 的 国 际 TAC KBP 会 议 开 始 引 入 [5] 人 物 属 性 抽 取 是 指 自 动 从 无 结 构 或 者 半 结 构 的 文 本 语 料 中 抽 取 特 定 的 人 物 属 性, 其 中 包 括 人 物 性 别, 出 生 年 月, 出 生 地, 工 作 地 点 等 但 是 人 物 属 性 抽 取 一 直 面 临 着 两 大 问 题 [6], 即 人 物 属 性 识 别 问 题 和 人 物 属 性 关 系 判 别 问 题 人 物 属 性 一 般 为 命 名 实 体, 例 如 人 名 地 名 和 组 织 机 构 名 命 名 实 体 识 别 在 自 然 语 言 处 理 领 域 仍 是 一 件 尚 未 完 全 解 决 的 工 作 因 此, 在 人 物 属 性 抽 取 工 作 前, 需 要 准 备 高 准 确 度 命 名 实 体 标 注 语 料 [7] 为 了 实 现 大 规 模 数 据 的 信 息 抽 取, 很 多 机 器 学 习 算 法 被 引 入 到 信 息 抽 取 领 域 Freitag 采 用 HMM 结 构 进 行 信 息 抽 取 [8],Laffery 使 用 条 件 随 机 场 抽 取 数 据 [9],Kambhatla 把 多 种 特 征 用 于 最 大 熵 模 型 并 取 得 了 较 好 的 抽 取 效 果 [10] 而 应 用 最 广 的 是 支 持 向 量 机 方 法 [11][12] 作 为 信 息 抽 取 领 域 的 一 个 分 支, 把 统 计 的 方 法 运 用 于 人 物 属 性 抽 取, 通 常 采 用 基 于 特 征 向 量 的 方 式 [13] 其 中, 经 典 的 基 于 特 征 向 量 的 机 器 学 习 方 法 包 括 最 大 熵 模 型 [14] 和 支 持 向 量 机 [15] 另 外, 特 征 选 取 对 于 基 于 特 征 向 量 的 方 式 至 关 重 要 Miler 构 建 了 一 种 语 义 解 析 树, 树 中 整 合 了 概 念 间 关 系 的 多 种 语 义 信 息, 包 括 词 性 标 注, 命 名 实 体 识 别 标 记 和 其 他 一 些 语 言 上 的 强 特 征, 这 些 特 征 给 分 类 器 提 供 了 很 好 的 依 据 [16] Culotta 根 据 依 存 树 构 建 了 核 函 数, 并 将 其 用 于 机 器 学 习 算 法 [17] Zelenko 引 入 了 一 种 树 核 的 方 法 [18] 但 是, 目 前 对 于 藏 语 的 实 体 知 识 抽 取 领 域 的 研 究 较 少, 主 要 研 究 集 中 于 藏 语 的 命 名 实 体 识 别 方 法 [19-21], 而 对 于 实 体 关 系 抽 取 特 别 是 人 物 属 性 抽 取 的 研 究 尚 未 有 成 熟 的 成 果 归 纳 原 因, 藏 语 任 务 属 性 抽 取 存 在 的 困 难 如 下 :(1) 训 练 语 料 匮 乏 ;(2) 藏 语 在 句 子 和 篇 章 级 的 信 息 处 理 研 究 还 处 于 起 步 阶 段, 因 此, 英 汉 实 体 关 系 抽 取 中 的 核 函 数 方 法 无 法 直 接 应 用 于 藏 语 实 体 关 系 抽 取 中 因 此, 本 文 针 对 藏 语 的 特 点, 构 建 了 一 定 规 模 的 训 练 语 料, 提 出 一 种 基 于 SVM 和 泛 化 模 板 的 藏 语 人 物 属 性 关 系 抽 取 方 法 其 中, 模 板 构 建 重 点 选 取 包 括 藏 语 后 置 谓 词, 相 关 的 格 信 息 等 主 要 特 征 此 外, 针 对 模 板 方 式 的 局 限 性, 本 文 采 用 SVM 机 器 学 习 方 法, 设 计 了 一 种 处 理 多 分 类 问 题 的 层 次 分 类 器 进 行 属 性 关 系 抽 取 最 后, 本 文 分 别 采 用 模 板 SVM 以 及 模 板 和 SVM 结 合 的 方 法 进 行 实 验, 实 验 结 果 表 明, 通 过 模 板 和 SVM 结 合 的 方 式 有 效 提 高 了 人 物 属 性 抽 取 的 正 确 性 3 整 体 框 架

图 1 基 于 SVM 和 泛 化 模 板 相 结 合 的 藏 语 人 物 属 性 关 系 抽 取 方 法 通 过 可 配 置 的 爬 虫 系 统 从 多 个 藏 文 网 站 获 取 语 料, 从 中 筛 选 出 关 于 人 物 介 绍 的 文 章 并 对 这 些 句 子 做 预 处 理, 包 括 分 词, 词 性 标 注 和 命 名 实 体 识 别 首 先, 根 据 训 练 语 料 构 建 模 板 系 统 此 外, 为 了 应 对 开 放 语 料 的 多 样 性 问 题, 引 入 了 SVM 方 法 进 行 预 测, 而 模 板 中 的 语 言 规 则 作 为 辅 助 工 具 最 终 将 处 理 完 成 的 数 据 装 入 人 物 - 属 性 库 中 4 模 板 构 建 一 定 量 的 训 练 语 料 标 注 之 后, 可 以 进 入 模 板 系 统 建 设 阶 段, 本 章 将 分 别 介 绍 藏 语 特 征 选 择, 模 板 建 设 和 泛 化 过 程 4.1 主 要 藏 语 特 征 选 择 不 同 于 汉 语 和 英 语, 藏 语 是 谓 语 后 置 型 语 言, 动 词 是 句 子 的 核 心 动 词 附 近 的 格 标 记 含 有 丰 富 的 语 义 角 色 信 息, 格 标 记 在 一 定 程 度 上 反 映 出 句 子 中 谓 词 与 主 体 词 之 间 的 关 系, 而 且 这 些 格 标 记 的 出 现 存 在 一 定 的 规 律 因 此, 对 格 标 记 做 了 整 理, 这 些 格 标 记 对 藏 文 人 物 属 性 抽 取 起 到 重 要 的 作 用, 如 表 1 所 示 表 1 藏 语 格 标 记 的 类 型 与 作 用 类 型 格 标 记 的 列 举 包 含 类 型 语 法 语 义 作 用 主 格 施 格 指 明 动 作 的 施 动 者 工 具 格 指 明 动 作 的 工 具 方 式 等 属 格 表 示 领 属 关 系 拉 格 业 格 指 明 对 象 地 点 等 为 格 依 格 同 体 格 时 间 格 表 示 受 益 的 对 象 和 动 作 表 示 依 存 或 所 在 等 表 示 事 物 的 状 态 表 示 发 生 的 时 间 从 格 4.2 模 板 建 设 表 示 动 作 或 状 态 的 来 源 与 汉 语 和 英 语 不 同, 模 板 建 设 中 更 加 注 重 藏 语 特 有 的 格 标 记 和 周 围 的 动 词, 在 语 料 标 注 的 基 础 上 构 建 特 征 模 板, 如 例 1-4 例 1:ཚ བར ན ས ལ མ ན བ ད ལ ངས གཞ ས ཀ ར ར ས འཁ ངས ( 才 旦 卓 玛 出 生 在 西 藏 日 喀 则 ) 模 板 :< 人 名 /nh>(ན /v)< 地 点 /ns>(ར /k)(ས ས 出 生 /v) 例 2:བས ན འཛ ན ར མཚ འ ཡབ ཆ ས ས ང ཚ ར ང ཡ ན ( 旦 增 加 措 的 父 亲 是 其 将 才 让 ) 模 板 :< 人 名 /nh>(འ /k)(ཡབ 父 亲 /n)(ན 是 /v)< 人 名 /nh> 例 3:ཚ མཁན པ བས ད ནམས དར ར ས ས ལ ༡༩༦༢ལ ར ས འཁ ངས ( 堪 布 索 南 达 吉 出 生 于 公 元 1962 年 ) 模 板 :< 人 名 /nh>< 时 间 /t>(ར /k)(ས འཁ ངས 出 生 于 /v) 例 4:པཎ ཆ ན ས ཕ ང བར ད པ བས ན པའ དབང ཕ ག ག ཡ མ བཀ ཤ ས ལ མ ( 班 禅 第 八 世 丹 巴 昂 秀 的 妈 妈 是 扎 西 拉 姆 ) 模 板 :< 人 名 /nh>(ག /k)(ཡ མ 妈 妈 /n)(ན 是 /v)< 人 名 /nh>

词 性 标 记 采 用 国 家 语 言 资 源 监 测 与 研 究 中 心 少 数 民 族 语 言 分 中 心 的 信 息 处 理 用 现 代 藏 语 词 类 标 记 集 规 范, 其 中, /nh 表 示 人 名 /t 表 示 时 间 /ns 表 示 地 名 /k 表 示 格 标 记 /v 表 示 动 词 4.3 泛 化 在 语 料 模 板 建 设 完 成 后, 发 现 众 多 模 板 具 有 相 似 性, 我 们 整 合 修 改 并 泛 化 模 板 使 其 能 应 用 于 更 广 泛 的 语 料 对 于 微 小 区 别 模 板, 例 如 仅 是 动 词 的 差 别, 只 需 将 不 同 的 动 词 添 加 的 集 合 来 合 并 模 板 对 于 模 板 中 不 重 要 的 修 饰 性 成 分, 将 其 从 模 板 中 删 除, 模 板 样 式 如 例 5-8 例 5:ཚ བར ན ས ལ མ ན བ ད ལ ངས གཞ ས ཀ ར ར ས འཁ ངས ( 才 旦 卓 玛 出 生 在 西 藏 日 喀 则 ) 模 板 :< 人 名 /nh>(ན /v)< 地 点 /ns>(ས ར ར ད ཏ ལ ན /k)(ས ས འཁ ངས 出 生 /v) 例 6:ས ལ དཀར ག ཕ ཡ ལ ན མཚ བ ད ད ཡ ན ( 卓 嘎 的 家 乡 在 青 海 ) 模 板 : < 人 名 /nh>(ག ག ཀ འ ཡ /k)(ཕ ཡ ལ 家 乡 /n)(ན 指 示 词 /r)< 地 名 /ns>(ས ར ར ལ ཏ ད ན/k)(ཡ ན 是 /v) 例 7:ཚ མཁན པ བས ད ནམས དར ར ས ས ལ ༡༩༦༢ལ ར ས འཁ ངས ( 堪 布 索 南 达 吉 出 生 于 公 元 1962 年 ) 模 板 :< 人 名 /nh>< 时 间 /t>(ས ར ར ད ཏ ལ ན /k)(ས འཁ ངས 出 生 于 /v) 例 8:ཚ དབང ག ས ས ས ར ན 1988ལ འ ཟ 10བའ ཚ ས1ཉ ན ཡ ན ( 次 旺 的 生 日 是 1988 年 10 月 1 日 ) 模 板 :< 人 名 /nh>(ག ག ཀ འ ཡ /k)(ས ས ས ར 生 日 /n)(ན 指 示 词 /r)< 时 间 /t>(ཡ ན 是 /v) 5 基 于 SVM 的 层 次 分 类 虽 然 基 于 特 征 模 板 的 方 法 在 特 定 的 测 试 语 料 中 可 以 取 得 较 高 的 准 确 度, 但 是 它 需 要 很 多 人 工 的 介 入 并 且 对 于 模 板 系 统 尚 未 覆 盖 的 内 容 无 能 为 力 因 此, 对 于 不 同 的 语 料 准 确 率 和 召 回 率 差 别 很 大, 特 别 是 对 于 模 板 系 统 比 较 生 疏 的 语 料, 基 于 模 板 的 抽 取 系 统 召 回 率 非 常 低 因 此, 引 入 了 基 于 特 征 向 量 的 SVM 方 法, 并 设 计 了 层 次 分 类 器 5.1 特 征 选 取 特 征 选 择 至 关 重 要 一 定 程 度 上, 特 征 的 质 量 决 定 了 分 类 效 果 本 文 的 特 征 向 量 主 要 选 取 关 键 词 特 征, 标 注 组 合 特 征, 实 体 词 周 围 标 记 特 征 5.1.1 关 键 词 特 征 关 键 词 指 出 现 频 率 较 高 并 且 含 有 极 强 区 分 特 性 的 名 词 或 动 词 这 些 特 征 大 多 是 从 模 板 系 统 提 取 出 来 的, 虽 然 关 键 词 特 征 向 量 数 量 并 不 多, 但 是 这 些 词 往 往 具 有 很 强 的 区 分 度 并 且 这 些 特 征 会 以 高 的 频 率 出 现 在 某 一 属 性 类 别 中, 例 如, 关 键 词 名 词 ཡ མ ཨ མ ( 妈 妈 母 亲 ) 5.1.2 基 于 多 种 标 记 的 组 合 特 征 相 比 于 基 于 词 本 身 的 特 征, 基 于 词 性 标 注 的 特 征 更 具 有 广 泛 性 但 是 不 是 每 个 标 记 都 可 以 作 为 特 征 向 量, 因 为 众 多 标 记 并 没 有 区 分 度 因 此, 本 文 主 要 采 用 标 记 组 合 特 征, 特 别 是 格 标 记 和 词 性 或 命 名 实 体 标 记 组 合 往 往 能 起 到 较 好 的 分 类 效 果 例 如, 时 间 标 记 /t + 格 标 记 /k +/v( 如 ས འཁ ངས 出 生 ) 对 于 识 别 出 生 年 月 属 性 有 较 大 的 帮 助 5.1.3 实 体 词 周 围 标 记 特 征 实 体 词 周 围 标 记 特 征 是 指 在 实 体 词 周 围 的 词 标 记 构 成 的 特 征, 包 括 词 性 标 记 和 命 名 实 体 标 记 本 文 认 为 离 实 体 词 越 近 的 标 记 越 重 要, 而 离 实 体 词 距 离 越 远 的 标 记 则 较 不 重 要 因 此, 选 取 实 体 词 向 前 2 个 词 距 和 向 后 1 个 词 距 内 的 词 性 标 注 标 记 和 前 后 3 个 词 距 内 的 命 名 实 体 标 记 5.2 构 造 层 次 分 类 器 SVM 目 前 是 信 息 抽 取 领 域 应 用 较 为 成 功 的 分 类 器 之 一 SVM 通 过 在 高 维 空 间 上 寻 找 最 优 超 平 面, 从 而 达 到 分 类 目 的 对 于 非 线 性 可 分 的 样 本 集, 一 般 是 通 过 升 维 实 现 样 本 空 间 映 射, 从 而 转 变 成 线 性 可 分 的 问 题 为 了 使 问 题 可 计 算, 即 避 免 出 现 维 度 灾 难 问 题, 引 入 了 核 函 数 的 方 法, 从 而 达 到 把 计 算 在 低 维 空 间 完 成 的 目 的 对 于 人 物 属 性 抽 取 问 题, 一 个 关 键 问 题 是 构 建 高 性 能 的 SVM 分 类 器 SVM 最 初 被 设 计 用 来 解 决 二 分 类 问 题, 但 是 属 性 抽 取 往 往 都 是 复

杂 的 多 分 类 问 题 例 如, 人 物 属 性 可 以 分 为 出 生 年 月, 出 生 地, 性 别 等 多 个 类 别 那 么, 如 何 组 织 这 些 分 类 器 则 是 多 分 类 问 题 必 须 解 决 的 问 题 目 前 主 流 的 分 类 器 组 织 形 式 分 为 两 种 : (1) 一 对 多 的 方 式 假 如 一 共 有 k 个 属 性 类 别, 那 么 需 要 构 建 k 个 分 类 器, 并 且 对 于 每 个 属 性 确 定 平 均 需 要 进 行 k /2次 预 测, 此 方 式 分 类 效 果 欠 佳 (2) 一 对 一 的 方 式 同 样 如 果 存 在 k 个 属 性 类 别, 那 么 需 要 构 建 kk ( 1) / 2 个 分 类 器, 然 后 通 过 kk ( 1) / 2 次 预 测, 再 计 算 累 加 权 重, 获 得 累 加 值 最 大 的 类 别 则 为 所 属 类 别 这 种 方 式 比 前 者 好, 但 是 分 类 器 数 量 过 多, 对 于 属 性 抽 取 等 类 别 数 量 较 多 的 问 题 适 用 性 较 差 因 此, 本 文 引 入 了 一 种 层 次 分 类 器 的 构 造 方 法 该 方 法 结 合 两 种 传 统 方 法 的 长 处, 同 一 层 面 采 用 一 对 一 的 方 式, 逐 层 向 下 同 时, 利 用 模 板 系 统 中 获 取 的 语 言 规 律 建 设 快 速 通 道, 从 而 进 一 步 优 化 层 次 分 类 器 的 分 类 效 果 和 分 类 速 度 具 体 构 造 如 图 2 所 示 图 2 层 次 分 类 器 的 构 造 (1) 过 滤 器 : 在 进 入 层 次 分 类 器 系 统 之 前 需 要 对 语 料 做 筛 选, 将 没 有 任 何 属 性 实 体 存 在 的 部 分 干 扰 句 直 接 剔 除, 可 以 一 定 程 度 上 减 少 层 次 分 类 器 工 作 负 荷 从 而 提 高 效 率 (2) 逐 层 向 下 : 进 入 层 次 分 类 器 系 统 后, 标 准 的 分 类 模 式 是 从 第 一 层 分 类 器 开 始 逐 层 向 下 直 至 类 别 叶 节 点, 中 间 的 分 类 器 会 将 一 些 无 关 类 别 的 数 据 剔 除 这 一 步 骤 对 于 属 性 抽 取 过 程 中 大 量 负 样 本 的 处 理 是 非 常 重 要 的 (3) 同 层 多 分 类 问 题 : 对 于 单 个 分 类 器, 采 用 一 对 一 的 方 式 处 理 多 分 类 问 题 经 过 层 次 分 类 后, 每 个 多 分 类 处 理 的 类 别 都 不 会 太 多, 所 以 不 会 出 现 传 统 一 对 一 问 题 分 类 器 数 量 过 大 的 问 题 分 类 器 的 个 数 为 N 时 这 样 做 可 以 保 留 一 对 一 分 类 器 的 分 类 准 确 性 高 的 特 点 sum n i 1 pi( pi 1) / 2, 其 中, p i 为 每 个 分 类 器 中 类 别 的 个 数 同 (4) 快 速 通 道 : 本 文 设 计 了 根 据 实 体 - 属 性 标 注 构 造 的 快 速 通 道, 这 些 快 速 通 道 可 以 有 效 的 提 高 层 次 分 类 器 的 分 类 效 果 和 速 度 因 为 在 属 性 抽 取 任 务 中, 属 性 实 体 本 身 往 往 带 有 明 显 的 区 分 性 例 如, 当 出 现 时 间 为 第 二 个 实 体 词 时, 只 可 能 出 现 出 生 年 月 属 性 而 不 会 是 父 亲 或 出 生 地 的 属 性 因 此 可 以 通 过 快 速 通 道 直 接 跳 至 关 于 出 生 年 月 类 别 和 无 关 类 别 的 分 类 决 策 器 6 实 验 结 果 与 分 析

6.1 语 料 来 源 6.1.1 数 据 爬 取 及 筛 选 本 文 语 料 来 源 于 7 家 藏 语 网 站, 如 表 2 所 示 我 们 研 究 关 注 的 人 物 属 性 主 要 包 括 : 人 名 出 生 日 期 人 名 出 生 地 人 名 父 亲 人 名 母 亲 表 2 语 料 来 源 语 料 来 源 维 基 百 科 ( 藏 语 版 ) 中 国 藏 族 中 学 网 康 巴 传 媒 网 喜 马 拉 雅 苯 教 ( 藏 语 版 ) AMDO 藏 语 HIMALAYABON 网 站 网 址 http://bo.wikipedia.org http://www.tibetanms.cn/ http://ti.kbcmw.com http://old.himalayabon.com/ http://www.amdotibet.cn/ http://www.himalayabon.com/ 宗 喀 巴 网 http://bo.jetsongkhapa.org/ 我 们 从 大 量 网 页 文 本 中 选 取 2400 句 包 含 人 物 属 性 的 句 子 其 中,1975 句 是 包 含 上 述 4 种 人 物 属 性 关 系 的 句 子, 剩 余 425 句 为 其 他 人 物 属 性 关 系 的 句 子 我 们 将 1600 句 作 为 训 练 语 料, 其 余 800 句 作 为 测 试 语 料 6.1.2 语 料 预 处 理 我 们 对 选 取 的 2400 句 进 行 分 词 词 性 命 名 实 体 识 别, 并 标 注 了 实 体 之 间 的 关 系 <e1>ཚ བར ན ས ལ མ /nh</e1>ན /v<e2>བ ད ལ ངས གཞ ས ཀ ར /ns</e2>ར /kས འཁ ངས/v /w 人 物 - 出 生 地 (e1,e2) <e1>མཁན པ བས ད ནམས དར ར ས /nh</e1><e2>ས ལ ༡༩༦༢ལ /t</e2>ར /kས འཁ ངས /v</e2> /w 人 物 - 出 生 年 月 (e1,e2) 6.2 实 验 分 析 与 评 价 首 先 使 用 基 于 模 板 的 方 法 在 1600 句 训 练 语 料 集 上 做 测 试 ( 共 包 含 1705 个 属 性 ), 实 验 结 果 如 表 3 所 示 表 3 基 于 模 板 的 藏 语 人 物 属 性 抽 取 在 封 闭 训 练 集 上 的 结 果 属 性 类 别 数 量 ( 个 ) 百 分 比 (%) Total Identified Correct P R F1 出 生 年 月 452 432 403 93.29% 89.16% 91.18% 出 生 地 458 443 407 91.87% 88.86% 90.34% 父 亲 363 359 331 92.20% 91.18% 91.69% 母 亲 432 425 401 94.35% 92.82% 93.58% 但 是, 把 这 些 模 板 应 用 在 800 句 测 试 语 料 集 ( 共 846 个 属 性 ) 时, 实 验 结 果 如 表 4 所 示 表 4 基 于 模 板 的 藏 语 人 物 属 性 抽 取 在 开 放 测 试 集 上 的 结 果 属 性 类 别 数 量 ( 个 ) 百 分 比 (%) Total Identified Correct P R F1 出 生 年 月 219 162 91 56.17% 41.55% 47.77% 出 生 地 223 168 78 46.43% 34.98% 39.90% 父 亲 184 144 73 50.69% 39.67% 44.51% 母 亲 220 171 87 50.88% 39.55% 44.50% 上 述 实 验 结 果 表 明, 基 于 模 板 的 方 法 应 用 在 模 板 系 统 不 熟 悉 的 语 料 中 性 能 下 降 明 显 主

要 原 因 在 于, 基 于 模 板 的 方 式 缺 少 学 习 能 力 而 必 须 通 过 一 些 人 工 参 与 构 建, 虽 然 通 过 不 停 的 泛 化 和 修 正, 性 能 会 逐 渐 提 升, 但 是 过 多 的 人 工 介 入 和 较 大 的 工 作 量 成 为 该 方 法 的 瓶 颈 此 外, 不 同 藏 语 地 区 或 不 同 风 格 的 网 站 的 语 言 会 有 一 些 区 别, 考 虑 语 言 的 丰 富 性, 难 以 通 过 基 于 模 板 的 方 式 做 到 完 备 下 面, 我 们 采 用 基 于 SVM 的 层 次 分 类 器 进 行 人 物 属 性 抽 取, 本 文 采 用 层 次 分 类 器 在 分 类 速 度 上 较 之 一 对 一 的 分 类 器 有 较 大 提 升, 而 两 种 方 法 的 准 确 性 相 差 不 大 并 通 过 语 言 规 则 构 建 的 快 速 通 道 使 分 类 性 能 更 好 在 实 验 中, 我 们 对 比 常 见 的 核 函 数 方 法, 最 终 选 型 为 RBF( 径 向 基 函 数 ) 并 设 置 参 数 1/k, k 为 类 别 个 数 同 时 考 虑 到 语 料 普 遍 存 在 不 均 衡 性, 负 样 本 大 大 多 于 正 样 本, 因 此, 对 正 负 样 本 分 别 设 置 了 不 同 的 惩 罚 因 子 C 和 C 其 中,C 为 3, 正 样 本 满 足 C ( Num / Num ) C 其 中 Num 为 负 样 本 数, Num 为 正 样 本 数, 我 们 通 过 增 大 正 样 本 的 惩 罚 因 子, 从 而 减 少 因 为 数 据 倾 斜 造 成 的 影 响 实 验 结 果 如 表 5 所 示 表 5 基 于 SVM 的 藏 语 人 物 属 性 抽 取 在 开 放 测 试 集 上 的 结 果 属 性 类 别 数 量 ( 个 ) 百 分 比 (%) Total Identified Correct P R F1 出 生 年 月 219 202 103 50.99% 47.03% 48.93% 出 生 地 223 211 94 44.55% 42.15% 43.32% 父 亲 184 176 83 47.16% 45.11% 46.11% 母 亲 220 208 101 48.56% 45.91% 47.20% 实 验 结 果 表 明, 相 比 于 模 板 的 方 法,SVM 方 法 提 高 了 人 物 属 性 抽 取 的 召 回 率, 但 是 准 确 率 并 没 有 提 高 主 要 原 因 在 于,SVM 的 结 果 在 对 于 一 些 不 明 显 的 分 类, 通 过 多 样 化 的 特 征 向 量 反 而 可 以 取 到 较 好 的 预 测 效 果 但 是 对 于 一 些 非 常 明 显 的 分 类 问 题 却 判 断 错 误, 我 们 认 为, 部 分 原 因 在 于 训 练 语 料 不 足 和 训 练 语 料 不 均 匀 造 成 的 最 后, 本 文 采 用 基 于 模 板 和 SVM 相 结 合 的 方 式 进 行 实 验 实 验 结 果 如 表 6 所 示 表 6 基 于 SVM 和 泛 化 模 板 协 作 的 藏 语 人 物 属 性 抽 取 在 开 放 测 试 集 上 的 结 果 属 性 类 别 数 量 ( 个 ) 百 分 比 (%) Total Identified Correct P R F1 出 生 年 月 219 201 131 65.17% 59.82% 62.38% 出 生 地 223 209 133 63.64% 59.64% 61.57% 父 亲 184 161 108 67.08% 58.70% 62.61% 母 亲 220 201 128 63.68% 58.18% 60.81% 首 先 对 前 期 建 设 的 模 板 系 统 精 心 筛 选, 只 保 存 在 抽 取 实 验 中 准 确 率 接 近 100% 的 这 部 分 模 板 虽 然 这 样 会 使 召 回 率 在 模 板 系 统 部 分 急 剧 下 降, 但 是, 随 后 我 们 就 将 所 有 模 板 没 有 抽 取 出 属 性 所 剩 下 的 所 有 句 子 数 据 化 并 交 给 SVM 预 测 这 样, 对 于 那 些 模 板 并 未 抽 取 的 属 性 可 以 通 过 SVM 预 测 出, 保 护 了 一 些 原 本 特 征 明 显 的 属 性 句 子 不 被 SVM 误 判 所 以 在 整 体 上 并 未 影 响 召 回 率, 同 时 还 提 高 了 抽 取 的 效 果 提 高 图 3 基 于 SVM 和 泛 化 模 板 协 作 和 基 于 模 板 的 藏 语 人 物 属 性 抽 取 比 较 由 图 3 可 以 看 出, 采 用 模 板 和 SVM 相 结 合 的 方 式 比 只 采 用 SVM 的 方 式, 性 能 上 有 较 大 的

6.3 实 验 结 果 的 展 示 通 过 SVM 和 模 板 结 合 的 人 物 属 性 抽 取 后 的 结 果 如 表 7 所 示 通 过 人 物 属 性 抽 取, 把 属 性 放 入 人 物 - 属 性 库 中, 为 藏 语 人 物 收 集, 藏 语 知 识 图 谱 建 设 等 应 用 提 供 数 据 支 撑 表 7 关 于 人 物 ས ང བཙན ས མ པ ( 松 赞 干 布 ) 的 属 性 抽 取 结 果 属 性 类 别 抽 取 属 性 值 属 性 所 在 句 子 出 生 地 ག ང ཁ ར ལ སའ ཤར ཕ གས སའ ས ར ང ཐག ལ དབར བཅ ཕག ཙམ ཡ ད ས ང བཙན ས མ པ ན ག ང ཁ ར ལ སའ ཤར ཕ གས སའ ས ར ང ཐག ལ དབར བཅ ཕག ཙམ པའ དབ ར མལ ག ར མ ཕ བ ང བ མས པ མ འག ར ག ང ཡ ད པའ དབ ར མལ ག ར མ ཕ བ ང བ མས པ མ འག ར ག ང ནས འཁ ངས 出 生 年 月 བ ད མ གང (༦༢༧)ལ ར འཁ ངས ས ང བཙན ས མ པ ན བ ད མ གང (༦༢༧)ལ ར འཁ ངས 父 亲 ར གནམ ར ས ང བཙན ས ང བཙན ས མ པ འ ཡབ ན ར གནམ ར ས ང བཙན ཡ ན 母 亲 འབ བཟའ ཐ ད དཀར ཚ ས ང བཟའ ས ང བཙན ས མ པ འ ཡ མ ན འབ བཟའ ཐ ད དཀར ཚ ས ང བཟའ ཡ ན 7 结 论 通 过 对 上 述 实 验 结 果 的 分 析, 发 现 对 于 人 物 属 性 关 系 抽 取 的 问 题 采 用 SVM 和 模 板 相 结 合 的 方 式, 比 仅 采 用 SVM 或 者 仅 采 用 模 板 的 方 式 性 能 更 好 部 分 原 因 在 于 彼 此 对 于 不 同 情 况 的 分 类 问 题 具 有 各 自 的 优 势, 通 过 整 合 两 者 方 法, 让 它 们 协 同 工 作, 从 而 使 实 验 方 法 性 能 提 高 通 过 该 方 法 提 取 的 属 性 可 以 广 泛 应 用 于 专 门 数 据 库 的 建 设 知 识 图 谱 构 建 和 智 能 问 答 等 领 域 在 将 来 的 工 作 中, 需 要 扩 充 语 料 库 并 增 加 人 物 属 性 的 类 别, 从 而 提 升 成 果 的 价 值 参 考 文 献 [1] 李 光, 钟 雅 琼. 大 陆 研 拟 藏 维 文 网 络 舆 情 监 测 系 统 监 控 分 裂 风 险 [J]. 凤 凰 周 刊, 2012(18). [2] Bizer C,Heath T,Berners-Lee T. Linked data-the story so far [J].International Journal on Semantic Web and Information Systems (IJSWIS),2009,5(3): 1-22. [3] 张 静, 唐 杰. 下 一 代 搜 索 引 擎 的 焦 点 : 知 识 图 谱 [J]. 中 国 计 算 机 学 会 通 讯, 2012,9(4):64-68. [4] Kong Fang, Zhou Guodong, Zhu Qiaoming. Survey on Coreference Resolution [J]. Computer Engineering, 2010, 36(8): 33-36. [5] Bikel D., Castelli V., Florian R. Entity linking and slot filling through statistical processing and inference rules[a]. In Proc. TAC 2009 Workshop[C], November 2009. [6] Burman, A., Jayapal, A., Kannan, S.Entity linking, slot filling and temporal bounding[a].kbp[c] 2011. [7] Axel Bernal, Koby Crammer, Artemis Hatzigeorgiou. Global discriminative learning for higher-accuracy computational gene prediction[j] PLoS Computational Biology, 2007, 3(3). [8] Freitag D., and McCallum A. Information extraction with HMM structures learned by stochastic optimization[a].aaai Press[C], Menlo Park, CA: 2000, 584-589. [9] Lafferty, J., McCallum, A., Pereira. F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[a]. In Proc. 18th International Conf. on Machine Learning[C], Morgan Kaufmann, San Francisco, CA: 2001, 282-289 [10] Kambhatla N. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[a]. Proceedings of 42th Annual Meeting of the Association for Computational Linguistic[C], July Barcelona, Spain: 2004, 21-26. [11] Zhou G., Su, J., Zhang, J., Zhang, M. Combining Various Knowledge in Relation Extraction[A].Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics[C],2005. [12] Zelenko D., Aone C., Richardella. Kernel methods for relation extraction[j]. Journal of Machine Learning Research, 2003, 1083-1106. [13] Nadia Ghamrawi and Andrew McCallum. Collective multi-label classification[a]. In Conference on Information and Knowledge Management (CIKM)[C], 2005. [14] Nanda Kambhatla. Combining lexical, syntactic and semantic features with Maximum Entropy models for extracting relations[a]. Proceedings of ACL[C], 2004, 178-181. [15] Zhao S B, Grishman R. Extracting relations with integrated information using kernel methods [A]. Proceedings of ACL[C], 2005, 419-426. [16] Miller S., Fox H., Ramshaw L. and Weischedel R. A novel use of statistical parsing to extract information from text [A]. In Proceedings of 6th Applied Natural Language Processing Conference[C], Seattle, USA. 2000.

[17] Culotta A. and Sorensen J.Dependency tree kernels for relation extraction[a]. In Proceedings of 42th Annual Meeting of the Association for Computational Linguistics[C], Barcelona, Spain: July 2004, 21-26. [18] Zelenko D., Aone C. and Richardella. Kernel methods for relation extraction[j]. Journal of Machine Learning Research, 2003, 1083-1106. [19] 加 羊 吉, 李 亚 超, 宗 成 庆, 于 洪 志. 最 大 熵 和 条 件 随 机 场 模 型 相 融 合 的 藏 文 人 名 识 别 方 法 [J]. 中 文 信 息 学 报,2013. [20] 才 智 杰. 藏 文 自 动 分 词 系 统 中 紧 缩 词 的 识 别 [J]. 中 文 信 息 学 报,2009,23(1): 35-37. [21] Sun Yuan, Zhao Xiaobing. Research on automatic recognition of Tibetan personal names based on multi-features [A]. Proceedings of International Conference on Natural Language Processing and Knowledge Engineering[C], 2010. 作 者 简 介 : 朱 臻 (1988 ), 男, 硕 士 研 究 生, 主 要 研 究 领 域 为 自 然 语 言 处 理 信 息 检 索 数 据 挖 掘 E mail:19057736389@163.com 孙 媛 (1979 ), 通 信 作 者, 女, 副 教 授, 中 文 信 息 学 会 会 员, 主 要 研 究 领 域 为 自 然 语 言 处 理 信 息 抽 取 Email:tracy.yuan.sun@gmail.com