Microsoft Word - 12--段宇锋_new_.doc



Similar documents
何 秋 琳 张 立 春 视 觉 学 习 研 究 进 展 视 觉 注 意 视 觉 感 知

说 明 为 了 反 映 教 运 行 的 基 本 状 态, 为 校 和 院 制 定 相 关 政 策 和 进 行 教 建 设 与 改 革 提 供 据 依 据, 校 从 程 资 源 ( 开 类 别 开 量 规 模 ) 教 师 结 构 程 考 核 等 维 度, 对 2015 年 春 季 期 教 运 行 基

<433A5C446F63756D656E E E67735C41646D696E F725CD7C0C3E65CC2DBCEC4CFB5CDB3CAB9D3C3D6B8C4CFA3A8BCF2BBAFA3A95CCAB9D3C3D6B8C4CF31302D31392E646F63>

,,,,, :,, (.,, );, (, : ), (.., ;. &., ;.. &.., ;, ;, ),,,,,,, ( ) ( ),,,,.,,,,,, : ;, ;,.,,,,, (., : - ),,,, ( ),,,, (, : ),, :,


龚 亚 夫 在 重 新 思 考 基 础 教 育 英 语 教 学 的 理 念 一 文 中 援 引 的 观 点 认 为 当 跳 出 本 族 语 主 义 的 思 维 定 式 后 需 要 重 新 思 考 许 多 相 连 带 的 问 题 比 如 许 多 发 音 的 细 微 区 别 并 不 影 响 理 解 和

评 委 : 李 炎 斌 - 个 人 技 术 标 资 信 标 初 步 审 查 明 细 表 序 号 投 标 单 位 投 标 函 未 按 招 标 文 件 规 定 填 写 漏 填 或 内 容 填 写 错 误 的 ; 不 同 投 标 人 的 投 标 文 件 由 同 一 台 电 脑 或 同 一 家 投 标 单

0 年 上 半 年 评 价 与 考 核 细 则 序 号 部 门 要 素 值 考 核 内 容 考 核 方 式 考 核 标 准 考 核 ( 扣 原 因 ) 考 评 得 3 安 全 生 产 目 30 无 同 等 责 任 以 上 道 路 交 通 亡 人 事 故 无 轻 伤 责 任 事 故 无 重 大 质 量

深圳市新亚电子制程股份有限公司

<4D F736F F D D323630D6D0B9FAD3A6B6D4C6F8BAF2B1E4BBAFB5C4D5FEB2DFD3EBD0D0B6AF C4EAB6C8B1A8B8E6>

评 委 : 徐 岩 宇 - 个 人 技 术 标 资 信 标 初 步 审 查 明 细 表 序 号 投 标 单 位 投 标 函 未 按 招 标 文 件 规 定 填 写 漏 填 或 内 容 填 写 错 误 的 ; 不 同 投 标 人 的 投 标 文 件 由 同 一 台 电 脑 或 同 一 家 投 标 单

18 上 报 该 学 期 新 生 数 据 至 阳 光 平 台 第 一 学 期 第 四 周 至 第 六 周 19 督 促 学 习 中 心 提 交 新 增 专 业 申 请 第 一 学 期 第 四 周 至 第 八 周 20 编 制 全 国 网 络 统 考 十 二 月 批 次 考 前 模 拟 题 第 一 学

《C语言基础入门》课程教学大纲

马 克 思 主 义 公 正 观 的 基 本 向 度 及 方 法 论 原 则!! # #


名 称 生 命 科 学 学 院 环 境 科 学 1 生 物 学 仅 接 收 院 内 调 剂, 初 试 分 数 满 足 我 院 生 物 学 复 试 最 低 分 数 线 生 命 科 学 学 院 生 态 学 5 生 态 学 或 生 物 学 生 命 科 学 学 院


抗 战 时 期 国 民 政 府 的 银 行 监 理 体 制 探 析 % # % % % ) % % # # + #, ) +, % % % % % % % %

伊 犁 师 范 学 院 611 语 言 学 概 论 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 2-2 语 言 学 纲 要 笔 记, 由 考 取 本 校 本 专 业 高 分 研 究 生 总 结 而 来, 重 点 突 出, 借 助 此 笔 记 可 以 大 大 提 高 复 习 效

( ) 信 号 与 系 统 Ⅰ 学 科 基 础 必 修 课 教 周 2016 年 06 月 13 日 (08:00-09:35) ( )

随着执业中医师资格考试制度的不断完善,本着为我校中医学专业认证服务的目的,本文通过对我校中医类毕业生参加2012年和2013年的中医执业医师考试成绩及通过率、掌握率进行分析,并与全国的平均水平进行差异比较分析,以此了解我校执业中医师考试的现状,进而反映我校中医类课程总体教学水平,发现考核知识模块教学中存在的不足,反馈给相关学院和教学管理部门,以此提高教学和管理水平。

一 公 共 卫 生 硕 士 专 业 学 位 论 文 的 概 述 学 位 论 文 是 对 研 究 生 进 行 科 学 研 究 或 承 担 专 门 技 术 工 作 的 全 面 训 练, 是 培 养 研 究 生 创 新 能 力, 综 合 运 用 所 学 知 识 发 现 问 题, 分 析 问 题 和 解 决

<433A5C C6B73625C B746F705CB9FABCCAD6D0D2BDD2A9D7A8D2B5B8DFBCB6BCBCCAF5D6B0B3C6C6C0C9F3C9EAC7EBD6B8C4CFA3A CDA8D3C3B0E6A3A92E646F63>

珠江钢琴股东大会

2006年顺德区高中阶段学校招生录取分数线

Microsoft Word - 第7章 图表反转形态.doc

HSK( 一 级 ) 考 查 考 生 的 日 常 汉 语 应 用 能 力, 它 对 应 于 国 际 汉 语 能 力 标 准 一 级 欧 洲 语 言 共 同 参 考 框 架 (CEF) A1 级 通 过 HSK( 一 级 ) 的 考 生 可 以 理 解 并 使 用 一 些 非 常 简 单 的 汉 语

修改版-操作手册.doc

抗 日 战 争 研 究 年 第 期

I

年 第 期 % %! & % % % % % % &

中 国 软 科 学 年 第 期!!!

证券代码: 证券简称:长城电脑 公告编号:

第 期 李 伟 等 用 方 法 对 中 国 历 史 气 温 数 据 插 值 可 行 性 讨 论

一 开 放 性 的 政 策 与 法 规 二 两 岸 共 同 的 文 化 传 承 三 两 岸 高 校 各 自 具 有 专 业 优 势 远 见 杂 志 年 月 日

3 月 30 日 在 中 国 证 券 报 上 海 证 券 报 证 券 时 报 证 券 日 报 和 上 海 证 券 交 易 所 网 站 上 发 出 召 开 本 次 股 东 大 会 公 告, 该 公 告 中 载 明 了 召 开 股 东 大 会 的 日 期 网 络 投 票 的 方 式 时 间 以 及 审

¹ º ¹ º 农 业 流 动 人 口 是 指 户 口 性 质 为 农 业 户 口 在 流 入 地 城 市 工 作 生 活 居 住 一 个 月 及 以 上 的 流 动 人 口 非 农 流 动 人 口 是 指 户 口 性 质 为 非 农 户 口 在 流 入 地 城 市 工 作 生 活 居 住 一 个

导 数 和 微 分 的 概 念 导 数 的 几 何 意 义 和 物 理 意 义 函 数 的 可 导 性 与 连 续 性 之 间 的 关 系 平 面 曲 线 的 切 线 和 法 线 导 数 和 微 分 的 四 则 运 算 基 本 初 等 函 数 的 导 数 复 合 函 数 反 函 数 隐 函 数 以


Microsoft Word - 第3章.doc

 编号:

国债回购交易业务指引


Microsoft Word - 文件汇编.doc

课程类 别

( 二 ) 现 行 统 一 高 考 制 度 不 利 于 培 养 人 的 创 新 精 神,,,,,,,,,,,,, [ ],,,,,,,,,,, :, ;,,,,,,? ( 三 ) 现 行 统 一 高 考 制 度 不 利 于 全 体 学 生 都 获 得 全 面 发 展,, [ ],,,,,,,,,,,

!!!!!!!!!!

金 不 少 于 800 万 元, 净 资 产 不 少 于 960 万 元 ; (3) 近 五 年 独 立 承 担 过 单 项 合 同 额 不 少 于 1000 万 元 的 智 能 化 工 程 ( 设 计 或 施 工 或 设 计 施 工 一 体 ) 不 少 于 2 项 ; (4) 近 三 年 每 年

中 中 中 中 部 中 岗 位 条 件 历 其 它 历 史 师 地 理 师 生 物 师 体 与 健 康 师 从 事 中 历 史 工 从 事 中 地 理 工 从 事 中 生 物 工 从 事 中 体 与 健 康 工 2. 课 程 与 论 ( 历 史 ); 2. 科 ( 历 史 )

一 从 分 封 制 到 郡 县 制 一 从 打 虎 亭 汉 墓 说 起

西 南 民 族 学 院 学 报 哲 学 社 会 科 学 版 第 卷 资 料 来 源 中 国 统 计 年 鉴 年 年 新 中 国 五 十 年 统 计 资 料 汇 编 中 国 人 口 统 计 年 鉴 年 数 据 资 料 来 源 中 国 统 计 年 鉴 中 国 统 计 出 版 社 年 版 资 料 来 源

目 录 关 于 图 标... 3 登 陆 主 界 面... 3 工 单 管 理... 5 工 单 列 表... 5 搜 索 工 单... 5 工 单 详 情... 6 创 建 工 单... 9 设 备 管 理 巡 检 计 划 查 询 详 情 销 售 管

一 六 年 级 下 册 教 科 书 总 体 说 明 ( 一 ) 教 学 内 容 本 册 教 科 书 一 共 安 排 了 5 个 教 学 单 元, 其 中 前 4 个 单 元 为 新 知 识, 第 五 单 元 是 对 整 个 小 学 阶 段 所 学 数 学 知 识 系 统 的 整 理 和 复 习

<4D F736F F D20B9D8D3DAB0BABBAAA3A8C9CFBAA3A3A9D7D4B6AFBBAFB9A4B3CCB9C9B7DDD3D0CFDEB9ABCBBE C4EAC4EAB6C8B9C9B6ABB4F3BBE1B7A8C2C9D2E2BCFBCAE92E646F6378>

黄 金 原 油 总 持 仓 增 长, 同 比 增 幅 分 别 为 4.2% 和 4.1% 而 铜 白 银 以 及 玉 米 则 出 现 减 持, 减 持 同 比 减 少 分 别 为 9.4%,9.4% 以 及 6.5% 大 豆, 豆 粕 结 束 连 续 4 周 总 持 仓 量 增 长, 出 现 小 幅

附 件 : 上 海 市 建 筑 施 工 企 业 施 工 现 场 项 目 管 理 机 构 关 键 岗 位 人 员 配 备 指 南 二 一 四 年 九 月 十 一 日 2

Template BR_Rec_2005.dot

i 1) 系 统 运 作 前 设 定 *1. [2.1 网 页 主 机 名 称 设 定 ] -- 设 定 校 务 系 统 的 主 机 IP 地 址, 以 供 其 他 个 人 电 脑 连 接 及 使 用 该 系 统 *2. [2.3.1 输 入 / 修 改 学 校 资 料 ] -- 输 入 系 统 使


第二讲 数列

<4D F736F F D C4EAB9A4B3CCCBB6CABFCAFDD1A7D7A8D2B5BFCEBFBCCAD4B4F3B8D9D3EBD2AAC7F3>

公 开 刊 物 须 有 国 内 统 一 刊 (CN), 发 表 文 章 的 刊 物 需 要 在 国 家 新 闻 出 版 广 电 总 局 ( 办 事 服 务 便 民 查 询 新 闻 出 版 机 构 查 询 ) 上 能 够 查 到 刊 凡 在 有 中 国 标 准 书 公 开

类 似 地, 又 可 定 义 变 下 限 的 定 积 分 : ( ). 与 ψ 统 称 为 变 限 积 分. f ( ) d f ( t) dt,, 注 在 变 限 积 分 (1) 与 () 中, 不 可 再 把 积 分 变 量 写 成 的 形 式 ( 例 如 ) 以 免 与 积 分 上 下 限 的

Microsoft Word - 资料分析练习题09.doc

简 报 要 点 ESI 共 有 22 个 学 科 门 类, 江 苏 高 校 目 前 只 有 16 个 学 科 门 类 进 入 了 世 界 1%, 分 别 是 一 般 社 会 科 学 临 床 医 学 农 业 科 学 分 子 生 物 学 和 遗 传 学 动 植 物 科 学 化 学 地 球 科 学 工 程

正 规 培 训 达 规 定 标 准 学 时 数, 并 取 得 结 业 证 书 二 级 可 编 程 师 ( 具 备 以 下 条 件 之 一 者 ) (1) 连 续 从 事 本 职 业 工 作 13 年 以 上 (2) 取 得 本 职 业 三 级 职 业 资 格 证 书 后, 连 续 从 事 本 职 业

国家职业标准:网络课件设计师

郭 双 林 前 后 甲 寅 派 考 & # # # # # # # # # # # # # # # # # # # # ( # # # # # ) ) # # # # # # # # # # # # # # # & 陈 子 展 最 近 三 十 年 中 国 文 学 史 # 上 海 古 籍 出 版 社


采 取 行 动 的 机 会 90% 开 拓 成 功 的 道 路 2

年 8 月 11 日, 公 司 召 开 2015 年 第 五 次 临 时 股 东 大 会, 审 议 通 过 了 关 于 公 司 <2015 年 股 票 期 权 激 励 计 划 ( 草 案 )> 及 其 摘 要 的 议 案 关 于 提 请 股 东 大 会 授 权 董 事 会 办 理 公

定 位 和 描 述 : 程 序 设 计 / 办 公 软 件 高 级 应 用 级 考 核 内 容 包 括 计 算 机 语 言 与 基 础 程 序 设 计 能 力, 要 求 参 试 者 掌 握 一 门 计 算 机 语 言, 可 选 类 别 有 高 级 语 言 程 序 设 计 类 数 据 库 编 程 类

数 学 标 准 不 练 习 1.1 理 解 问 题 并 坚 持 解 决 这 些 问 题 1.2 以 抽 象 和 定 量 方 式 推 理 1.3 建 构 可 行 参 数 和 评 判 他 人 的 推 理 1.4 使 用 数 学 方 法 建 模 1.5 策 略 性 地 使 用 合 适 的 工 具 1.6

新, 各 地 各 部 门 ( 单 位 ) 各 文 化 事 业 单 位 要 高 度 重 视, 切 实 加 强 领 导, 精 心 组 织 实 施 要 根 据 事 业 单 位 岗 位 设 置 管 理 的 规 定 和 要 求, 在 深 入 调 查 研 究 广 泛 听 取 意 见 的 基 础 上, 研 究 提

<4D F736F F D20BFC9B1E0B3CCD0F2BFD8D6C6CFB5CDB3C9E8BCC6CAA6B9FABCD2D6B0D2B5B1EAD7BC2E646F63>

第2章 数据类型、常量与变量

<4D F736F F D20B3D6B2D6CFDEB6EEB1EDB8F1D7EED6D52E646F63>

!!!!!

第 六 章 债 券 股 票 价 值 评 估 1 考 点 一 : 债 券 价 值 的 影 响 因 素 2


上证指数

全国建筑市场注册执业人员不良行为记录认定标准(试行).doc


第1篇 道路桥梁工程技术核心专业课程标准及学习绩效考评体系


《应用数学Ⅰ》教学大纲

<4D F736F F D20D0A3B7A2A1B A1B BAC5B9D8D3DAD7E9D6AFBFAAD5B9C8ABD0A3BDCCD6B0B9A4B8DACEBBC6B8D3C3B1E4B6AFB9A4D7F7B5C4CDA8D6AA2E646F63>

<4D F736F F D20B2CEBFBC3232C6DAD1A7CFB0D3EBCBBCBFBCC4DAD2B3>

上海证券交易所会议纪要

现 场 会 议 时 间 为 :2016 年 5 月 19 日 网 络 投 票 时 间 为 :2016 年 5 月 18 日 年 5 月 19 日 其 中 通 过 深 圳 证 券 交 易 所 交 易 系 统 进 行 网 络 投 票 的 时 间 为 2016 年 5 月 19 日 9:30-

2016年南开大学MBA招生信息

(1) 连 续 从 事 本 职 业 工 作 2 年 以 上, 经 本 职 业 助 网 络 编 辑 师 正 规 培 训 达 规 定 标 准 学 时 数, 并 取 得 结 业 证 书 (2) 取 得 本 职 业 网 络 编 辑 员 职 业 资 格 证 书 后, 连 续 从 事 本 职 业 工 作 2 年

2 熟 悉 Visual Basic 的 集 成 开 发 环 境 3 了 解 可 视 化 面 向 对 象 编 程 事 件 驱 动 交 互 式 开 发 等 基 本 概 念 4 了 解 Visual Basic 的 特 点 环 境 要 求 与 安 装 方 法 1 Visual Basic 开 发 应 用

物 流 从 业 人 员 职 业 能 力 等 级 证 书 分 为 四 个 级 别, 分 别 为 初 级 助 理 级 中 级 和 高 级 ; 采 购 从 业 人 员 职 业 能 力 等 级 证 书 分 为 三 个 级 别, 分 别 为 中 级 高 级 和 注 册 级 请 各 有 关 单 位 按 照 通

第 卷 第 辑 高 明 华 蔡 卫 星 曾 诚 股 权 结 构 与 信 息 披 露 质 量 来 自 证 券 分 析 师 盈 余 预 测 特 征 的 证 据!!


附件1:

002 电 子 科 学 与 工 程 学 院 拟 招 生 150 人 联 系 人 : 周 老 师, 电 话 物 理 电 子 学 电 路 分 析 电 磁 场 理 论 01 电 磁 物 理 与 微 波 电 子 学 02 光 子 学 与 光 电 技 术 03 微 纳

微 积 分 ( 二 ) 教 学 大 纲 2 (2010 版 ) 课 程 编 码 : 课 程 名 称 : 微 积 分 学 时 / 学 分 :36/2 先 修 课 程 : 初 等 数 学 立 体 几 何 平 面 解 析 几 何 微 积 分 ( 一 ) 适 用 专 业 : 人 力 资 源 管

<443A5C6D B5C30312EB9A4D7F7CEC4B5B55C30322EBACFCDACCEC4B5B55C C30342EC8CBC9E7CCFC5C31332ECFEEC4BFC5E0D1B55C E30385C322EB2D9D7F7CAD6B2E12E646F63>

Transcription:

总 第 266 期 2016 年 第 1 期 中 文 植 物 物 种 多 样 性 描 述 文 本 的 信 息 抽 取 * 研 究 段 宇 锋 黄 思 思 ( 华 东 师 范 大 学 商 学 院 上 海 200241) 摘 要 : 目 的 实 现 中 文 植 物 物 种 多 样 性 描 述 文 本 中 信 息 的 抽 取 方 法 以 中 文 植 物 物 种 多 样 性 本 体 为 支 撑, 采 取 语 段 语 句 概 念 逐 级 筛 选 和 标 注 的 策 略, 依 据 规 则 抽 取 描 述 文 本 中 的 信 息 结 果 以 包 含 4 734 个 信 息 点 的 样 本 测 试, 信 息 抽 取 的 准 确 率 召 回 率 F 值 分 别 为 0.86 0.85 0.85 局 限 针 对 目 前 未 能 准 确 抽 取 的 表 述, 进 一 步 完 善 规 则 集 结 论 研 究 方 案 能 有 效 地 实 现 中 文 植 物 物 种 多 样 性 描 述 文 本 的 信 息 抽 取 关 键 词 : 信 息 抽 取 植 物 物 种 多 样 性 描 述 文 本 中 文 信 息 处 理 本 体 分 类 号 : G350 TP18 物 种 是 最 接 近 生 物 的 自 然 单 元, 因 此, 物 种 描 述 也 就 成 为 生 物 学 和 生 态 学 研 究 的 起 点 过 去 的 两 百 多 年 间, 人 类 在 探 索 自 然 的 过 程 中 形 成 了 海 量 的 物 种 描 述 文 献 以 生 物 多 样 性 历 史 文 献 库 (Biodiversity Heritage Library, BHL) 为 例, 截 至 2015 年 9 月 27 日, 其 存 储 的 文 献 已 超 过 4 727 万 页 [1] 这 些 文 献 的 有 效 开 发 利 用 将 极 大 地 支 持 生 物 学 和 生 态 学 的 研 究 从 20 世 纪 80 年 代 的 纸 质 文 献 数 字 化, 到 现 在 的 大 规 模 网 络 共 享, 无 疑 有 效 提 升 了 这 些 文 献 的 传 播 和 利 用 效 率 信 息 传 递 方 式 和 渠 道 的 变 化, 使 人 们 在 获 得 丰 富 信 息 的 同 时, 也 产 生 了 巨 大 的 筛 选 和 处 理 压 力 信 息 抽 取 技 术 的 发 展 成 熟, 为 问 题 的 解 决 提 供 了 思 路 和 方 法 1 国 内 外 研 究 现 状 信 息 抽 取 就 是 识 别 和 提 取 文 档 中 用 户 感 兴 趣 的 内 容, 并 以 结 构 化 语 义 清 晰 的 形 式 表 示 该 领 域 起 源 于 文 本 理 解 研 究, 数 字 文 本 的 急 剧 增 长 和 消 息 理 解 系 列 会 议 (Message Understanding Conference, MUC) 的 推 动, 使 其 逐 步 发 展 成 为 自 然 语 言 处 理 领 域 的 一 个 重 要 分 支 生 物 物 种 多 样 性 描 述 文 本 的 信 息 抽 取 研 究 始 于 20 世 纪 90 年 代 中 期 迄 今, 虽 然 取 得 了 一 些 进 展, 但 远 未 满 足 自 动 化 地 实 现 海 量 生 物 多 样 性 信 息 的 细 粒 度 组 织 和 语 义 检 索 的 现 实 需 求 Thessen 等 将 国 外 研 究 分 为 数 字 化 (Digitization) 语 义 标 注 (Annotation) 命 名 识 别 (Names Recognition and Discovery) 形 态 特 征 提 取 (Morphological Character Extraction) 四 类, 并 系 统 地 进 行 综 述 [2] 依 据 粒 度, 笔 者 将 形 态 特 征 的 提 取 研 究 分 为 语 句 和 概 念 两 类, 具 体 如 下 : (1) 语 句 层 的 形 态 特 征 提 取 研 究 物 种 描 述 具 有 基 本 一 致 的 模 式 以 植 物 描 述 为 例, 一 般 都 是 从 生 长 习 性 根 茎 叶 花 果 实 描 述 到 物 候 学 特 征 对 于 较 复 杂 的 器 官 结 构, 则 依 其 构 成 进 一 步 展 开 譬 如, 对 叶 的 描 述 会 细 化 至 叶 柄 叶 片 等 部 位 因 此, 物 种 描 述 信 息 在 整 体 上 呈 倒 置 的 树 形 结 构 正 因 为 如 此, 以 语 句 为 单 位 的 物 种 形 态 特 征 提 取 可 转 化 为 逐 层 分 类 问 题 具 体 实 现 一 般 采 用 规 则 系 统 或 统 计 学 习 方 法, 当 然, 也 可 以 将 两 者 结 合 起 来 构 建 综 合 性 的 算 法 譬 如, Vanel 在 人 工 分 析 句 法 和 词 汇 特 征 的 基 础 上 开 发 解 析 通 讯 作 者 : 段 宇 锋, ORCID: 0000-0002-4319-2837, E-mail: yfduan@infor.ecnu.edu.cn * 本 文 系 国 家 社 会 科 学 基 金 一 般 项 目 基 于 无 监 督 语 义 标 注 的 网 络 中 文 学 术 信 息 抽 取 研 究 ( 项 目 编 号 :11BTQ024) 的 研 究 成 果 之 一 XIANDAI TUSHU QINGBAO JISHU 87

应 用 论 文 器, 实 现 语 句 标 注 [3] 郑 家 恒 等 在 聚 类 的 基 础 上, 利 用 主 题 分 布 的 特 点 对 农 作 物 种 子 信 息 进 行 语 句 层 标 注 [4] Cui 等 则 依 据 物 种 描 述 文 本 的 句 子 通 常 以 表 示 植 物 结 构 的 名 词 词 组 开 头 这 一 句 法 特 征, 将 句 子 的 先 导 词 与 词 频 分 布 相 结 合 建 立 语 句 标 注 算 法 以 Flora of North America (FNA) 和 英 文 版 中 国 植 物 志 (FOC) 中 的 文 档 为 测 试 样 本, 标 注 的 平 均 准 确 率 和 召 回 率 都 在 0.9 以 上 [5] 本 课 题 组 与 Cui 合 作, 将 该 算 法 修 正 后 应 用 于 中 文 植 物 物 种 多 样 性 描 述 文 本 的 语 句 标 注 以 中 国 植 物 志 中 的 文 档 作 为 测 试 样 本, 整 体 标 注 性 能 (F 值 ) 达 到 0.930 [6] 为 了 降 低 标 注 系 统 的 运 行 负 荷, 本 课 题 组 尝 试 将 先 导 词 与 朴 素 贝 叶 斯 统 计 学 习 方 法 相 结 合, 其 标 注 性 能 (F 值 ) 也 达 到 了 0.902 [7] 上 述 研 究 虽 然 都 获 得 了 令 人 满 意 的 标 注 结 果, 但 都 要 耗 费 大 量 的 专 家 资 源, 而 且 建 立 的 规 则 和 训 练 数 据 很 难 适 应 不 同 的 文 本 集 鉴 于 此, 笔 者 在 朴 素 贝 叶 斯 算 法 的 基 础 上, 引 入 Bootstrapping 方 法 采 用 与 前 两 项 研 究 相 同 的 测 试 集 检 验 算 法 性 能, F 值 为 0.9112, 显 著 高 于 朴 素 贝 叶 斯 与 先 导 词 相 结 合 的 算 法 (P<0.05) 这 一 方 法 不 仅 极 大 地 降 低 了 系 统 对 训 练 集 规 模 和 专 家 的 依 赖, 而 且 有 效 提 高 了 标 注 性 能 [8] 这 也 是 本 研 究 在 语 句 标 注 阶 段 使 用 的 算 法 (2) 概 念 层 的 形 态 特 征 提 取 研 究 概 念 的 语 义 理 解 是 实 现 概 念 层 形 态 特 征 提 取 的 关 键 因 此, 无 论 是 依 靠 人 工 还 是 自 动 识 别 方 式, 所 有 研 究 都 建 立 了 与 其 目 标 相 适 应 的 术 语 集 在 形 式 上, 它 可 以 表 现 为 索 引 词 汇 表 甚 至 本 体 这 也 同 时 决 定 了 所 有 研 究 采 用 的 都 是 基 于 规 则 的 方 法 Taylor 在 分 析 文 本 语 法 特 征 的 基 础 上, 以 人 工 方 式 建 立 规 则 和 词 典, 抽 取 Flora of New South Wales ( 第 4 卷 ) 和 Flora of Australia ( 第 19 卷 ) 中 的 物 种 部 位 特 征 和 状 态, 召 回 率 介 于 0.6-0.8 [9] 这 是 概 念 层 物 种 描 述 信 息 抽 取 最 早 的 研 究 Wood 等 依 靠 人 工 创 建 的 领 域 本 体 和 GATE 提 供 的 正 则 表 达 式 匹 配 能 力, 实 现 植 物 描 述 特 征 的 抽 取, 准 确 率 召 回 率 为 74% 和 66% [10] Tang 等 改 造 Soderland 提 出 的 方 法, 依 据 有 监 督 学 习 自 动 生 成 的 规 则, 将 北 美 植 物 群 落 1 600 种 物 种 的 叶 子 的 形 状 大 小 颜 色 排 列 及 果 实 的 形 状 特 征 填 充 到 预 先 定 义 的 模 板, 准 确 率 介 于 30%-100% [11-12] Abascal 等 Diederich 等 将 人 机 交 互 引 入 特 征 抽 取 过 程, 分 别 建 立 了 X-Tract Terminator 系 统 在 实 现 原 理 上, 两 者 与 上 述 研 究 相 同 [13-14] Cui 等 采 用 启 发 式 方 法 和 句 法 特 征 生 成 规 则, 从 FNA 第 19 卷 和 Treatise on Invertebrate Paleontology (TIP)H 部 分 分 别 取 400 篇 文 档 进 行 测 试 前 者 在 两 个 文 本 集 中 抽 取 的 准 确 率 和 召 回 率 分 别 是 0.63 0.6 和 0.52 0.43, 后 者 为 0.91 0.9 和 0.8 0.87 [15-16] 由 于 中 文 在 构 词 句 法 等 方 面 与 英 文 差 异 显 著, 所 以, 国 外 的 研 究 成 果 基 本 无 法 直 接 应 用 于 中 文 物 种 描 述 文 本 的 信 息 抽 取 迄 今, 国 内 与 本 项 目 相 似 的 研 究 只 有 两 项 其 一, 沙 丽 华 依 靠 建 立 的 玉 米 本 体 标 注 文 档 中 的 概 念 属 性 和 实 例, 并 以 三 元 组 表 示 [17], 该 研 究 与 本 项 目 的 整 体 思 路 比 较 相 似, 但 处 理 的 并 非 物 种 多 样 性 描 述 文 本, 且 仅 涉 及 玉 米 领 域 ; 其 二, 石 静 在 植 物 本 体 概 念 系 统 的 支 持 下, 标 注 植 物 描 述 文 本 中 出 现 的 概 念 和 实 例, 实 现 句 子 分 类, 进 而 据 此 选 择 抽 取 模 板 并 依 据 定 义 的 规 则 和 标 注 结 果 抽 取 实 体 填 充 模 板 [18], 该 研 究 采 用 固 定 模 板 和 人 工 构 建 的 规 则, 通 常 会 面 临 灵 活 性 适 应 性 的 问 题 本 文 以 实 现 中 文 植 物 物 种 多 样 性 描 述 文 本 中 信 息 的 抽 取 为 目 标, 希 望 建 立 的 方 案 既 能 用 于 单 一 器 官 结 构 特 征 的 抽 取, 也 能 支 持 全 文 本 信 息 抽 取, 且 在 不 同 文 本 集 具 有 良 好 适 应 性 因 此, 关 键 在 于 最 大 限 度 地 识 别 和 标 注 领 域 概 念, 这 是 选 择 基 于 本 体 的 方 法 最 主 要 的 原 因 ; 而 且, 随 着 本 体 概 念 体 系 的 完 善, 系 统 的 抽 取 性 能 和 适 应 性 将 不 断 提 升, 这 是 采 用 基 于 本 体 的 方 法 的 另 一 个 原 因 2 信 息 抽 取 方 案 本 研 究 将 中 文 植 物 物 种 多 样 性 描 述 性 文 本 的 信 息 抽 取 分 解 为 4 项 任 务 : 构 建 领 域 本 体 建 立 训 练 集 数 据 文 本 预 处 理 标 注 和 抽 取, 如 图 1 所 示 2.1 构 建 中 文 植 物 物 种 多 样 性 领 域 本 体 本 体 是 概 念 模 型 的 明 确 的 规 范 说 明 和 定 义 [19] 领 域 本 体 提 供 了 特 定 领 域 中 概 念 和 关 系 的 描 述 在 研 究 方 案 中, 领 域 本 体 主 要 有 三 方 面 的 作 用 : 解 析 本 体 中 的 概 念, 生 成 领 域 词 典, 从 而 提 高 系 统 分 词 的 精 确 性 ; 将 概 念 的 语 义 类 作 为 CRF 算 法 的 特 征, 识 别 待 处 理 文 本 中 的 新 概 念 ; 支 持 文 本 标 注, 并 依 据 本 体 建 立 所 标 注 概 念 之 间 的 关 系, 实 现 信 息 抽 取 本 研 究 以 BFO 为 88 现 代 图 书 情 报 技 术

总 第 266 期 2016 年 第 1 期 图 1 研 究 思 路 和 方 法 上 层 本 体, 采 用 KACTUS 法 复 用 PO, 建 立 的 中 文 植 物 物 种 多 样 性 本 体 含 有 720 个 类, 4 000 多 个 实 例 (1) 类 1 复 用 PO 的 类 保 留 PO 的 以 下 类 项 : 植 物 结 构 下 的 复 合 植 物 结 构 的 基 本 部 分 毛 状 体 多 组 织 植 物 结 构 和 复 合 植 物 结 构 ; 形 成 空 间 的 植 物 解 剖 结 构 ; 果 实 生 长 阶 段 ; 复 合 植 物 器 官 生 长 阶 段 下 的 花 的 生 长 阶 段 并 且, 合 并 整 理 如 下 类 项 : 将 植 物 结 构 下 保 留 的 部 分 及 形 成 空 间 的 植 物 解 剖 结 构 合 并 为 类 植 物 解 剖 结 构 ; 将 果 实 生 长 阶 段 复 合 植 物 器 官 生 长 阶 段 下 的 花 的 生 长 阶 段 合 并 成 为 类 植 物 生 长 阶 段 同 时, 对 复 用 的 类 添 加 对 应 的 中 文 术 语, 并 使 其 成 为 主 要 描 述 2 增 添 类 增 加 植 物 分 类 植 物 空 间 部 位 物 种 和 部 位 的 属 性 度 量 单 位 程 度 限 定 等 类 (2) 实 例 PO 中 只 有 类 和 关 系, 没 有 实 例 本 研 究 构 建 本 体 的 目 的 是 支 持 植 物 物 种 多 样 性 描 述 文 本 中 知 识 的 抽 取 前 述 表 征 植 物 物 种 多 样 性 特 征 的 属 性 类, 如 颜 色 形 状 质 地 等, 不 包 含 具 体 的 实 例 在 缺 乏 实 例 的 情 况 下, 无 法 有 效 地 抽 取 植 物 物 种 多 样 性 信 息 例 如, 在 花 瓣 5, 白 色 或 淡 红 色 这 句 描 述 中, 白 色 和 淡 红 色 是 颜 色 的 实 例 如 果 实 体 颜 色 未 包 含 这 两 个 实 例, 就 难 以 判 定 该 句 是 描 述 花 的 颜 色, 也 就 无 法 准 确 提 取 相 应 的 信 息 实 例 的 数 量 众 多 在 依 靠 领 域 专 家 定 义 的 基 础 上, 本 研 究 还 采 用 了 自 动 识 别 技 术, 在 文 档 处 理 过 程 中 发 现 和 填 充 新 实 例 具 体 方 式 为 : 1 采 用 条 件 随 机 场 (CRFs) 算 法 识 别 候 选 实 例 ; 2 人 工 筛 选 候 选 实 例, 确 定 新 增 实 例 列 表 ; 3 逐 行 读 取 列 表, 向 本 体 文 件 中 添 加 相 应 实 例 描 述 语 句 譬 如, 增 加 形 状 实 例 长 圆 状 卵 形 时 向 本 体 文 件 中 添 加 语 句 : <!-- http://www.ontology/plant-species-diversity# 长 圆 状 卵 形 --> <owl:namedindividual rdf:about="&psd; 长 圆 状 卵 形 "> <rdf:type rdf:resource="&psd; 形 状 "/> </owl:namedindividual> (3) 关 系 1 复 用 PO 的 关 系, 包 括 : adjacent_to derives_by_ manipulation_from developmentally_preceded_by part_of has_ part develops_from has_participant located_in participates_ in preceded_by 2 增 添 关 系, 具 体 如 下 : 1) 特 征 关 系 用 于 呈 现 植 物 结 构 与 相 关 特 征 的 关 联 包 XIANDAI TUSHU QINGBAO JISHU 89

应 用 论 文 括 has_color has_shape has_arrangement has_texture has_growth_form has_accy_structure distributed_in has_ flower_period has_fruit_period has_height has_weight has_length has_diameter has_quantity 2) 分 类 关 系 用 于 揭 示 植 物 分 类 知 识 包 括 has_class has_order has_family has_gensus has_species 3) 附 属 关 系 用 于 完 善 相 关 特 征 描 述 包 括 has_unit has_degree 2.2 建 立 训 练 集 Web 文 本 的 规 范 化 程 度 低 文 档 集 之 间 的 差 异 大, 训 练 数 据 的 代 表 性 对 性 能 具 有 重 要 影 响 以 兼 顾 性 能 和 通 用 性 为 原 则, 本 研 究 采 取 随 机 抽 样 和 分 层 抽 样 相 结 合 的 方 式, 从 权 威 数 据 源 中 国 植 物 志 中 获 取 1 000 个 物 种 的 描 述 文 本, 共 涉 及 37 个 科, 每 科 大 约 30 个 种 每 个 物 种 的 描 述 都 独 立 地 以 TXT 文 档 形 式 存 储 在 研 究 方 案 中, 文 本 预 处 理 任 务 的 块 识 别 过 程 信 息 抽 取 模 块 的 语 句 级 标 注 和 概 念 识 别 过 程 分 别 采 用 不 同 的 机 器 学 习 方 法, 需 要 建 立 相 应 的 训 练 数 据 具 体 如 下 : (1) 支 持 块 识 别 的 训 练 数 据 文 本 预 处 理 中 的 块 识 别 采 用 向 量 空 间 模 型 (Vector Space Model, VSM), 可 以 直 接 以 TXT 文 档 的 内 容 作 为 训 练 数 据 (2) 支 持 语 句 级 标 注 的 训 练 数 据 语 句 级 标 注 需 要 解 析 到 在 句 法 上 完 整 的 句 子, 因 此, 对 1 000 个 TXT 文 档 中 的 内 容 以 ; 和 为 标 识, 以 人 工 方 式 逐 句 标 注 使 用 的 语 义 标 签 包 括 planthabit-and-life-style roots stems buds leaves flowers fruits seeds spore-related-structures phenology 和 compound 其 中, compound 用 于 标 注 描 述 了 两 种 或 两 种 以 上 植 物 结 构 的 语 料, 例 如 苞 片 和 小 苞 片 线 形 每 个 TXT 文 档 对 应 一 个 标 注 后 形 成 的 同 名 XML 文 档, 该 文 档 集 即 为 语 句 级 标 注 的 训 练 数 据 (3) 支 持 概 念 识 别 的 训 练 数 据 概 念 识 别 过 程 采 用 CRF 算 法, 以 字 词 为 处 理 单 元 为 提 高 识 别 性 能, 本 研 究 依 据 语 句 级 标 注 训 练 数 据 含 有 的 语 义 标 签 ( compound 除 外 ), 构 建 相 应 的 训 练 数 据 文 档 (TXT 格 式 ) 训 练 数 据 以 词 词 性 词 长 相 关 度 信 息 熵 为 特 征, 采 用 SBIEO 作 为 标 注 集 ( 见 2.4 节 中 的 (4) 概 念 识 别 ) 2.3 文 本 预 处 理 使 用 爬 虫 从 网 上 获 取 文 档 由 于 这 些 文 档 的 格 式 结 构 编 码 方 式 可 能 各 不 相 同, 因 而 需 要 进 行 规 范 化 处 理, 并 筛 选 出 与 主 题 相 关 的 文 本 块, 传 递 给 信 息 抽 取 模 块 (1) 网 页 清 洗 网 页 是 使 用 标 记 语 言 构 建 的 半 结 构 化 文 本 将 网 页 解 析 成 DOM 树, 去 除 与 主 题 无 关 的 <script> <link> <img> <style> 等 元 素, 提 取 文 本 节 点 的 内 容 并 进 行 规 范 化 处 理, 包 括 转 换 编 码 方 式 剔 除 乱 码 和 空 格 将 半 角 的 标 点 符 号 转 化 为 全 角 (2) 块 识 别 并 非 网 页 的 所 有 文 本 节 点 都 与 描 述 内 容 相 关, 因 此, 本 研 究 采 用 向 量 空 间 模 型, 以 0.8 为 阈 值, 筛 选 文 本 节 点 内 容 2.4 信 息 抽 取 信 息 抽 取 的 基 础 是 计 算 机 能 够 理 解 构 成 自 然 语 言 文 本 的 字 符 ( 串 ) 的 语 义 以 及 相 互 间 的 语 义 关 系, 因 而, 概 念 标 注 和 关 系 识 别 无 疑 是 实 现 抽 取 的 关 键 因 为 领 域 本 体 涵 括 了 对 概 念 和 关 系 的 描 述, 所 以, 本 研 究 将 本 体 作 为 实 现 信 息 抽 取 的 关 键 支 撑 要 素 并 且, 方 案 采 用 了 从 语 句 到 字 符 逐 级 细 化 的 标 注 过 程, 以 提 高 标 注 的 准 确 性, 进 而 达 到 提 升 抽 取 性 能 的 目 的 (1) 语 句 标 注 语 句 标 注 采 用 与 Bootstrapping 方 法 相 结 合 的 朴 素 贝 叶 斯 算 法 实 验 结 果 表 明, 种 子 数 达 到 90 时, 该 方 法 的 标 注 性 能 就 已 超 过 依 靠 大 规 模 人 工 训 练 集 支 持 的 朴 素 贝 叶 斯 算 法 [7] 而 建 立 样 本 量 仅 为 90 的 训 练 数 据, 耗 费 的 时 间 和 专 家 资 源 几 乎 可 以 忽 略 不 计 (2) 概 念 标 注 在 领 域 词 典 的 支 持 下, 调 用 ICTCLAS 1 实 现 分 词 并 添 加 词 性 或 语 义 标 识 语 句 标 注 为 概 念 标 注 提 供 两 方 面 的 支 持 : 一 是 验 证 分 词 的 正 确 性, 尤 其 是 表 示 描 1http://ictclas.nlpir.org. 90 现 代 图 书 情 报 技 术

总 第 266 期 2016 年 第 1 期 述 主 体 的 概 念 ; 二 是 语 句 缺 省 表 示 描 述 主 体 的 概 念 时, 将 语 句 标 注 结 果 作 为 补 充 的 依 据 概 念 标 注 需 要 领 域 词 典 的 支 持, 并 事 先 定 义 标 注 集 1 生 成 领 域 词 典 Jena 是 基 于 Java 开 发 的 开 放 源 代 码 语 义 网 工 具, 提 供 了 面 向 本 体 的 模 型 处 理 解 析 查 询 基 于 规 则 的 推 理 持 续 性 存 储 不 同 本 体 形 式 的 接 口 支 持 等 多 种 功 能 [20] 其 中, 解 析 模 块 具 有 大 量 支 持 对 元 素 进 行 操 作 的 函 数 本 研 究 利 用 listclasses() listobjectproperties() listdatatypeproperties() listsuperclasses() getdomain() 等 函 数 解 析 本 体 以 苞 腋 为 例, Jena 的 输 出 为 : 类 URI: http://purl.obolibrary.org/obo/po_0025225 类 名 : http://purl.obolibrary.org/obo/po_0025225 标 签 : 苞 腋 类 描 述 类 型 : subclassof 类 描 述 值 : http://purl.obolibrary.org/obo/po_0025224( 枝 腋 ) 类 描 述 类 型 : subclassof 类 描 述 值 : 植 物 构 成 类 描 述 类 型 : subclassof 类 描 述 值 : http://purl.obolibrary.org/obo/po_0025131( 植 物 结 构 ) 类 描 述 类 型 : subclassof 类 描 述 值 : http://purl.obolibrary.org/obo/po_0025117( 珠 孔 ) 注 : 本 研 究 构 建 的 本 体 复 用 了 PO; () 是 为 便 于 理 解 解 析 结 果 而 添 加 的 注 释 从 上 述 解 析 结 果 中 提 取 类 和 实 例 的 相 应 信 息 构 建 领 域 词 典, 词 条 格 式 为 XX instance/class class 其 中, XX 为 概 念 的 标 签 ; instance/class 用 于 表 示 概 念 的 类 型 ; class 则 表 明 该 概 念 所 属 类 如 概 念 为 类, 此 处 标 识 与 XX 相 同 譬 如, 上 例 中 的 苞 腋 对 应 的 条 目 形 式 为 苞 腋 class 苞 腋 2 标 注 集 标 注 集 是 表 示 词 汇 语 义 的 标 识 集 合, 用 以 标 记 分 词 文 件 中 词 汇 的 语 义 信 息 标 注 集 中 大 部 分 标 识 的 涵 义 对 应 于 本 体 第 三 层 的 概 念 和 相 应 属 性 此 外, 还 有 少 量 标 识 与 本 体 中 的 概 念 无 关, 但 与 物 种 特 征 的 描 述 密 切 相 关 譬 如, 密 被 和 疏 被 难 以 纳 入 本 体 的 概 念 系 统, 但 却 常 常 出 现 于 物 种 解 剖 结 构 的 特 征 描 述 之 中 依 据 信 息 抽 取 的 需 要, 本 研 究 设 定 以 下 标 识, 如 表 1 所 示 标 注 格 式 为 标 识 :class/ins- class 与 词 对 应 的 概 念 若 在 本 体 中 为 类, : 后 使 用 class ; 若 为 实 例, : 后 则 使 用 ins- 加 其 所 属 类 名 由 于 标 注 在 分 词 过 程 中 同 步 进 行, 类 名 不 宜 使 用 中 文 形 式, 因 此, 实 例 所 属 类 以 英 文 或 OBO 编 号 表 示 领 域 词 典 之 外 的 字 词 和 符 号 则 保 留 分 词 时 标 注 的 词 性 标 识 以 勾 儿 茶 属 勾 儿 茶 种 的 描 述 ( 部 分 ) 为 例, 标 注 结 果 如 下 所 示 : 藤 状 /szx:ins-growth_form 或 /c 攀 援 灌 木 /szx:ins-growth_form, /wd 高 /xt:ins-arrangement 达 /v 5/m 米 /dw:ins-unit : /wp 幼 枝 /jg:ins-po_0025073 无 /v 毛 /jg: ins-po_0000282, /wd 老 枝 /jg:ins- PO_0025073 黄 褐 色 /ys:ins-color, /wd 平 滑 /zd:ins-texture 无 /v 毛 /jg: ins-po_0000282 /wj 标 识 jg ys xz xt zd szx pbei kj hq gq dm cd dw n 植 物 解 剖 结 构 颜 色 形 状 形 态 质 地 生 长 型 表 1 概 念 标 注 集 涵 义 用 于 描 述 植 物 结 构 上 生 长 有 其 他 附 属 结 构 的 特 定 连 接 词, 如 密 被 疏 被 等 植 物 空 间 部 位 花 期 果 期 地 域 名 称 程 度 限 定 度 量 单 位 会 出 现 在 特 定 植 物 部 位 上 但 并 不 存 在 于 本 体 内 的 特 定 对 象, 如 点 网 格 纹 等 (3) 抽 取 规 则 和 抽 取 过 程 1 抽 取 规 则 一 方 面, 本 研 究 试 图 建 立 具 有 广 泛 适 用 性 的 描 述 性 文 本 信 息 抽 取 方 案 ; 另 一 方 面, 研 究 选 择 的 物 种 多 样 性 领 域 不 仅 种 间 差 异 巨 大, 而 且 同 一 物 种 在 不 同 文 本 集 中 的 描 述 也 存 在 差 异 因 此, 本 研 究 的 基 本 思 路 是 在 最 大 限 度 地 识 别 领 域 概 念 的 基 础 上, 尽 可 能 完 整 地 抽 取 描 述 文 本 所 含 信 息 由 于 没 有 预 先 定 义 的 模 板, 从 知 识 共 享 和 支 持 应 用 本 体 构 建 的 角 度 出 发, 笔 者 采 用 RDF 模 型 表 示 被 识 别 和 抽 取 的 信 息 RDF 表 达 式 的 基 本 结 构 是 三 元 组, 每 个 三 元 组 由 一 个 主 体 一 个 谓 词 和 一 个 客 体 组 成 在 本 研 究 中, 主 体 通 常 是 被 描 述 的 物 种 或 器 官 结 构 ( 本 体 中 的 类 或 实 例 ), 谓 词 是 其 所 具 有 的 属 性 ( 本 体 中 定 义 的 属 性 ), 客 体 是 属 性 的 值 ( 本 体 中 的 类 实 例 或 文 字 ) 依 据 已 标 注 语 句 构 建 三 元 组 的 基 本 过 程 是 : 通 过 标 签 匹 配 判 定 所 描 述 的 特 征 ( 谓 词 ) 及 特 征 值 ( 客 体 ); 依 据 客 体 的 类 型 和 谓 词 确 定 主 体 的 类 型 ; 搜 寻 与 之 匹 配 的 标 签 确 定 被 描 述 对 象 ( 主 体 ), 或 依 据 上 下 文 关 系 补 充 被 描 述 对 象 为 此, 笔 者 利 用 正 则 表 达 式 编 写 了 一 组 规 则 根 据 适 用 范 围, 这 些 规 则 被 分 为 通 用 规 则 和 专 用 规 则 两 类 : 1) 通 用 规 则, 即 针 对 具 有 共 性 的 描 述 形 式 定 义 的 提 取 规 则 譬 如, 花 瓣 叶 茎 的 描 述 往 往 都 会 涉 及 颜 色 形 态 等 特 征, 而 且 表 述 形 式 相 近 如 : 叶 片 狭 长 圆 形,, 上 面 深 绿 色 花 葶 直 立, 长 16-22 厘 米, 绿 色 ; 花 苞 片 近 椭 圆 形, 绿 色 在 标 注 过 程 中, 深 绿 色 绿 色 都 将 被 赋 予 标 识 ys:ins-color 通 过 本 体 和 领 域 词 典 可 以 判 定, XIANDAI TUSHU QINGBAO JISHU 91

应 用 论 文 深 绿 色 绿 色 是 颜 色 类 的 实 例, 值 域 为 颜 色 类 的 属 性 是 has_color, has_color 的 定 义 域 为 植 物 解 剖 结 构 结 合 标 识 jg 可 形 成 三 个 三 元 组 : 叶 片 的 上 面 has_color 深 绿 色 花 葶 has_color 绿 色 花 苞 片 has_color 绿 色 2) 专 用 规 则, 即 针 对 叶 茎 花 这 三 种 复 合 器 官 的 一 些 特 有 描 述 形 式 而 定 义 的 提 取 规 则 譬 如, 在 描 述 花 的 语 句 中 出 现 植 物 解 剖 结 构 + 数 量 的 形 式, 则 可 推 断 其 为 描 述 花 内 部 结 构 的 数 量, 抽 取 时 需 补 充 信 息 并 合 理 设 定 语 序 例 如, 退 化 雄 蕊 2 的 表 示 结 果 为 花 has_part [ 退 化 雄 蕊 has_quantity 2 ] 2 规 则 调 用 逻 辑 从 性 能 出 发, 遵 循 从 特 殊 到 一 般 的 准 则 调 用 规 则, 具 体 过 程 如 图 2 所 示 : 图 2 抽 取 规 则 调 用 逻 辑 图 3 隐 性 信 息 识 别 除 字 符 所 携 带 的 显 性 信 息 外, 文 本 还 含 有 一 些 未 通 过 字 符 表 达 的 隐 性 信 息 这 类 隐 性 信 息 基 本 都 出 现 在 结 构 比 较 复 杂 的 复 合 器 官 描 述 中 譬 如, 前 述 退 化 雄 蕊 2 就 是 比 较 典 型 的 例 子 类 似 情 况, 使 用 专 用 规 则 补 充 其 隐 藏 的 信 息 此 外, 由 于 物 种 多 样 性 描 述 文 本 中 的 句 子 ( 以 ; 为 分 隔 符 ) 较 长, 结 构 复 杂, 而 且 常 涉 及 多 个 描 述 主 体 因 此, 以 子 句 ( 以, 为 分 隔 符 ) 作 为 分 析 和 抽 取 的 基 本 单 元 这 种 处 理 方 式 的 优 点 在 于 显 著 降 低 了 句 子 的 分 析 难 度, 但 同 时 也 带 来 主 语 ( 即 描 述 主 体 ) 信 息 缺 损 的 问 题 针 对 这 一 问 题, 分 两 种 情 况 补 充 描 述 主 体 : 1) 组 合 性 补 足 若 当 前 子 句 中 有 表 示 空 间 部 位 的 概 念 ( 以 kj 标 识 ), 则 将 前 一 子 句 的 描 述 主 体 和 当 前 子 句 中 表 示 空 间 部 位 的 概 念 拼 接, 构 成 当 前 子 句 的 描 述 主 体 例 如, 前 例 中 的 子 句 上 面 深 绿 色 上 面 是 表 示 植 物 空 间 部 位 的 概 念, 与 前 一 子 句 的 描 述 主 体 叶 片 拼 接, 组 合 成 当 前 子 句 的 描 述 主 体 叶 片 的 上 面 2) 顶 替 性 补 足 若 当 前 子 句 中 没 有 表 示 植 物 空 间 部 位 的 概 念, 则 直 接 以 前 一 子 句 的 描 述 主 体 作 为 当 前 子 句 的 描 述 主 体 例 如, 对 于 前 例 中 的 子 句 长 16-22 厘 米, 程 序 将 直 接 补 充 前 一 子 句 的 描 述 主 体 花 葶 4 抽 取 过 程 示 例 为 了 清 晰 地 呈 现 规 则 在 抽 取 过 程 中 的 作 用 方 式, 以 叶 纸 质 至 厚 纸 质, 互 生 或 在 短 枝 顶 端 簇 生, 卵 状 椭 圆 形 或 卵 状 矩 圆 形, 长 3-6 厘 米, 宽 1.6-3.5 厘 米, 顶 端 圆 形 或 钝, 常 有 小 尖 头, 基 部 圆 形 或 近 心 形, 上 面 绿 色, 无 毛, 下 面 灰 白 色, 仅 脉 腋 被 疏 微 毛, 侧 脉 每 边 8-10 条 ; 中 的 内 容 为 例 具 体 说 明 1) 规 则 的 基 本 作 用 方 式 叶 纸 质 至 厚 纸 质 ----->I. 识 别 出 纸 质 和 厚 纸 质 这 两 个 标 为 zd 的 特 征 词, 借 以 质 地 的 定 义 域 寻 得 前 方 标 记 为 jg 的 叶, 同 时 获 取 关 系 has_texture, 最 终 确 定 信 息 为 叶 has_texture 纸 质 叶 has_texture 厚 纸 质 II. 同 时 保 留 该 句 中 主 语 叶 2) 复 合 结 构 解 析 及 代 替 性 主 语 补 足 互 生 或 在 短 枝 顶 端 簇 生 ----->I. 拆 分 复 合 句 为 互 生 在 短 枝 顶 端 簇 生 这 两 句 短 句 II. 通 过 保 留 主 语 对 分 句 缺 失 成 分 进 行 补 足, 补 足 后 分 别 为 叶 互 生 和 叶 在 短 枝 顶 端 簇 生 III. 参 照 上 例 解 析 关 系, 得 到 叶 has_arrangement 互 生 叶 has_arrangement 簇 生 3) 数 据 属 性 识 别 长 3-6 厘 米 ----->I. 识 别 得 到 标 记 为 xt 的 长 标 记 为 m 的 3-6 标 记 为 dw 的 厘 米 II. 通 过 组 合 匹 配 判 断 确 认 捕 捉 到 内 容 为 长 的 数 据 属 性, 以 长 为 条 件 得 到 关 系 has_length, 由 于 标 记 dw 的 出 现 还 会 增 加 一 层 为 3-6 has_unit 厘 米 的 附 属 关 系, 并 进 一 步 组 合 获 得 has_length[ 3-6 has_unit 厘 米 ] III. 通 过 上 一 层 级 的 保 留 主 语 对 缺 失 主 语 进 行 补 足, 得 到 叶 has_length [ 3-6 has_unit 厘 米 ] 4) 复 合 结 构 解 析 组 合 性 主 语 补 足 程 度 识 别 基 部 圆 形 或 近 心 形 ----->I. 拆 分 复 合 句 为 基 部 圆 形 和 基 部 近 心 形 II. 通 过 基 部 的 标 记 kj 可 知 需 进 行 组 合 性 补 足, 从 而 获 得 补 足 后 语 句 叶 基 部 圆 形 和 叶 基 部 近 心 形 III. 针 对 叶 基 部 近 心 形 中 标 记 为 cd 的 近 与 紧 邻 其 后 的 标 记 为 xz 的 心 形, 判 断 调 取 has_degree 关 系, 形 成 心 形 has_degree 近 IV. 参 照 通 用 提 取 机 制, 整 合 附 属 关 系, 最 终 获 得 叶 基 部 has_shape 圆 形 和 叶 基 部 has_shape[ 心 形 has_degree 近 ] (4) 概 念 识 别 概 念 系 统 的 完 备 性 是 影 响 信 息 抽 取 性 能 最 重 要 的 因 素 如 果 领 域 本 体 已 经 非 常 完 善, 那 么 完 全 没 有 必 92 现 代 图 书 情 报 技 术

总 第 266 期 2016 年 第 1 期 要 执 行 概 念 识 别 过 程 而 目 前, 中 文 植 物 物 种 多 样 性 本 体 虽 然 已 包 含 4 000 多 条 实 例, 但 是 不 同 文 本 集 在 描 述 分 类 单 元 模 式 的 选 择 所 使 用 术 语 以 及 数 据 表 现 形 式 等 方 面 都 存 在 差 异, 因 此, 可 能 还 有 许 多 概 念 未 纳 入 现 有 领 域 本 体 鉴 于 此, 在 概 念 标 注 前, 运 用 CRF 算 法 检 验 是 否 存 在 未 纳 入 本 体 的 概 念 1 特 征 选 择 中 文 是 由 独 立 的 字 组 合 成 具 有 特 定 语 义 的 词, 进 而 依 据 语 法 规 则 组 织 成 句 形 成 文 本, 词 与 词 之 间 没 有 分 隔 标 志 因 此, 使 用 CRF 算 法 是 以 字 还 是 词 为 特 征, 一 直 存 在 分 歧 课 题 组 的 实 验 结 果 表 明, 以 词 为 特 征 识 别 中 文 植 物 物 种 多 样 性 描 述 文 本 中 的 未 登 录 词, 其 性 能 优 于 以 字 为 特 征 [21] 为 了 优 化 识 别 性 能, 在 词 特 征 的 基 础 上 进 一 步 增 加 词 性 词 长 相 关 度 信 息 熵 等 特 征 1) 词 性 提 取 领 域 本 体 中 的 概 念 作 为 用 户 词 典 支 持 ICTCLAS 分 词 和 词 性 标 注 ICTCLAS 将 用 户 词 典 所 含 词 条 的 词 性 均 标 注 为 un 对 于 未 包 含 在 用 户 词 典 中 的 字 符 串, 在 ICTCLAS 的 切 分 和 词 性 标 注 结 果 的 基 础 上 拆 分 成 单 字, 并 赋 予 所 标 注 的 词 性 标 记 例 如, ICTCLAS 赋 予 主 枝 n ( 名 词 ) 词 性, 若 其 未 包 含 在 用 户 词 典 中, 则 拆 分 为 主 和 枝, 词 性 均 标 注 为 n 2) 词 长 指 词 语 包 含 的 字 数, 一 般 介 于 1-5 之 间 3) 相 关 度 相 关 度 反 映 相 邻 字 之 间 结 合 的 紧 密 程 度 字 串 W 的 相 关 度 如 下 所 示 : 2 n(n11 n12 n12 n 21) rel(w) n2* n*1 n*2 (1) n1* 若 字 串 W 的 首 字 为 A, 次 字 为 B, 则 n 为 语 料 库 所 有 二 元 组 的 串 频, 即 n=n 11 +n 12 +n 21 +n 22 其 中, n 11 为 首 字 为 A 次 字 为 B 的 串 频, n 12 为 首 字 为 A 次 字 非 B 的 串 频, n 21 为 首 字 非 A 次 字 为 B 的 串 频, n 22 为 首 字 非 A 次 字 非 B 的 串 频 ; n 1* =n i1 +n i2 (i=1,2); n *j =n 1j +n 2j (j=1,2) 相 关 度 的 值 是 连 续 值, 需 要 进 行 离 散 化 处 理 在 实 验 的 基 础 上, 本 研 究 将 其 等 频 率 分 为 5 个 等 级, 即 按 照 从 高 到 低 的 顺 序, 将 值 最 大 的 20% 赋 予 1, 值 最 小 的 20% 赋 予 5, 以 此 类 推 4) 信 息 熵 信 息 熵 可 以 用 来 界 定 词 与 词 之 间 的 边 界 词 W 的 信 息 熵 如 下 所 示 : H(W) plog(p) (2) 其 中, p 表 示 该 词 左 右 连 接 的 不 同 词 ( 字 ) 的 概 率 信 息 熵 也 是 连 续 值, 本 研 究 使 用 的 离 散 方 法 是 : 计 算 每 个 字 ( 或 词 ) 的 左 右 信 息 熵, 比 较 大 小, 若 左 信 息 熵 大 于 右 信 息 熵, 则 将 特 征 标 记 为 rgh (right), 说 明 该 字 ( 或 词 ) 倾 向 于 与 右 边 的 字 ( 或 词 ) 链 接, 左 边 更 可 能 是 词 语 的 边 界, 否 则 标 记 为 lft (left) 2 标 注 集 本 研 究 在 四 位 标 注 集 BIEO 的 基 础 上 定 义 了 SBIEO 标 注 集 其 中, S(Single) 表 示 单 字 词, B(Begin) 表 示 术 语 的 第 一 个 字, I(In) 表 示 中 间 的 字, E(End) 表 示 最 后 一 个 字, O(Out) 表 示 当 前 字 不 在 术 语 中 每 个 S 或 连 续 的 B(I)E 构 成 一 个 术 语 例 如 : 字 符 串 小 枝 多 少 密 被 短 伏 毛, 近 方 形, 粗 壮, 稍 弯 曲, 散 生 皮 孔 的 标 注 结 果 如 下 : 小 B/ 枝 E/ 多 少 O/ 密 O/ 被 O/ 短 O/ 伏 O/ 毛 O/, O/ 近 O/ 方 形 O/, O/ 粗 壮 O/, O/ 稍 O/ 弯 曲 O/, O/ 散 O/ 生 O/ 皮 B/ 孔 E/ 3 工 具 与 特 征 模 板 调 用 CRF++0.58 作 为 标 注 工 具, 以 词 词 性 词 长 相 关 度 信 息 熵 为 特 征 构 建 模 板 鉴 于 术 语 词 长 一 般 不 超 5, 故 将 窗 口 长 度 设 为 5 3 植 物 物 种 多 样 性 文 本 的 信 息 抽 取 实 验 3.1 样 本 中 国 在 线 植 物 志 (http://frps.eflora.cn) 收 录 了 301 科 3 408 属 31 142 种 植 物 的 科 学 名 称 形 态 特 征 生 态 环 境 地 理 分 布 经 济 用 途 和 物 候 期 等 信 息, 是 最 具 影 响 力 的 中 文 植 物 学 网 络 信 息 源 之 一 [22] 本 研 究 利 用 自 主 开 发 的 爬 虫 程 序, 从 该 网 站 获 取 鼠 李 科 勾 儿 茶 属 兰 科 角 盘 兰 属 和 兜 兰 属 各 17 个 物 种 的 描 述 文 档, 构 成 测 试 集 以 人 工 方 式 逐 句 分 析 文 本 内 容, 建 立 评 价 抽 取 结 果 的 标 准 答 案 数 据 集 该 数 据 集 为 文 档 子 句 三 元 组 的 映 射, 共 含 4 734 个 信 息 点 ( 三 元 组 ) 3.2 性 能 评 价 指 标 采 用 准 确 率 (Precision) 和 召 回 率 (Recall) 评 价 信 息 抽 取 性 能, 同 时 引 入 F 值 作 为 均 衡 准 确 率 和 召 回 率 的 指 标 计 算 公 式 如 下 : Precision(P) Recall(R) 被 准 确 提 取 的 三 元 组 数 量 提 取 出 的 三 元 组 数 量 被 准 确 提 取 的 三 元 组 数 量 应 提 取 出 的 三 元 组 数 量 2 P R F P R 3.3 实 验 结 果 及 分 析 (1) 整 体 抽 取 性 能 统 计 表 2 显 示, 系 统 从 测 试 样 本 中 共 提 取 4 697 条 信 息, 整 体 准 确 率 召 回 率 分 别 约 为 0.86 0.85, F 值 为 0.85 准 确 率 和 召 回 率 表 现 均 衡, 抽 取 性 能 较 理 想 (3) (4) (5) XIANDAI TUSHU QINGBAO JISHU 93

应 用 论 文 表 2 抽 取 性 能 统 计 汇 总 描 述 文 档 提 取 数 正 确 数 遗 漏 数 准 确 率 召 回 率 F 值 鼠 李 科 勾 儿 茶 属 1 108 1 002 107 0.904332 0.903517 0.903924 兰 科 兜 兰 属 1 773 1 472 436 0.830231 0.771488 0.799783 兰 科 角 盘 兰 属 1 816 1 548 169 0.852423 0.901573 0.876309 总 计 4 697 4 022 712 0.856291 0.849599 0.852932 石 静 以 中 国 高 等 植 物 图 鉴 中 的 60 种 植 物 的 描 述 文 本 作 为 测 试 样 本, 涉 及 旋 花 科 茄 科 杜 鹃 花 科 等 12 个 科 特 征 描 述 信 息 抽 取 的 平 均 准 确 率 和 召 回 率 分 别 为 0.868 0.7138, F 值 为 0.7834 [18] 应 注 意, 本 研 究 是 将 依 据 抽 取 结 果 构 建 的 三 元 组 与 标 准 答 案 比 对, 计 算 准 确 率 和 召 回 率 ; 而 石 静 的 研 究 则 是 依 据 模 板 填 充 结 果 计 算 性 能 指 标 两 者 采 用 的 测 试 样 本 计 算 依 据 都 不 相 同, 在 理 论 上 不 宜 直 接 比 较 两 者 的 性 能 差 异 (2) 科 属 间 的 差 异 分 析 表 2 中 的 数 据 显 示, 系 统 抽 取 不 同 科 属 描 述 文 档 中 的 信 息, 性 能 可 能 存 在 差 异 利 用 SPSS 软 件 比 较 鼠 李 科 与 兰 科 兰 科 的 兜 兰 属 与 角 盘 兰 属 描 述 文 档 中 信 息 的 抽 取 性 能 (F 值 的 均 值 ), 分 析 结 果 表 明 组 间 的 确 存 在 差 异 为 寻 找 差 异 产 生 的 原 因, 按 描 述 主 体 重 新 对 三 组 文 档 信 息 的 抽 取 性 能 进 行 统 计, 如 图 3 至 图 5 所 示 从 图 4 与 图 3 图 5 的 比 较 可 知, 兜 兰 属 样 本 中 茎 和 根 的 描 述 信 息 抽 取 效 果 不 佳 是 导 致 评 价 指 标 偏 低 的 主 要 原 因 当 然, 这 并 不 意 味 着 所 有 物 种 茎 和 根 描 述 信 息 的 抽 取 效 果 一 定 不 理 想, 图 5 很 好 地 说 明 了 这 一 点 图 5 兰 科 角 盘 兰 属 样 本 中 各 描 述 主 体 信 息 的 抽 取 性 能 (3) 文 档 间 的 差 异 分 析 更 进 一 步 地, 笔 者 希 望 明 确 科 属 间 的 抽 取 性 能 差 异 是 源 于 少 数 极 端 样 本 的 影 响, 还 是 组 间 样 本 整 体 的 差 异 所 导 致 为 此, 对 三 组 样 本 中 的 文 档 分 别 随 机 分 配 1-17 的 序 号, 比 较 每 篇 文 档 中 信 息 的 抽 取 性 能 从 图 6 图 7 能 够 清 楚 地 看 到, 类 属 相 同 的 物 种, 其 描 述 文 本 信 息 抽 取 的 准 确 率 召 回 率 虽 有 波 动, 但 总 体 比 较 平 稳 这 表 明 导 致 科 属 间 性 能 差 异 的 主 要 原 因 并 非 来 自 个 例 的 影 响, 这 一 点 在 图 7 中 表 现 尤 为 清 晰 图 6 图 7 同 时 显 示, 兜 兰 属 编 号 为 4 8 13 的 文 献 抽 取 结 果 的 召 回 率 准 确 率 都 较 低 为 此, 分 析 这 三 篇 文 献 中 对 茎 和 根 的 描 述 语 句, 发 现 错 误 原 因 在 于 对 有 少 数 稍 肉 质 而 被 毛 的 纤 维 根 的 解 析 该 句 描 述 的 是 附 属 结 构 纤 维 根, 但 是 因 而 这 一 关 联 词, 使 该 句 在 处 理 时 被 拆 分 为 两 个 单 句, 破 坏 了 原 有 语 义, 导 致 描 述 主 体 判 断 错 误 图 3 鼠 李 科 勾 儿 茶 属 样 本 中 各 描 述 主 体 信 息 的 抽 取 性 能 图 4 兰 科 兜 兰 属 样 本 中 各 描 述 主 体 信 息 的 抽 取 性 能 图 6 单 篇 文 档 的 准 确 率 94 现 代 图 书 情 报 技 术

总 第 266 期 2016 年 第 1 期 图 7 单 篇 文 档 的 召 回 率 (4) 存 在 的 问 题 从 实 验 结 果 来 看, 本 研 究 获 得 了 比 较 理 想 的 抽 取 结 果 但 归 纳 错 抽 和 漏 抽 的 实 例, 发 现 仍 有 一 些 问 题 有 待 解 决 1 以 比 较 或 排 除 方 式 描 述 譬 如, 较 中 裂 片 长 很 多 或 稍 较 长 雄 蕊 长 于 花 瓣 除 背 面 中 脉 近 基 部 处 具 长 柔 毛 外 余 均 无 毛 2 与 结 构 部 位 关 联 的 生 长 趋 势 描 述 譬 如, 中 部 以 上 向 先 端 渐 狭 向 末 略 变 狭 从 蕊 喙 下 向 外 伸 出 3 具 有 多 项 特 征 值 的 描 述 譬 如, 侧 脉 每 边 7-13 条 通 常 9-10 条 顶 端 钝 或 圆 形 稀 短 渐 尖 叶 (1-)2 枚 极 罕 为 3 枚 4 结 语 本 研 究 设 计 并 实 现 了 一 个 中 文 植 物 物 种 多 样 性 描 述 文 本 信 息 抽 取 方 案, 性 能 (F 值 ) 达 到 0.85 方 案 的 设 计 思 路 兼 顾 适 应 性 和 性 能 以 本 体 为 支 撑, 采 取 语 段 语 句 概 念 逐 级 筛 选 和 标 注 的 策 略, 依 据 规 则 实 现 描 述 文 本 中 信 息 的 抽 取 在 理 论 上, 该 方 案 建 立 的 框 架 能 支 持 生 物 物 种 多 样 性 病 症 乃 至 商 品 等 多 种 描 述 性 文 本 中 信 息 的 抽 取 在 应 用 方 面, 本 研 究 不 仅 开 发 了 一 套 实 用 的 信 息 抽 取 系 统, 还 建 立 了 一 个 较 完 善 的 植 物 物 种 多 样 性 领 域 本 体, 同 时 提 出 了 一 个 比 较 成 熟 的 植 物 物 种 多 样 性 领 域 概 念 识 别 方 法 当 然, 研 究 还 可 以 进 一 步 修 正 和 完 善 譬 如, 以 上 所 提 及 影 响 抽 取 性 能 的 三 个 问 题, 以 及 如 何 组 织 构 建 的 三 元 组 集 合, 使 其 准 确 地 表 示 原 文 语 义 ( 致 谢 : 感 谢 中 国 科 学 院 植 物 研 究 所 文 献 与 信 息 中 心 刘 凤 红 高 级 工 程 师 南 京 林 业 大 学 陈 金 慧 教 授 在 本 体 构 建 过 程 中 给 予 的 支 持 ) 参 考 文 献 : [1] BHL. Biodiversity Heritage Library [EB/OL]. [2015-09-27]. http://www.biodiversitylibrary.org/. [2] Thessen A E, Cui H, Mozzherin D. Applications of Natural Language Processing in Biodiversity Science [J]. Advances in Bioinformatics, 2012: Article ID 391574. doi: 10.1155/2012/ 391574. [3] Vanel J M. Worldwide Botanical Knowledge Base [EB/OL]. [2011-10-11]. http://wwbota.free.fr/. [4] 郑 家 恒, 菅 小 艳. 农 作 物 信 息 抽 取 系 统 的 设 计 与 实 现 [J]. 计 算 机 工 程, 2006, 32(7): 197-198, 220. (Zheng Jiaheng, Jian Xiaoyan. Design and Realization of the System of Farm Crop Information Extraction [J]. Computer Engineering, 2006, 32(7): 197-198, 220.) [5] Cui H, Heidorn P. The Reusability of Induced Knowledge for Automatic Semantic Markup of Taxonomic Descriptions [J]. Journal of the American Society for Information Science and Technology. 2007, 58(1): 133-149. [6] 段 宇 锋, 黑 珍 珍, 鞠 菲, 等. 基 于 自 主 学 习 规 则 的 中 文 物 种 描 述 文 本 的 语 义 标 注 研 究 [J]. 现 代 图 书 情 报 技 术, 2012(5): 41-47. (Duan Yufeng, Hei Zhenzhen, Ju Fei, et al. Study on Semantic Markup of Species Description Text in Chinese Based on Auto-learning Rules [J]. New Technology of Library and Information Service, 2012(5): 41-47.) [7] 段 宇 锋, 黑 珍 珍, 鞠 菲, 等. 基 于 贝 叶 斯 分 类 的 中 文 物 种 描 述 文 本 的 语 义 标 注 研 究 [J]. 情 报 学 报, 2012, 31(8): 805-812. (Duan Yufeng, Hei Zhenzhen, Ju Fei, et al. Semantic Annotation of Species Description Text in Chinese Literature by Naïve Bayes Classifier [J]. Journal of the China Society for Scientific and Technical Information, 2012, 31(8): 805-812.) [8] 段 宇 锋, 朱 雯 晶, 陈 巧, 等. 朴 素 贝 叶 斯 算 法 与 Bootstrapping 方 法 相 结 合 的 中 文 物 种 描 述 文 本 语 义 标 注 研 究 [J]. 现 代 图 书 情 报 技 术, 2014(5): 83-89. (Duan Yufeng, Zhu Wenjing, Chen Qiao, et al. Semantic Annotation of Species Description Text in Chinese by Combining Naïve Bayes Algorithm with Bootstrapping Method [J]. New Technology of Library and Information Service, 2014(5): 83-89.) [9] Taylor A. Extracting Knowledge from Biological Descriptions [C]. In: Proceedings of the 2nd International Conference on Building and Sharing Very Large-Scale Knowledge Bases. 1995: 114-119. [10] Wood M M, Lydon S J, Tablan V, et al. Using Parallel Texts to Improve Recall in IE [C]. In: Proceedings of Recent Advances in Natural Language Processing (RANLP 03). 2003: 505-512. [11] Tang X, Heidorn P B. Using Automatically Extracted XIANDAI TUSHU QINGBAO JISHU 95

应 用 论 文 Information in Species Page Retrieval [OL]. [2011-08-10]. http://www.tdwg.org/proceedings/article/view/195/. [12] Soderland S. Learning Information Extraction Rules for Semi-Structured and Free Text [J]. Machine Learning, 1999, 34(1-3): 233-272. [13] Abascal R, Sanchez J A. X-tract: Structure Extraction from Botanical Textual Descriptions [C]. In: Proceeding of the String Processing & Information Retrieval Symposium & International Workshop on Groupware.1999: 2-7. [14] Diederich J, Frotuner R, Milton J. Computer-assisted Data Extraction from the Taxonomical Literature [OL]. [2011-08-15]. http://math.ucdavis.edu/~milton/genisys.html. [15] Cui H. CharaParser for Fine-grained Semantic Annotation of Organism Morphological Descriptions [J]. Journal of the American Society for Information Science and Technology, 2012, 63(4): 738-754. [16] Cui H, Singaram S, Janning A. Combine Unsupervised Learning and Heuristic Rules to Annotate Morphological Characters [J]. Proceedings of the American Society for Information Science and Technology, 2011, 48(1): 1-9. [17] 沙 丽 华. 面 向 领 域 文 档 的 语 义 标 注 方 法 研 究 [D]. 长 春 : 吉 林 大 学, 2009. (Sha Lihua. Research on Semantic Annotation for Domain Documents [D]. Changchun: Jilin University, 2009.) [18] 石 静. 基 于 本 体 的 植 物 信 息 抽 取 与 分 析 研 究 [D]. 杨 凌 : 西 北 农 林 科 技 大 学, 2010. (Shi Jing. Information Extraction and Analysis Based on Plant Ontology [D]. Yangling: Northwest Agriculture and Foresty University, 2010.) [19] Gruber T R. Toward Principles for the Design of Ontologies Used for Knowledge Sharing [J]. International Journal of Human-Computer Studies, 1995, 43(5-6): 907-928. [20] 向 阳, 王 敏, 马 强. 基 于 Jena 的 本 体 构 建 方 法 研 究 [J]. 计 算 机 工 程, 2007, 33(14): 59-61. (Xiang Yang, Wang Min, Ma Qiang. Research on Jena-based Ontology Building [J]. Computer Engineering, 2007, 33(14): 59-61.) [21] 段 宇 锋, 朱 雯 晶, 陈 巧, 等. 条 件 随 机 场 与 领 域 本 体 元 素 集 相 结 合 的 未 登 录 词 识 别 研 究 [J]. 现 代 图 书 情 报 技 术, 2015(4): 41-49. (Duan Yufeng, Zhu Wenjing, Chen Qiao, et al. The Study on Out-of-Vocabulary Identification on a Model Based on the Combination of CRFs and Domain Ontology Elements Set [J]. New Technology of Library and Information Service, 2015(4): 41-49.) [22] 中 国 植 物 志 编 辑 委 员 会. 中 国 植 物 志 [DB/OL]. [2007-09-28]. http://frps.eflora.cn/. (Flora of China Editorial Committee. Flora of China [DB/OL]. [2007-09-28]. http://frps.eflora.cn/.) 作 者 贡 献 声 明 : 段 宇 锋 : 提 出 研 究 思 路, 设 计 研 究 方 案, 论 文 起 草 和 修 订 ; 黄 思 思 : 开 发 程 序, 采 集 清 洗 和 分 析 数 据 收 稿 日 期 : 2015-09-14 收 修 改 稿 日 期 : 2015-09-28 Information Extraction from Chinese Plant Species Diversity Description Text Duan Yufeng Huang Sisi (Business School, East China Normal University, Shanghai 200241, China) Abstract: [Objective] To extract information from Chinese plant species diversity description text. [Methods] Take the plant species diversity domain ontology as the foundation, and adopt the strategy of stepwise selection and annotation on paragraph, sentence and concept. [Results] A sample including 4 734 information points is used to test. The value of extraction accuracy rate, recall rate and F-measure achieves 0.86, 0.85 and 0.85 respectively. [Limitations] In order to solve the problems on extracting information from description text, the rule set should be improved in the future. [Conclusions] The research scheme can fulfill the information extraction from Chinese plant species diversity description text effectively. Keywords: Information extraction Plant species diversity description text Chinese information processing Ontology 96 现 代 图 书 情 报 技 术