总 第 266 期 2016 年 第 1 期 中 文 植 物 物 种 多 样 性 描 述 文 本 的 信 息 抽 取 * 研 究 段 宇 锋 黄 思 思 ( 华 东 师 范 大 学 商 学 院 上 海 200241) 摘 要 : 目 的 实 现 中 文 植 物 物 种 多 样 性 描 述 文 本 中 信 息 的 抽 取 方 法 以 中 文 植 物 物 种 多 样 性 本 体 为 支 撑, 采 取 语 段 语 句 概 念 逐 级 筛 选 和 标 注 的 策 略, 依 据 规 则 抽 取 描 述 文 本 中 的 信 息 结 果 以 包 含 4 734 个 信 息 点 的 样 本 测 试, 信 息 抽 取 的 准 确 率 召 回 率 F 值 分 别 为 0.86 0.85 0.85 局 限 针 对 目 前 未 能 准 确 抽 取 的 表 述, 进 一 步 完 善 规 则 集 结 论 研 究 方 案 能 有 效 地 实 现 中 文 植 物 物 种 多 样 性 描 述 文 本 的 信 息 抽 取 关 键 词 : 信 息 抽 取 植 物 物 种 多 样 性 描 述 文 本 中 文 信 息 处 理 本 体 分 类 号 : G350 TP18 物 种 是 最 接 近 生 物 的 自 然 单 元, 因 此, 物 种 描 述 也 就 成 为 生 物 学 和 生 态 学 研 究 的 起 点 过 去 的 两 百 多 年 间, 人 类 在 探 索 自 然 的 过 程 中 形 成 了 海 量 的 物 种 描 述 文 献 以 生 物 多 样 性 历 史 文 献 库 (Biodiversity Heritage Library, BHL) 为 例, 截 至 2015 年 9 月 27 日, 其 存 储 的 文 献 已 超 过 4 727 万 页 [1] 这 些 文 献 的 有 效 开 发 利 用 将 极 大 地 支 持 生 物 学 和 生 态 学 的 研 究 从 20 世 纪 80 年 代 的 纸 质 文 献 数 字 化, 到 现 在 的 大 规 模 网 络 共 享, 无 疑 有 效 提 升 了 这 些 文 献 的 传 播 和 利 用 效 率 信 息 传 递 方 式 和 渠 道 的 变 化, 使 人 们 在 获 得 丰 富 信 息 的 同 时, 也 产 生 了 巨 大 的 筛 选 和 处 理 压 力 信 息 抽 取 技 术 的 发 展 成 熟, 为 问 题 的 解 决 提 供 了 思 路 和 方 法 1 国 内 外 研 究 现 状 信 息 抽 取 就 是 识 别 和 提 取 文 档 中 用 户 感 兴 趣 的 内 容, 并 以 结 构 化 语 义 清 晰 的 形 式 表 示 该 领 域 起 源 于 文 本 理 解 研 究, 数 字 文 本 的 急 剧 增 长 和 消 息 理 解 系 列 会 议 (Message Understanding Conference, MUC) 的 推 动, 使 其 逐 步 发 展 成 为 自 然 语 言 处 理 领 域 的 一 个 重 要 分 支 生 物 物 种 多 样 性 描 述 文 本 的 信 息 抽 取 研 究 始 于 20 世 纪 90 年 代 中 期 迄 今, 虽 然 取 得 了 一 些 进 展, 但 远 未 满 足 自 动 化 地 实 现 海 量 生 物 多 样 性 信 息 的 细 粒 度 组 织 和 语 义 检 索 的 现 实 需 求 Thessen 等 将 国 外 研 究 分 为 数 字 化 (Digitization) 语 义 标 注 (Annotation) 命 名 识 别 (Names Recognition and Discovery) 形 态 特 征 提 取 (Morphological Character Extraction) 四 类, 并 系 统 地 进 行 综 述 [2] 依 据 粒 度, 笔 者 将 形 态 特 征 的 提 取 研 究 分 为 语 句 和 概 念 两 类, 具 体 如 下 : (1) 语 句 层 的 形 态 特 征 提 取 研 究 物 种 描 述 具 有 基 本 一 致 的 模 式 以 植 物 描 述 为 例, 一 般 都 是 从 生 长 习 性 根 茎 叶 花 果 实 描 述 到 物 候 学 特 征 对 于 较 复 杂 的 器 官 结 构, 则 依 其 构 成 进 一 步 展 开 譬 如, 对 叶 的 描 述 会 细 化 至 叶 柄 叶 片 等 部 位 因 此, 物 种 描 述 信 息 在 整 体 上 呈 倒 置 的 树 形 结 构 正 因 为 如 此, 以 语 句 为 单 位 的 物 种 形 态 特 征 提 取 可 转 化 为 逐 层 分 类 问 题 具 体 实 现 一 般 采 用 规 则 系 统 或 统 计 学 习 方 法, 当 然, 也 可 以 将 两 者 结 合 起 来 构 建 综 合 性 的 算 法 譬 如, Vanel 在 人 工 分 析 句 法 和 词 汇 特 征 的 基 础 上 开 发 解 析 通 讯 作 者 : 段 宇 锋, ORCID: 0000-0002-4319-2837, E-mail: yfduan@infor.ecnu.edu.cn * 本 文 系 国 家 社 会 科 学 基 金 一 般 项 目 基 于 无 监 督 语 义 标 注 的 网 络 中 文 学 术 信 息 抽 取 研 究 ( 项 目 编 号 :11BTQ024) 的 研 究 成 果 之 一 XIANDAI TUSHU QINGBAO JISHU 87
应 用 论 文 器, 实 现 语 句 标 注 [3] 郑 家 恒 等 在 聚 类 的 基 础 上, 利 用 主 题 分 布 的 特 点 对 农 作 物 种 子 信 息 进 行 语 句 层 标 注 [4] Cui 等 则 依 据 物 种 描 述 文 本 的 句 子 通 常 以 表 示 植 物 结 构 的 名 词 词 组 开 头 这 一 句 法 特 征, 将 句 子 的 先 导 词 与 词 频 分 布 相 结 合 建 立 语 句 标 注 算 法 以 Flora of North America (FNA) 和 英 文 版 中 国 植 物 志 (FOC) 中 的 文 档 为 测 试 样 本, 标 注 的 平 均 准 确 率 和 召 回 率 都 在 0.9 以 上 [5] 本 课 题 组 与 Cui 合 作, 将 该 算 法 修 正 后 应 用 于 中 文 植 物 物 种 多 样 性 描 述 文 本 的 语 句 标 注 以 中 国 植 物 志 中 的 文 档 作 为 测 试 样 本, 整 体 标 注 性 能 (F 值 ) 达 到 0.930 [6] 为 了 降 低 标 注 系 统 的 运 行 负 荷, 本 课 题 组 尝 试 将 先 导 词 与 朴 素 贝 叶 斯 统 计 学 习 方 法 相 结 合, 其 标 注 性 能 (F 值 ) 也 达 到 了 0.902 [7] 上 述 研 究 虽 然 都 获 得 了 令 人 满 意 的 标 注 结 果, 但 都 要 耗 费 大 量 的 专 家 资 源, 而 且 建 立 的 规 则 和 训 练 数 据 很 难 适 应 不 同 的 文 本 集 鉴 于 此, 笔 者 在 朴 素 贝 叶 斯 算 法 的 基 础 上, 引 入 Bootstrapping 方 法 采 用 与 前 两 项 研 究 相 同 的 测 试 集 检 验 算 法 性 能, F 值 为 0.9112, 显 著 高 于 朴 素 贝 叶 斯 与 先 导 词 相 结 合 的 算 法 (P<0.05) 这 一 方 法 不 仅 极 大 地 降 低 了 系 统 对 训 练 集 规 模 和 专 家 的 依 赖, 而 且 有 效 提 高 了 标 注 性 能 [8] 这 也 是 本 研 究 在 语 句 标 注 阶 段 使 用 的 算 法 (2) 概 念 层 的 形 态 特 征 提 取 研 究 概 念 的 语 义 理 解 是 实 现 概 念 层 形 态 特 征 提 取 的 关 键 因 此, 无 论 是 依 靠 人 工 还 是 自 动 识 别 方 式, 所 有 研 究 都 建 立 了 与 其 目 标 相 适 应 的 术 语 集 在 形 式 上, 它 可 以 表 现 为 索 引 词 汇 表 甚 至 本 体 这 也 同 时 决 定 了 所 有 研 究 采 用 的 都 是 基 于 规 则 的 方 法 Taylor 在 分 析 文 本 语 法 特 征 的 基 础 上, 以 人 工 方 式 建 立 规 则 和 词 典, 抽 取 Flora of New South Wales ( 第 4 卷 ) 和 Flora of Australia ( 第 19 卷 ) 中 的 物 种 部 位 特 征 和 状 态, 召 回 率 介 于 0.6-0.8 [9] 这 是 概 念 层 物 种 描 述 信 息 抽 取 最 早 的 研 究 Wood 等 依 靠 人 工 创 建 的 领 域 本 体 和 GATE 提 供 的 正 则 表 达 式 匹 配 能 力, 实 现 植 物 描 述 特 征 的 抽 取, 准 确 率 召 回 率 为 74% 和 66% [10] Tang 等 改 造 Soderland 提 出 的 方 法, 依 据 有 监 督 学 习 自 动 生 成 的 规 则, 将 北 美 植 物 群 落 1 600 种 物 种 的 叶 子 的 形 状 大 小 颜 色 排 列 及 果 实 的 形 状 特 征 填 充 到 预 先 定 义 的 模 板, 准 确 率 介 于 30%-100% [11-12] Abascal 等 Diederich 等 将 人 机 交 互 引 入 特 征 抽 取 过 程, 分 别 建 立 了 X-Tract Terminator 系 统 在 实 现 原 理 上, 两 者 与 上 述 研 究 相 同 [13-14] Cui 等 采 用 启 发 式 方 法 和 句 法 特 征 生 成 规 则, 从 FNA 第 19 卷 和 Treatise on Invertebrate Paleontology (TIP)H 部 分 分 别 取 400 篇 文 档 进 行 测 试 前 者 在 两 个 文 本 集 中 抽 取 的 准 确 率 和 召 回 率 分 别 是 0.63 0.6 和 0.52 0.43, 后 者 为 0.91 0.9 和 0.8 0.87 [15-16] 由 于 中 文 在 构 词 句 法 等 方 面 与 英 文 差 异 显 著, 所 以, 国 外 的 研 究 成 果 基 本 无 法 直 接 应 用 于 中 文 物 种 描 述 文 本 的 信 息 抽 取 迄 今, 国 内 与 本 项 目 相 似 的 研 究 只 有 两 项 其 一, 沙 丽 华 依 靠 建 立 的 玉 米 本 体 标 注 文 档 中 的 概 念 属 性 和 实 例, 并 以 三 元 组 表 示 [17], 该 研 究 与 本 项 目 的 整 体 思 路 比 较 相 似, 但 处 理 的 并 非 物 种 多 样 性 描 述 文 本, 且 仅 涉 及 玉 米 领 域 ; 其 二, 石 静 在 植 物 本 体 概 念 系 统 的 支 持 下, 标 注 植 物 描 述 文 本 中 出 现 的 概 念 和 实 例, 实 现 句 子 分 类, 进 而 据 此 选 择 抽 取 模 板 并 依 据 定 义 的 规 则 和 标 注 结 果 抽 取 实 体 填 充 模 板 [18], 该 研 究 采 用 固 定 模 板 和 人 工 构 建 的 规 则, 通 常 会 面 临 灵 活 性 适 应 性 的 问 题 本 文 以 实 现 中 文 植 物 物 种 多 样 性 描 述 文 本 中 信 息 的 抽 取 为 目 标, 希 望 建 立 的 方 案 既 能 用 于 单 一 器 官 结 构 特 征 的 抽 取, 也 能 支 持 全 文 本 信 息 抽 取, 且 在 不 同 文 本 集 具 有 良 好 适 应 性 因 此, 关 键 在 于 最 大 限 度 地 识 别 和 标 注 领 域 概 念, 这 是 选 择 基 于 本 体 的 方 法 最 主 要 的 原 因 ; 而 且, 随 着 本 体 概 念 体 系 的 完 善, 系 统 的 抽 取 性 能 和 适 应 性 将 不 断 提 升, 这 是 采 用 基 于 本 体 的 方 法 的 另 一 个 原 因 2 信 息 抽 取 方 案 本 研 究 将 中 文 植 物 物 种 多 样 性 描 述 性 文 本 的 信 息 抽 取 分 解 为 4 项 任 务 : 构 建 领 域 本 体 建 立 训 练 集 数 据 文 本 预 处 理 标 注 和 抽 取, 如 图 1 所 示 2.1 构 建 中 文 植 物 物 种 多 样 性 领 域 本 体 本 体 是 概 念 模 型 的 明 确 的 规 范 说 明 和 定 义 [19] 领 域 本 体 提 供 了 特 定 领 域 中 概 念 和 关 系 的 描 述 在 研 究 方 案 中, 领 域 本 体 主 要 有 三 方 面 的 作 用 : 解 析 本 体 中 的 概 念, 生 成 领 域 词 典, 从 而 提 高 系 统 分 词 的 精 确 性 ; 将 概 念 的 语 义 类 作 为 CRF 算 法 的 特 征, 识 别 待 处 理 文 本 中 的 新 概 念 ; 支 持 文 本 标 注, 并 依 据 本 体 建 立 所 标 注 概 念 之 间 的 关 系, 实 现 信 息 抽 取 本 研 究 以 BFO 为 88 现 代 图 书 情 报 技 术
总 第 266 期 2016 年 第 1 期 图 1 研 究 思 路 和 方 法 上 层 本 体, 采 用 KACTUS 法 复 用 PO, 建 立 的 中 文 植 物 物 种 多 样 性 本 体 含 有 720 个 类, 4 000 多 个 实 例 (1) 类 1 复 用 PO 的 类 保 留 PO 的 以 下 类 项 : 植 物 结 构 下 的 复 合 植 物 结 构 的 基 本 部 分 毛 状 体 多 组 织 植 物 结 构 和 复 合 植 物 结 构 ; 形 成 空 间 的 植 物 解 剖 结 构 ; 果 实 生 长 阶 段 ; 复 合 植 物 器 官 生 长 阶 段 下 的 花 的 生 长 阶 段 并 且, 合 并 整 理 如 下 类 项 : 将 植 物 结 构 下 保 留 的 部 分 及 形 成 空 间 的 植 物 解 剖 结 构 合 并 为 类 植 物 解 剖 结 构 ; 将 果 实 生 长 阶 段 复 合 植 物 器 官 生 长 阶 段 下 的 花 的 生 长 阶 段 合 并 成 为 类 植 物 生 长 阶 段 同 时, 对 复 用 的 类 添 加 对 应 的 中 文 术 语, 并 使 其 成 为 主 要 描 述 2 增 添 类 增 加 植 物 分 类 植 物 空 间 部 位 物 种 和 部 位 的 属 性 度 量 单 位 程 度 限 定 等 类 (2) 实 例 PO 中 只 有 类 和 关 系, 没 有 实 例 本 研 究 构 建 本 体 的 目 的 是 支 持 植 物 物 种 多 样 性 描 述 文 本 中 知 识 的 抽 取 前 述 表 征 植 物 物 种 多 样 性 特 征 的 属 性 类, 如 颜 色 形 状 质 地 等, 不 包 含 具 体 的 实 例 在 缺 乏 实 例 的 情 况 下, 无 法 有 效 地 抽 取 植 物 物 种 多 样 性 信 息 例 如, 在 花 瓣 5, 白 色 或 淡 红 色 这 句 描 述 中, 白 色 和 淡 红 色 是 颜 色 的 实 例 如 果 实 体 颜 色 未 包 含 这 两 个 实 例, 就 难 以 判 定 该 句 是 描 述 花 的 颜 色, 也 就 无 法 准 确 提 取 相 应 的 信 息 实 例 的 数 量 众 多 在 依 靠 领 域 专 家 定 义 的 基 础 上, 本 研 究 还 采 用 了 自 动 识 别 技 术, 在 文 档 处 理 过 程 中 发 现 和 填 充 新 实 例 具 体 方 式 为 : 1 采 用 条 件 随 机 场 (CRFs) 算 法 识 别 候 选 实 例 ; 2 人 工 筛 选 候 选 实 例, 确 定 新 增 实 例 列 表 ; 3 逐 行 读 取 列 表, 向 本 体 文 件 中 添 加 相 应 实 例 描 述 语 句 譬 如, 增 加 形 状 实 例 长 圆 状 卵 形 时 向 本 体 文 件 中 添 加 语 句 : <!-- http://www.ontology/plant-species-diversity# 长 圆 状 卵 形 --> <owl:namedindividual rdf:about="&psd; 长 圆 状 卵 形 "> <rdf:type rdf:resource="&psd; 形 状 "/> </owl:namedindividual> (3) 关 系 1 复 用 PO 的 关 系, 包 括 : adjacent_to derives_by_ manipulation_from developmentally_preceded_by part_of has_ part develops_from has_participant located_in participates_ in preceded_by 2 增 添 关 系, 具 体 如 下 : 1) 特 征 关 系 用 于 呈 现 植 物 结 构 与 相 关 特 征 的 关 联 包 XIANDAI TUSHU QINGBAO JISHU 89
应 用 论 文 括 has_color has_shape has_arrangement has_texture has_growth_form has_accy_structure distributed_in has_ flower_period has_fruit_period has_height has_weight has_length has_diameter has_quantity 2) 分 类 关 系 用 于 揭 示 植 物 分 类 知 识 包 括 has_class has_order has_family has_gensus has_species 3) 附 属 关 系 用 于 完 善 相 关 特 征 描 述 包 括 has_unit has_degree 2.2 建 立 训 练 集 Web 文 本 的 规 范 化 程 度 低 文 档 集 之 间 的 差 异 大, 训 练 数 据 的 代 表 性 对 性 能 具 有 重 要 影 响 以 兼 顾 性 能 和 通 用 性 为 原 则, 本 研 究 采 取 随 机 抽 样 和 分 层 抽 样 相 结 合 的 方 式, 从 权 威 数 据 源 中 国 植 物 志 中 获 取 1 000 个 物 种 的 描 述 文 本, 共 涉 及 37 个 科, 每 科 大 约 30 个 种 每 个 物 种 的 描 述 都 独 立 地 以 TXT 文 档 形 式 存 储 在 研 究 方 案 中, 文 本 预 处 理 任 务 的 块 识 别 过 程 信 息 抽 取 模 块 的 语 句 级 标 注 和 概 念 识 别 过 程 分 别 采 用 不 同 的 机 器 学 习 方 法, 需 要 建 立 相 应 的 训 练 数 据 具 体 如 下 : (1) 支 持 块 识 别 的 训 练 数 据 文 本 预 处 理 中 的 块 识 别 采 用 向 量 空 间 模 型 (Vector Space Model, VSM), 可 以 直 接 以 TXT 文 档 的 内 容 作 为 训 练 数 据 (2) 支 持 语 句 级 标 注 的 训 练 数 据 语 句 级 标 注 需 要 解 析 到 在 句 法 上 完 整 的 句 子, 因 此, 对 1 000 个 TXT 文 档 中 的 内 容 以 ; 和 为 标 识, 以 人 工 方 式 逐 句 标 注 使 用 的 语 义 标 签 包 括 planthabit-and-life-style roots stems buds leaves flowers fruits seeds spore-related-structures phenology 和 compound 其 中, compound 用 于 标 注 描 述 了 两 种 或 两 种 以 上 植 物 结 构 的 语 料, 例 如 苞 片 和 小 苞 片 线 形 每 个 TXT 文 档 对 应 一 个 标 注 后 形 成 的 同 名 XML 文 档, 该 文 档 集 即 为 语 句 级 标 注 的 训 练 数 据 (3) 支 持 概 念 识 别 的 训 练 数 据 概 念 识 别 过 程 采 用 CRF 算 法, 以 字 词 为 处 理 单 元 为 提 高 识 别 性 能, 本 研 究 依 据 语 句 级 标 注 训 练 数 据 含 有 的 语 义 标 签 ( compound 除 外 ), 构 建 相 应 的 训 练 数 据 文 档 (TXT 格 式 ) 训 练 数 据 以 词 词 性 词 长 相 关 度 信 息 熵 为 特 征, 采 用 SBIEO 作 为 标 注 集 ( 见 2.4 节 中 的 (4) 概 念 识 别 ) 2.3 文 本 预 处 理 使 用 爬 虫 从 网 上 获 取 文 档 由 于 这 些 文 档 的 格 式 结 构 编 码 方 式 可 能 各 不 相 同, 因 而 需 要 进 行 规 范 化 处 理, 并 筛 选 出 与 主 题 相 关 的 文 本 块, 传 递 给 信 息 抽 取 模 块 (1) 网 页 清 洗 网 页 是 使 用 标 记 语 言 构 建 的 半 结 构 化 文 本 将 网 页 解 析 成 DOM 树, 去 除 与 主 题 无 关 的 <script> <link> <img> <style> 等 元 素, 提 取 文 本 节 点 的 内 容 并 进 行 规 范 化 处 理, 包 括 转 换 编 码 方 式 剔 除 乱 码 和 空 格 将 半 角 的 标 点 符 号 转 化 为 全 角 (2) 块 识 别 并 非 网 页 的 所 有 文 本 节 点 都 与 描 述 内 容 相 关, 因 此, 本 研 究 采 用 向 量 空 间 模 型, 以 0.8 为 阈 值, 筛 选 文 本 节 点 内 容 2.4 信 息 抽 取 信 息 抽 取 的 基 础 是 计 算 机 能 够 理 解 构 成 自 然 语 言 文 本 的 字 符 ( 串 ) 的 语 义 以 及 相 互 间 的 语 义 关 系, 因 而, 概 念 标 注 和 关 系 识 别 无 疑 是 实 现 抽 取 的 关 键 因 为 领 域 本 体 涵 括 了 对 概 念 和 关 系 的 描 述, 所 以, 本 研 究 将 本 体 作 为 实 现 信 息 抽 取 的 关 键 支 撑 要 素 并 且, 方 案 采 用 了 从 语 句 到 字 符 逐 级 细 化 的 标 注 过 程, 以 提 高 标 注 的 准 确 性, 进 而 达 到 提 升 抽 取 性 能 的 目 的 (1) 语 句 标 注 语 句 标 注 采 用 与 Bootstrapping 方 法 相 结 合 的 朴 素 贝 叶 斯 算 法 实 验 结 果 表 明, 种 子 数 达 到 90 时, 该 方 法 的 标 注 性 能 就 已 超 过 依 靠 大 规 模 人 工 训 练 集 支 持 的 朴 素 贝 叶 斯 算 法 [7] 而 建 立 样 本 量 仅 为 90 的 训 练 数 据, 耗 费 的 时 间 和 专 家 资 源 几 乎 可 以 忽 略 不 计 (2) 概 念 标 注 在 领 域 词 典 的 支 持 下, 调 用 ICTCLAS 1 实 现 分 词 并 添 加 词 性 或 语 义 标 识 语 句 标 注 为 概 念 标 注 提 供 两 方 面 的 支 持 : 一 是 验 证 分 词 的 正 确 性, 尤 其 是 表 示 描 1http://ictclas.nlpir.org. 90 现 代 图 书 情 报 技 术
总 第 266 期 2016 年 第 1 期 述 主 体 的 概 念 ; 二 是 语 句 缺 省 表 示 描 述 主 体 的 概 念 时, 将 语 句 标 注 结 果 作 为 补 充 的 依 据 概 念 标 注 需 要 领 域 词 典 的 支 持, 并 事 先 定 义 标 注 集 1 生 成 领 域 词 典 Jena 是 基 于 Java 开 发 的 开 放 源 代 码 语 义 网 工 具, 提 供 了 面 向 本 体 的 模 型 处 理 解 析 查 询 基 于 规 则 的 推 理 持 续 性 存 储 不 同 本 体 形 式 的 接 口 支 持 等 多 种 功 能 [20] 其 中, 解 析 模 块 具 有 大 量 支 持 对 元 素 进 行 操 作 的 函 数 本 研 究 利 用 listclasses() listobjectproperties() listdatatypeproperties() listsuperclasses() getdomain() 等 函 数 解 析 本 体 以 苞 腋 为 例, Jena 的 输 出 为 : 类 URI: http://purl.obolibrary.org/obo/po_0025225 类 名 : http://purl.obolibrary.org/obo/po_0025225 标 签 : 苞 腋 类 描 述 类 型 : subclassof 类 描 述 值 : http://purl.obolibrary.org/obo/po_0025224( 枝 腋 ) 类 描 述 类 型 : subclassof 类 描 述 值 : 植 物 构 成 类 描 述 类 型 : subclassof 类 描 述 值 : http://purl.obolibrary.org/obo/po_0025131( 植 物 结 构 ) 类 描 述 类 型 : subclassof 类 描 述 值 : http://purl.obolibrary.org/obo/po_0025117( 珠 孔 ) 注 : 本 研 究 构 建 的 本 体 复 用 了 PO; () 是 为 便 于 理 解 解 析 结 果 而 添 加 的 注 释 从 上 述 解 析 结 果 中 提 取 类 和 实 例 的 相 应 信 息 构 建 领 域 词 典, 词 条 格 式 为 XX instance/class class 其 中, XX 为 概 念 的 标 签 ; instance/class 用 于 表 示 概 念 的 类 型 ; class 则 表 明 该 概 念 所 属 类 如 概 念 为 类, 此 处 标 识 与 XX 相 同 譬 如, 上 例 中 的 苞 腋 对 应 的 条 目 形 式 为 苞 腋 class 苞 腋 2 标 注 集 标 注 集 是 表 示 词 汇 语 义 的 标 识 集 合, 用 以 标 记 分 词 文 件 中 词 汇 的 语 义 信 息 标 注 集 中 大 部 分 标 识 的 涵 义 对 应 于 本 体 第 三 层 的 概 念 和 相 应 属 性 此 外, 还 有 少 量 标 识 与 本 体 中 的 概 念 无 关, 但 与 物 种 特 征 的 描 述 密 切 相 关 譬 如, 密 被 和 疏 被 难 以 纳 入 本 体 的 概 念 系 统, 但 却 常 常 出 现 于 物 种 解 剖 结 构 的 特 征 描 述 之 中 依 据 信 息 抽 取 的 需 要, 本 研 究 设 定 以 下 标 识, 如 表 1 所 示 标 注 格 式 为 标 识 :class/ins- class 与 词 对 应 的 概 念 若 在 本 体 中 为 类, : 后 使 用 class ; 若 为 实 例, : 后 则 使 用 ins- 加 其 所 属 类 名 由 于 标 注 在 分 词 过 程 中 同 步 进 行, 类 名 不 宜 使 用 中 文 形 式, 因 此, 实 例 所 属 类 以 英 文 或 OBO 编 号 表 示 领 域 词 典 之 外 的 字 词 和 符 号 则 保 留 分 词 时 标 注 的 词 性 标 识 以 勾 儿 茶 属 勾 儿 茶 种 的 描 述 ( 部 分 ) 为 例, 标 注 结 果 如 下 所 示 : 藤 状 /szx:ins-growth_form 或 /c 攀 援 灌 木 /szx:ins-growth_form, /wd 高 /xt:ins-arrangement 达 /v 5/m 米 /dw:ins-unit : /wp 幼 枝 /jg:ins-po_0025073 无 /v 毛 /jg: ins-po_0000282, /wd 老 枝 /jg:ins- PO_0025073 黄 褐 色 /ys:ins-color, /wd 平 滑 /zd:ins-texture 无 /v 毛 /jg: ins-po_0000282 /wj 标 识 jg ys xz xt zd szx pbei kj hq gq dm cd dw n 植 物 解 剖 结 构 颜 色 形 状 形 态 质 地 生 长 型 表 1 概 念 标 注 集 涵 义 用 于 描 述 植 物 结 构 上 生 长 有 其 他 附 属 结 构 的 特 定 连 接 词, 如 密 被 疏 被 等 植 物 空 间 部 位 花 期 果 期 地 域 名 称 程 度 限 定 度 量 单 位 会 出 现 在 特 定 植 物 部 位 上 但 并 不 存 在 于 本 体 内 的 特 定 对 象, 如 点 网 格 纹 等 (3) 抽 取 规 则 和 抽 取 过 程 1 抽 取 规 则 一 方 面, 本 研 究 试 图 建 立 具 有 广 泛 适 用 性 的 描 述 性 文 本 信 息 抽 取 方 案 ; 另 一 方 面, 研 究 选 择 的 物 种 多 样 性 领 域 不 仅 种 间 差 异 巨 大, 而 且 同 一 物 种 在 不 同 文 本 集 中 的 描 述 也 存 在 差 异 因 此, 本 研 究 的 基 本 思 路 是 在 最 大 限 度 地 识 别 领 域 概 念 的 基 础 上, 尽 可 能 完 整 地 抽 取 描 述 文 本 所 含 信 息 由 于 没 有 预 先 定 义 的 模 板, 从 知 识 共 享 和 支 持 应 用 本 体 构 建 的 角 度 出 发, 笔 者 采 用 RDF 模 型 表 示 被 识 别 和 抽 取 的 信 息 RDF 表 达 式 的 基 本 结 构 是 三 元 组, 每 个 三 元 组 由 一 个 主 体 一 个 谓 词 和 一 个 客 体 组 成 在 本 研 究 中, 主 体 通 常 是 被 描 述 的 物 种 或 器 官 结 构 ( 本 体 中 的 类 或 实 例 ), 谓 词 是 其 所 具 有 的 属 性 ( 本 体 中 定 义 的 属 性 ), 客 体 是 属 性 的 值 ( 本 体 中 的 类 实 例 或 文 字 ) 依 据 已 标 注 语 句 构 建 三 元 组 的 基 本 过 程 是 : 通 过 标 签 匹 配 判 定 所 描 述 的 特 征 ( 谓 词 ) 及 特 征 值 ( 客 体 ); 依 据 客 体 的 类 型 和 谓 词 确 定 主 体 的 类 型 ; 搜 寻 与 之 匹 配 的 标 签 确 定 被 描 述 对 象 ( 主 体 ), 或 依 据 上 下 文 关 系 补 充 被 描 述 对 象 为 此, 笔 者 利 用 正 则 表 达 式 编 写 了 一 组 规 则 根 据 适 用 范 围, 这 些 规 则 被 分 为 通 用 规 则 和 专 用 规 则 两 类 : 1) 通 用 规 则, 即 针 对 具 有 共 性 的 描 述 形 式 定 义 的 提 取 规 则 譬 如, 花 瓣 叶 茎 的 描 述 往 往 都 会 涉 及 颜 色 形 态 等 特 征, 而 且 表 述 形 式 相 近 如 : 叶 片 狭 长 圆 形,, 上 面 深 绿 色 花 葶 直 立, 长 16-22 厘 米, 绿 色 ; 花 苞 片 近 椭 圆 形, 绿 色 在 标 注 过 程 中, 深 绿 色 绿 色 都 将 被 赋 予 标 识 ys:ins-color 通 过 本 体 和 领 域 词 典 可 以 判 定, XIANDAI TUSHU QINGBAO JISHU 91
应 用 论 文 深 绿 色 绿 色 是 颜 色 类 的 实 例, 值 域 为 颜 色 类 的 属 性 是 has_color, has_color 的 定 义 域 为 植 物 解 剖 结 构 结 合 标 识 jg 可 形 成 三 个 三 元 组 : 叶 片 的 上 面 has_color 深 绿 色 花 葶 has_color 绿 色 花 苞 片 has_color 绿 色 2) 专 用 规 则, 即 针 对 叶 茎 花 这 三 种 复 合 器 官 的 一 些 特 有 描 述 形 式 而 定 义 的 提 取 规 则 譬 如, 在 描 述 花 的 语 句 中 出 现 植 物 解 剖 结 构 + 数 量 的 形 式, 则 可 推 断 其 为 描 述 花 内 部 结 构 的 数 量, 抽 取 时 需 补 充 信 息 并 合 理 设 定 语 序 例 如, 退 化 雄 蕊 2 的 表 示 结 果 为 花 has_part [ 退 化 雄 蕊 has_quantity 2 ] 2 规 则 调 用 逻 辑 从 性 能 出 发, 遵 循 从 特 殊 到 一 般 的 准 则 调 用 规 则, 具 体 过 程 如 图 2 所 示 : 图 2 抽 取 规 则 调 用 逻 辑 图 3 隐 性 信 息 识 别 除 字 符 所 携 带 的 显 性 信 息 外, 文 本 还 含 有 一 些 未 通 过 字 符 表 达 的 隐 性 信 息 这 类 隐 性 信 息 基 本 都 出 现 在 结 构 比 较 复 杂 的 复 合 器 官 描 述 中 譬 如, 前 述 退 化 雄 蕊 2 就 是 比 较 典 型 的 例 子 类 似 情 况, 使 用 专 用 规 则 补 充 其 隐 藏 的 信 息 此 外, 由 于 物 种 多 样 性 描 述 文 本 中 的 句 子 ( 以 ; 为 分 隔 符 ) 较 长, 结 构 复 杂, 而 且 常 涉 及 多 个 描 述 主 体 因 此, 以 子 句 ( 以, 为 分 隔 符 ) 作 为 分 析 和 抽 取 的 基 本 单 元 这 种 处 理 方 式 的 优 点 在 于 显 著 降 低 了 句 子 的 分 析 难 度, 但 同 时 也 带 来 主 语 ( 即 描 述 主 体 ) 信 息 缺 损 的 问 题 针 对 这 一 问 题, 分 两 种 情 况 补 充 描 述 主 体 : 1) 组 合 性 补 足 若 当 前 子 句 中 有 表 示 空 间 部 位 的 概 念 ( 以 kj 标 识 ), 则 将 前 一 子 句 的 描 述 主 体 和 当 前 子 句 中 表 示 空 间 部 位 的 概 念 拼 接, 构 成 当 前 子 句 的 描 述 主 体 例 如, 前 例 中 的 子 句 上 面 深 绿 色 上 面 是 表 示 植 物 空 间 部 位 的 概 念, 与 前 一 子 句 的 描 述 主 体 叶 片 拼 接, 组 合 成 当 前 子 句 的 描 述 主 体 叶 片 的 上 面 2) 顶 替 性 补 足 若 当 前 子 句 中 没 有 表 示 植 物 空 间 部 位 的 概 念, 则 直 接 以 前 一 子 句 的 描 述 主 体 作 为 当 前 子 句 的 描 述 主 体 例 如, 对 于 前 例 中 的 子 句 长 16-22 厘 米, 程 序 将 直 接 补 充 前 一 子 句 的 描 述 主 体 花 葶 4 抽 取 过 程 示 例 为 了 清 晰 地 呈 现 规 则 在 抽 取 过 程 中 的 作 用 方 式, 以 叶 纸 质 至 厚 纸 质, 互 生 或 在 短 枝 顶 端 簇 生, 卵 状 椭 圆 形 或 卵 状 矩 圆 形, 长 3-6 厘 米, 宽 1.6-3.5 厘 米, 顶 端 圆 形 或 钝, 常 有 小 尖 头, 基 部 圆 形 或 近 心 形, 上 面 绿 色, 无 毛, 下 面 灰 白 色, 仅 脉 腋 被 疏 微 毛, 侧 脉 每 边 8-10 条 ; 中 的 内 容 为 例 具 体 说 明 1) 规 则 的 基 本 作 用 方 式 叶 纸 质 至 厚 纸 质 ----->I. 识 别 出 纸 质 和 厚 纸 质 这 两 个 标 为 zd 的 特 征 词, 借 以 质 地 的 定 义 域 寻 得 前 方 标 记 为 jg 的 叶, 同 时 获 取 关 系 has_texture, 最 终 确 定 信 息 为 叶 has_texture 纸 质 叶 has_texture 厚 纸 质 II. 同 时 保 留 该 句 中 主 语 叶 2) 复 合 结 构 解 析 及 代 替 性 主 语 补 足 互 生 或 在 短 枝 顶 端 簇 生 ----->I. 拆 分 复 合 句 为 互 生 在 短 枝 顶 端 簇 生 这 两 句 短 句 II. 通 过 保 留 主 语 对 分 句 缺 失 成 分 进 行 补 足, 补 足 后 分 别 为 叶 互 生 和 叶 在 短 枝 顶 端 簇 生 III. 参 照 上 例 解 析 关 系, 得 到 叶 has_arrangement 互 生 叶 has_arrangement 簇 生 3) 数 据 属 性 识 别 长 3-6 厘 米 ----->I. 识 别 得 到 标 记 为 xt 的 长 标 记 为 m 的 3-6 标 记 为 dw 的 厘 米 II. 通 过 组 合 匹 配 判 断 确 认 捕 捉 到 内 容 为 长 的 数 据 属 性, 以 长 为 条 件 得 到 关 系 has_length, 由 于 标 记 dw 的 出 现 还 会 增 加 一 层 为 3-6 has_unit 厘 米 的 附 属 关 系, 并 进 一 步 组 合 获 得 has_length[ 3-6 has_unit 厘 米 ] III. 通 过 上 一 层 级 的 保 留 主 语 对 缺 失 主 语 进 行 补 足, 得 到 叶 has_length [ 3-6 has_unit 厘 米 ] 4) 复 合 结 构 解 析 组 合 性 主 语 补 足 程 度 识 别 基 部 圆 形 或 近 心 形 ----->I. 拆 分 复 合 句 为 基 部 圆 形 和 基 部 近 心 形 II. 通 过 基 部 的 标 记 kj 可 知 需 进 行 组 合 性 补 足, 从 而 获 得 补 足 后 语 句 叶 基 部 圆 形 和 叶 基 部 近 心 形 III. 针 对 叶 基 部 近 心 形 中 标 记 为 cd 的 近 与 紧 邻 其 后 的 标 记 为 xz 的 心 形, 判 断 调 取 has_degree 关 系, 形 成 心 形 has_degree 近 IV. 参 照 通 用 提 取 机 制, 整 合 附 属 关 系, 最 终 获 得 叶 基 部 has_shape 圆 形 和 叶 基 部 has_shape[ 心 形 has_degree 近 ] (4) 概 念 识 别 概 念 系 统 的 完 备 性 是 影 响 信 息 抽 取 性 能 最 重 要 的 因 素 如 果 领 域 本 体 已 经 非 常 完 善, 那 么 完 全 没 有 必 92 现 代 图 书 情 报 技 术
总 第 266 期 2016 年 第 1 期 要 执 行 概 念 识 别 过 程 而 目 前, 中 文 植 物 物 种 多 样 性 本 体 虽 然 已 包 含 4 000 多 条 实 例, 但 是 不 同 文 本 集 在 描 述 分 类 单 元 模 式 的 选 择 所 使 用 术 语 以 及 数 据 表 现 形 式 等 方 面 都 存 在 差 异, 因 此, 可 能 还 有 许 多 概 念 未 纳 入 现 有 领 域 本 体 鉴 于 此, 在 概 念 标 注 前, 运 用 CRF 算 法 检 验 是 否 存 在 未 纳 入 本 体 的 概 念 1 特 征 选 择 中 文 是 由 独 立 的 字 组 合 成 具 有 特 定 语 义 的 词, 进 而 依 据 语 法 规 则 组 织 成 句 形 成 文 本, 词 与 词 之 间 没 有 分 隔 标 志 因 此, 使 用 CRF 算 法 是 以 字 还 是 词 为 特 征, 一 直 存 在 分 歧 课 题 组 的 实 验 结 果 表 明, 以 词 为 特 征 识 别 中 文 植 物 物 种 多 样 性 描 述 文 本 中 的 未 登 录 词, 其 性 能 优 于 以 字 为 特 征 [21] 为 了 优 化 识 别 性 能, 在 词 特 征 的 基 础 上 进 一 步 增 加 词 性 词 长 相 关 度 信 息 熵 等 特 征 1) 词 性 提 取 领 域 本 体 中 的 概 念 作 为 用 户 词 典 支 持 ICTCLAS 分 词 和 词 性 标 注 ICTCLAS 将 用 户 词 典 所 含 词 条 的 词 性 均 标 注 为 un 对 于 未 包 含 在 用 户 词 典 中 的 字 符 串, 在 ICTCLAS 的 切 分 和 词 性 标 注 结 果 的 基 础 上 拆 分 成 单 字, 并 赋 予 所 标 注 的 词 性 标 记 例 如, ICTCLAS 赋 予 主 枝 n ( 名 词 ) 词 性, 若 其 未 包 含 在 用 户 词 典 中, 则 拆 分 为 主 和 枝, 词 性 均 标 注 为 n 2) 词 长 指 词 语 包 含 的 字 数, 一 般 介 于 1-5 之 间 3) 相 关 度 相 关 度 反 映 相 邻 字 之 间 结 合 的 紧 密 程 度 字 串 W 的 相 关 度 如 下 所 示 : 2 n(n11 n12 n12 n 21) rel(w) n2* n*1 n*2 (1) n1* 若 字 串 W 的 首 字 为 A, 次 字 为 B, 则 n 为 语 料 库 所 有 二 元 组 的 串 频, 即 n=n 11 +n 12 +n 21 +n 22 其 中, n 11 为 首 字 为 A 次 字 为 B 的 串 频, n 12 为 首 字 为 A 次 字 非 B 的 串 频, n 21 为 首 字 非 A 次 字 为 B 的 串 频, n 22 为 首 字 非 A 次 字 非 B 的 串 频 ; n 1* =n i1 +n i2 (i=1,2); n *j =n 1j +n 2j (j=1,2) 相 关 度 的 值 是 连 续 值, 需 要 进 行 离 散 化 处 理 在 实 验 的 基 础 上, 本 研 究 将 其 等 频 率 分 为 5 个 等 级, 即 按 照 从 高 到 低 的 顺 序, 将 值 最 大 的 20% 赋 予 1, 值 最 小 的 20% 赋 予 5, 以 此 类 推 4) 信 息 熵 信 息 熵 可 以 用 来 界 定 词 与 词 之 间 的 边 界 词 W 的 信 息 熵 如 下 所 示 : H(W) plog(p) (2) 其 中, p 表 示 该 词 左 右 连 接 的 不 同 词 ( 字 ) 的 概 率 信 息 熵 也 是 连 续 值, 本 研 究 使 用 的 离 散 方 法 是 : 计 算 每 个 字 ( 或 词 ) 的 左 右 信 息 熵, 比 较 大 小, 若 左 信 息 熵 大 于 右 信 息 熵, 则 将 特 征 标 记 为 rgh (right), 说 明 该 字 ( 或 词 ) 倾 向 于 与 右 边 的 字 ( 或 词 ) 链 接, 左 边 更 可 能 是 词 语 的 边 界, 否 则 标 记 为 lft (left) 2 标 注 集 本 研 究 在 四 位 标 注 集 BIEO 的 基 础 上 定 义 了 SBIEO 标 注 集 其 中, S(Single) 表 示 单 字 词, B(Begin) 表 示 术 语 的 第 一 个 字, I(In) 表 示 中 间 的 字, E(End) 表 示 最 后 一 个 字, O(Out) 表 示 当 前 字 不 在 术 语 中 每 个 S 或 连 续 的 B(I)E 构 成 一 个 术 语 例 如 : 字 符 串 小 枝 多 少 密 被 短 伏 毛, 近 方 形, 粗 壮, 稍 弯 曲, 散 生 皮 孔 的 标 注 结 果 如 下 : 小 B/ 枝 E/ 多 少 O/ 密 O/ 被 O/ 短 O/ 伏 O/ 毛 O/, O/ 近 O/ 方 形 O/, O/ 粗 壮 O/, O/ 稍 O/ 弯 曲 O/, O/ 散 O/ 生 O/ 皮 B/ 孔 E/ 3 工 具 与 特 征 模 板 调 用 CRF++0.58 作 为 标 注 工 具, 以 词 词 性 词 长 相 关 度 信 息 熵 为 特 征 构 建 模 板 鉴 于 术 语 词 长 一 般 不 超 5, 故 将 窗 口 长 度 设 为 5 3 植 物 物 种 多 样 性 文 本 的 信 息 抽 取 实 验 3.1 样 本 中 国 在 线 植 物 志 (http://frps.eflora.cn) 收 录 了 301 科 3 408 属 31 142 种 植 物 的 科 学 名 称 形 态 特 征 生 态 环 境 地 理 分 布 经 济 用 途 和 物 候 期 等 信 息, 是 最 具 影 响 力 的 中 文 植 物 学 网 络 信 息 源 之 一 [22] 本 研 究 利 用 自 主 开 发 的 爬 虫 程 序, 从 该 网 站 获 取 鼠 李 科 勾 儿 茶 属 兰 科 角 盘 兰 属 和 兜 兰 属 各 17 个 物 种 的 描 述 文 档, 构 成 测 试 集 以 人 工 方 式 逐 句 分 析 文 本 内 容, 建 立 评 价 抽 取 结 果 的 标 准 答 案 数 据 集 该 数 据 集 为 文 档 子 句 三 元 组 的 映 射, 共 含 4 734 个 信 息 点 ( 三 元 组 ) 3.2 性 能 评 价 指 标 采 用 准 确 率 (Precision) 和 召 回 率 (Recall) 评 价 信 息 抽 取 性 能, 同 时 引 入 F 值 作 为 均 衡 准 确 率 和 召 回 率 的 指 标 计 算 公 式 如 下 : Precision(P) Recall(R) 被 准 确 提 取 的 三 元 组 数 量 提 取 出 的 三 元 组 数 量 被 准 确 提 取 的 三 元 组 数 量 应 提 取 出 的 三 元 组 数 量 2 P R F P R 3.3 实 验 结 果 及 分 析 (1) 整 体 抽 取 性 能 统 计 表 2 显 示, 系 统 从 测 试 样 本 中 共 提 取 4 697 条 信 息, 整 体 准 确 率 召 回 率 分 别 约 为 0.86 0.85, F 值 为 0.85 准 确 率 和 召 回 率 表 现 均 衡, 抽 取 性 能 较 理 想 (3) (4) (5) XIANDAI TUSHU QINGBAO JISHU 93
应 用 论 文 表 2 抽 取 性 能 统 计 汇 总 描 述 文 档 提 取 数 正 确 数 遗 漏 数 准 确 率 召 回 率 F 值 鼠 李 科 勾 儿 茶 属 1 108 1 002 107 0.904332 0.903517 0.903924 兰 科 兜 兰 属 1 773 1 472 436 0.830231 0.771488 0.799783 兰 科 角 盘 兰 属 1 816 1 548 169 0.852423 0.901573 0.876309 总 计 4 697 4 022 712 0.856291 0.849599 0.852932 石 静 以 中 国 高 等 植 物 图 鉴 中 的 60 种 植 物 的 描 述 文 本 作 为 测 试 样 本, 涉 及 旋 花 科 茄 科 杜 鹃 花 科 等 12 个 科 特 征 描 述 信 息 抽 取 的 平 均 准 确 率 和 召 回 率 分 别 为 0.868 0.7138, F 值 为 0.7834 [18] 应 注 意, 本 研 究 是 将 依 据 抽 取 结 果 构 建 的 三 元 组 与 标 准 答 案 比 对, 计 算 准 确 率 和 召 回 率 ; 而 石 静 的 研 究 则 是 依 据 模 板 填 充 结 果 计 算 性 能 指 标 两 者 采 用 的 测 试 样 本 计 算 依 据 都 不 相 同, 在 理 论 上 不 宜 直 接 比 较 两 者 的 性 能 差 异 (2) 科 属 间 的 差 异 分 析 表 2 中 的 数 据 显 示, 系 统 抽 取 不 同 科 属 描 述 文 档 中 的 信 息, 性 能 可 能 存 在 差 异 利 用 SPSS 软 件 比 较 鼠 李 科 与 兰 科 兰 科 的 兜 兰 属 与 角 盘 兰 属 描 述 文 档 中 信 息 的 抽 取 性 能 (F 值 的 均 值 ), 分 析 结 果 表 明 组 间 的 确 存 在 差 异 为 寻 找 差 异 产 生 的 原 因, 按 描 述 主 体 重 新 对 三 组 文 档 信 息 的 抽 取 性 能 进 行 统 计, 如 图 3 至 图 5 所 示 从 图 4 与 图 3 图 5 的 比 较 可 知, 兜 兰 属 样 本 中 茎 和 根 的 描 述 信 息 抽 取 效 果 不 佳 是 导 致 评 价 指 标 偏 低 的 主 要 原 因 当 然, 这 并 不 意 味 着 所 有 物 种 茎 和 根 描 述 信 息 的 抽 取 效 果 一 定 不 理 想, 图 5 很 好 地 说 明 了 这 一 点 图 5 兰 科 角 盘 兰 属 样 本 中 各 描 述 主 体 信 息 的 抽 取 性 能 (3) 文 档 间 的 差 异 分 析 更 进 一 步 地, 笔 者 希 望 明 确 科 属 间 的 抽 取 性 能 差 异 是 源 于 少 数 极 端 样 本 的 影 响, 还 是 组 间 样 本 整 体 的 差 异 所 导 致 为 此, 对 三 组 样 本 中 的 文 档 分 别 随 机 分 配 1-17 的 序 号, 比 较 每 篇 文 档 中 信 息 的 抽 取 性 能 从 图 6 图 7 能 够 清 楚 地 看 到, 类 属 相 同 的 物 种, 其 描 述 文 本 信 息 抽 取 的 准 确 率 召 回 率 虽 有 波 动, 但 总 体 比 较 平 稳 这 表 明 导 致 科 属 间 性 能 差 异 的 主 要 原 因 并 非 来 自 个 例 的 影 响, 这 一 点 在 图 7 中 表 现 尤 为 清 晰 图 6 图 7 同 时 显 示, 兜 兰 属 编 号 为 4 8 13 的 文 献 抽 取 结 果 的 召 回 率 准 确 率 都 较 低 为 此, 分 析 这 三 篇 文 献 中 对 茎 和 根 的 描 述 语 句, 发 现 错 误 原 因 在 于 对 有 少 数 稍 肉 质 而 被 毛 的 纤 维 根 的 解 析 该 句 描 述 的 是 附 属 结 构 纤 维 根, 但 是 因 而 这 一 关 联 词, 使 该 句 在 处 理 时 被 拆 分 为 两 个 单 句, 破 坏 了 原 有 语 义, 导 致 描 述 主 体 判 断 错 误 图 3 鼠 李 科 勾 儿 茶 属 样 本 中 各 描 述 主 体 信 息 的 抽 取 性 能 图 4 兰 科 兜 兰 属 样 本 中 各 描 述 主 体 信 息 的 抽 取 性 能 图 6 单 篇 文 档 的 准 确 率 94 现 代 图 书 情 报 技 术
总 第 266 期 2016 年 第 1 期 图 7 单 篇 文 档 的 召 回 率 (4) 存 在 的 问 题 从 实 验 结 果 来 看, 本 研 究 获 得 了 比 较 理 想 的 抽 取 结 果 但 归 纳 错 抽 和 漏 抽 的 实 例, 发 现 仍 有 一 些 问 题 有 待 解 决 1 以 比 较 或 排 除 方 式 描 述 譬 如, 较 中 裂 片 长 很 多 或 稍 较 长 雄 蕊 长 于 花 瓣 除 背 面 中 脉 近 基 部 处 具 长 柔 毛 外 余 均 无 毛 2 与 结 构 部 位 关 联 的 生 长 趋 势 描 述 譬 如, 中 部 以 上 向 先 端 渐 狭 向 末 略 变 狭 从 蕊 喙 下 向 外 伸 出 3 具 有 多 项 特 征 值 的 描 述 譬 如, 侧 脉 每 边 7-13 条 通 常 9-10 条 顶 端 钝 或 圆 形 稀 短 渐 尖 叶 (1-)2 枚 极 罕 为 3 枚 4 结 语 本 研 究 设 计 并 实 现 了 一 个 中 文 植 物 物 种 多 样 性 描 述 文 本 信 息 抽 取 方 案, 性 能 (F 值 ) 达 到 0.85 方 案 的 设 计 思 路 兼 顾 适 应 性 和 性 能 以 本 体 为 支 撑, 采 取 语 段 语 句 概 念 逐 级 筛 选 和 标 注 的 策 略, 依 据 规 则 实 现 描 述 文 本 中 信 息 的 抽 取 在 理 论 上, 该 方 案 建 立 的 框 架 能 支 持 生 物 物 种 多 样 性 病 症 乃 至 商 品 等 多 种 描 述 性 文 本 中 信 息 的 抽 取 在 应 用 方 面, 本 研 究 不 仅 开 发 了 一 套 实 用 的 信 息 抽 取 系 统, 还 建 立 了 一 个 较 完 善 的 植 物 物 种 多 样 性 领 域 本 体, 同 时 提 出 了 一 个 比 较 成 熟 的 植 物 物 种 多 样 性 领 域 概 念 识 别 方 法 当 然, 研 究 还 可 以 进 一 步 修 正 和 完 善 譬 如, 以 上 所 提 及 影 响 抽 取 性 能 的 三 个 问 题, 以 及 如 何 组 织 构 建 的 三 元 组 集 合, 使 其 准 确 地 表 示 原 文 语 义 ( 致 谢 : 感 谢 中 国 科 学 院 植 物 研 究 所 文 献 与 信 息 中 心 刘 凤 红 高 级 工 程 师 南 京 林 业 大 学 陈 金 慧 教 授 在 本 体 构 建 过 程 中 给 予 的 支 持 ) 参 考 文 献 : [1] BHL. Biodiversity Heritage Library [EB/OL]. [2015-09-27]. http://www.biodiversitylibrary.org/. [2] Thessen A E, Cui H, Mozzherin D. Applications of Natural Language Processing in Biodiversity Science [J]. Advances in Bioinformatics, 2012: Article ID 391574. doi: 10.1155/2012/ 391574. [3] Vanel J M. Worldwide Botanical Knowledge Base [EB/OL]. [2011-10-11]. http://wwbota.free.fr/. [4] 郑 家 恒, 菅 小 艳. 农 作 物 信 息 抽 取 系 统 的 设 计 与 实 现 [J]. 计 算 机 工 程, 2006, 32(7): 197-198, 220. (Zheng Jiaheng, Jian Xiaoyan. Design and Realization of the System of Farm Crop Information Extraction [J]. Computer Engineering, 2006, 32(7): 197-198, 220.) [5] Cui H, Heidorn P. The Reusability of Induced Knowledge for Automatic Semantic Markup of Taxonomic Descriptions [J]. Journal of the American Society for Information Science and Technology. 2007, 58(1): 133-149. [6] 段 宇 锋, 黑 珍 珍, 鞠 菲, 等. 基 于 自 主 学 习 规 则 的 中 文 物 种 描 述 文 本 的 语 义 标 注 研 究 [J]. 现 代 图 书 情 报 技 术, 2012(5): 41-47. (Duan Yufeng, Hei Zhenzhen, Ju Fei, et al. Study on Semantic Markup of Species Description Text in Chinese Based on Auto-learning Rules [J]. New Technology of Library and Information Service, 2012(5): 41-47.) [7] 段 宇 锋, 黑 珍 珍, 鞠 菲, 等. 基 于 贝 叶 斯 分 类 的 中 文 物 种 描 述 文 本 的 语 义 标 注 研 究 [J]. 情 报 学 报, 2012, 31(8): 805-812. (Duan Yufeng, Hei Zhenzhen, Ju Fei, et al. Semantic Annotation of Species Description Text in Chinese Literature by Naïve Bayes Classifier [J]. Journal of the China Society for Scientific and Technical Information, 2012, 31(8): 805-812.) [8] 段 宇 锋, 朱 雯 晶, 陈 巧, 等. 朴 素 贝 叶 斯 算 法 与 Bootstrapping 方 法 相 结 合 的 中 文 物 种 描 述 文 本 语 义 标 注 研 究 [J]. 现 代 图 书 情 报 技 术, 2014(5): 83-89. (Duan Yufeng, Zhu Wenjing, Chen Qiao, et al. Semantic Annotation of Species Description Text in Chinese by Combining Naïve Bayes Algorithm with Bootstrapping Method [J]. New Technology of Library and Information Service, 2014(5): 83-89.) [9] Taylor A. Extracting Knowledge from Biological Descriptions [C]. In: Proceedings of the 2nd International Conference on Building and Sharing Very Large-Scale Knowledge Bases. 1995: 114-119. [10] Wood M M, Lydon S J, Tablan V, et al. Using Parallel Texts to Improve Recall in IE [C]. In: Proceedings of Recent Advances in Natural Language Processing (RANLP 03). 2003: 505-512. [11] Tang X, Heidorn P B. Using Automatically Extracted XIANDAI TUSHU QINGBAO JISHU 95
应 用 论 文 Information in Species Page Retrieval [OL]. [2011-08-10]. http://www.tdwg.org/proceedings/article/view/195/. [12] Soderland S. Learning Information Extraction Rules for Semi-Structured and Free Text [J]. Machine Learning, 1999, 34(1-3): 233-272. [13] Abascal R, Sanchez J A. X-tract: Structure Extraction from Botanical Textual Descriptions [C]. In: Proceeding of the String Processing & Information Retrieval Symposium & International Workshop on Groupware.1999: 2-7. [14] Diederich J, Frotuner R, Milton J. Computer-assisted Data Extraction from the Taxonomical Literature [OL]. [2011-08-15]. http://math.ucdavis.edu/~milton/genisys.html. [15] Cui H. CharaParser for Fine-grained Semantic Annotation of Organism Morphological Descriptions [J]. Journal of the American Society for Information Science and Technology, 2012, 63(4): 738-754. [16] Cui H, Singaram S, Janning A. Combine Unsupervised Learning and Heuristic Rules to Annotate Morphological Characters [J]. Proceedings of the American Society for Information Science and Technology, 2011, 48(1): 1-9. [17] 沙 丽 华. 面 向 领 域 文 档 的 语 义 标 注 方 法 研 究 [D]. 长 春 : 吉 林 大 学, 2009. (Sha Lihua. Research on Semantic Annotation for Domain Documents [D]. Changchun: Jilin University, 2009.) [18] 石 静. 基 于 本 体 的 植 物 信 息 抽 取 与 分 析 研 究 [D]. 杨 凌 : 西 北 农 林 科 技 大 学, 2010. (Shi Jing. Information Extraction and Analysis Based on Plant Ontology [D]. Yangling: Northwest Agriculture and Foresty University, 2010.) [19] Gruber T R. Toward Principles for the Design of Ontologies Used for Knowledge Sharing [J]. International Journal of Human-Computer Studies, 1995, 43(5-6): 907-928. [20] 向 阳, 王 敏, 马 强. 基 于 Jena 的 本 体 构 建 方 法 研 究 [J]. 计 算 机 工 程, 2007, 33(14): 59-61. (Xiang Yang, Wang Min, Ma Qiang. Research on Jena-based Ontology Building [J]. Computer Engineering, 2007, 33(14): 59-61.) [21] 段 宇 锋, 朱 雯 晶, 陈 巧, 等. 条 件 随 机 场 与 领 域 本 体 元 素 集 相 结 合 的 未 登 录 词 识 别 研 究 [J]. 现 代 图 书 情 报 技 术, 2015(4): 41-49. (Duan Yufeng, Zhu Wenjing, Chen Qiao, et al. The Study on Out-of-Vocabulary Identification on a Model Based on the Combination of CRFs and Domain Ontology Elements Set [J]. New Technology of Library and Information Service, 2015(4): 41-49.) [22] 中 国 植 物 志 编 辑 委 员 会. 中 国 植 物 志 [DB/OL]. [2007-09-28]. http://frps.eflora.cn/. (Flora of China Editorial Committee. Flora of China [DB/OL]. [2007-09-28]. http://frps.eflora.cn/.) 作 者 贡 献 声 明 : 段 宇 锋 : 提 出 研 究 思 路, 设 计 研 究 方 案, 论 文 起 草 和 修 订 ; 黄 思 思 : 开 发 程 序, 采 集 清 洗 和 分 析 数 据 收 稿 日 期 : 2015-09-14 收 修 改 稿 日 期 : 2015-09-28 Information Extraction from Chinese Plant Species Diversity Description Text Duan Yufeng Huang Sisi (Business School, East China Normal University, Shanghai 200241, China) Abstract: [Objective] To extract information from Chinese plant species diversity description text. [Methods] Take the plant species diversity domain ontology as the foundation, and adopt the strategy of stepwise selection and annotation on paragraph, sentence and concept. [Results] A sample including 4 734 information points is used to test. The value of extraction accuracy rate, recall rate and F-measure achieves 0.86, 0.85 and 0.85 respectively. [Limitations] In order to solve the problems on extracting information from description text, the rule set should be improved in the future. [Conclusions] The research scheme can fulfill the information extraction from Chinese plant species diversity description text effectively. Keywords: Information extraction Plant species diversity description text Chinese information processing Ontology 96 现 代 图 书 情 报 技 术