160 一 种 基 于 LDA 模 型 的 主 题 句 抽 取 方 法 王 1,2 1,2 1,2 力, 李 培 峰, 朱 巧 明 WANG Li 1,2, LI Peifeng 1,2, ZHU Qiaoming 1,2 1. 苏 州 大 学 计 算 机 科 学 和 技 术 学 院, 江 苏 苏 州 215006 2. 江 苏 省 计 算 机 信 息 处 理 技 术 重 点 实 验 室, 江 苏 苏 州 215006 1.School of Computer Science and echnology, Soocho University, Suzhou, Jiangsu 215006, China 2.Jiangsu Provincial Key Lab for Computer Information Processing echnology, Suzhou, Jiangsu 215006, China WANG Li, LI Peifeng, ZHU Qiaoming. Approach for topical sentence extraction based on model LDA. Computer Engineering and Applications, 2013, 49(2):160-164. Abstract:his paper proposes a novel topic sentence extraction approach based on model LDA on basis of acquiring candidate topic sentences through the topic-related and query-based keyord expansion. It can extract fine granularity on the subect and increase the reliability of the certain topical information. On several sub-topics against a target topic, it extracts those topic sentences by means of the reliability calculation according to the smoothness of the topic-sentence probability distribution. he method achieves good result in the special application of sentence extraction on eb topic. Key ords:latent Dirichlet Allocation(LDA); topic model; topical sentence extraction; information fusion 摘 要 : 在 基 于 Web 的 主 题 关 键 词 查 询 扩 展, 获 取 候 选 主 题 句 的 基 础 上, 提 出 一 种 基 于 LDA 模 型 的 主 题 句 抽 取 方 法, 以 抽 取 粒 度 较 细 的 主 题 信 息, 并 增 加 主 题 信 息 的 置 信 度 该 方 法 通 过 多 个 侧 面 对 目 标 主 题 的 衬 托, 采 用 LDA 模 型 对 主 题 信 息 进 行 建 模, 利 用 各 个 主 题 概 率 分 布 的 平 滑 度 进 行 候 选 句 的 可 信 度 计 算 来 抽 取 主 题 句 在 面 向 Web 的 主 题 句 抽 取 的 具 体 应 用 中, 取 得 了 较 好 的 效 果 关 键 词 : 隐 含 狄 利 克 雷 分 配 (LDA); 主 题 模 型 ; 主 题 句 抽 取 ; 信 息 融 合 文 献 标 志 码 :A 中 图 分 类 号 :P391.12 doi:10.3778/.issn.1002-8331.1106-0361 主 题 句 是 表 示 文 本 或 文 档 集 主 题 内 容 的 重 要 方 式, 主 题 句 抽 取 是 文 本 分 类 信 息 检 索 自 动 文 摘 等 文 本 自 动 处 理 应 用 的 基 础 性 工 作 主 题 句 抽 取 结 果 的 好 坏 将 进 一 步 影 响 后 续 领 域 应 用 的 系 统 性 能 目 前, 关 于 主 题 句 抽 取 的 研 究 主 要 涉 及 两 类 不 同 的 研 究 对 象 :(1) 对 于 既 定 的 文 档 或 文 档 集 合 抽 取 主 题 句, 该 类 研 究 方 法 往 往 考 虑 文 档 的 结 构 特 征 和 主 题 概 念 特 征 作 为 主 题 句 抽 取 的 依 据 (2) 基 于 Web 获 取 主 题 相 关 候 选 句, 然 后 对 候 选 句 进 行 再 次 筛 选, 进 一 步 抽 取 主 题 句 集 合, 这 种 方 法 的 研 究 对 象 不 具 备 篇 章 特 性, 获 取 的 候 选 主 题 句 往 往 具 有 随 机 性 且 噪 音 较 大, 因 此, 利 用 主 题 关 键 词 集 合 或 机 器 学 习 方 法 来 抽 取 主 题 句 是 经 常 采 用 的 方 法 本 文 在 基 于 Web 的 主 题 关 键 词 查 询 扩 展, 获 取 候 选 主 题 句 的 基 础 上, 引 入 LDA(Latent Dirichlet Allocation) 模 型, 通 过 多 个 侧 面 对 目 标 主 题 的 衬 托, 根 据 候 选 句 的 主 题 概 率 分 布 分 析, 提 出 主 题 句 可 信 度 计 算 方 法 来 抽 取 主 题 句 1 相 关 研 究 [1] 在 面 向 查 询 的 多 文 档 文 摘 领 域, 马 亮 等 采 用 词 语 的 查 询 相 关 特 性 和 主 题 相 关 特 性 对 候 选 句 打 分 来 抽 取 主 题 句 Lin Zhao [2] 在 图 排 序 算 法 查 询 扩 展 的 基 础 上, 利 用 WordNet 对 传 统 基 于 词 的 句 子 向 量 的 语 义 扩 展 进 行 主 题 句 抽 取 Christina Sauper [3] 将 每 个 段 落 对 应 一 个 主 题, 采 用 联 合 学 习 方 法 同 时 训 练 出 每 个 主 题 的 内 容 选 择 参 数, 从 而 得 到 整 个 文 摘 的 内 容 选 择 模 型, 进 行 主 题 片 段 抽 取, 该 方 法 虽 然 提 高 了 文 摘 的 内 聚 性 可 读 性, 但 主 题 片 段 抽 取 是 基 金 项 目 : 国 家 自 然 科 学 基 金 (No.90920004,No.60970056,No.61070123,No.61003153); 江 苏 省 高 校 自 然 科 学 重 大 基 础 研 究 项 目 (No.08KJA520002) 作 者 简 介 : 王 力 (1985 ), 男, 硕 士 研 究 生, 研 究 方 向 : 中 文 信 息 处 理 ; 李 培 峰 (1971 ), 男, 博 士, 副 教 授, 主 要 研 究 方 向 : 自 然 语 言 处 理 分 布 式 信 息 系 统 网 格 计 算 等 ; 朱 巧 明 (1964 ), 男, 教 授, 博 士 生 导 师, 主 要 研 究 方 向 : 自 然 语 言 处 理 Web 信 息 处 理 嵌 入 式 系 统 E-mail:qeiebz@163.com 收 稿 日 期 :2011-06-21 修 回 日 期 :2011-08-15 文 章 编 号 :1002-8331(2013)02-0160-05 CNKI 出 版 日 期 :2011-10-24 http://.cnki.net/kcms/detail/11.2127.p.20111024.1013.054.html
王 力, 李 培 峰, 朱 巧 明 : 一 种 基 于 LDA 模 型 的 主 题 句 抽 取 方 法 161 以 段 落 为 单 位, 选 择 粒 度 较 粗, 精 确 度 不 高 Fadi Biadsy [4] 把 主 题 句 抽 取 看 成 分 类 问 题, 利 用 机 器 学 习 方 法 训 练 一 个 判 断 主 题 句 和 非 主 题 句 的 二 元 分 类 器 来 抽 取 主 题 句, 在 个 人 履 历 生 成 的 具 体 应 用 中, 取 得 较 好 的 效 果 [5] 在 结 构 化 文 本 主 题 句 抽 取 中, 张 云 涛 将 概 念 关 系 引 入 词 串 的 权 重 计 算, 同 时 综 合 考 虑 句 子 长 度 句 子 的 位 置 [6] 文 本 层 次 结 构 等 信 息 进 行 主 题 句 抽 取 徐 超 首 先 对 文 档 [7] 进 行 主 题 分 割, 然 后 从 各 个 局 部 主 题 中 抽 取 文 摘 句 何 维 将 句 子 看 作 点, 将 句 子 之 间 的 相 似 性 看 作 边, 用 句 子 关 系 图 描 述 句 子 之 间 的 关 系, 搜 索 图 中 边 最 多 的 点 来 抽 取 主 题 句 这 些 方 法 在 具 体 实 验 中 都 取 得 了 一 定 的 抽 取 效 果, 但 主 题 句 的 赋 权 依 赖 于 具 体 的 文 本 结 构 和 句 子 位 置 等 启 发 性 信 息, 方 法 的 有 效 性 受 文 本 的 风 格 和 类 型 影 响 很 大, 因 此, 抽 取 的 主 题 句 具 有 随 机 性 不 确 定 性 在 基 于 Web 获 取 主 题 相 关 信 息, 并 进 行 主 题 句 抽 取 的 应 用 中, 获 取 的 候 选 主 题 句 有 着 噪 音 大 具 有 不 确 定 性 的 特 点, 主 题 句 的 可 信 度 计 算 变 得 尤 为 重 要 因 此, 本 文 采 用 机 器 学 习 方 法, 引 入 LDA 模 型, 在 主 题 模 型 所 生 成 的 句 子 - 主 题 分 布 (Sentence~topic) 的 基 础 上 提 出 主 题 句 的 可 信 度 计 算 方 法 来 进 一 步 抽 取 主 题 句 2 LDA 模 型 LDA 模 型 是 Blei [8] 等 在 2003 年 提 出 的 一 种 统 计 主 题 模 型 (Statistical opic Models), 是 一 种 对 文 本 数 据 的 主 题 信 息 进 行 建 模 的 方 法, 其 内 在 结 构 非 常 清 晰 如 图 1 所 示,LDA 模 型 假 设 一 个 文 本 由 多 个 隐 含 主 题 随 机 组 成, 而 每 个 主 题 又 由 文 本 中 的 特 定 词 汇 体 现, 这 种 假 设 也 比 较 符 合 客 观 实 际, 因 此, 可 将 隐 含 主 题 看 做 词 汇 的 概 率 分 布 (topic~ord), 单 个 文 档 可 表 示 为 这 些 隐 含 主 题 的 概 率 分 布 (doc~topic), 这 种 假 设 也 有 利 于 大 规 模 数 据 处 理 中 的 空 间 降 维, 即 把 文 档 投 影 到 topic 空 间 同 时,LDA 模 型 中 也 做 了 bag of ords 假 设, 即 假 设 单 词 之 间 是 没 有 任 何 关 联 的 离 散 数 据, 在 模 型 中 不 考 虑 任 何 语 法 和 词 汇 的 顺 序 ord 图 1 doc 假 设 一 个 文 本 含 有 个 主 题, 则 文 本 中 第 i 个 词 汇 i 出 现 的 概 率 可 以 表 示 如 下 : 文 档 层 主 题 层 topic 1 topic 2 topic n 词 层 LDA 隐 含 主 题 拓 扑 结 构 示 意 图 P( i ) = å P( i z i = )P(z i = ) (1) = 1 其 中,z i 在 模 型 中 表 示 i 取 自 某 个 主 题,P( i z i = ) 表 示 i 属 于 主 题 的 概 率,P(z i = ) 是 主 题 属 于 当 前 文 本 的 概 率 假 定 个 主 题 形 成 的 文 本 中 含 有 W 个 唯 一 性 词 汇, (z = ) 令 φ = P( z = ) 表 示 对 于 主 题,W 个 词 汇 上 的 多 项 分 布, 其 中 是 W 个 唯 一 性 词 汇 表 中 的 词 汇 ; 令 ψ (d) z = = P(z = ) 表 示 对 于 文 本 d, 个 主 题 上 的 多 项 分 布, 于 是 文 本 d 中 词 汇 的 概 率 为 : P( d) = åφ = 1 (z = ) ψ (d) z = (2) LDA 的 图 模 型 如 图 2 所 示,θ 和 Ζ 表 示 隐 含 变 量,W 是 唯 一 性 词 汇, 表 示 可 观 察 值 ; 给 定 文 档 集 合 D,D 是 一 个 包 含 M 个 文 档 的 集 合, 每 个 文 档 d 包 含 N 个 词, 假 设 D 的 主 题 数 目 为 个,LDA 生 成 模 型 如 下 : (1) 生 成 维 多 项 式 向 量 Φ 服 从 参 数 为 β 的 Dirichlet 分 布,Φ~Dirichlet(β) 即 主 题 - 词 分 布 (opic~ord) (2) 生 成 维 多 项 式 向 量 θ 服 从 参 数 为 α 的 Dirichlet 分 布,θ~Dirichlet(α) 即 文 档 - 主 题 分 布 (Doc~topic) (3) 对 文 档 中 每 一 个 词 n (1 < n < N) : 1 生 成 一 个 主 题 z n 服 从 参 数 为 θ 的 多 项 式 分 布 2 根 据 特 定 的 主 题 比 例 β, 对 n 生 成 P( n z n β) 本 文 在 ψ (d) 上 作 对 称 的 Dirichlet(α) 的 先 验 概 率 假 设 外, 在 φ (z) 上 也 作 对 称 的 Dirichlet(χ) 的 先 验 概 率 假 设 3 LDA 模 型 主 题 句 抽 取 近 年 来,LDA 模 型 被 广 泛 应 用 于 多 文 档 自 动 文 摘 [9] 文 [10] [11] 本 分 类 关 键 词 抽 取 等 研 究 领 域, 在 主 题 分 析 领 域, 石 [12] 晶 在 LDA 模 型 文 本 分 割 的 基 础 上, 确 定 片 段 主 题, 进 而 总 结 全 文 的 中 心 主 题 主 题 句 抽 取 主 要 涉 及 两 方 面 问 题 : (1) 抽 取 主 题 相 关 文 档 中 的 句 子 作 为 候 选 句 (2) 评 估 候 选 句 的 重 要 性 和 可 信 度, 进 一 步 抽 取 符 合 条 件 的 主 题 句 3.1 问 题 提 出 在 基 于 Web 的 关 键 词 查 询 获 取 主 题 信 息 的 应 用 领 域, 主 题 句 抽 取 的 信 息 来 源 不 同 于 传 统 的 研 究 对 象, 在 通 过 搜 索 可 获 取 的 主 题 信 息 中, 来 自 不 同 侧 面 的 主 题 句 往 往 随 机 散 落 在 文 本 的 各 个 角 落, 又 由 于 主 题 相 关 网 页 文 本 描 述 形 式 各 异, 因 此, 与 传 统 的 主 题 句 抽 取 方 法 不 同, 文 本 的 结 构 特 征 就 不 能 够 作 为 抽 取 主 题 句 的 考 虑 因 素 另 外, 从 网 页 文 本 内 容 来 讲, 其 内 容 往 往 掺 杂 较 多 主 题 不 相 关 信 息, 而 并 非 完 全 的 主 题 相 关 篇 章, 有 着 噪 声 大 文 本 结 构 信 息 少 等 特 点 因 此, 传 统 的 抽 取 方 法 难 以 满 足 该 类 主 题 句 抽 取 的 需 要 主 题 分 布 图 2 词 分 布 α θ Z 主 题 β LDA 图 模 型 关 键 词 N M
162 一 个 主 题 往 往 由 多 个 侧 面 从 不 同 角 度 加 以 强 调, 而 各 个 侧 面 信 息 之 间 有 着 衬 托 与 被 衬 托 的 关 系, 也 就 是 说 一 个 侧 面 是 因 其 他 多 个 侧 面 的 衬 托 而 存 在 文 献 [4] 在 主 题 句 抽 取 实 验 中 为 了 抽 取 相 关 主 题 句 而 采 用 机 器 学 习 方 法, 任 意 寻 找 非 主 题 句 集 合 加 入 二 元 分 类 模 型 训 练, 非 主 题 句 的 加 入 从 某 种 程 度 上 确 实 提 高 了 主 题 句 抽 取 的 性 能, 但 本 文 认 为 非 主 题 句 集 合 选 择 的 恰 当 与 否 以 及 粒 度 大 小 将 直 接 影 响 基 于 Web 的 网 络 文 本 主 题 句 的 抽 取 性 能 例 如, 在 另 文 介 绍 的 面 向 主 题 的 关 键 词 查 询 扩 展 方 法 中, 通 过 关 键 词 的 组 合 查 询 获 取 的 关 于 某 一 药 品 副 作 用 的 候 选 主 题 句, 发 现 该 药 品 功 能 主 治 这 一 侧 面 信 息 的 描 述 形 式 以 及 含 有 的 主 题 关 键 词 较 其 他 侧 面 ( 如 : 药 品 组 成 等 ) 均 与 目 标 主 题 存 在 较 大 相 似 性, 因 此, 在 实 际 的 主 题 句 抽 取 应 用 中, 如 果 从 单 个 侧 面 任 意 选 择 的 非 主 题 句 集 合 作 为 训 练 集 合 则 相 对 较 盲 目, 构 造 出 的 二 元 分 类 器 很 难 把 类 似 这 样 的 噪 音 句 从 候 选 句 中 剥 离 出 来, 所 以 本 文 结 合 前 期 的 实 验 结 果, 对 于 非 主 题 句 集 合 进 行 细 分, 根 据 获 取 候 选 主 题 句 实 验 中 可 预 见 的 噪 音 句 的 主 题 所 属, 构 造 多 个 侧 面 作 为 非 主 题 集 合 从 不 同 侧 面 衬 托 目 标 主 题, 从 而 进 行 主 题 句 抽 取 实 验, 在 引 入 的 LDA 模 型 中, 其 中 候 选 主 题 句 所 属 的 侧 面 对 应 于 图 1 中 的 主 题 层 3.2 总 体 框 架 本 文 在 面 向 Web 的 主 题 关 键 词 查 询 扩 展, 获 取 候 选 主 题 句 的 基 础 上, 采 用 机 器 学 习 方 法, 引 入 主 题 相 关 和 不 同 侧 面 的 非 相 关 信 息 来 训 练 LDA 分 类 模 型, 以 Gibbs 抽 样 获 得 LDA 模 型 中 主 题 句 的 主 题 概 率 分 布 (Sentence~topic) 和 主 题 词 汇 分 布 (opic~ord), 利 用 Sentence~topic 分 布 的 平 滑 度 进 行 可 信 度 计 算 来 进 一 步 抽 取 主 题 句 总 体 框 架 如 图 3 所 示, 其 中 的 预 处 理 包 括 分 词 分 句 停 用 词 处 理 主 题 候 选 句 筛 选 主 题 关 键 词 查 询 扩 展 方 法 ( 包 括 HML 页 面 解 析 关 键 词 组 合 查 询 策 略 主 题 关 键 词 迭 代 查 询 算 法 ) 将 另 文 介 绍 3.3 Gibbs 抽 样 MCMC(Markov Chain Monte Carlo) 提 供 了 从 后 验 分 布 直 接 抽 取 样 本 值 的 近 似 迭 代 方 法, 而 Gibbs 抽 样 简 化 了 实 现 MCMC 算 法 本 文 考 虑 词 汇 对 于 主 题 的 后 验 概 率 P( z), 利 用 Gibbs 抽 样 间 接 求 得 φ 和 ψ 的 值 其 目 的 是 构 造 收 敛 于 某 目 标 概 率 分 布 的 Markov 链, 并 从 链 中 抽 取 被 认 为 接 近 该 概 率 分 布 值 的 样 本 使 用 Gibbs 抽 样 的 关 键 是 构 造 目 标 概 率 分 布 函 数 在 本 文 中, 只 需 要 对 变 量 z i 进 行 抽 样 计 算 后 验 概 率 P( z i = z -i i ) 的 公 式 如 下 : P( z i = z -i i ) = n ( ) i + χ -i n ( -i ) + Wχ n ( ) i + χ -i å = 1 n ( ) -i + Wχ + α -i + α + α -i + α (3) 其 中, i 不 仅 仅 代 表 词 汇 本 身, 且 与 词 在 文 本 中 的 位 置 顺 序 有 关 z i = 表 示 将 i 分 配 给 主 题,z -i 是 所 有 k ¹ i 的 词 汇 分 配 情 况 n ( ) i -i 表 示 分 配 给 主 题 且 与 i z k ( ) 相 同 的 词 的 数 量 ;n ( -i ) 是 分 配 给 主 题 的 所 有 词 的 数 量 ; -i 是 在 文 本 d i 中 分 配 给 主 题 的 词 的 数 量 ; 是 d i 中 所 有 被 分 配 了 主 题 的 词 汇 的 数 量 ; 所 有 的 词 汇 个 数 均 不 包 括 这 次 z i = 的 分 配 Gibbs 抽 样 算 法 如 下 : 首 先 随 机 初 始 化 z i 为 [1,] 之 间 某 个 主 题, 即 为 Markov 链 的 初 始 状 态 ; 然 后 根 据 公 式 (3) 的 计 算 方 法 逐 个 将 词 汇 分 配 给 主 题, 从 而 得 到 Markov 链 的 下 一 个 状 态 ; 迭 代 一 定 次 数 以 后, 即 认 为 Markov 链 接 近 于 目 标 分 布 函 数 对 于 每 一 个 单 一 样 本, 可 以 按 下 式 估 算 φ 和 ψ 的 值 : φ ( z = ) = n( ) + χ ψ n ( ) + Wχ ( d ) = n( d ) z = + α n ( d ) + α 其 中,n ( ) 表 示 词 汇 被 分 配 给 主 题 的 频 数 ;n ( ) 给 主 题 的 所 有 词 数 ;n ( d ) (4) 表 示 分 配 表 示 文 本 d 中 分 配 给 主 题 的 词 数 ;n ( d ) 表 示 文 本 d 所 有 被 分 配 了 主 题 的 词 数 这 样, 文 本 d i 对 应 的 θ 向 量 的 各 个 分 量 可 以 通 过 公 式 (6) 计 算 获 得 θ (d i ) = + α -i d i z = ( å k = 1 -i k + α d i k ) (5) 其 中 α 是 一 个 维 的 Dirichlet 参 数 LDA 模 型 主 题 句 抽 取 框 架 训 练 语 料 预 处 理 Gibbs Sampling 主 题 关 键 词 查 询 扩 展 模 块 候 选 主 题 句 集 合 预 处 理 LDA 模 型 主 题 句 集 合 可 信 度 计 算 候 选 句 主 题 概 率 分 布 (Sentence~topic) 图 3 主 题 句 抽 取 总 体 框 架 图
王 力, 李 培 峰, 朱 巧 明 : 一 种 基 于 LDA 模 型 的 主 题 句 抽 取 方 法 163 3.4 主 题 句 可 信 度 计 算 在 面 向 Web 的 主 题 句 抽 取 具 体 应 用 中, 由 于 通 过 关 键 词 查 询 得 到 的 网 络 文 本 信 息 具 有 的 来 源 不 确 定 性 噪 音 大 等 特 点, 那 么, 关 键 词 查 询 扩 展 得 到 的 候 选 主 题 句 可 信 与 否 就 变 得 十 分 重 要, 因 此, 本 文 在 LDA 模 型 主 题 句 分 类 的 基 础 上 提 出 主 题 句 的 可 信 度 计 算 方 法 来 进 一 步 抽 取 较 可 信 的 主 题 句 在 本 文 的 主 题 句 抽 取 中, 将 获 取 的 候 选 句 对 应 到 LDA 模 型 中 的 文 档 层, 在 LDA 模 型 生 成 的 Sentence~topic 分 布 中, 假 设 θ 向 量 为 (θ 1 θ 2 θ n ), 则 每 个 θ i 表 明 了 主 题 句 被 分 配 到 opic i 的 概 率, 因 此, 不 同 的 主 题 句 对 应 的 θ 向 量 也 不 同, 不 同 的 θ 分 量 值 集 中 反 应 了 该 候 选 句 被 分 配 到 不 同 opic 的 概 率 大 小, 这 就 为 主 题 句 的 可 信 度 计 算 提 供 了 依 据 在 Sentence~topic 分 布 中, 假 设 opic i 为 目 标 主 题, opic ( Î[1 n] 且 ¹ i) 为 其 他 侧 面 衬 托 主 题, 在 可 信 度 计 算 中 目 标 主 题 opic i 在 Sentence~topic 分 布 中 的 概 率 值 必 须 为 所 有 概 率 分 配 中 的 最 大 值, 并 且 达 到 一 定 阈 值, 该 句 才 有 可 能 成 为 可 信 的 主 题 句, 具 体 计 算 方 法 如 公 式 (6) 所 示 另 外, 本 文 提 出 计 算 Sentence~topic 分 布 的 平 滑 度 加 强 主 题 句 可 信 度 计 算, 如 公 式 (7) 所 示 : θ i = arg max(θ 1 θ 2 θ n ) 且 θ i ϕ (6) θ i + θ δ, ¹ i 且 θ 仅 小 于 θ i (7) 在 公 式 (7) 中, 本 文 考 虑 Sentence~topic 分 布 的 平 滑 度 来 作 为 可 信 度 计 算 的 依 据,Sentence~topic 分 布 越 不 平 滑, 表 明 该 句 属 于 目 标 主 题 的 特 征 越 明 显, 其 越 有 可 能 是 可 信 的 主 题 句, 反 之, 分 布 越 平 滑, 说 明 句 子 属 于 目 标 主 题 的 特 性 相 对 于 其 他 侧 面 主 题 不 明 显, 不 足 以 区 分 主 题 所 属, 那 么 该 句 是 噪 音 句 的 概 率 就 非 常 大 例 如, 假 设 有 两 个 候 选 主 题 句 通 过 Gibbs 抽 样 获 取 其 在 各 个 opic 上 的 主 题 概 率 分 布 ( 其 中 有 4 个 opic,opic2 为 目 标 主 题 ), 分 别 为 候 选 句 一 θ 1 (0.4,0.5,0.08,0.02) 候 选 句 二 θ 2 (0.15,0.5,0.15,0.2), 那 么 很 明 显 候 选 句 一 和 候 选 句 二 在 目 标 主 题 上 都 取 得 了 较 高 的 可 信 概 率, 但 根 据 平 滑 度 计 算 公 式, 候 选 句 二 较 于 候 选 句 一 在 目 标 主 题 上 具 有 更 高 的 可 信 度, 原 因 是 虽 然 候 选 句 一 在 目 标 主 题 opic 2 上 足 够 可 信, 但 考 虑 到 目 标 主 题 上 的 概 率 分 配 与 其 他 侧 面 主 题 概 率 分 配 的 落 差, 其 在 opic 1 上 同 样 有 较 高 的 主 题 分 配 概 率, 而 候 选 句 二 在 目 标 主 题 上 的 概 率 分 配 值 明 显 优 于 其 他 侧 面 主 题, 在 LDA 分 类 模 型 训 练 不 充 分 的 情 况 下,Gibbs 抽 样 获 取 的 主 题 概 率 分 配 本 身 仅 仅 具 有 参 考 价 值, 因 此 在 实 际 的 开 放 测 试 中, 根 据 各 个 主 题 概 率 分 配 的 平 滑 度 来 计 算 候 选 句 可 信 与 否 对 于 面 向 Web 的 主 题 句 抽 取 非 常 必 要 公 式 (6) (7) 中 参 数 ϕ,δ 的 取 值 对 系 统 性 能 的 影 响 将 在 后 续 实 验 中 分 别 进 行 讨 论 4 实 验 及 结 果 分 析 本 文 锁 定 中 药 领 域, 选 择 中 药 ( 包 括 板 蓝 根 牛 黄 解 毒 片 维 C 银 翘 片 ) 这 三 类 药 品 的 副 作 用 这 一 基 于 Web 的 目 标 主 题 作 为 主 题 句 抽 取 实 验, 力 求 根 据 某 一 类 药 品 ( 如 : 牛 黄 解 毒 片 ) 的 描 述 语 句 作 为 训 练 集, 利 用 其 在 同 类 型 主 题 的 描 述 习 惯, 来 对 其 他 类 别 的 中 药 产 品 ( 如 : 板 蓝 根 ) 的 副 作 用 相 关 主 题 句 进 行 抽 取 实 验 整 个 实 验 分 为 两 大 部 分 :LDA 模 型 训 练 和 主 题 句 抽 取 测 试 在 LDA 模 型 训 练 实 验 中, 分 为 两 个 实 验, 其 目 的 是 探 测 非 主 题 相 关 信 息 的 细 化 粒 度 对 于 主 题 句 抽 取 性 能 的 影 响 实 验 1: 手 工 收 集 牛 黄 解 毒 片 这 一 药 品 的 4 个 侧 面 ( 包 括 功 能 主 治 生 产 厂 家 副 作 用 药 品 组 成 ), 句 子 总 数 874 句 作 为 训 练 集 实 验 2: 不 从 多 个 侧 面 划 分 非 主 题 相 关 信 息, 训 练 语 料 仅 划 分 为 主 题 相 关 (410 句 ) 和 非 主 题 相 关 信 息 (464 句 ) 两 类, 共 计 总 数 也 是 874 句 实 验 中 不 同 侧 面 对 应 于 LDA 模 型 中 不 同 的 主 题, 因 此, 本 文 中 LDA 主 题 数 目 参 数 设 置 为 4 个 α 和 β 设 置 为 默 认 值, 分 别 为 α = 0.5, β = 0.1 迭 代 次 数 设 置 为 1 000 次 χ 取 经 验 值 0.01 实 验 1 中 模 型 训 练 语 料 具 体 主 题 侧 面 分 类 如 表 1 所 示 在 系 统 性 能 测 试 实 验 中, 测 试 语 料 来 源 于 另 文 介 绍 的 关 键 词 查 询 扩 展 实 验, 通 过 Web 搜 索 得 到 的 另 外 两 个 药 品 ( 板 蓝 根 维 C 银 翘 片 ) 带 有 噪 音 的 候 选 主 题 句 子 集 合, 具 体 主 题 分 类 如 表 2 所 示 对 于 系 统 性 能 的 评 测, 本 文 采 用 准 确 率 (precision), 召 回 率 (recall),f 度 量 (F-measure) 三 个 指 标 来 对 目 标 主 题 的 抽 取 性 能 进 行 评 价 具 体 定 义 如 下 : recall = 表 1 表 2 主 题 侧 面 /opic 侧 面 功 能 主 治 副 作 用 噪 音 句 总 计 实 验 1 不 同 侧 面 训 练 语 料 集 合 副 作 用 功 能 主 治 组 成 生 产 厂 家 总 计 板 蓝 根 正 确 抽 取 的 主 题 句 主 题 相 关 句 总 数 358 1 233 6 858 8 449 正 确 抽 取 的 主 题 句 precision = 抽 取 句 子 总 数 2 precision recall F = precision + recall 句 子 数 410 279 (8) (9) (10) 在 测 试 语 料 集 合 中, 通 过 人 工 标 注 每 个 候 选 主 题 句 所 属 opic, 其 中 噪 音 句 表 示 该 句 不 足 以 归 属 于 训 练 语 料 中 的 任 何 一 个 opic 从 表 2 中 可 以 看 到, 通 过 药 品 副 作 用 这 一 目 标 主 题 的 关 键 词 查 询 扩 展 实 验 得 到 的 候 选 主 题 句, 掺 杂 大 量 的 噪 音 句, 从 而 影 响 了 主 题 句 的 抽 取 性 能, 因 此, 本 36 149 874 候 选 主 题 句 测 试 语 料 集 合 药 品 维 C 银 翘 片 223 419 4 912 5 554
164 文 采 用 3.2 节 提 出 的 可 信 度 计 算 方 法, 来 进 一 步 抽 取 可 信 的 主 题 句 在 公 式 (5) 中, 因 为 参 数 ϕ 是 对 主 题 句 的 进 行 可 信 度 筛 选 的 较 为 可 靠 的 概 率 阈 值, 根 据 常 识, 概 率 超 过 0.5 时, 初 选 的 主 题 句 才 较 为 可 信, 因 此 本 文 设 定 参 数 ϕ Î [ 0.65 0.85 ],δ Î[ ] 0.7 0.95, 探 测 ϕ δ 对 系 统 性 能 的 影 响, 参 数 ϕ,δ 对 主 题 句 抽 取 性 能 的 影 响 如 图 4 图 5 所 示 主 题 句 抽 取 F 值 主 题 句 抽 取 F 值 0.72 0.70 0.68 0.66 0.64 0.62 0.60 0.58 0.56 0.54 0.72 0.70 0.68 0.66 0.64 0.62 0.60 0.58 0.56 0.54 0.65 0.70 0.75 0.80 0.85 参 数 Φ 图 4 0.70 0.75 0.80 0.85 0.90 0.95 参 数 δ 图 5 另 外, 在 测 试 实 验 中, 分 别 对 两 类 药 品 ( 板 蓝 根 维 C 银 翘 片 ) 进 行 主 题 句 抽 取 实 验 测 试 评 价, 将 本 文 提 出 方 法 与 文 献 [4] 采 用 的 SVM 二 元 分 类 方 法 以 及 LDA 模 型 分 类 本 身 分 别 从 实 验 1 实 验 2 进 行 对 比 实 验, 来 探 测 不 同 的 话 题 数 对 性 能 的 影 响 其 评 价 结 果 如 表 3 所 示 实 验 1 实 验 2 参 数 ϕ 对 主 题 句 抽 取 性 能 影 响 参 数 δ 对 主 题 句 抽 取 性 能 影 响 表 3 方 法 LDA 本 文 方 法 LDA 本 文 方 法 SVM 主 题 句 抽 取 性 能 评 价 Precison 41.97 66.01 28.51 36.66 76.57 Recall 84.41 74.82 97.23 88.26 51.81 (%) δ=0.70 δ=0.75 δ=0.80 δ=0.85 δ=0.90 δ=0.95 Φ=0.65 Φ=0.70 Φ=0.75 Φ=0.80 Φ=0.85 从 上 述 实 验 结 果 可 以 看 出, 在 开 放 测 试 中, 本 文 提 出 的 主 题 句 抽 取 方 法 有 着 相 对 较 好 的 性 能, 这 是 由 于 引 入 的 LDA 模 型 中, 非 主 题 相 关 信 息 的 进 一 步 细 化, 使 得 多 个 侧 面 对 于 目 标 主 题 的 衬 托 有 利 于 提 高 最 终 的 主 题 句 抽 取 精 度 另 外, 在 针 对 网 络 主 题 文 本 所 具 有 的 噪 音 大 不 确 定 性 的 特 点, 引 入 的 主 题 句 的 可 信 度 计 算 方 法 能 够 有 效 地 过 滤 掉 大 量 的 噪 音 句, 在 一 定 程 度 上 提 高 了 主 题 句 抽 取 的 性 能 从 LDA 模 型 本 身 来 讲,LDA 的 Dirichlet 先 验 概 率 假 设, 使 得 模 型 易 于 处 理 训 练 语 料 之 外 的 新 文 本, 这 就 是 LDA 模 型 相 对 于 SVM 召 回 率 较 高 的 原 因, 而 在 准 确 率 方 面,LDA 模 型 的 精 度 相 对 较 低, 通 过 分 析, 其 原 因 是 LDA 主 题 模 型 本 身 是 通 过 采 样 的 方 法 来 模 拟 真 实 文 本, 语 料 的 规 模 将 对 F 55.65 69.94 44.09 51.80 61.80 最 终 抽 取 的 准 确 率 有 较 大 影 响, 因 此, 语 料 的 有 效 扩 充 是 进 一 步 研 究 需 要 改 进 的 重 点 通 过 图 4 参 数 ϕ 对 抽 取 性 能 的 影 响 图 中 可 以 看 出, 不 管 δ 的 取 值 如 何, 随 着 ϕ 值 的 增 加, 系 统 F 值 呈 现 类 似 抛 物 线 形 状 的 分 布 图, 其 原 因 是, 虽 然 在 LDA 分 类 模 型 的 基 础 上, 选 取 合 适 的 ϕ 值 确 实 可 以 提 高 主 题 句 抽 取 性 能, 但 随 着 ϕ 值 的 增 大, 在 准 确 率 提 高 的 同 时, 系 统 召 回 率 也 相 应 有 所 下 降 图 5 大 体 反 映 出 主 题 句 的 Sentence~topic 分 布 越 不 平 滑, 该 句 的 可 信 度 就 越 高 这 一 理 论 事 实 但 在 δ =0.9 时, 多 条 性 能 曲 线 都 表 现 出 反 弹 现 象, 通 过 仔 细 分 析 发 现, 这 是 由 于 LDA 模 型 本 身 的 分 类 错 误 造 成 的, 本 文 的 主 题 句 可 信 度 计 算 是 在 LDA 分 类 较 为 可 靠 这 一 假 设 性 前 提 的 基 础 上 进 行 的, 如 果 对 于 部 分 主 题 句, 前 期 的 LDA 分 类 不 足 以 明 显 区 分 主 题 所 属, 那 么 可 信 度 计 算 就 很 难 达 到 预 想 的 效 果, 所 以, 选 择 可 靠 的 主 题 句 集 合 扩 充 LDA 模 型 训 练, 提 高 模 型 本 身 的 可 靠 性, 是 下 一 步 需 要 重 点 研 究 的 问 题 本 文 对 于 主 题 句 抽 取 错 误 的 语 料 进 行 了 专 门 分 析, 发 现 影 响 系 统 性 能 的 原 因 有 以 下 几 个 方 面 : (1) 对 于 基 于 Web 的 主 题 句 来 源 的 不 确 定 性, 使 得 符 合 LDA 分 类 模 型 的 句 子 却 不 是 目 标 主 题 所 需 要 的 主 题 信 息 另 外, 有 部 分 候 选 主 题 句 由 于 缺 少 主 语 或 宾 语, 由 于 分 句 的 原 因 造 成 指 代 不 明 确 或 者 主 语 缺 失 等 现 象, 使 得 抽 取 的 主 题 句 不 能 够 符 合 目 标 主 题 的 要 求 (2) 通 过 关 键 词 查 询 扩 展 获 取 的 候 选 主 题 句, 虽 然 含 有 大 量 的 主 题 关 键 词, 却 不 是 完 整 意 义 的 主 题 句, 又 由 于 LDA 模 型 的 bag of ords 假 设, 使 得 这 样 的 噪 音 句 反 而 极 易 分 类 为 主 题 句 (3) 另 文 介 绍 的 面 向 Web 的 关 键 词 查 询 扩 展 实 验, 随 着 迭 代 次 数 的 不 断 增 加, 发 生 查 询 漂 移 (Query Drift) 的 机 率 也 相 应 增 加, 查 询 扩 展 得 到 的 候 选 主 题 句 子 集 的 主 题 相 关 性 不 断 分 散, 加 上 LDA 模 型 训 练 语 料 不 充 分, 容 易 产 生 LDA 本 身 分 类 错 误 5 总 结 与 展 望 本 文 提 出 一 种 基 于 LDA 模 型 的 主 题 句 抽 取 方 法, 采 用 Gibbs 抽 样 方 法, 通 过 多 个 侧 面 对 目 标 主 题 的 衬 托, 利 用 主 题 概 率 分 布 的 平 滑 度 进 行 可 信 度 计 算 来 抽 取 主 题 句, 在 具 体 应 用 中 取 得 了 相 对 较 好 的 效 果 在 下 一 步 工 作 中, 针 对 以 上 影 响 主 题 句 抽 取 的 几 个 因 素, 如 何 选 择 大 量 未 标 注 的 可 靠 主 题 句 来 扩 充 训 练 LDA 模 型 引 入 指 代 消 解 预 处 理 技 术 以 及 如 何 使 面 向 主 题 的 关 键 词 查 询 扩 展 获 取 候 选 主 题 句 与 主 题 句 抽 取, 两 者 能 够 相 互 促 进, 以 达 到 提 高 整 体 抽 取 性 能 的 效 果 是 下 一 步 需 要 重 点 研 究 的 问 题 参 考 文 献 : [1] 马 亮, 何 婷 婷, 李 芳, 等. 以 关 键 词 抽 取 为 核 心 的 文 摘 句 选 择 策 略 [J]. 中 文 信 息 学 报,2008,22(6). ( 下 转 257 页 )