201302



Similar documents
说 明 为 了 反 映 教 运 行 的 基 本 状 态, 为 校 和 院 制 定 相 关 政 策 和 进 行 教 建 设 与 改 革 提 供 据 依 据, 校 从 程 资 源 ( 开 类 别 开 量 规 模 ) 教 师 结 构 程 考 核 等 维 度, 对 2015 年 春 季 期 教 运 行 基

何 秋 琳 张 立 春 视 觉 学 习 研 究 进 展 视 觉 注 意 视 觉 感 知

龚 亚 夫 在 重 新 思 考 基 础 教 育 英 语 教 学 的 理 念 一 文 中 援 引 的 观 点 认 为 当 跳 出 本 族 语 主 义 的 思 维 定 式 后 需 要 重 新 思 考 许 多 相 连 带 的 问 题 比 如 许 多 发 音 的 细 微 区 别 并 不 影 响 理 解 和

2006年顺德区高中阶段学校招生录取分数线

<433A5C446F63756D656E E E67735C41646D696E F725CD7C0C3E65CC2DBCEC4CFB5CDB3CAB9D3C3D6B8C4CFA3A8BCF2BBAFA3A95CCAB9D3C3D6B8C4CF31302D31392E646F63>

,,,,, :,, (.,, );, (, : ), (.., ;. &., ;.. &.., ;, ;, ),,,,,,, ( ) ( ),,,,.,,,,,, : ;, ;,.,,,,, (., : - ),,,, ( ),,,, (, : ),, :,

《C语言基础入门》课程教学大纲

课程类 别


一 公 共 卫 生 硕 士 专 业 学 位 论 文 的 概 述 学 位 论 文 是 对 研 究 生 进 行 科 学 研 究 或 承 担 专 门 技 术 工 作 的 全 面 训 练, 是 培 养 研 究 生 创 新 能 力, 综 合 运 用 所 学 知 识 发 现 问 题, 分 析 问 题 和 解 决

Microsoft Word - 第7章 图表反转形态.doc

马 克 思 主 义 公 正 观 的 基 本 向 度 及 方 法 论 原 则!! # #

中 国 软 科 学 年 第 期!!!

随着执业中医师资格考试制度的不断完善,本着为我校中医学专业认证服务的目的,本文通过对我校中医类毕业生参加2012年和2013年的中医执业医师考试成绩及通过率、掌握率进行分析,并与全国的平均水平进行差异比较分析,以此了解我校执业中医师考试的现状,进而反映我校中医类课程总体教学水平,发现考核知识模块教学中存在的不足,反馈给相关学院和教学管理部门,以此提高教学和管理水平。

深圳市新亚电子制程股份有限公司


抗 战 时 期 国 民 政 府 的 银 行 监 理 体 制 探 析 % # % % % ) % % # # + #, ) +, % % % % % % % %

评 委 : 李 炎 斌 - 个 人 技 术 标 资 信 标 初 步 审 查 明 细 表 序 号 投 标 单 位 投 标 函 未 按 招 标 文 件 规 定 填 写 漏 填 或 内 容 填 写 错 误 的 ; 不 同 投 标 人 的 投 标 文 件 由 同 一 台 电 脑 或 同 一 家 投 标 单

0 年 上 半 年 评 价 与 考 核 细 则 序 号 部 门 要 素 值 考 核 内 容 考 核 方 式 考 核 标 准 考 核 ( 扣 原 因 ) 考 评 得 3 安 全 生 产 目 30 无 同 等 责 任 以 上 道 路 交 通 亡 人 事 故 无 轻 伤 责 任 事 故 无 重 大 质 量

<4D F736F F D D323630D6D0B9FAD3A6B6D4C6F8BAF2B1E4BBAFB5C4D5FEB2DFD3EBD0D0B6AF C4EAB6C8B1A8B8E6>


18 上 报 该 学 期 新 生 数 据 至 阳 光 平 台 第 一 学 期 第 四 周 至 第 六 周 19 督 促 学 习 中 心 提 交 新 增 专 业 申 请 第 一 学 期 第 四 周 至 第 八 周 20 编 制 全 国 网 络 统 考 十 二 月 批 次 考 前 模 拟 题 第 一 学

HSK( 一 级 ) 考 查 考 生 的 日 常 汉 语 应 用 能 力, 它 对 应 于 国 际 汉 语 能 力 标 准 一 级 欧 洲 语 言 共 同 参 考 框 架 (CEF) A1 级 通 过 HSK( 一 级 ) 的 考 生 可 以 理 解 并 使 用 一 些 非 常 简 单 的 汉 语

评 委 : 徐 岩 宇 - 个 人 技 术 标 资 信 标 初 步 审 查 明 细 表 序 号 投 标 单 位 投 标 函 未 按 招 标 文 件 规 定 填 写 漏 填 或 内 容 填 写 错 误 的 ; 不 同 投 标 人 的 投 标 文 件 由 同 一 台 电 脑 或 同 一 家 投 标 单

<433A5C C6B73625C B746F705CB9FABCCAD6D0D2BDD2A9D7A8D2B5B8DFBCB6BCBCCAF5D6B0B3C6C6C0C9F3C9EAC7EBD6B8C4CFA3A CDA8D3C3B0E6A3A92E646F63>

研 究 对 象 研 究 角 度 研 究 工 具 数 据 收 集 和 预 处 理 网 络 密 度 与 平 均 距 离 分 析

国债回购交易业务指引

名 称 生 命 科 学 学 院 环 境 科 学 1 生 物 学 仅 接 收 院 内 调 剂, 初 试 分 数 满 足 我 院 生 物 学 复 试 最 低 分 数 线 生 命 科 学 学 院 生 态 学 5 生 态 学 或 生 物 学 生 命 科 学 学 院

 编号:

修改版-操作手册.doc


( ) 信 号 与 系 统 Ⅰ 学 科 基 础 必 修 课 教 周 2016 年 06 月 13 日 (08:00-09:35) ( )

一 开 放 性 的 政 策 与 法 规 二 两 岸 共 同 的 文 化 传 承 三 两 岸 高 校 各 自 具 有 专 业 优 势 远 见 杂 志 年 月 日

Microsoft Word - 文件汇编.doc

珠江钢琴股东大会

第 期 李 伟 等 用 方 法 对 中 国 历 史 气 温 数 据 插 值 可 行 性 讨 论

一 六 年 级 下 册 教 科 书 总 体 说 明 ( 一 ) 教 学 内 容 本 册 教 科 书 一 共 安 排 了 5 个 教 学 单 元, 其 中 前 4 个 单 元 为 新 知 识, 第 五 单 元 是 对 整 个 小 学 阶 段 所 学 数 学 知 识 系 统 的 整 理 和 复 习

I

!!

抗 日 战 争 研 究 年 第 期

第二讲 数列

年 第 期 % %! & % % % % % % &

¹ º ¹ º 农 业 流 动 人 口 是 指 户 口 性 质 为 农 业 户 口 在 流 入 地 城 市 工 作 生 活 居 住 一 个 月 及 以 上 的 流 动 人 口 非 农 流 动 人 口 是 指 户 口 性 质 为 非 农 户 口 在 流 入 地 城 市 工 作 生 活 居 住 一 个

Microsoft Word - 第3章.doc

教师上报成绩流程图

Template BR_Rec_2005.dot

( 二 ) 现 行 统 一 高 考 制 度 不 利 于 培 养 人 的 创 新 精 神,,,,,,,,,,,,, [ ],,,,,,,,,,, :, ;,,,,,,? ( 三 ) 现 行 统 一 高 考 制 度 不 利 于 全 体 学 生 都 获 得 全 面 发 展,, [ ],,,,,,,,,,,

类 似 地, 又 可 定 义 变 下 限 的 定 积 分 : ( ). 与 ψ 统 称 为 变 限 积 分. f ( ) d f ( t) dt,, 注 在 变 限 积 分 (1) 与 () 中, 不 可 再 把 积 分 变 量 写 成 的 形 式 ( 例 如 ) 以 免 与 积 分 上 下 限 的

上证指数

导 数 和 微 分 的 概 念 导 数 的 几 何 意 义 和 物 理 意 义 函 数 的 可 导 性 与 连 续 性 之 间 的 关 系 平 面 曲 线 的 切 线 和 法 线 导 数 和 微 分 的 四 则 运 算 基 本 初 等 函 数 的 导 数 复 合 函 数 反 函 数 隐 函 数 以

<4D F736F F D20C6F3D2B5C5E0D1B5CAA6B9FABCD2D6B0D2B5B1EAD7BC2E646F63>

正 规 培 训 达 规 定 标 准 学 时 数, 并 取 得 结 业 证 书 二 级 可 编 程 师 ( 具 备 以 下 条 件 之 一 者 ) (1) 连 续 从 事 本 职 业 工 作 13 年 以 上 (2) 取 得 本 职 业 三 级 职 业 资 格 证 书 后, 连 续 从 事 本 职 业

<4D F736F F D C4EAB9A4B3CCCBB6CABFCAFDD1A7D7A8D2B5BFCEBFBCCAD4B4F3B8D9D3EBD2AAC7F3>


<4D F736F F D20BFC9B1E0B3CCD0F2BFD8D6C6CFB5CDB3C9E8BCC6CAA6B9FABCD2D6B0D2B5B1EAD7BC2E646F63>

伊 犁 师 范 学 院 611 语 言 学 概 论 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 2-2 语 言 学 纲 要 笔 记, 由 考 取 本 校 本 专 业 高 分 研 究 生 总 结 而 来, 重 点 突 出, 借 助 此 笔 记 可 以 大 大 提 高 复 习 效

国家职业标准:网络课件设计师

际 联 考 的 非 美 术 类 本 科, 提 前 批 本 科 体 育 类 第 一 批 第 二 批 第 三 批 的 理 工 类 和 文 史 类 本 科 平 行 志 愿, 考 生 可 以 填 报 6 所 院 校 志 愿 符 合 贫 困 地 区 专 项 计 划 和 农 村 考 生 专 项 计 划 报 考

<4D F736F F D20B9D8D3DAB0BABBAAA3A8C9CFBAA3A3A9D7D4B6AFBBAFB9A4B3CCB9C9B7DDD3D0CFDEB9ABCBBE C4EAC4EAB6C8B9C9B6ABB4F3BBE1B7A8C2C9D2E2BCFBCAE92E646F6378>

采 取 行 动 的 机 会 90% 开 拓 成 功 的 道 路 2

公 开 刊 物 须 有 国 内 统 一 刊 (CN), 发 表 文 章 的 刊 物 需 要 在 国 家 新 闻 出 版 广 电 总 局 ( 办 事 服 务 便 民 查 询 新 闻 出 版 机 构 查 询 ) 上 能 够 查 到 刊 凡 在 有 中 国 标 准 书 公 开


物 流 从 业 人 员 职 业 能 力 等 级 证 书 分 为 四 个 级 别, 分 别 为 初 级 助 理 级 中 级 和 高 级 ; 采 购 从 业 人 员 职 业 能 力 等 级 证 书 分 为 三 个 级 别, 分 别 为 中 级 高 级 和 注 册 级 请 各 有 关 单 位 按 照 通


2 师 资 引 进 与 设 备 建 设 3 英 语 高 地 建 设 与 课 外 实 践 三 六 种 教 学 模 式 改 革 的 内 涵 19


第 六 章 债 券 股 票 价 值 评 估 1 考 点 一 : 债 券 价 值 的 影 响 因 素 2

!!!!!!!!!!

3 月 30 日 在 中 国 证 券 报 上 海 证 券 报 证 券 时 报 证 券 日 报 和 上 海 证 券 交 易 所 网 站 上 发 出 召 开 本 次 股 东 大 会 公 告, 该 公 告 中 载 明 了 召 开 股 东 大 会 的 日 期 网 络 投 票 的 方 式 时 间 以 及 审

Microsoft Word - 资料分析练习题09.doc

2009—2010级本科课程教学大纲与课程简介格式

第2章 数据类型、常量与变量

2016年南开大学MBA招生信息

国际财务报告准则第13号——公允价值计量

内 容 二 : 建 立 并 完 善 了 三 点 的 网 络 教 学 管 理 体 系 内 容 三 : 注 重 培 养 学 生 的 听 说 能 力 14

思 想 政 治 理 论 经 核 查 无 误 思 想 政 治 理 论 经 核 查 无 误 思 想 政 治 理 论 经 核 查 无 误 思 想

一、资质申请

定 位 和 描 述 : 程 序 设 计 / 办 公 软 件 高 级 应 用 级 考 核 内 容 包 括 计 算 机 语 言 与 基 础 程 序 设 计 能 力, 要 求 参 试 者 掌 握 一 门 计 算 机 语 言, 可 选 类 别 有 高 级 语 言 程 序 设 计 类 数 据 库 编 程 类

《应用数学Ⅰ》教学大纲

目 录 板 块 和 行 业 配 置 概 述... 1 板 块 配 置 : 创 业 板 中 小 板 比 重 增 加 大 势 不 变... 1 行 业 配 置 : 计 算 机 医 药 重 仓 超 配, 煤 炭 钢 铁 仓 位 最 低... 1 仓 位 - 时 间 变 化 规 律 : 等 高 线 图 分

试 制 度 的 科 学 性 及 合 理 性 问 题 的 调 查 上 具 有 较 强 的 代 表 性 一 我 国 注 册 资 产 评 估 师 考 试 制 度 合 理 性 的 调 查 分 析 为 了 解 被 调 查 者 对 我 国 目 前 注 册 资 产 评 估 师 考 试 制 度 合 理 性 的 评

·岗位设置管理流程

2 熟 悉 Visual Basic 的 集 成 开 发 环 境 3 了 解 可 视 化 面 向 对 象 编 程 事 件 驱 动 交 互 式 开 发 等 基 本 概 念 4 了 解 Visual Basic 的 特 点 环 境 要 求 与 安 装 方 法 1 Visual Basic 开 发 应 用

2014年中央财经大学研究生招生录取工作简报

附件1:

微 积 分 ( 二 ) 教 学 大 纲 2 (2010 版 ) 课 程 编 码 : 课 程 名 称 : 微 积 分 学 时 / 学 分 :36/2 先 修 课 程 : 初 等 数 学 立 体 几 何 平 面 解 析 几 何 微 积 分 ( 一 ) 适 用 专 业 : 人 力 资 源 管

精 勤 求 学 自 强 不 息 Born to win! 解 析 : 由 极 限 的 保 号 性 知 存 在 U ( a) 当 a 时 f ( ) f ( a) 故 f ( ) 在 点 a 不 取 极 值 f ( ) f ( a) f ( ) f ( a) lim lim a a a a ( a)

上海证券交易所会议纪要

目 录 关 于 图 标... 3 登 陆 主 界 面... 3 工 单 管 理... 5 工 单 列 表... 5 搜 索 工 单... 5 工 单 详 情... 6 创 建 工 单... 9 设 备 管 理 巡 检 计 划 查 询 详 情 销 售 管

untitled

上海证券交易所会议纪要

数 学 标 准 不 练 习 1.1 理 解 问 题 并 坚 持 解 决 这 些 问 题 1.2 以 抽 象 和 定 量 方 式 推 理 1.3 建 构 可 行 参 数 和 评 判 他 人 的 推 理 1.4 使 用 数 学 方 法 建 模 1.5 策 略 性 地 使 用 合 适 的 工 具 1.6

西 南 民 族 学 院 学 报 哲 学 社 会 科 学 版 第 卷 资 料 来 源 中 国 统 计 年 鉴 年 年 新 中 国 五 十 年 统 计 资 料 汇 编 中 国 人 口 统 计 年 鉴 年 数 据 资 料 来 源 中 国 统 计 年 鉴 中 国 统 计 出 版 社 年 版 资 料 来 源

登录、注册功能的测试用例设计.doc

证券代码: 证券简称:长城电脑 公告编号:


用节点法和网孔法进行电路分析

ETF、分级基金规模、份额变化统计

抗 日 战 争 研 究 % 年 第 期! # # % %

002 电 子 科 学 与 工 程 学 院 拟 招 生 150 人 联 系 人 : 周 老 师, 电 话 物 理 电 子 学 电 路 分 析 电 磁 场 理 论 01 电 磁 物 理 与 微 波 电 子 学 02 光 子 学 与 光 电 技 术 03 微 纳

Transcription:

160 一 种 基 于 LDA 模 型 的 主 题 句 抽 取 方 法 王 1,2 1,2 1,2 力, 李 培 峰, 朱 巧 明 WANG Li 1,2, LI Peifeng 1,2, ZHU Qiaoming 1,2 1. 苏 州 大 学 计 算 机 科 学 和 技 术 学 院, 江 苏 苏 州 215006 2. 江 苏 省 计 算 机 信 息 处 理 技 术 重 点 实 验 室, 江 苏 苏 州 215006 1.School of Computer Science and echnology, Soocho University, Suzhou, Jiangsu 215006, China 2.Jiangsu Provincial Key Lab for Computer Information Processing echnology, Suzhou, Jiangsu 215006, China WANG Li, LI Peifeng, ZHU Qiaoming. Approach for topical sentence extraction based on model LDA. Computer Engineering and Applications, 2013, 49(2):160-164. Abstract:his paper proposes a novel topic sentence extraction approach based on model LDA on basis of acquiring candidate topic sentences through the topic-related and query-based keyord expansion. It can extract fine granularity on the subect and increase the reliability of the certain topical information. On several sub-topics against a target topic, it extracts those topic sentences by means of the reliability calculation according to the smoothness of the topic-sentence probability distribution. he method achieves good result in the special application of sentence extraction on eb topic. Key ords:latent Dirichlet Allocation(LDA); topic model; topical sentence extraction; information fusion 摘 要 : 在 基 于 Web 的 主 题 关 键 词 查 询 扩 展, 获 取 候 选 主 题 句 的 基 础 上, 提 出 一 种 基 于 LDA 模 型 的 主 题 句 抽 取 方 法, 以 抽 取 粒 度 较 细 的 主 题 信 息, 并 增 加 主 题 信 息 的 置 信 度 该 方 法 通 过 多 个 侧 面 对 目 标 主 题 的 衬 托, 采 用 LDA 模 型 对 主 题 信 息 进 行 建 模, 利 用 各 个 主 题 概 率 分 布 的 平 滑 度 进 行 候 选 句 的 可 信 度 计 算 来 抽 取 主 题 句 在 面 向 Web 的 主 题 句 抽 取 的 具 体 应 用 中, 取 得 了 较 好 的 效 果 关 键 词 : 隐 含 狄 利 克 雷 分 配 (LDA); 主 题 模 型 ; 主 题 句 抽 取 ; 信 息 融 合 文 献 标 志 码 :A 中 图 分 类 号 :P391.12 doi:10.3778/.issn.1002-8331.1106-0361 主 题 句 是 表 示 文 本 或 文 档 集 主 题 内 容 的 重 要 方 式, 主 题 句 抽 取 是 文 本 分 类 信 息 检 索 自 动 文 摘 等 文 本 自 动 处 理 应 用 的 基 础 性 工 作 主 题 句 抽 取 结 果 的 好 坏 将 进 一 步 影 响 后 续 领 域 应 用 的 系 统 性 能 目 前, 关 于 主 题 句 抽 取 的 研 究 主 要 涉 及 两 类 不 同 的 研 究 对 象 :(1) 对 于 既 定 的 文 档 或 文 档 集 合 抽 取 主 题 句, 该 类 研 究 方 法 往 往 考 虑 文 档 的 结 构 特 征 和 主 题 概 念 特 征 作 为 主 题 句 抽 取 的 依 据 (2) 基 于 Web 获 取 主 题 相 关 候 选 句, 然 后 对 候 选 句 进 行 再 次 筛 选, 进 一 步 抽 取 主 题 句 集 合, 这 种 方 法 的 研 究 对 象 不 具 备 篇 章 特 性, 获 取 的 候 选 主 题 句 往 往 具 有 随 机 性 且 噪 音 较 大, 因 此, 利 用 主 题 关 键 词 集 合 或 机 器 学 习 方 法 来 抽 取 主 题 句 是 经 常 采 用 的 方 法 本 文 在 基 于 Web 的 主 题 关 键 词 查 询 扩 展, 获 取 候 选 主 题 句 的 基 础 上, 引 入 LDA(Latent Dirichlet Allocation) 模 型, 通 过 多 个 侧 面 对 目 标 主 题 的 衬 托, 根 据 候 选 句 的 主 题 概 率 分 布 分 析, 提 出 主 题 句 可 信 度 计 算 方 法 来 抽 取 主 题 句 1 相 关 研 究 [1] 在 面 向 查 询 的 多 文 档 文 摘 领 域, 马 亮 等 采 用 词 语 的 查 询 相 关 特 性 和 主 题 相 关 特 性 对 候 选 句 打 分 来 抽 取 主 题 句 Lin Zhao [2] 在 图 排 序 算 法 查 询 扩 展 的 基 础 上, 利 用 WordNet 对 传 统 基 于 词 的 句 子 向 量 的 语 义 扩 展 进 行 主 题 句 抽 取 Christina Sauper [3] 将 每 个 段 落 对 应 一 个 主 题, 采 用 联 合 学 习 方 法 同 时 训 练 出 每 个 主 题 的 内 容 选 择 参 数, 从 而 得 到 整 个 文 摘 的 内 容 选 择 模 型, 进 行 主 题 片 段 抽 取, 该 方 法 虽 然 提 高 了 文 摘 的 内 聚 性 可 读 性, 但 主 题 片 段 抽 取 是 基 金 项 目 : 国 家 自 然 科 学 基 金 (No.90920004,No.60970056,No.61070123,No.61003153); 江 苏 省 高 校 自 然 科 学 重 大 基 础 研 究 项 目 (No.08KJA520002) 作 者 简 介 : 王 力 (1985 ), 男, 硕 士 研 究 生, 研 究 方 向 : 中 文 信 息 处 理 ; 李 培 峰 (1971 ), 男, 博 士, 副 教 授, 主 要 研 究 方 向 : 自 然 语 言 处 理 分 布 式 信 息 系 统 网 格 计 算 等 ; 朱 巧 明 (1964 ), 男, 教 授, 博 士 生 导 师, 主 要 研 究 方 向 : 自 然 语 言 处 理 Web 信 息 处 理 嵌 入 式 系 统 E-mail:qeiebz@163.com 收 稿 日 期 :2011-06-21 修 回 日 期 :2011-08-15 文 章 编 号 :1002-8331(2013)02-0160-05 CNKI 出 版 日 期 :2011-10-24 http://.cnki.net/kcms/detail/11.2127.p.20111024.1013.054.html

王 力, 李 培 峰, 朱 巧 明 : 一 种 基 于 LDA 模 型 的 主 题 句 抽 取 方 法 161 以 段 落 为 单 位, 选 择 粒 度 较 粗, 精 确 度 不 高 Fadi Biadsy [4] 把 主 题 句 抽 取 看 成 分 类 问 题, 利 用 机 器 学 习 方 法 训 练 一 个 判 断 主 题 句 和 非 主 题 句 的 二 元 分 类 器 来 抽 取 主 题 句, 在 个 人 履 历 生 成 的 具 体 应 用 中, 取 得 较 好 的 效 果 [5] 在 结 构 化 文 本 主 题 句 抽 取 中, 张 云 涛 将 概 念 关 系 引 入 词 串 的 权 重 计 算, 同 时 综 合 考 虑 句 子 长 度 句 子 的 位 置 [6] 文 本 层 次 结 构 等 信 息 进 行 主 题 句 抽 取 徐 超 首 先 对 文 档 [7] 进 行 主 题 分 割, 然 后 从 各 个 局 部 主 题 中 抽 取 文 摘 句 何 维 将 句 子 看 作 点, 将 句 子 之 间 的 相 似 性 看 作 边, 用 句 子 关 系 图 描 述 句 子 之 间 的 关 系, 搜 索 图 中 边 最 多 的 点 来 抽 取 主 题 句 这 些 方 法 在 具 体 实 验 中 都 取 得 了 一 定 的 抽 取 效 果, 但 主 题 句 的 赋 权 依 赖 于 具 体 的 文 本 结 构 和 句 子 位 置 等 启 发 性 信 息, 方 法 的 有 效 性 受 文 本 的 风 格 和 类 型 影 响 很 大, 因 此, 抽 取 的 主 题 句 具 有 随 机 性 不 确 定 性 在 基 于 Web 获 取 主 题 相 关 信 息, 并 进 行 主 题 句 抽 取 的 应 用 中, 获 取 的 候 选 主 题 句 有 着 噪 音 大 具 有 不 确 定 性 的 特 点, 主 题 句 的 可 信 度 计 算 变 得 尤 为 重 要 因 此, 本 文 采 用 机 器 学 习 方 法, 引 入 LDA 模 型, 在 主 题 模 型 所 生 成 的 句 子 - 主 题 分 布 (Sentence~topic) 的 基 础 上 提 出 主 题 句 的 可 信 度 计 算 方 法 来 进 一 步 抽 取 主 题 句 2 LDA 模 型 LDA 模 型 是 Blei [8] 等 在 2003 年 提 出 的 一 种 统 计 主 题 模 型 (Statistical opic Models), 是 一 种 对 文 本 数 据 的 主 题 信 息 进 行 建 模 的 方 法, 其 内 在 结 构 非 常 清 晰 如 图 1 所 示,LDA 模 型 假 设 一 个 文 本 由 多 个 隐 含 主 题 随 机 组 成, 而 每 个 主 题 又 由 文 本 中 的 特 定 词 汇 体 现, 这 种 假 设 也 比 较 符 合 客 观 实 际, 因 此, 可 将 隐 含 主 题 看 做 词 汇 的 概 率 分 布 (topic~ord), 单 个 文 档 可 表 示 为 这 些 隐 含 主 题 的 概 率 分 布 (doc~topic), 这 种 假 设 也 有 利 于 大 规 模 数 据 处 理 中 的 空 间 降 维, 即 把 文 档 投 影 到 topic 空 间 同 时,LDA 模 型 中 也 做 了 bag of ords 假 设, 即 假 设 单 词 之 间 是 没 有 任 何 关 联 的 离 散 数 据, 在 模 型 中 不 考 虑 任 何 语 法 和 词 汇 的 顺 序 ord 图 1 doc 假 设 一 个 文 本 含 有 个 主 题, 则 文 本 中 第 i 个 词 汇 i 出 现 的 概 率 可 以 表 示 如 下 : 文 档 层 主 题 层 topic 1 topic 2 topic n 词 层 LDA 隐 含 主 题 拓 扑 结 构 示 意 图 P( i ) = å P( i z i = )P(z i = ) (1) = 1 其 中,z i 在 模 型 中 表 示 i 取 自 某 个 主 题,P( i z i = ) 表 示 i 属 于 主 题 的 概 率,P(z i = ) 是 主 题 属 于 当 前 文 本 的 概 率 假 定 个 主 题 形 成 的 文 本 中 含 有 W 个 唯 一 性 词 汇, (z = ) 令 φ = P( z = ) 表 示 对 于 主 题,W 个 词 汇 上 的 多 项 分 布, 其 中 是 W 个 唯 一 性 词 汇 表 中 的 词 汇 ; 令 ψ (d) z = = P(z = ) 表 示 对 于 文 本 d, 个 主 题 上 的 多 项 分 布, 于 是 文 本 d 中 词 汇 的 概 率 为 : P( d) = åφ = 1 (z = ) ψ (d) z = (2) LDA 的 图 模 型 如 图 2 所 示,θ 和 Ζ 表 示 隐 含 变 量,W 是 唯 一 性 词 汇, 表 示 可 观 察 值 ; 给 定 文 档 集 合 D,D 是 一 个 包 含 M 个 文 档 的 集 合, 每 个 文 档 d 包 含 N 个 词, 假 设 D 的 主 题 数 目 为 个,LDA 生 成 模 型 如 下 : (1) 生 成 维 多 项 式 向 量 Φ 服 从 参 数 为 β 的 Dirichlet 分 布,Φ~Dirichlet(β) 即 主 题 - 词 分 布 (opic~ord) (2) 生 成 维 多 项 式 向 量 θ 服 从 参 数 为 α 的 Dirichlet 分 布,θ~Dirichlet(α) 即 文 档 - 主 题 分 布 (Doc~topic) (3) 对 文 档 中 每 一 个 词 n (1 < n < N) : 1 生 成 一 个 主 题 z n 服 从 参 数 为 θ 的 多 项 式 分 布 2 根 据 特 定 的 主 题 比 例 β, 对 n 生 成 P( n z n β) 本 文 在 ψ (d) 上 作 对 称 的 Dirichlet(α) 的 先 验 概 率 假 设 外, 在 φ (z) 上 也 作 对 称 的 Dirichlet(χ) 的 先 验 概 率 假 设 3 LDA 模 型 主 题 句 抽 取 近 年 来,LDA 模 型 被 广 泛 应 用 于 多 文 档 自 动 文 摘 [9] 文 [10] [11] 本 分 类 关 键 词 抽 取 等 研 究 领 域, 在 主 题 分 析 领 域, 石 [12] 晶 在 LDA 模 型 文 本 分 割 的 基 础 上, 确 定 片 段 主 题, 进 而 总 结 全 文 的 中 心 主 题 主 题 句 抽 取 主 要 涉 及 两 方 面 问 题 : (1) 抽 取 主 题 相 关 文 档 中 的 句 子 作 为 候 选 句 (2) 评 估 候 选 句 的 重 要 性 和 可 信 度, 进 一 步 抽 取 符 合 条 件 的 主 题 句 3.1 问 题 提 出 在 基 于 Web 的 关 键 词 查 询 获 取 主 题 信 息 的 应 用 领 域, 主 题 句 抽 取 的 信 息 来 源 不 同 于 传 统 的 研 究 对 象, 在 通 过 搜 索 可 获 取 的 主 题 信 息 中, 来 自 不 同 侧 面 的 主 题 句 往 往 随 机 散 落 在 文 本 的 各 个 角 落, 又 由 于 主 题 相 关 网 页 文 本 描 述 形 式 各 异, 因 此, 与 传 统 的 主 题 句 抽 取 方 法 不 同, 文 本 的 结 构 特 征 就 不 能 够 作 为 抽 取 主 题 句 的 考 虑 因 素 另 外, 从 网 页 文 本 内 容 来 讲, 其 内 容 往 往 掺 杂 较 多 主 题 不 相 关 信 息, 而 并 非 完 全 的 主 题 相 关 篇 章, 有 着 噪 声 大 文 本 结 构 信 息 少 等 特 点 因 此, 传 统 的 抽 取 方 法 难 以 满 足 该 类 主 题 句 抽 取 的 需 要 主 题 分 布 图 2 词 分 布 α θ Z 主 题 β LDA 图 模 型 关 键 词 N M

162 一 个 主 题 往 往 由 多 个 侧 面 从 不 同 角 度 加 以 强 调, 而 各 个 侧 面 信 息 之 间 有 着 衬 托 与 被 衬 托 的 关 系, 也 就 是 说 一 个 侧 面 是 因 其 他 多 个 侧 面 的 衬 托 而 存 在 文 献 [4] 在 主 题 句 抽 取 实 验 中 为 了 抽 取 相 关 主 题 句 而 采 用 机 器 学 习 方 法, 任 意 寻 找 非 主 题 句 集 合 加 入 二 元 分 类 模 型 训 练, 非 主 题 句 的 加 入 从 某 种 程 度 上 确 实 提 高 了 主 题 句 抽 取 的 性 能, 但 本 文 认 为 非 主 题 句 集 合 选 择 的 恰 当 与 否 以 及 粒 度 大 小 将 直 接 影 响 基 于 Web 的 网 络 文 本 主 题 句 的 抽 取 性 能 例 如, 在 另 文 介 绍 的 面 向 主 题 的 关 键 词 查 询 扩 展 方 法 中, 通 过 关 键 词 的 组 合 查 询 获 取 的 关 于 某 一 药 品 副 作 用 的 候 选 主 题 句, 发 现 该 药 品 功 能 主 治 这 一 侧 面 信 息 的 描 述 形 式 以 及 含 有 的 主 题 关 键 词 较 其 他 侧 面 ( 如 : 药 品 组 成 等 ) 均 与 目 标 主 题 存 在 较 大 相 似 性, 因 此, 在 实 际 的 主 题 句 抽 取 应 用 中, 如 果 从 单 个 侧 面 任 意 选 择 的 非 主 题 句 集 合 作 为 训 练 集 合 则 相 对 较 盲 目, 构 造 出 的 二 元 分 类 器 很 难 把 类 似 这 样 的 噪 音 句 从 候 选 句 中 剥 离 出 来, 所 以 本 文 结 合 前 期 的 实 验 结 果, 对 于 非 主 题 句 集 合 进 行 细 分, 根 据 获 取 候 选 主 题 句 实 验 中 可 预 见 的 噪 音 句 的 主 题 所 属, 构 造 多 个 侧 面 作 为 非 主 题 集 合 从 不 同 侧 面 衬 托 目 标 主 题, 从 而 进 行 主 题 句 抽 取 实 验, 在 引 入 的 LDA 模 型 中, 其 中 候 选 主 题 句 所 属 的 侧 面 对 应 于 图 1 中 的 主 题 层 3.2 总 体 框 架 本 文 在 面 向 Web 的 主 题 关 键 词 查 询 扩 展, 获 取 候 选 主 题 句 的 基 础 上, 采 用 机 器 学 习 方 法, 引 入 主 题 相 关 和 不 同 侧 面 的 非 相 关 信 息 来 训 练 LDA 分 类 模 型, 以 Gibbs 抽 样 获 得 LDA 模 型 中 主 题 句 的 主 题 概 率 分 布 (Sentence~topic) 和 主 题 词 汇 分 布 (opic~ord), 利 用 Sentence~topic 分 布 的 平 滑 度 进 行 可 信 度 计 算 来 进 一 步 抽 取 主 题 句 总 体 框 架 如 图 3 所 示, 其 中 的 预 处 理 包 括 分 词 分 句 停 用 词 处 理 主 题 候 选 句 筛 选 主 题 关 键 词 查 询 扩 展 方 法 ( 包 括 HML 页 面 解 析 关 键 词 组 合 查 询 策 略 主 题 关 键 词 迭 代 查 询 算 法 ) 将 另 文 介 绍 3.3 Gibbs 抽 样 MCMC(Markov Chain Monte Carlo) 提 供 了 从 后 验 分 布 直 接 抽 取 样 本 值 的 近 似 迭 代 方 法, 而 Gibbs 抽 样 简 化 了 实 现 MCMC 算 法 本 文 考 虑 词 汇 对 于 主 题 的 后 验 概 率 P( z), 利 用 Gibbs 抽 样 间 接 求 得 φ 和 ψ 的 值 其 目 的 是 构 造 收 敛 于 某 目 标 概 率 分 布 的 Markov 链, 并 从 链 中 抽 取 被 认 为 接 近 该 概 率 分 布 值 的 样 本 使 用 Gibbs 抽 样 的 关 键 是 构 造 目 标 概 率 分 布 函 数 在 本 文 中, 只 需 要 对 变 量 z i 进 行 抽 样 计 算 后 验 概 率 P( z i = z -i i ) 的 公 式 如 下 : P( z i = z -i i ) = n ( ) i + χ -i n ( -i ) + Wχ n ( ) i + χ -i å = 1 n ( ) -i + Wχ + α -i + α + α -i + α (3) 其 中, i 不 仅 仅 代 表 词 汇 本 身, 且 与 词 在 文 本 中 的 位 置 顺 序 有 关 z i = 表 示 将 i 分 配 给 主 题,z -i 是 所 有 k ¹ i 的 词 汇 分 配 情 况 n ( ) i -i 表 示 分 配 给 主 题 且 与 i z k ( ) 相 同 的 词 的 数 量 ;n ( -i ) 是 分 配 给 主 题 的 所 有 词 的 数 量 ; -i 是 在 文 本 d i 中 分 配 给 主 题 的 词 的 数 量 ; 是 d i 中 所 有 被 分 配 了 主 题 的 词 汇 的 数 量 ; 所 有 的 词 汇 个 数 均 不 包 括 这 次 z i = 的 分 配 Gibbs 抽 样 算 法 如 下 : 首 先 随 机 初 始 化 z i 为 [1,] 之 间 某 个 主 题, 即 为 Markov 链 的 初 始 状 态 ; 然 后 根 据 公 式 (3) 的 计 算 方 法 逐 个 将 词 汇 分 配 给 主 题, 从 而 得 到 Markov 链 的 下 一 个 状 态 ; 迭 代 一 定 次 数 以 后, 即 认 为 Markov 链 接 近 于 目 标 分 布 函 数 对 于 每 一 个 单 一 样 本, 可 以 按 下 式 估 算 φ 和 ψ 的 值 : φ ( z = ) = n( ) + χ ψ n ( ) + Wχ ( d ) = n( d ) z = + α n ( d ) + α 其 中,n ( ) 表 示 词 汇 被 分 配 给 主 题 的 频 数 ;n ( ) 给 主 题 的 所 有 词 数 ;n ( d ) (4) 表 示 分 配 表 示 文 本 d 中 分 配 给 主 题 的 词 数 ;n ( d ) 表 示 文 本 d 所 有 被 分 配 了 主 题 的 词 数 这 样, 文 本 d i 对 应 的 θ 向 量 的 各 个 分 量 可 以 通 过 公 式 (6) 计 算 获 得 θ (d i ) = + α -i d i z = ( å k = 1 -i k + α d i k ) (5) 其 中 α 是 一 个 维 的 Dirichlet 参 数 LDA 模 型 主 题 句 抽 取 框 架 训 练 语 料 预 处 理 Gibbs Sampling 主 题 关 键 词 查 询 扩 展 模 块 候 选 主 题 句 集 合 预 处 理 LDA 模 型 主 题 句 集 合 可 信 度 计 算 候 选 句 主 题 概 率 分 布 (Sentence~topic) 图 3 主 题 句 抽 取 总 体 框 架 图

王 力, 李 培 峰, 朱 巧 明 : 一 种 基 于 LDA 模 型 的 主 题 句 抽 取 方 法 163 3.4 主 题 句 可 信 度 计 算 在 面 向 Web 的 主 题 句 抽 取 具 体 应 用 中, 由 于 通 过 关 键 词 查 询 得 到 的 网 络 文 本 信 息 具 有 的 来 源 不 确 定 性 噪 音 大 等 特 点, 那 么, 关 键 词 查 询 扩 展 得 到 的 候 选 主 题 句 可 信 与 否 就 变 得 十 分 重 要, 因 此, 本 文 在 LDA 模 型 主 题 句 分 类 的 基 础 上 提 出 主 题 句 的 可 信 度 计 算 方 法 来 进 一 步 抽 取 较 可 信 的 主 题 句 在 本 文 的 主 题 句 抽 取 中, 将 获 取 的 候 选 句 对 应 到 LDA 模 型 中 的 文 档 层, 在 LDA 模 型 生 成 的 Sentence~topic 分 布 中, 假 设 θ 向 量 为 (θ 1 θ 2 θ n ), 则 每 个 θ i 表 明 了 主 题 句 被 分 配 到 opic i 的 概 率, 因 此, 不 同 的 主 题 句 对 应 的 θ 向 量 也 不 同, 不 同 的 θ 分 量 值 集 中 反 应 了 该 候 选 句 被 分 配 到 不 同 opic 的 概 率 大 小, 这 就 为 主 题 句 的 可 信 度 计 算 提 供 了 依 据 在 Sentence~topic 分 布 中, 假 设 opic i 为 目 标 主 题, opic ( Î[1 n] 且 ¹ i) 为 其 他 侧 面 衬 托 主 题, 在 可 信 度 计 算 中 目 标 主 题 opic i 在 Sentence~topic 分 布 中 的 概 率 值 必 须 为 所 有 概 率 分 配 中 的 最 大 值, 并 且 达 到 一 定 阈 值, 该 句 才 有 可 能 成 为 可 信 的 主 题 句, 具 体 计 算 方 法 如 公 式 (6) 所 示 另 外, 本 文 提 出 计 算 Sentence~topic 分 布 的 平 滑 度 加 强 主 题 句 可 信 度 计 算, 如 公 式 (7) 所 示 : θ i = arg max(θ 1 θ 2 θ n ) 且 θ i ϕ (6) θ i + θ δ, ¹ i 且 θ 仅 小 于 θ i (7) 在 公 式 (7) 中, 本 文 考 虑 Sentence~topic 分 布 的 平 滑 度 来 作 为 可 信 度 计 算 的 依 据,Sentence~topic 分 布 越 不 平 滑, 表 明 该 句 属 于 目 标 主 题 的 特 征 越 明 显, 其 越 有 可 能 是 可 信 的 主 题 句, 反 之, 分 布 越 平 滑, 说 明 句 子 属 于 目 标 主 题 的 特 性 相 对 于 其 他 侧 面 主 题 不 明 显, 不 足 以 区 分 主 题 所 属, 那 么 该 句 是 噪 音 句 的 概 率 就 非 常 大 例 如, 假 设 有 两 个 候 选 主 题 句 通 过 Gibbs 抽 样 获 取 其 在 各 个 opic 上 的 主 题 概 率 分 布 ( 其 中 有 4 个 opic,opic2 为 目 标 主 题 ), 分 别 为 候 选 句 一 θ 1 (0.4,0.5,0.08,0.02) 候 选 句 二 θ 2 (0.15,0.5,0.15,0.2), 那 么 很 明 显 候 选 句 一 和 候 选 句 二 在 目 标 主 题 上 都 取 得 了 较 高 的 可 信 概 率, 但 根 据 平 滑 度 计 算 公 式, 候 选 句 二 较 于 候 选 句 一 在 目 标 主 题 上 具 有 更 高 的 可 信 度, 原 因 是 虽 然 候 选 句 一 在 目 标 主 题 opic 2 上 足 够 可 信, 但 考 虑 到 目 标 主 题 上 的 概 率 分 配 与 其 他 侧 面 主 题 概 率 分 配 的 落 差, 其 在 opic 1 上 同 样 有 较 高 的 主 题 分 配 概 率, 而 候 选 句 二 在 目 标 主 题 上 的 概 率 分 配 值 明 显 优 于 其 他 侧 面 主 题, 在 LDA 分 类 模 型 训 练 不 充 分 的 情 况 下,Gibbs 抽 样 获 取 的 主 题 概 率 分 配 本 身 仅 仅 具 有 参 考 价 值, 因 此 在 实 际 的 开 放 测 试 中, 根 据 各 个 主 题 概 率 分 配 的 平 滑 度 来 计 算 候 选 句 可 信 与 否 对 于 面 向 Web 的 主 题 句 抽 取 非 常 必 要 公 式 (6) (7) 中 参 数 ϕ,δ 的 取 值 对 系 统 性 能 的 影 响 将 在 后 续 实 验 中 分 别 进 行 讨 论 4 实 验 及 结 果 分 析 本 文 锁 定 中 药 领 域, 选 择 中 药 ( 包 括 板 蓝 根 牛 黄 解 毒 片 维 C 银 翘 片 ) 这 三 类 药 品 的 副 作 用 这 一 基 于 Web 的 目 标 主 题 作 为 主 题 句 抽 取 实 验, 力 求 根 据 某 一 类 药 品 ( 如 : 牛 黄 解 毒 片 ) 的 描 述 语 句 作 为 训 练 集, 利 用 其 在 同 类 型 主 题 的 描 述 习 惯, 来 对 其 他 类 别 的 中 药 产 品 ( 如 : 板 蓝 根 ) 的 副 作 用 相 关 主 题 句 进 行 抽 取 实 验 整 个 实 验 分 为 两 大 部 分 :LDA 模 型 训 练 和 主 题 句 抽 取 测 试 在 LDA 模 型 训 练 实 验 中, 分 为 两 个 实 验, 其 目 的 是 探 测 非 主 题 相 关 信 息 的 细 化 粒 度 对 于 主 题 句 抽 取 性 能 的 影 响 实 验 1: 手 工 收 集 牛 黄 解 毒 片 这 一 药 品 的 4 个 侧 面 ( 包 括 功 能 主 治 生 产 厂 家 副 作 用 药 品 组 成 ), 句 子 总 数 874 句 作 为 训 练 集 实 验 2: 不 从 多 个 侧 面 划 分 非 主 题 相 关 信 息, 训 练 语 料 仅 划 分 为 主 题 相 关 (410 句 ) 和 非 主 题 相 关 信 息 (464 句 ) 两 类, 共 计 总 数 也 是 874 句 实 验 中 不 同 侧 面 对 应 于 LDA 模 型 中 不 同 的 主 题, 因 此, 本 文 中 LDA 主 题 数 目 参 数 设 置 为 4 个 α 和 β 设 置 为 默 认 值, 分 别 为 α = 0.5, β = 0.1 迭 代 次 数 设 置 为 1 000 次 χ 取 经 验 值 0.01 实 验 1 中 模 型 训 练 语 料 具 体 主 题 侧 面 分 类 如 表 1 所 示 在 系 统 性 能 测 试 实 验 中, 测 试 语 料 来 源 于 另 文 介 绍 的 关 键 词 查 询 扩 展 实 验, 通 过 Web 搜 索 得 到 的 另 外 两 个 药 品 ( 板 蓝 根 维 C 银 翘 片 ) 带 有 噪 音 的 候 选 主 题 句 子 集 合, 具 体 主 题 分 类 如 表 2 所 示 对 于 系 统 性 能 的 评 测, 本 文 采 用 准 确 率 (precision), 召 回 率 (recall),f 度 量 (F-measure) 三 个 指 标 来 对 目 标 主 题 的 抽 取 性 能 进 行 评 价 具 体 定 义 如 下 : recall = 表 1 表 2 主 题 侧 面 /opic 侧 面 功 能 主 治 副 作 用 噪 音 句 总 计 实 验 1 不 同 侧 面 训 练 语 料 集 合 副 作 用 功 能 主 治 组 成 生 产 厂 家 总 计 板 蓝 根 正 确 抽 取 的 主 题 句 主 题 相 关 句 总 数 358 1 233 6 858 8 449 正 确 抽 取 的 主 题 句 precision = 抽 取 句 子 总 数 2 precision recall F = precision + recall 句 子 数 410 279 (8) (9) (10) 在 测 试 语 料 集 合 中, 通 过 人 工 标 注 每 个 候 选 主 题 句 所 属 opic, 其 中 噪 音 句 表 示 该 句 不 足 以 归 属 于 训 练 语 料 中 的 任 何 一 个 opic 从 表 2 中 可 以 看 到, 通 过 药 品 副 作 用 这 一 目 标 主 题 的 关 键 词 查 询 扩 展 实 验 得 到 的 候 选 主 题 句, 掺 杂 大 量 的 噪 音 句, 从 而 影 响 了 主 题 句 的 抽 取 性 能, 因 此, 本 36 149 874 候 选 主 题 句 测 试 语 料 集 合 药 品 维 C 银 翘 片 223 419 4 912 5 554

164 文 采 用 3.2 节 提 出 的 可 信 度 计 算 方 法, 来 进 一 步 抽 取 可 信 的 主 题 句 在 公 式 (5) 中, 因 为 参 数 ϕ 是 对 主 题 句 的 进 行 可 信 度 筛 选 的 较 为 可 靠 的 概 率 阈 值, 根 据 常 识, 概 率 超 过 0.5 时, 初 选 的 主 题 句 才 较 为 可 信, 因 此 本 文 设 定 参 数 ϕ Î [ 0.65 0.85 ],δ Î[ ] 0.7 0.95, 探 测 ϕ δ 对 系 统 性 能 的 影 响, 参 数 ϕ,δ 对 主 题 句 抽 取 性 能 的 影 响 如 图 4 图 5 所 示 主 题 句 抽 取 F 值 主 题 句 抽 取 F 值 0.72 0.70 0.68 0.66 0.64 0.62 0.60 0.58 0.56 0.54 0.72 0.70 0.68 0.66 0.64 0.62 0.60 0.58 0.56 0.54 0.65 0.70 0.75 0.80 0.85 参 数 Φ 图 4 0.70 0.75 0.80 0.85 0.90 0.95 参 数 δ 图 5 另 外, 在 测 试 实 验 中, 分 别 对 两 类 药 品 ( 板 蓝 根 维 C 银 翘 片 ) 进 行 主 题 句 抽 取 实 验 测 试 评 价, 将 本 文 提 出 方 法 与 文 献 [4] 采 用 的 SVM 二 元 分 类 方 法 以 及 LDA 模 型 分 类 本 身 分 别 从 实 验 1 实 验 2 进 行 对 比 实 验, 来 探 测 不 同 的 话 题 数 对 性 能 的 影 响 其 评 价 结 果 如 表 3 所 示 实 验 1 实 验 2 参 数 ϕ 对 主 题 句 抽 取 性 能 影 响 参 数 δ 对 主 题 句 抽 取 性 能 影 响 表 3 方 法 LDA 本 文 方 法 LDA 本 文 方 法 SVM 主 题 句 抽 取 性 能 评 价 Precison 41.97 66.01 28.51 36.66 76.57 Recall 84.41 74.82 97.23 88.26 51.81 (%) δ=0.70 δ=0.75 δ=0.80 δ=0.85 δ=0.90 δ=0.95 Φ=0.65 Φ=0.70 Φ=0.75 Φ=0.80 Φ=0.85 从 上 述 实 验 结 果 可 以 看 出, 在 开 放 测 试 中, 本 文 提 出 的 主 题 句 抽 取 方 法 有 着 相 对 较 好 的 性 能, 这 是 由 于 引 入 的 LDA 模 型 中, 非 主 题 相 关 信 息 的 进 一 步 细 化, 使 得 多 个 侧 面 对 于 目 标 主 题 的 衬 托 有 利 于 提 高 最 终 的 主 题 句 抽 取 精 度 另 外, 在 针 对 网 络 主 题 文 本 所 具 有 的 噪 音 大 不 确 定 性 的 特 点, 引 入 的 主 题 句 的 可 信 度 计 算 方 法 能 够 有 效 地 过 滤 掉 大 量 的 噪 音 句, 在 一 定 程 度 上 提 高 了 主 题 句 抽 取 的 性 能 从 LDA 模 型 本 身 来 讲,LDA 的 Dirichlet 先 验 概 率 假 设, 使 得 模 型 易 于 处 理 训 练 语 料 之 外 的 新 文 本, 这 就 是 LDA 模 型 相 对 于 SVM 召 回 率 较 高 的 原 因, 而 在 准 确 率 方 面,LDA 模 型 的 精 度 相 对 较 低, 通 过 分 析, 其 原 因 是 LDA 主 题 模 型 本 身 是 通 过 采 样 的 方 法 来 模 拟 真 实 文 本, 语 料 的 规 模 将 对 F 55.65 69.94 44.09 51.80 61.80 最 终 抽 取 的 准 确 率 有 较 大 影 响, 因 此, 语 料 的 有 效 扩 充 是 进 一 步 研 究 需 要 改 进 的 重 点 通 过 图 4 参 数 ϕ 对 抽 取 性 能 的 影 响 图 中 可 以 看 出, 不 管 δ 的 取 值 如 何, 随 着 ϕ 值 的 增 加, 系 统 F 值 呈 现 类 似 抛 物 线 形 状 的 分 布 图, 其 原 因 是, 虽 然 在 LDA 分 类 模 型 的 基 础 上, 选 取 合 适 的 ϕ 值 确 实 可 以 提 高 主 题 句 抽 取 性 能, 但 随 着 ϕ 值 的 增 大, 在 准 确 率 提 高 的 同 时, 系 统 召 回 率 也 相 应 有 所 下 降 图 5 大 体 反 映 出 主 题 句 的 Sentence~topic 分 布 越 不 平 滑, 该 句 的 可 信 度 就 越 高 这 一 理 论 事 实 但 在 δ =0.9 时, 多 条 性 能 曲 线 都 表 现 出 反 弹 现 象, 通 过 仔 细 分 析 发 现, 这 是 由 于 LDA 模 型 本 身 的 分 类 错 误 造 成 的, 本 文 的 主 题 句 可 信 度 计 算 是 在 LDA 分 类 较 为 可 靠 这 一 假 设 性 前 提 的 基 础 上 进 行 的, 如 果 对 于 部 分 主 题 句, 前 期 的 LDA 分 类 不 足 以 明 显 区 分 主 题 所 属, 那 么 可 信 度 计 算 就 很 难 达 到 预 想 的 效 果, 所 以, 选 择 可 靠 的 主 题 句 集 合 扩 充 LDA 模 型 训 练, 提 高 模 型 本 身 的 可 靠 性, 是 下 一 步 需 要 重 点 研 究 的 问 题 本 文 对 于 主 题 句 抽 取 错 误 的 语 料 进 行 了 专 门 分 析, 发 现 影 响 系 统 性 能 的 原 因 有 以 下 几 个 方 面 : (1) 对 于 基 于 Web 的 主 题 句 来 源 的 不 确 定 性, 使 得 符 合 LDA 分 类 模 型 的 句 子 却 不 是 目 标 主 题 所 需 要 的 主 题 信 息 另 外, 有 部 分 候 选 主 题 句 由 于 缺 少 主 语 或 宾 语, 由 于 分 句 的 原 因 造 成 指 代 不 明 确 或 者 主 语 缺 失 等 现 象, 使 得 抽 取 的 主 题 句 不 能 够 符 合 目 标 主 题 的 要 求 (2) 通 过 关 键 词 查 询 扩 展 获 取 的 候 选 主 题 句, 虽 然 含 有 大 量 的 主 题 关 键 词, 却 不 是 完 整 意 义 的 主 题 句, 又 由 于 LDA 模 型 的 bag of ords 假 设, 使 得 这 样 的 噪 音 句 反 而 极 易 分 类 为 主 题 句 (3) 另 文 介 绍 的 面 向 Web 的 关 键 词 查 询 扩 展 实 验, 随 着 迭 代 次 数 的 不 断 增 加, 发 生 查 询 漂 移 (Query Drift) 的 机 率 也 相 应 增 加, 查 询 扩 展 得 到 的 候 选 主 题 句 子 集 的 主 题 相 关 性 不 断 分 散, 加 上 LDA 模 型 训 练 语 料 不 充 分, 容 易 产 生 LDA 本 身 分 类 错 误 5 总 结 与 展 望 本 文 提 出 一 种 基 于 LDA 模 型 的 主 题 句 抽 取 方 法, 采 用 Gibbs 抽 样 方 法, 通 过 多 个 侧 面 对 目 标 主 题 的 衬 托, 利 用 主 题 概 率 分 布 的 平 滑 度 进 行 可 信 度 计 算 来 抽 取 主 题 句, 在 具 体 应 用 中 取 得 了 相 对 较 好 的 效 果 在 下 一 步 工 作 中, 针 对 以 上 影 响 主 题 句 抽 取 的 几 个 因 素, 如 何 选 择 大 量 未 标 注 的 可 靠 主 题 句 来 扩 充 训 练 LDA 模 型 引 入 指 代 消 解 预 处 理 技 术 以 及 如 何 使 面 向 主 题 的 关 键 词 查 询 扩 展 获 取 候 选 主 题 句 与 主 题 句 抽 取, 两 者 能 够 相 互 促 进, 以 达 到 提 高 整 体 抽 取 性 能 的 效 果 是 下 一 步 需 要 重 点 研 究 的 问 题 参 考 文 献 : [1] 马 亮, 何 婷 婷, 李 芳, 等. 以 关 键 词 抽 取 为 核 心 的 文 摘 句 选 择 策 略 [J]. 中 文 信 息 学 报,2008,22(6). ( 下 转 257 页 )