语 篇 分 析 与 指 代 消 解 Discourse Analysis Coreference Resolution 王 厚 峰 wanghf@pku.edu.cn 北 京 大 学 信 息 科 学 技 术 学 院 计 算 语 言 学 教 育 部 重 点 实 验 室
Content 引 入 衔 接 与 连 贯 中 心 理 论 与 指 代 消 解 指 代 消 解 的 其 他 方 法 指 代 消 解 的 应 用 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 2
程 序 设 计 语 言 vs. 自 然 语 言 相 同 点 程 序 设 计 语 言 无 穷 性 无 穷 的 词 汇 ( 变 量 ) 无 穷 的 程 序 有 穷 性 符 号 有 穷 有 穷 映 射 为 无 穷 遵 循 表 达 规 律 自 然 语 言 无 穷 性 无 穷 的 词 汇 无 穷 的 文 章 ( 书 面 语 ) 有 穷 性 文 字 有 穷 有 穷 映 射 为 无 穷 遵 循 表 达 规 律 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 3
程 序 设 计 语 言 vs. 自 然 语 言 不 同 点 程 序 设 计 语 言 规 则 的 有 限 性 语 义 的 精 确 性 X=y+++z (C 语 言 ) 极 少 数 人 工 制 定 的 规 则 规 则 的 约 束 力 强 超 越 规 则 不 合 法! 自 然 语 言 是 否 存 在 有 限 的 规 则 语 义 的 模 糊 性? 该 来 的 没 有 来 ( 一 语 双 关 ) 众 多 人 在 扩 展 规 则 ; 已 有 的 规 则 随 时 被 突 破 ( 如, 被 就 业,) 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 4
程 序 设 计 语 言 的 分 析 一 般 流 程 : 词 法 分 析 语 法 分 析 语 义 分 析 代 码 优 化 与 生 成 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 5
自 然 语 言 处 理 的 流 程 speech Phonetic/Phonological Analysis text OCR/Tokenization Morphological analysis Parsing Semantic Interpretation Discourse Processing 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 6
语 言 的 形 式 构 成 与 分 析 字 序 列 汉 语 的 各 级 构 成 词 序 列 短 语 / 句 子 形 式 分 析 与 意 义 分 析 句 群 / 语 篇 自 然 语 言 处 理 : 需 要 对 每 一 层 作 形 式 分 析 和 意 义 分 析 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 7
不 同 层 次 的 处 理 Morphology 词 的 构 成 问 题 Syntax(Parsing) 词 与 词 之 间 的 结 构 关 系 Semantics 词 的 意 义 词 与 词 组 合 ( 短 语 / 句 子 ) 意 义 Discourse 句 子 之 间 的 关 系, 上 下 文 的 意 义 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 8
语 篇 (Discourse) 前 后 意 义 关 联 的 句 子 序 列 几 种 说 法 : 话 语 语 篇 ( 篇 章 ) 文 本 ( 英 文 :discourse, text) 两 个 例 子 : Ex1: 比 尔 来 自 于 美 国 今 天 交 通 非 常 拥 挤 长 江 贯 穿 中 国 的 多 个 省 市 因 此, 计 算 语 言 学 是 计 算 机 科 学 与 语 言 学 的 交 叉 4 correct sentences but collectively do not make meaning Ex2: 这 里 的 交 通 非 常 拥 挤 张 先 生 早 上 6:40 之 前 就 得 出 发 去 上 班, 常 常 会 提 前 半 小 时 到 单 位 ; 如 果 稍 晚 一 点, 他 就 很 可 能 迟 到 it makes meaning 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 9
意 义 相 关 性 的 体 现 (1) 例 子 : 张 三 擅 长 素 描 他 给 家 里 的 每 个 人 都 画 了 一 幅 [], 挂 在 房 间 的 [] 是 自 画 像 意 义 上 是 如 何 关 联 的? 通 过 词 汇 语 义 表 达 关 联 : 围 绕 着 画 而 展 开 : 素 描 画 像 一 幅 [ ] 通 过 指 代 形 成 关 联 人 称 代 词 他 ; 零 型 代 词 [ ] 所 表 示 的 对 象 以 词 汇 表 示 的 关 联, 通 常 称 为 衔 接 (cohesion) 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 10
意 义 相 关 性 的 体 现 (2) 例 子 : [s1] 张 三 把 李 四 的 车 钥 匙 藏 起 来 了 [s2] 他 喝 醉 了 [s3] 张 三 把 李 四 的 车 钥 匙 藏 起 来 了 [s4] 他 喜 欢 逗 着 乐 [s5] 张 三 把 李 四 的 车 钥 匙 藏 起 来 了 [s6] 他 爱 看 电 影 意 义 上 是 如 何 关 联 的? 通 过 句 子 的 意 义 表 示 关 联 [s1] 和 [s2] 构 成 合 理 的 篇 章 : 两 个 句 子 表 示 因 果 关 系 [s3] 和 [s4] 也 构 成 合 理 篇 章 : 同 样 表 示 因 果 关 系 [s5] 和 [s6] 构 成 合 理 篇 章 吗? 通 过 句 子 意 义 表 示 的 关 联 称 为 连 贯 (coherence) 如 何 解 释 [s5] 和 [s6] 一 种 推 断 : 他 希 望 李 四 请 他 看 电 影 ( 可 能 需 要 更 大 的 上 下 文 ) 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 11
Cohesion vs Coherence Cohesion( 衔 接 ): 强 调 其 构 成 成 分 ( 主 要 是 词 或 短 语 ) 之 间 的 关 联 性. 例 子 : [s1] 张 三 喜 欢 骑 单 车 上 班,[s2] 李 四 通 常 步 行 去 办 公 室 在 词 汇 层 面 上 相 对 容 易 处 理 Coherence( 连 贯 ): 强 调 整 体 上 表 达 某 种 意 义 例 子 : [s3 ] A: 我 有 两 张 票, 想 请 你 今 晚 看 电 影 [s4-1] B: 很 遗 憾, 我 今 晚 不 能 看 电 影 ( 衔 接 + 连 贯, 简 洁 易 懂 ) [s4-2] B: 我 还 有 一 大 堆 的 作 业 没 有 完 成 ( 连 贯, 没 有 衔 接 ) [s4-3] B: 我 就 不 客 气 了 ( 连 贯, 没 有 衔 接 ) [s4-4] B: 武 汉 又 称 江 城 ( 不 衔 接 不 连 贯 ) 在 处 理 上 相 对 困 难, 不 容 易 切 入 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 12
篇 章 分 析 的 假 设 篇 章 分 析 : 也 称 为 文 本 分 析 (Text analysis), 或 者 文 章 分 析 一 篇 待 分 析 的 文 章 假 定 为 合 理 的, 其 合 理 性 应 表 现 在 是 否 围 绕 某 个 话 题 或 意 义 而 展 开, 这 就 是 所 谓 的 连 贯 性 一 篇 待 分 析 的 文 章 假 定 为 简 洁 易 懂 的, 其 简 洁 易 懂 不 仅 表 现 为 连 贯, 也 表 现 为 衔 接 见 前 面 的 例 子 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 13
Content 引 入 衔 接 与 连 贯 中 心 理 论 与 指 代 消 解 指 代 消 解 的 其 他 方 法 指 代 消 解 的 应 用 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 14
衔 接 的 进 一 步 解 释 Cohesion: Five cohesive relations (Halliday & Hasan,1976) Reference( 指 代 ) Substitution( 替 换 ) Ellipsis( 省 略 ) Conjunction( 连 接 ) Lexical cohesion( 词 汇 衔 接 ) 语 篇 中 为 什 么 会 有 衔 接 现 象? 追 求 表 达 的 经 济 ( 省 略 指 代 ); 追 求 表 达 的 变 化 ( 指 代 替 换 词 汇 衔 接 ); 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 15
词 汇 衔 接 Assumption: One word one sense per discourse Word sense(meaning) Reiteration with the same word(s); Reiteration without the same word(s); Hyponymy & meronymy; collocation 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 16
词 汇 衔 接 的 例 子 社 交 的 吃 饭 种 类 虽 然 复 杂, 性 质 极 其 简 单 把 饭 给 自 己 有 饭 的 人 吃, 那 是 请 饭 ; 自 己 有 饭 可 吃 而 去 吃 人 家 的 饭, 那 是 赏 面 子 交 际 的 微 妙 不 外 乎 此 反 过 来 说, 把 饭 给 没 饭 吃 的 人 吃, 那 是 施 食, 赏 面 子 就 一 变 而 成 丢 脸 这 便 是 慈 善 救 济, 算 不 上 交 际 了 ( 钱 钟 书 : 吃 饭 ) 起 衔 接 作 用 的 词 饭 交 际 ( 社 交 ) 面 子 ( 赏 面 子 丢 脸 ) 施 舍 ( 施 食 救 济 ) 复 杂 ( 简 单 ) 应 用 : 通 过 衔 接 关 系, 可 以 用 于 提 取 文 本 的 关 键 词 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 17
关 于 指 代 为 什 么 需 要 指 代? 假 设 有 这 样 一 组 句 子 : 张 三 一 大 早 就 赶 到 了 学 校 张 三 先 到 食 堂 吃 早 餐, 然 后 张 三 到 张 三 的 宿 舍 拿 张 三 自 己 的 教 材 和 张 三 自 己 的 笔 记 本 当 张 三 匆 忙 来 到 教 室 时, 张 三 发 现 张 三 的 课 本 拿 错 了 设 想 修 改 为 这 样 表 达 : 张 三 一 大 早 就 赶 到 了 学 校 他 先 到 食 堂 吃 早 餐, 然 后 [X] 到 [X] 宿 舍 拿 自 己 的 教 材 和 [X] 笔 记 本 当 [X] 匆 忙 来 到 教 室 时, 他 发 现 [X] 课 本 拿 错 了 哪 一 种 表 达 更 符 合 人 们 的 习 惯? 语 言 的 表 达 追 求 经 济 与 变 化 不 妨 将 指 代 省 略 替 换 都 看 称 广 义 指 代 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 18
指 代 指 代 (anaphora) 的 定 义 (Hirst, 1981) : ANAPHOR Anaphora is the device of making in discourse an abbreviated reference to some entity in the expectation that the perceiver will we able to disabbreviate the reference and thereby determine the identity of the entity. RESOLUTION ANTECEDENTor REFERENT 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 19
五 个 概 念 Anaphor: 指 代 语 当 语 篇 中 提 到 某 个 实 体 后, 再 一 次 提 及 时, 常 用 一 种 简 洁 的 形 式 表 示 ( 如 代 词 他 ), 这 一 简 洁 的 形 式 称 为 指 代 语 ; Entity (referent): 实 体 ( 指 称 对 象 ) 实 际 存 在 或 传 说 存 在 ( 如, 孙 悟 空 ) 的 对 象, 主 要 包 括, 人 机 构 地 方 等 ; Reference: 指 称 用 于 指 称 实 体 的 语 言 表 示 Antecedent: 先 行 语 语 篇 中 引 入 的 一 个 相 对 明 确 的 指 称 意 义 的 表 述 ( 如 张 三 ) Coreference: 共 指 ( 同 指 ) 当 两 种 表 述 均 指 称 相 同 对 象 ( 实 体 ) 时, 这 两 种 表 述 具 有 共 指 关 系 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 20
一 个 例 子 我 /rr rr 和 /cz 黄 /nrf 若 暾 /nrg 两 /mx 个 /qe 小 青 年 /nap 病 /vt 卧 /vi 小 龙 坎 /ns 的 /ud 库 房 /nas,/wd 恩 来 /nr 同 志 /nap 亲 自 /d 把 /p2 殷 殷 /z 亲 情 /nh 给 予 /vx 我 们 /rr,/wd 他 /rr 的 /ud 探 视 /vn /wu 他 /rr 的 /ud 微 笑 /vn /wu 他 /rr 的 /ud 火 热 /z /wu 他 /rr 的 /ud 革 命 /aa 领 袖 /nap 的 /ud 恩 情 /ne,/wd 永 远 /dt 珍 藏 /vt 在 /ps 我 /rr 的 /ud 心 中 /smh /wj 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 21
例 子 ( 续 ) 我 /rr rr 和 /cz 黄 /nrf 若 暾 /nrg 两 /mx 个 /qe 小 青 年 /nap 病 /vt 卧 /vi 小 龙 坎 /ns 的 /ud 库 房 /nas,/wd 恩 来 /nr 同 志 /nap 亲 自 /d 把 /p2 殷 殷 /z 亲 情 /nh 给 予 /vx 我 们 /rr,/wd 他 /rr 的 /ud 探 视 /vn /wu 他 /rr 的 /ud 微 笑 /vn /wu 他 /rr 的 /ud 火 热 /z /wu 他 /rr 的 /ud 革 命 /aa 领 袖 /nap 的 /ud 恩 情 /ne,/wd 永 远 /dt 珍 藏 /vt 在 /ps 我 /rr 的 /ud 心 中 /smh /wj 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 22
例 子 ( 续 ) 我 /rr rr 和 /cz 黄 /nrf 若 暾 /nrg 两 /mx 个 /qe 小 青 年 /nap 病 /vt 卧 /vi 小 龙 坎 /ns 的 /ud 库 房 /nas,/wd 恩 来 /nr 同 志 /nap 亲 自 /d 把 /p2 殷 殷 /z 亲 情 /nh 给 予 /vx 我 们 /rr,/wd 他 /rr 的 /ud 探 视 /vn /wu 他 /rr 的 /ud 微 笑 /vn /wu 他 /rr 的 /ud 火 热 /z /wu 他 /rr 的 /ud 革 命 /aa 领 袖 /nap 的 /ud 恩 情 /ne,/wd 永 远 /dt 珍 藏 /vt 在 /ps 我 /rr 的 /ud 心 中 /smh /wj 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 23
三 角 关 系 图 Referents or entities Refer (evoke) Refer (access) John ANTECEDENT Corefer Anaphora Resolution He ANAPHOR 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 24
指 代 与 共 指 Anaphora vs coreference 指 代 (Anaphora) 关 系 : 强 调 指 代 语 与 另 一 个 表 述 之 间 的 关 系 指 代 语 的 指 称 对 象 通 常 不 明 确, 需 要 确 定 其 与 先 行 语 之 间 的 关 系 来 解 释 指 代 语 的 语 义 ; 张 先 生 走 过 来, 给 大 家 看 他 的 新 作 品 共 指 (coreference): 强 调 一 个 表 述 与 另 一 个 表 述 是 否 指 向 相 同 的 实 体 ; 现 任 美 国 总 统 与 奥 巴 马 指 代 关 系 常 常 表 示 共 指, 但 有 时 也 不 Eg. 我 参 观 了 刘 博 士 的 新 房, 窗 户 正 对 着 花 园, 两 者 的 目 标 : 指 代 消 解 : 寻 找 指 代 语 对 应 的 先 行 语 共 指 消 解 : 发 现 指 向 相 同 实 体 的 语 言 表 示 单 元 ( 包 括 多 语 篇 ) 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 25
6 类 指 称 表 示 Indefinite NPs( 无 定 名 词 ): 一 辆 汽 车 Definite NPs ( 有 定 名 词 ) : 那 个 人 Pronouns ( 人 称 代 词 ) : 它, 他 Demonstratives ( 指 示 代 词 ) : 这, 那 One-anaphora (one 指 代 ) : one (in English) Zero anaphora (0 型 指 代 ) : 省 略 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 26
Indefinite NPs 为 读 者 引 入 一 个 新 的 实 体 时 常 用 无 定 形 式 ; 引 入 的 实 体, 可 能 的 确 存 在 ( 明 确 的 ), 也 可 能 不 明 确 ; 两 个 例 子 : 张 先 生 娶 了 一 位 法 国 太 太 (Specific) 史 密 斯 想 娶 一 位 中 国 姑 娘 (non-specific) 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 27
Definite NPs 无 论 读 者 知 道 否, 一 定 存 在 首 位 进 入 太 空 的 宇 航 员 ( 即, 前 苏 联 宇 航 员 尤 里. 加 加 林 );( 通 过 某 些 知 识 可 以 知 道 ) Look, how beautiful the girl is! ( 实 际 存 在 ) 为 了 消 除 小 兵 兵 对 生 人 的 陌 生 感, 两 位 女 记 者 带 着 这 个 小 男 孩 逛 街 ( 在 上 下 文 中 ) 最 后 一 种 情 况 需 要 指 代 消 解 特 点 : 定 冠 词 ( 这 / 那 ) 引 导 的 名 词 短 语 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 28
Demonstratives 典 型 的 指 示 代 词 包 括 : 那, 这, 当 指 示 代 词 与 后 面 的 名 词 ( 短 语 ) 连 用 时, 此 时 变 为 了 定 冠 词, 形 成 有 定 表 示. Ex: 刘 博 士 刚 买 了 一 套 房 子, 那 是 一 套 性 价 比 相 当 好 的 房 子 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 29
One-anaphora ( 替 换 ) 出 现 在 英 语 中 表 示 某 集 合 中 的 一 个 元 素. Ex: He had a BMW before, now he got another one. John has two BMWs, but I have only one. 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 30
英 文 中 的 特 殊 替 换 Ex. The man who gave his paycheck to his wife was wiser than the man who gave it to his mistress. That s a rhinoceros A what? Spell it for me. 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 31
汉 语 中 的 替 换 刘 博 士 买 的 是 新 房, 张 博 士 买 的 是 二 手 的 朋 友 陈 把 手 一 拍, 我 们 便 看 见 一 只 大 鸟 飞 过 去, 接 着 又 看 见 第 二 只, 第 三 只 我 们 继 续 拍 掌 很 快 这 个 树 林 变 得 热 闹 了 到 处 都 是 鸟 声, 到 处 都 是 鸟 影 大 的, 小 的, 花 的, 黑 的, 有 的 站 在 树 上 叫, 有 的 飞 起 来, 有 的 在 扑 翅 膀 ( 巴 金 : 鸟 的 天 堂 ) Substitution or ellipsis 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 32
省 略 零 指 代 (Zero anaphora) 一 个 例 子 张 三 一 大 早 就 赶 到 了 学 校 他 先 到 食 堂 吃 早 餐, 然 后 [X] 到 宿 舍 拿 自 己 的 教 材 和 [X] 笔 记 本 当 [X] 匆 忙 来 到 教 室 时, 他 发 现 [X] 课 本 拿 错 了 英 语 中 的 零 指 代 很 少 见, 但 汉 语 中 十 分 常 见 : They said they were coming to help us with our house repair today. 他 们 说 [X] 今 天 来 帮 我 们 修 [X] 房 子 他 们 说 他 们 今 天 来 帮 我 们 修 我 们 的 房 子 ( 很 少 这 样 说 ) 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 33
零 指 代 ( 进 一 步 的 例 子 ) 0 形 式 的 判 断 : 需 要 在 句 子 层 面 上 判 断 哪 些 必 须 的 成 分 省 略 了 两 个 例 子 : (1) 美 国 宣 布 (X) 部 分 取 消 (X) 对 朝 鲜 长 达 近 半 个 世 纪 的 经 济 制 裁 (2) 李 向 阳 机 智 地 组 织 游 击 队 攻 城 并 烧 毁 了 敌 人 的 粮 库, (?) 迫 使 松 井 撤 出 了 李 庄 (3) 我 自 来 是 如 此,(X) 从 会 吃 饮 食 时 便 吃 药,(X) 到 今 未 断 (X) 请 了 多 少 名 医,(X) 修 方 配 药,(X) 皆 不 见 效 0 形 式 恢 复 ( 消 解 ) 如 何 消 解 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 34
以 衔 接 为 基 础 的 篇 章 分 析 分 析 单 元 : 通 常 情 况 下 是 词 有 时 也 可 以 是 短 语 ( 或 term) 建 立 词 汇 之 间 的 关 系 : 形 成 词 汇 链 ( 或 词 汇 集 合 ) 词 汇 链 的 形 式 定 义 : 设 文 本 T 可 以 表 示 为 词 的 集 合 T={w 1,w 2,,w n } ( 有 相 同 元 素 ) 设 衔 接 关 系 为 R, 则 R 将 T 划 分 为 : CL_1={w 11,w 12,,w 1m_1 }, CL_2={w 21,w 22,,w 2m_2 }, 其 中, 对 任 意 的 w kp,w kq CL_k, 都 有 (w kp,w kq ) R R 可 以 看 成 为 广 义 等 价 关 系 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 35
如 何 建 立 衔 接 关 系 分 析 五 种 关 系 : Reference( 指 代 ) Substitution( 替 换 : 发 现 替 换 关 系 ) Ellipsis( 省 略 : 找 回 省 略 部 分 ) Conjunction( 连 接, 主 要 在 连 贯 分 析 中 使 用 ) Lexical cohesion( 词 汇 衔 接 ) 重 复 ( 词 的 形 式 判 断 ) 近 义 + 反 义 ( 借 助 于 词 典 ) 上 下 位 义 + 整 体 部 分 义 ( 借 助 于 词 典 ) 搭 配 ( 词 典 + 统 计 方 法 ) 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 36
关 于 连 贯 两 个 解 释 : Longman: a reasonable connection or relation between ideas, arguments, statements etc: An overall theme will help to give your essay coherence. 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 37
一 个 连 贯 的 例 子 S1: 张 三 去 银 行 办 理 支 票. S2: 然 后 他 乘 车 到 了 李 四 的 汽 车 销 售 店. S3: 他 想 买 一 部 车. S4: 他 的 工 作 单 位 距 公 交 站 较 远 S5: 他 也 想 同 李 四 讨 论 一 下 他 们 的 垒 球 协 会 的 事 情 ]Explanation ]Parallel Explanation ]Occasion 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 38
连 贯 关 系 (coherence relation) 语 段 ( 如 句 子 ) 之 间 可 能 的 语 义 连 接 关 系 称 为 连 贯 关 系 Hobbs(1979) 提 出 的 连 贯 关 系 ( 设 S0 和 S1 为 两 个 相 关 的 句 子 的 意 义 ): 结 果 关 系 (result): 推 测 S0 所 声 明 的 状 态 或 事 件 ( 可 能 ) 导 致 S1 所 声 明 的 状 态 或 事 件 ; 解 释 关 系 (explanation): 推 测 S1 所 声 明 的 状 态 或 事 件 ( 可 能 ) 导 致 S0 所 声 明 的 状 态 或 事 件 ; 平 行 关 系 (parallel): 推 测 S0 所 声 明 的 P(a 1,a 2, ) 与 S1 所 声 明 的 P(b 1, b 2, ) 是 类 似 的 ; 细 化 关 系 (Elaboration): 推 测 S1 和 S0 所 声 明 的 是 同 一 命 题 P; 时 机 关 系 (Occasion): 推 测 由 S0 所 声 明 的 状 态 到 S1 最 终 状 态 的 变 化, 或 者 由 S1 所 声 明 的 状 态 到 S0 的 最 初 状 态 的 变 化 ; 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 39
以 连 贯 为 基 础 的 篇 章 结 构 分 析 建 立 句 间 语 义 关 系 ( 以 前 面 5 个 句 子 为 例 ) Occasion (e1:e2) S1 (e1) S2 (e2) Explanation (e2) Parallel (e3;e5) Explanation (e3) S4 (e5) S2(e3) S3(e4) 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 40
RST(Rhetorical structure theory) 修 饰 结 构 理 论 : 认 为 语 篇 的 构 成 具 有 层 次 结 构 关 系 ( 树 形 图 ), 通 过 修 饰 结 构 表 示 语 篇 结 构 理 论 的 建 立 者 为 : William Mann and Sandra Thompson, 1987( 南 加 州 大 学 ) 层 次 结 构 关 系 由 修 饰 关 系 刻 画 修 饰 关 系 是 对 前 面 Hobbs 连 贯 关 系 的 细 化 共 23 种 关 系 ; 关 系 的 双 方 : Nucleus 与 Satellite 具 有 支 配 作 用 : Nucleus + Satellite 平 等 关 系 : Nucleus + Nucleus 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 41
RST 中 的 关 系 Subject matter (informational) Presentational (intentional) Elaboration Circumstance Solutionhood Volitional Cause Volitional Result Non-Volitional Cause Non-Volitional Result Purpose Condition Otherwise Interpretation Evaluation Restatement Summary Sequence Contrast Motivation Antithesis Background Enablement Evidence Justify Concession 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 42
基 本 关 系 模 式 二 元 关 系 relation relation text part: satellite text part: nucleus text part: nucleus text part: nucleus 多 元 素 关 系 relation 1 relation 2 relation 2 relation 1 relation 1 relation 2 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 43
基 于 RST 的 分 析 : 问 题 语 篇 中 究 竟 需 要 多 少 关 系 以 及 需 要 什 么 样 的 关 系? 没 有 统 一 的 标 准 两 个 片 段 ( 句 子 ) 之 间 可 能 存 在 多 种 解 释 不 同 的 解 释 都 能 接 受 如 何 确 认 两 个 片 段 之 间 的 关 系? 并 不 是 一 件 容 易 的 事 ( 很 多 情 况 下 没 有 形 式 标 记, 需 要 靠 意 义 确 定 关 系 ) 构 造 树 结 构 的 复 杂 性 高 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 44
多 种 解 释 Moore and Polack, 1992 1. Come back at 5:00. 2. Then we can go to the hardware store before it closes. 3. This way we can finish the bookshelves tonight. Informational level Intentional level condition motivation condition 3 1 motivation 1 Condition: The satellite presents a situation which is necessary for the nucleus to obtain. 2 Motivation: Satellite presents information which should make the reader want to perform the action in the nucleus 2 3 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 45
Content 引 入 衔 接 与 连 贯 中 心 理 论 与 指 代 消 解 指 代 消 解 的 其 他 方 法 指 代 消 解 的 应 用 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 46
中 心 理 论 CT (Centering Theory) 提 出 者 : Grosz Barbara 特 点 : 是 一 种 局 部 化 的 语 篇 连 贯 性 理 论 ; 解 释 了 为 什 么 某 个 语 篇 比 另 一 个 语 篇 在 处 理 ( 理 解 ) 上 更 困 难 ; 解 释 了 为 什 么 会 以 这 种 方 式 使 用 代 词 而 不 是 用 其 他 方 式 ; 给 出 了 指 代 消 解 的 一 种 实 用 化 方 法 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 47
语 篇 比 较 哪 一 段 更 容 易 理 解? a. Jeff 1 helped Dick 2 wash the car. b. He 1 washed the windows as Dick 2 waxed( 擦 亮 )the car. c. He 1 soaped a pane( 玻 璃 ). a. Jeff 1 helped Dick 2 wash the car. b. He 1 washed the windows as Dick 2 waxed the car. c. He 2 buffed ( 擦 亮 ) the hood( 发 动 机 罩 ). 从 句 子 的 关 系 和 意 义 上 看, 哪 一 段 更 连 贯 呢? 原 因 : 第 一 段 的 中 心 (Center) 没 有 变, 一 直 是 Jeff 在 第 2 段 中,C 的 中 心 He 变 为 了 Dick 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 48
中 心 可 以 帮 助 消 解 代 词 歧 义 代 词 消 解 ( 指 代 消 解 ): 确 定 代 词 的 所 指 过 程 一 个 例 子 : 1. Susan 1 is a fine friend. 2. She 1 gives people the most wonderful presents. 3. She 1 just gave Betsy 2 a wonderful bottle of wine. 4. She 1 told her 2 it was quite rare. 5. She 1 knows a lot about wine. 为 什 么 后 四 个 句 子 中 的 she 都 表 示 Susan? 为 什 么 her 表 示 Betsy? 中 心 理 论 可 以 给 出 合 理 的 解 释! 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 49
另 一 个 例 子 详 解 from Grosz, Joshi and Weinstein, 1995 a. Terry really goofs sometimes. b. Yesterday was a beautiful day and he was excited about trying out his new sailboat. c. He wanted Tony to join on a sailing expedition. d. He called him at 6 A.M. 语 篇 的 正 常 表 述! 其 中,He 是 谁? him 是 谁? 为 什 么? 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 50
To continue 后 面 再 增 加 一 个 句 子, 得 到 语 篇 : a. Terry really goofs sometimes. b. Yesterday was a beautiful day and he was excited about trying out his new sailboat. c. He wanted Tony to join on a sailing expedition. d. He called him at 6 A.M. e. He was sick and furious at being woken up so early. 语 篇 的 表 述 似 乎 不 太 正 常! 其 中, 最 后 一 个 He 是 谁? 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 51
To continue 假 设 后 面 增 加 句 子 变 成 为 : a. Terry really goofs sometimes. b. Yesterday was a beautiful day and he was excited about trying out his new sailboat. c. He wanted Tony to join on a sailing expedition. d. He called him at 6 A.M. e. Tony was sick and furious at being woken up so early. 语 篇 的 表 述 又 可 以 接 受! 其 中 的 变 化 是 : 最 后 一 个 He 改 成 了 Tony 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 52
To continue 假 设 后 面 再 增 加 一 个 句 子 : a. Terry really goofs sometimes. b. Yesterday was a beautiful day and he was excited about trying out his new sailboat. c. He wanted Tony to join on a sailing expedition. d. He called him at 6 A.M. e. Tony was sick and furious at being woken up so early. f. He told Terry to get lost and hung up. 语 篇 的 表 述 可 以 接 受! 最 后 一 个 He 指 代 谁? 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 53
To continue 在 后 面 进 一 步 增 加 句 子 : a. Terry really goofs sometimes. b. Yesterday was a beautiful day and he was excited about trying out his new sailboat. c. He wanted Tony to join on a sailing expedition. d. He called him at 6 A.M. e. Tony was sick and furious at being woken up so early. f. He told Terry to get lost and hung up. g. Of, course he hadn t intended to upset Tony. 表 述 似 乎 又 有 问 题! 问 题 出 在 最 后 一 个 he 上? 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 54
最 后 面 句 子 再 修 改 : To continue a. Terry really goofs sometimes. b. Yesterday was a beautiful day and he was excited about trying out his new sailboat. c. He wanted Tony to join on a sailing expedition. d. He called him at 6 A.M. e. Tony was sick and furious at being woken up so early. f. He told Terry to get lost and hung up. g. Of, course Terry hadn t intended to upset Tony. 此 次 的 语 篇 看 起 来 怎 么 样? 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 55
中 心 理 论 的 进 一 步 解 释 中 心 : 语 篇 中 的 实 体 之 一 什 么 是 实 体? John gave Mary a flower. person1 type = person name = John gender = masc person2 type = person name = Mary gender = fem flower1 type = flower number = sg 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 56
如 何 界 定 中 心? CT 理 论 提 出 了 三 类 中 心 前 瞻 中 心 表 (a list of forward-looking centers) 句 子 u 的 前 瞻 中 心 表 是 句 中 实 体 有 序 集 C f (u) = <e 1, e 2,... e k > 其 中, 实 体 的 排 序 规 律 为 : subject > direct-object > indirect-object > others 回 看 中 心 (a backward-looking center) 句 子 u 中 的 回 看 中 心 C b (u) 是 出 现 在 u 中, 且 在 前 面 句 子 中 排 顺 最 靠 前 的 实 体 ; 优 先 中 心 (a prefered center) 句 子 u 中 的 优 先 中 心 C p (u) 是 C f (u) 中 排 序 最 靠 前 的 实 体 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 57
中 心 转 换 关 系 Following Grosz, Joshi and Weinstein, 1995, Brennan, Friedman and Pollard, 1987 C b (u) = C b (u-1) C b (u) C b (u-1) C b (u) = C p (u) C b (u) C p (u) CONTINUING RETAINING SMOOTH SHIFT ABRUPT SHIFT 连 贯 性 比 较 CON > RET > SSH > ASH 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 58
基 于 中 心 的 连 贯 性 比 较 U1. John went to his favorite music store to buy a piano. U2. He had frequented the store for many years. U3. He was excited that he could finally buy a piano. U4. He arrived just as the store was closing for the day. U 1. John went to his favorite music store to buy a piano. U 2. It was a store John had frequented for many years. U 3. He was excited that he could finally buy a piano. U 4. It was closing just as John arrived. 由 中 心 理 论 可 以 推 断, 第 一 段 比 第 二 段 连 贯 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 59
第 一 段 U 1. John went to his favorite music store to buy a piano. C f (U 1 ) = (John, store, piano). U 2. He had frequented the store for many years. C b (U 2 ) = John. C f (U 2 ) = (John, store). CONTINUATION. U 3. He was excited that he could finally buy a piano. C b (U 3 ) = John. C f (U 3 ) = (John, piano). CONTINUATION. U 4. He arrived just as the store was closing for the day. C b (U 4 ) = John. C f (U 4 ) = (John, store). CONTINUATION. 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 60
第 二 段 U 1. John went to his favorite music store to buy a piano. C f (U 1 ) = (John, store, piano). U 2. It was a store John had frequented for many years. C b (U 2 ) = John. C f (U 2 ) = (store, John). RETAINING. U 3. He was excited that he could finally buy a piano. C b (U 3 ) = John. C f (U 3 ) = (John, piano). CONTINUATION. U 4. It was closing just as John arrived. C b (U 4 ) = John. C f (U 4 ) = (store, John). RETAINING. 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 61
尝 试 比 较 下 面 两 段 a. Jeff1 helped Dick2 wash the car. b. He1 washed the windows as Dick2 waxed( 擦 亮 ) the car. c. He1 soaped a pane( 玻 璃 ). a. Jeff 1 helped Dick 2 wash the car. b. He 1 washed the windows as Dick 2 waxed the car. c. He 2 buffed ( 擦 亮 ) the hood( 发 动 机 罩 ). 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 62
基 于 CT 的 指 代 消 解 算 法 规 则 : 如 果 C f (u i-1 ) 的 某 元 素 以 代 词 形 式 出 现 在 u i, 那 么, 这 个 元 素 就 是 C b (u i ) 规 则 给 出 了 凸 显 性 的 直 观 解 释, 即 被 代 词 表 示 的 实 体 具 有 显 著 性 ( 一 目 了 然 ) 如 果 有 多 个 代 词, 那 么 其 中 之 一 是 C b (u i ) 如 果 只 有 一 个 代 词, 那 么 一 定 是 C b (u i ) 解 释, Cb(u i ) 的 确 定 依 赖 于 两 个 条 件 : (1) 一 定 是 在 U i 中 出 现 的 语 义 实 体 ; (2) 该 实 体 也 一 定 在 Cf(U i-1 ) 中 出 现 过, 如 果 U i 有 多 个 实 体 也 在 U i-1 中 出 现, 那 么, 作 为 Cb(U i ) 的 实 体 在 Cf(U i-1 ) 中 应 有 更 高 的 排 位 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 63
算 法 (BFP) BFP(Brennan, Friedman and Pollard,1987) 步 骤 : Step1. 如 果 在 U i 中 出 现 人 称 代 词, 则 自 左 至 右 顺 序 检 验 Cf(U i-1 ) 中 的 元 素, 直 至 同 时 满 足 词 汇 句 法 (Morphosyntactic) 约 束 (Binding) 和 类 型 标 准 (Sortal criteria); 这 样 的 元 素 作 为 先 行 语 ; Step2. 完 全 读 取 表 述 U i, 计 算 Cb(U i ) 并 生 成 Cf(U i-1 ), 对 Cf(U i-1 ) 进 行 排 序 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 64
例 子 解 释 a. Terry really goofs sometimes. C f = ([Terry]) b. Yesterday was a beatiful day and he was excited about trying out his new sailboat. C f = (he=his=[terry], [the sailboat]) C b = [Terry] c. He wanted Tony to join on a sailing expedition( 划 艇 队 ). C f = (he=[terry], [Tony], [the expedition]) C b = [Terry] d. He called him at 6 A.M. C f = (he=[terry], him=[tony]) C b = [Terry] 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 65
再 看 例 子 变 形 a. Terry really goofs sometimes. C f = ([Terry]) b. Yesterday was a beatiful day and he was excited about trying out his new sailboat. C f = (he=his=[terry], [the sailboat]) C b = [Terry] c. He wanted Tony to join on a sailing expedition. C f = (he=[terry], [Tony], [the expedition]) C b = [Terry] d. Terry called him at 6 A.M. C f = ([Terry], him=[tony]) C b = [Terry] disobeyed (violation) 不 如 前 面 连 贯, 实 际 上 很 少 使 用 这 种 表 达 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 66
中 心 理 论 的 问 题 属 于 局 部 连 贯 性 ( 通 过 相 邻 句 子 的 中 心 变 化 表 征 ), 跨 越 多 个 句 子 的 指 代 消 解 如 何 处 理? 中 心 理 论 要 求 单 位 是 utterance( 没 有 明 确 界 定 为 句 子 -sentence/clause), 什 么 是 utterance, 特 别 是 在 汉 语 中 如 何 界 定? C f 中 的 排 列 顺 序 目 前 只 用 到 了 表 层 信 息, 是 否 还 有 深 层 信 息 ( 如 语 义 ) 可 用? 汉 语 中 大 量 存 在 0- 指 代, 如 何 处 理 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 67
Content 引 入 衔 接 与 连 贯 中 心 理 论 与 指 代 消 解 指 代 消 解 的 其 他 方 法 指 代 消 解 的 应 用 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 68
基 于 语 言 知 识 过 滤 原 则 : 性 别 单 复 数 和 人 称 的 一 致 性 规 则 ; 优 选 原 则 : 距 离 近 优 先 句 法 语 义 平 行 优 先 例 子 : A 喜 欢 与 B 闲 聊, 他 也 喜 欢 与 C 闲 聊 A 喜 欢 与 B 闲 聊,C 也 喜 欢 与 他 闲 聊 算 法 :Lappin & Leass 提 出 的 算 法 RAP( 处 理 单 数 三 人 称 代 词, 略 ) 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 69
基 于 分 类 (ML) 的 方 法 利 用 机 器 学 习 方 法 建 立 分 类 器 : 方 法 : 选 取 对 共 指 消 解 产 生 影 响 的 特 征, 主 要 包 括 : 两 者 的 距 离, 字 符 的 匹 配 程 度, 单 复 数 一 致 性, 性 别 一 致 性, 语 义 类 的 一 致 性, 是 否 是 别 称. 例 子 : [ 聂 /nr 卫 平 /nr] 今 天 /t 取 胜 /v 不 易 /a /w 布 局 /vn 阶 段 /n 便 /d 与 /p [ 实 力 派 /n 人 物 /n] [ 刘 /nr 小 光 /nr] 九 /m 段 /q 展 开 /v 激 战 /vn,/w 棋 局 /n 跌 宕 起 伏 /l,/w 互 /d 有 /v 优 劣 /n /w 直 到 /v 官 子 /vn 阶 段 /n,/w [ 聂 /nr 卫 平 /nr] 才 /d 因 /c [ 对 手 /n] 的 /u 缓 /a 手 /n 而 /c 最 终 /d 取 胜 /v /w [ 对 手 /n] => [ 聂 /nr 卫 平 /nr] 属 于 一 类 吗? [ 对 手 /n] => [ 刘 /nr 小 光 /nr] 属 于 一 类 吗? 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 70
指 代 消 解 的 困 难 Morphological and and lexical knowledge Real-world knowledge Anaphora resolution Syntactic knowledge Discourse knowledge Semantic knowledge 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 71
汉 语 中 的 指 代 消 解 困 难 几 类 典 型 的 问 题 : 0- 指 代 ( 省 略 ) 如 何 识 别? 例 : 张 三 对 [ ] 弟 弟 保 护 得 很 好,[ ] 每 次 出 去,[ ] 都 是 牵 着 [ ] 弟 弟 的 手 如 何 识 别 可 能 的 指 称 语 ( 除 了 人 名 代 词 之 外, 还 有 其 他 吗? 如, 美 国 总 统 即 将 访 华 ) 抽 象 指 代 问 题 美 国 的 一 些 学 者 认 为 中 国 强 大 后 必 然 走 上 一 条 对 外 扩 张 的 道 路, 其 实 这 完 全 是 一 种 误 解 有 效 的 方 法 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 72
Content 引 入 衔 接 与 连 贯 中 心 理 论 与 指 代 消 解 指 代 消 解 的 其 他 方 法 指 代 消 解 的 应 用 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 73
文 本 处 理 相 关 的 一 切 应 用 机 器 翻 译 They 是 翻 译 成 他 们, 她 们, 还 是 它 们? 文 本 摘 要 : 理 解 原 文 本 时, 需 要 理 解 代 词 的 对 应 关 系 生 成 摘 要 时, 避 免 名 字 ( 同 一 个 词 ) 的 反 复 使 用, 用 代 词 ( 或 0- 形 式 ) 表 示, 以 便 符 合 习 惯 信 息 抽 取 : 识 别 文 本 中 的 实 体, 建 立 实 体 之 间 的 关 系 实 体 常 常 用 代 词 表 示, 关 系 的 建 立 需 要 明 确 代 词 的 指 向 其 它 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 74
Thanks! Q & A 2012-3-26 wanghf@pku.edu.cn, Icler, PKU 75