神经机器翻译前沿进展

Similar documents
untitled

務 相 關 的 約 點 及 內 容 / 托 嬰 契 約 (2) 居 家 托 育 人 員 在 中 心 托 育 人 員 2. 瞭 解 契 約 ( 到 ) 宅 托 兒 契 約 一 天 的 工 作 重 的 意 義 (3) 契 約 的 意 義 分 點 及 內 容 法 律 效 類 自 由 與 限 制 及 2.

语言的地位与外地来沪白领青年的语言选择

第一章 緒論

2

<4D F736F F D20D1A7C9FACAD6B2E1B8C4D7EED6D5A3A8B4F8B1EDB8F1BCD3D2B3C2EBB0E6A3A9372E3239>

桂林市劳动和社会保障局关于

第三章 維修及管理

Microsoft Word 年度选拔硕博连读研究生的通知.doc

<4D F736F F D203720A4E8AA46BEF0A16DAC4CAC4EB8E2A8A5A16EB5FBB3B3B8D620B169AB57ACD52E646F63>

2

Schumpeter Mensch Freeman Clark Schumpeter Mensch 1975 technological stalemate 2000 Van Dujin 1977 OECD 1992 Freeman 1982 Van

Microsoft Word doc


Microsoft Word - WZTU doc

~ ~ ~

Microsoft Word doc

統計名詞0925

Microsoft Word G...doc

以西結書

xueshu004.doc

May Arab World Studies No

最有利標及評選優勝廠商_含附錄__ 更新_.doc

188 一般論文 The Pursuit of Reality in Family Catastrophe and Crystal Boys Hung, San-Hui PhD Candidate Department of Chinese Literature National Central U

沈俊平 70 他工商業一樣急劇衰落 康熙二十年 1681 吳三桂 等三藩之亂平 定後清廷採取與民休息的政策社會生產力逐漸恢復書坊業才回復生機 4 清代書坊中心發生了相當大的變化不僅南京杭州遠不如明代建陽書坊也 失去了昔日的光輝 北京蘇州廣州取而代之成為三大書坊中心 新興的書坊 刻

Journal of Chinese Literature of Providence University Vol. 6, Dec 2014 pp Chinese Literature Department, Providence University The analyses

中國的科學與中國的公民:大陸研究在台灣的困境\\

第二部分


民國初年小學國語課本的實用主義傾向──以黎錦暉編寫版本為主要分析對象

128 中 南 大 学 学 报 ( 社 会 科 学 版 ) 2012 年 第 18 卷 第 5 期 毫 无 价 值, 而 且 还 会 遗 患 无 穷 随 着 社 会 生 活 节 奏 的 加 快 和 生 活 方 式 的 改 变, 食 品 供 应 将 日 益 社 会 化, 更 多 的 人 依 赖 食 品

:,,,, ;,,,,, Becker Tomes(1986), ( ), ( ),, ;,,,, , (CNHS) , ( ),CHNS,, CHNS :CHNS,, 30 %, 30 %, 30 % (1992),

清代賦格著作《賦學指南》考論

谈屈原之死与其悲剧人格

49 Schroeder & Aoki 2009 Li Bird & Ebel SSCI Journal of Public Economics Zhang & Zou DC cbe = + 2 DC be =

Shanghai International Studies University THE STUDY AND PRACTICE OF SITUATIONAL LANGUAGE TEACHING OF ADVERB AT BEGINNING AND INTERMEDIATE LEVEL A Thes

Microsoft Word - 6.劉昭明.doc

决 策 系 统 工 程 专 业 委 员 会 2014 年 工 作 总 结 军 事 系 统 工 程 专 业 委 员 会 2014 年 工 作 总 结 青 年 工 作 委 员 会 2014 年 工 作 总 结 系 统 动 力 学 专 业 委 员 会 2014 年 工 作 总 结 科 技 系 统 工 程

填 表 说 明 1. 本 表 用 钢 笔 填 写, 也 可 直 接 打 印, 不 要 以 剪 贴 代 填 字 迹 要 求 清 楚 工 整 2. 本 表 所 填 内 容 必 须 真 实 可 靠, 如 发 现 虚 假 信 息, 将 取 消 所 在 学 院 参 评 资 格 3. 本 表 涉 及 的 项 目


目 录

我國溫室氣體減量政策及措施

/ / / Kornai1993 hierarchy Weber1958 Williamson 1979 chain of command Downs 1994 Tullock 1992 Lazear1998 Li & Zhou promoti

中文版样板

Chinese Buddhism s Treatment of Zhaijiang Wang Tsui-Ling Assistant Professor, Department of Chinese Literature, National Cheng Kung University Abstrac

32 戲劇學刊 A Study of Beijing Opera s Jing Actors and Their Vocal Accents in the Early Twentieth Century Using Two Operas, Muhuguan and Yuguoyuan, as Exa

Microsoft Word Local government organization and finance in China.doc

 

<ABCAADB1BD64A5BB2E707364>

* RRB *


6 : 9,,, : ; ;,,,,,,,,,,, ,,, :,,, ;,, ;,,, ;, 20,,,,,, 50,,,,,,!,,,,,,, : ( ),, :2003, ;, ; 10,,,, ;,


The Idea Changing of Father & Son between Two Dynasty Chou Wan-Yu Kao* Abstract Chinese is proud of its country with courtesy and justice. The courtes

基于矩阵分解和矩阵变换的多义词向量研究

doc

南華大學數位論文



Microsoft Word - 6_0目錄.doc

关 于 学 生 手 册 的 说 明 为 规 范 南 开 大 学 现 代 远 程 教 育 学 院 各 项 教 学 教 务 管 理, 加 强 对 学 习 中 心 管 理 人 员 的 工 作 指 导, 特 汇 编 本 学 生 手 册 学 院 将 根 据 实 际 情 况, 不 断 修 订 完 善 该 学 生


Transcription:

第十五届 机器学习及其应用 研讨会 基于深度学习的机器翻译 刘洋清华大学 1

机器翻译 目标 : 利用计算机实现自然语言之间的自动翻译 布什与沙龙举行了会谈 Bush held a talk with Sharon 2

发展历史 发展趋势 : 让计算机更加 自主 地学习如何翻译 规则机器翻译 统计数据驱动神经机器翻译机器翻译机器翻译 1980 1990 1990 2013 3

训练数据 : 平行语料库 平行语料库是解开语言之间转换规律奥秘的钥匙 4

数据驱动的机器翻译 Garcia y asociados. Garcia and associates. los clients y los asociados son enemigos. the clients and the associates are enemies. sus asociados no son fuertes. his associates are not strong. Garcia y sus asociados no son enemigos. Garcia and his associates are not enemies. 西班牙语 英语 Garcia Garcia y and asociados associates.. los the clients clients son are enemigos enemies sus his no not fuertes strong 5

统计机器翻译 隐变量对数线性模型 : 在隐式语言结构上设计特征 布什与沙龙举行了会谈 Bush held a talk with Sharon (Och and Ney, 2002) 6

基于短语的统计机器翻译 短语翻译模型 : 以隐结构短语为基本翻译单元 布什与沙龙举行了会谈 布什与沙龙举行了会谈 Bush with Sharon held a talk Bush held a talk with Sharon Bush held a talk with Sharon (Koehn et al., 2003) 7

难点 : 特征设计 held Bush talk a Sharon President with Minister at the Israeli Prime House White 如何用上述词语拼成合理的译文? 8

深度学习带来新思路 Yann LeCun Yoshua Bengio Geoffrey Hinton (LeCun et al, 2015) 9

深度学习显著提升机器翻译水平 深度学习显著提升了机器翻译的质量, 接近普通人的水平 注 : 对比式人工评价, 评分范围为 [0, 6] (Wu et al, 2016) 10

神经机器翻译 利用神经网络以端到端的方式实现自然语言之间的映射 布什与沙龙举行了会谈 Bush held a talk with Sharon (Sutskever et al, 2014) 11

编码器 - 解码器框架 利用递归神经网络实现源语言的编码和目标语言的解码 布什与沙龙举行了会谈 </s> Bush held a talk with Sharon </s> (Sutskever et al., 2014) 12

基于注意力的神经机器翻译 利用注意力机制动态计算源语言端相关上下文 布什与沙龙举行了会谈 </s> Bush held a talk with Sharon </s> (Bahdanau et al., 2015) 13

基于卷积神经网络的神经机器翻译 卷积序列到序列学习 RNNs: 依赖于全部历史信息, 难以并行化 CNNs: 不依赖于全部历史信息, 高度并行化 动画来源网站 (Gehring et al., 2017) 14

只使用注意力机制的神经机器翻译 利用注意力机制建立编码器 解码器及其关联 (Vaswani et al., 2017) 15

主要挑战 训练测试差异如何减少训练与测试之间的差异性? 先验知识融合如何向神经网络加入先验知识? 低资源学习如何处理训练数据匮乏的情况? 可解释性 如何可视化分析神经网络的内部机制? 16

挑战 1: 训练测试差异 如何减少训练与测试之间的差异性? 训练 测试 生成目标词基于来自观测数据的上下文 生成目标词基于来自模型预测的上下文 (Rezanto et al., 2016) 17

风险 : 期望损失 18

我们的工作 最小风险训练 : 针对评价指标训练神经网络 训练数据训练目标 优化 通用性 : 适用于任意架构和任意损失函数 (Shen et al., 2016) 19

样例分析 输入 SMT NMT (MLE) NMT (MRT) 美国代表团包括来自史丹福大学的一位中国专家, 两名参院外交政策助理以及一位负责与平壤当局打交道的前国务院官员 the united states to members of the delegation include representatives from the stanford university, a chinese expert, two assistant senate foreign policy and a responsible for dealing with pyongyang before the officials of the state council. the us delegation comprises a chinese expert from stanford university, a chinese foreign office assistant policy assistant and a former official who is responsible for dealing with the pyongyang authorities. the us delegation included a chinese expert from the stanford university, two senate foreign policy assistants, and a former state department official who is responsible for dealing with the pyongyang authorities. BLEU 值提升 6-7 个百分点! (Shen et al., 2016) 20

挑战 2: 先验知识融合 如何向神经网络中加入先验知识? 类型双语词典繁殖率覆盖结构差异 示例 中国 一般被翻译成 China 白宫 一般被翻译成两个英文词源文中每个词大多被只被翻译一次中文 VP+PP, 英文则 PP+VP (Tu et al., 2016; Cohn et al., 2016; Cheng et al., 2016b) 21

后验正则化 利用后验正则化间接影响模型训练 训练目标 先验知识 (Ganchev et al., 2010) 22

我们的工作 基于后验正则化加入离散特征, 指导神经网络训练 训练目标 先验知识 (Zhang et al., 2017) 23

翻译先验知识源 双语词典 双语短语表 覆盖率惩罚 长度比例 (Zhang et al., 2017) 24

实验结果 在中英翻译上显著超过原始的后验正则化方法 (Zhang et al., 2017) 25

挑战 3: 低资源学习 如何处理训练数据匮乏的情况? 大多数语言的数据规模都很有限, 严重制约神经机器翻译的性能 (Zoph and Knight, 2016; Cheng et al., 2016; Sennrich et al., 2016) 26

我们的工作 基于自动编码器的半监督学习 自动编码器 : 使用双向模型重建观测的单语语料库 (Cheng et al., 2016) 27

神经机器翻译的半监督学习 同时使用小规模标注数据和大规模未标注数据 (Cheng et al., 2016) 28

样例分析 未标注数据 第 0 轮自动标注 第 4 万轮自动标注 第 24 万轮自动标注 但一旦判决结果最终确定, 则必须在 30 天内执行 however, in the final analysis, it must be carried out within 30 days. however, in the final analysis, the final decision will be carried out within 30 days. however, once the verdict is finally confirmed, it must be carried out within 30 days. 模型和自动标注随着迭代次数的增加不断提高 (Cheng et al., 2016) 29

挑战 4: 可解释性 如何可视化分析神经网络的内部机制? (Bach et al., 2015; Li et al., 2016) source words source word embeddings source forward hidden states 我喜欢温哥华 </s> source backward hidden states source hidden states source contexts target hidden states target word embeddings target words Black Box attention I like Vancouver </s> 30

我们的工作 source words 我喜欢温哥华 </s> (Ding et al., 2017) 31

我们的工作 source words 我喜欢温哥华 </s> source word embeddings (Ding et al., 2017) 32

我们的工作 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states (Ding et al., 2017) 33

我们的工作 1.00 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states targeted vector of neurons relevant vector of neurons intermediate vector of neurons 1.0 irrelevant vector of neurons relevance 34

我们的工作 0.2 0.8 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states (Ding et al., 2017) 35

我们的工作 0.10 0.25 0.65 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states (Ding et al., 2017) 36

我们的工作 0.02 0.04 0.16 0.78 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states (Ding et al., 2017) 37

我们的工作 1.00 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states (Ding et al., 2017) 38

我们的工作 0.77 0.23 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states (Ding et al., 2017) 39

我们的工作 0.70 0.23 0.07 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states (Ding et al., 2017) 40

我们的工作 0.62 0.24 0.15 0.09 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states (Ding et al., 2017) 41

我们的工作 0.22 0.16 0.08 0.04 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states (Ding et al., 2017) 42

我们的工作 0.12 0.72 0.11 0.05 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states (Ding et al., 2017) 43

我们的工作 0.06 0.12 0.80 0.02 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states (Ding et al., 2017) 44

我们的工作 0.01 0.02 0.07 0.90 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states (Ding et al., 2017) 45

我们的工作 0.58 0.32 0.07 0.03 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention (Ding et al., 2017) 46

我们的工作 0.58 0.24 0.15 0.03 source words source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states 我喜欢温哥华 </s> attention (Ding et al., 2017) 47

我们的工作 0.78 0.12 0.07 0.03 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I attention (Ding et al., 2017) 48

我们的工作 0.18 0.29 0.25 0.03 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I 0.23 attention (Ding et al., 2017) 49

我们的工作 0.14 0.33 0.24 0.04 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I 0.25 attention (Ding et al., 2017) 50

我们的工作 0.11 0.45 0.11 0.02 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I 0.31 like attention (Ding et al., 2017) 51

我们的工作 0.09 0.15 0.51 0.04 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I 0.21 like attention (Ding et al., 2017) 52

我们的工作 0.05 0.16 0.35 0.02 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like 0.11 0.31 (Ding et al., 2017) 53

我们的工作 0.04 0.10 0.42 0.02 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like Vancouver 0.05 0.37 (Ding et al., 2017) 54

我们的工作 0.05 0.09 0.11 0.52 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like Vancouver 0.06 0.17 (Ding et al., 2017) 55

我们的工作 0.02 0.06 0.15 0.51 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like Vancouver 0.02 0.07 0.17 (Ding et al., 2017) 56

我们的工作 0.03 0.05 0.10 0.61 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like Vancouver </s> 0.04 0.05 0.12 (Ding et al., 2017) 57

向量级和神经元级相关性 向量级相关性 神经元级相关性 58

神经元级相关性 将目标神经元的激活函数值在相关神经元之间分解 例如 59

计算神经元级相关性 利用后向传播递归计算神经元级相关性 例如 60

计算权重比例 利用前向传播计算权重比例 For example 61

计算向量级相关性 62

ACL 2017 Outstanding Paper 63

THUMT http://thumt.thunlp.org/ 64

搜狗翻译 与搜狗合作推出 搜狗机器翻译 和 搜狗海外搜索 http://fanyi.sogou.com 65

未来展望 人工干预 规则机器翻译 规则 统计机器翻译 规则 特征 神经机器翻译 规则 特征 架构 架构学习先验知识融合可解释性 多模态单次学习高效算法 66

总结 神经机器翻译 : 通过神经网络直接实现自然语言的相互映射 神经机器翻译近年来取得迅速发展, 已经取代统计机器翻译成为新的主流技术 神经机器翻译在架构 先验知识融合 可解释性等方面仍面临挑战, 需要进一步深入探索 67

谢谢! http://nlp.csai.tsinghua.edu.cn/~ly/ http://thumt.thunlp.org/ 68