神经机器翻译前沿进展

第十五届机器学习及其应用研讨会基于深度学习的机器翻译刘洋清华大学 1

机器翻译目标 : 利用计算机实现自然语言之间的自动翻译布什与沙龙举行了会谈 Bush held a talk with Sharon 2

发展历史发展趋势 : 让计算机更加自主地学习如何翻译规则机器翻译统计数据驱动神经机器翻译机器翻译机器翻译 1980 1990 1990 2013 3

训练数据 : 平行语料库平行语料库是解开语言之间转换规律奥秘的钥匙 4

数据驱动的机器翻译 Garcia y asociados. Garcia and associates. los clients y los asociados son enemigos. the clients and the associates are enemies. sus asociados no son fuertes. his associates are not strong. Garcia y sus asociados no son enemigos. Garcia and his associates are not enemies. 西班牙语英语 Garcia Garcia y and asociados associates.. los the clients clients son are enemigos enemies sus his no not fuertes strong 5

统计机器翻译隐变量对数线性模型 : 在隐式语言结构上设计特征布什与沙龙举行了会谈 Bush held a talk with Sharon (Och and Ney, 2002) 6

基于短语的统计机器翻译短语翻译模型 : 以隐结构短语为基本翻译单元布什与沙龙举行了会谈布什与沙龙举行了会谈 Bush with Sharon held a talk Bush held a talk with Sharon Bush held a talk with Sharon (Koehn et al., 2003) 7

难点 : 特征设计 held Bush talk a Sharon President with Minister at the Israeli Prime House White 如何用上述词语拼成合理的译文? 8

深度学习带来新思路 Yann LeCun Yoshua Bengio Geoffrey Hinton (LeCun et al, 2015) 9

深度学习显著提升机器翻译水平深度学习显著提升了机器翻译的质量, 接近普通人的水平注 : 对比式人工评价, 评分范围为 [0, 6] (Wu et al, 2016) 10

神经机器翻译利用神经网络以端到端的方式实现自然语言之间的映射布什与沙龙举行了会谈 Bush held a talk with Sharon (Sutskever et al, 2014) 11

编码器 - 解码器框架利用递归神经网络实现源语言的编码和目标语言的解码布什与沙龙举行了会谈 </s> Bush held a talk with Sharon </s> (Sutskever et al., 2014) 12

基于注意力的神经机器翻译利用注意力机制动态计算源语言端相关上下文布什与沙龙举行了会谈 </s> Bush held a talk with Sharon </s> (Bahdanau et al., 2015) 13

基于卷积神经网络的神经机器翻译卷积序列到序列学习 RNNs: 依赖于全部历史信息, 难以并行化 CNNs: 不依赖于全部历史信息, 高度并行化动画来源网站 (Gehring et al., 2017) 14

只使用注意力机制的神经机器翻译利用注意力机制建立编码器解码器及其关联 (Vaswani et al., 2017) 15

主要挑战训练测试差异如何减少训练与测试之间的差异性? 先验知识融合如何向神经网络加入先验知识? 低资源学习如何处理训练数据匮乏的情况? 可解释性如何可视化分析神经网络的内部机制? 16

挑战 1: 训练测试差异如何减少训练与测试之间的差异性? 训练测试生成目标词基于来自观测数据的上下文生成目标词基于来自模型预测的上下文 (Rezanto et al., 2016) 17

风险 : 期望损失 18

我们的工作最小风险训练 : 针对评价指标训练神经网络训练数据训练目标优化通用性 : 适用于任意架构和任意损失函数 (Shen et al., 2016) 19

样例分析输入 SMT NMT (MLE) NMT (MRT) 美国代表团包括来自史丹福大学的一位中国专家, 两名参院外交政策助理以及一位负责与平壤当局打交道的前国务院官员 the united states to members of the delegation include representatives from the stanford university, a chinese expert, two assistant senate foreign policy and a responsible for dealing with pyongyang before the officials of the state council. the us delegation comprises a chinese expert from stanford university, a chinese foreign office assistant policy assistant and a former official who is responsible for dealing with the pyongyang authorities. the us delegation included a chinese expert from the stanford university, two senate foreign policy assistants, and a former state department official who is responsible for dealing with the pyongyang authorities. BLEU 值提升 6-7 个百分点! (Shen et al., 2016) 20

挑战 2: 先验知识融合如何向神经网络中加入先验知识? 类型双语词典繁殖率覆盖结构差异示例中国一般被翻译成 China 白宫一般被翻译成两个英文词源文中每个词大多被只被翻译一次中文 VP+PP, 英文则 PP+VP (Tu et al., 2016; Cohn et al., 2016; Cheng et al., 2016b) 21

后验正则化利用后验正则化间接影响模型训练训练目标先验知识 (Ganchev et al., 2010) 22

我们的工作基于后验正则化加入离散特征, 指导神经网络训练训练目标先验知识 (Zhang et al., 2017) 23

翻译先验知识源双语词典双语短语表覆盖率惩罚长度比例 (Zhang et al., 2017) 24

实验结果在中英翻译上显著超过原始的后验正则化方法 (Zhang et al., 2017) 25

挑战 3: 低资源学习如何处理训练数据匮乏的情况? 大多数语言的数据规模都很有限, 严重制约神经机器翻译的性能 (Zoph and Knight, 2016; Cheng et al., 2016; Sennrich et al., 2016) 26

我们的工作基于自动编码器的半监督学习自动编码器 : 使用双向模型重建观测的单语语料库 (Cheng et al., 2016) 27

神经机器翻译的半监督学习同时使用小规模标注数据和大规模未标注数据 (Cheng et al., 2016) 28

样例分析未标注数据第 0 轮自动标注第 4 万轮自动标注第 24 万轮自动标注但一旦判决结果最终确定, 则必须在 30 天内执行 however, in the final analysis, it must be carried out within 30 days. however, in the final analysis, the final decision will be carried out within 30 days. however, once the verdict is finally confirmed, it must be carried out within 30 days. 模型和自动标注随着迭代次数的增加不断提高 (Cheng et al., 2016) 29

挑战 4: 可解释性如何可视化分析神经网络的内部机制? (Bach et al., 2015; Li et al., 2016) source words source word embeddings source forward hidden states 我喜欢温哥华 </s> source backward hidden states source hidden states source contexts target hidden states target word embeddings target words Black Box attention I like Vancouver </s> 30

我们的工作 source words 我喜欢温哥华 </s> (Ding et al., 2017) 31

我们的工作 source words 我喜欢温哥华 </s> source word embeddings (Ding et al., 2017) 32

我们的工作 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states (Ding et al., 2017) 33

我们的工作 1.00 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states targeted vector of neurons relevant vector of neurons intermediate vector of neurons 1.0 irrelevant vector of neurons relevance 34

我们的工作 0.2 0.8 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states (Ding et al., 2017) 35

我们的工作 0.10 0.25 0.65 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states (Ding et al., 2017) 36

我们的工作 0.02 0.04 0.16 0.78 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states (Ding et al., 2017) 37

我们的工作 1.00 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states (Ding et al., 2017) 38

我们的工作 0.77 0.23 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states (Ding et al., 2017) 39

我们的工作 0.70 0.23 0.07 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states (Ding et al., 2017) 40

我们的工作 0.62 0.24 0.15 0.09 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states (Ding et al., 2017) 41

我们的工作 0.22 0.16 0.08 0.04 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states (Ding et al., 2017) 42

我们的工作 0.12 0.72 0.11 0.05 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states (Ding et al., 2017) 43

我们的工作 0.06 0.12 0.80 0.02 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states (Ding et al., 2017) 44

我们的工作 0.01 0.02 0.07 0.90 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states (Ding et al., 2017) 45

我们的工作 0.58 0.32 0.07 0.03 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention (Ding et al., 2017) 46

我们的工作 0.58 0.24 0.15 0.03 source words source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states 我喜欢温哥华 </s> attention (Ding et al., 2017) 47

我们的工作 0.78 0.12 0.07 0.03 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I attention (Ding et al., 2017) 48

我们的工作 0.18 0.29 0.25 0.03 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I 0.23 attention (Ding et al., 2017) 49

我们的工作 0.14 0.33 0.24 0.04 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I 0.25 attention (Ding et al., 2017) 50

我们的工作 0.11 0.45 0.11 0.02 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I 0.31 like attention (Ding et al., 2017) 51

我们的工作 0.09 0.15 0.51 0.04 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I 0.21 like attention (Ding et al., 2017) 52

我们的工作 0.05 0.16 0.35 0.02 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like 0.11 0.31 (Ding et al., 2017) 53

我们的工作 0.04 0.10 0.42 0.02 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like Vancouver 0.05 0.37 (Ding et al., 2017) 54

我们的工作 0.05 0.09 0.11 0.52 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like Vancouver 0.06 0.17 (Ding et al., 2017) 55

我们的工作 0.02 0.06 0.15 0.51 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like Vancouver 0.02 0.07 0.17 (Ding et al., 2017) 56

我们的工作 0.03 0.05 0.10 0.61 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like Vancouver </s> 0.04 0.05 0.12 (Ding et al., 2017) 57

向量级和神经元级相关性向量级相关性神经元级相关性 58

神经元级相关性将目标神经元的激活函数值在相关神经元之间分解例如 59

计算神经元级相关性利用后向传播递归计算神经元级相关性例如 60

计算权重比例利用前向传播计算权重比例 For example 61

计算向量级相关性 62

ACL 2017 Outstanding Paper 63

THUMT http://thumt.thunlp.org/ 64

搜狗翻译与搜狗合作推出搜狗机器翻译和搜狗海外搜索 http://fanyi.sogou.com 65

未来展望人工干预规则机器翻译规则统计机器翻译规则特征神经机器翻译规则特征架构架构学习先验知识融合可解释性多模态单次学习高效算法 66

总结神经机器翻译 : 通过神经网络直接实现自然语言的相互映射神经机器翻译近年来取得迅速发展, 已经取代统计机器翻译成为新的主流技术神经机器翻译在架构先验知识融合可解释性等方面仍面临挑战, 需要进一步深入探索 67

谢谢! http://nlp.csai.tsinghua.edu.cn/~ly/ http://thumt.thunlp.org/ 68