第十五届 机器学习及其应用 研讨会 基于深度学习的机器翻译 刘洋清华大学 1
机器翻译 目标 : 利用计算机实现自然语言之间的自动翻译 布什与沙龙举行了会谈 Bush held a talk with Sharon 2
发展历史 发展趋势 : 让计算机更加 自主 地学习如何翻译 规则机器翻译 统计数据驱动神经机器翻译机器翻译机器翻译 1980 1990 1990 2013 3
训练数据 : 平行语料库 平行语料库是解开语言之间转换规律奥秘的钥匙 4
数据驱动的机器翻译 Garcia y asociados. Garcia and associates. los clients y los asociados son enemigos. the clients and the associates are enemies. sus asociados no son fuertes. his associates are not strong. Garcia y sus asociados no son enemigos. Garcia and his associates are not enemies. 西班牙语 英语 Garcia Garcia y and asociados associates.. los the clients clients son are enemigos enemies sus his no not fuertes strong 5
统计机器翻译 隐变量对数线性模型 : 在隐式语言结构上设计特征 布什与沙龙举行了会谈 Bush held a talk with Sharon (Och and Ney, 2002) 6
基于短语的统计机器翻译 短语翻译模型 : 以隐结构短语为基本翻译单元 布什与沙龙举行了会谈 布什与沙龙举行了会谈 Bush with Sharon held a talk Bush held a talk with Sharon Bush held a talk with Sharon (Koehn et al., 2003) 7
难点 : 特征设计 held Bush talk a Sharon President with Minister at the Israeli Prime House White 如何用上述词语拼成合理的译文? 8
深度学习带来新思路 Yann LeCun Yoshua Bengio Geoffrey Hinton (LeCun et al, 2015) 9
深度学习显著提升机器翻译水平 深度学习显著提升了机器翻译的质量, 接近普通人的水平 注 : 对比式人工评价, 评分范围为 [0, 6] (Wu et al, 2016) 10
神经机器翻译 利用神经网络以端到端的方式实现自然语言之间的映射 布什与沙龙举行了会谈 Bush held a talk with Sharon (Sutskever et al, 2014) 11
编码器 - 解码器框架 利用递归神经网络实现源语言的编码和目标语言的解码 布什与沙龙举行了会谈 </s> Bush held a talk with Sharon </s> (Sutskever et al., 2014) 12
基于注意力的神经机器翻译 利用注意力机制动态计算源语言端相关上下文 布什与沙龙举行了会谈 </s> Bush held a talk with Sharon </s> (Bahdanau et al., 2015) 13
基于卷积神经网络的神经机器翻译 卷积序列到序列学习 RNNs: 依赖于全部历史信息, 难以并行化 CNNs: 不依赖于全部历史信息, 高度并行化 动画来源网站 (Gehring et al., 2017) 14
只使用注意力机制的神经机器翻译 利用注意力机制建立编码器 解码器及其关联 (Vaswani et al., 2017) 15
主要挑战 训练测试差异如何减少训练与测试之间的差异性? 先验知识融合如何向神经网络加入先验知识? 低资源学习如何处理训练数据匮乏的情况? 可解释性 如何可视化分析神经网络的内部机制? 16
挑战 1: 训练测试差异 如何减少训练与测试之间的差异性? 训练 测试 生成目标词基于来自观测数据的上下文 生成目标词基于来自模型预测的上下文 (Rezanto et al., 2016) 17
风险 : 期望损失 18
我们的工作 最小风险训练 : 针对评价指标训练神经网络 训练数据训练目标 优化 通用性 : 适用于任意架构和任意损失函数 (Shen et al., 2016) 19
样例分析 输入 SMT NMT (MLE) NMT (MRT) 美国代表团包括来自史丹福大学的一位中国专家, 两名参院外交政策助理以及一位负责与平壤当局打交道的前国务院官员 the united states to members of the delegation include representatives from the stanford university, a chinese expert, two assistant senate foreign policy and a responsible for dealing with pyongyang before the officials of the state council. the us delegation comprises a chinese expert from stanford university, a chinese foreign office assistant policy assistant and a former official who is responsible for dealing with the pyongyang authorities. the us delegation included a chinese expert from the stanford university, two senate foreign policy assistants, and a former state department official who is responsible for dealing with the pyongyang authorities. BLEU 值提升 6-7 个百分点! (Shen et al., 2016) 20
挑战 2: 先验知识融合 如何向神经网络中加入先验知识? 类型双语词典繁殖率覆盖结构差异 示例 中国 一般被翻译成 China 白宫 一般被翻译成两个英文词源文中每个词大多被只被翻译一次中文 VP+PP, 英文则 PP+VP (Tu et al., 2016; Cohn et al., 2016; Cheng et al., 2016b) 21
后验正则化 利用后验正则化间接影响模型训练 训练目标 先验知识 (Ganchev et al., 2010) 22
我们的工作 基于后验正则化加入离散特征, 指导神经网络训练 训练目标 先验知识 (Zhang et al., 2017) 23
翻译先验知识源 双语词典 双语短语表 覆盖率惩罚 长度比例 (Zhang et al., 2017) 24
实验结果 在中英翻译上显著超过原始的后验正则化方法 (Zhang et al., 2017) 25
挑战 3: 低资源学习 如何处理训练数据匮乏的情况? 大多数语言的数据规模都很有限, 严重制约神经机器翻译的性能 (Zoph and Knight, 2016; Cheng et al., 2016; Sennrich et al., 2016) 26
我们的工作 基于自动编码器的半监督学习 自动编码器 : 使用双向模型重建观测的单语语料库 (Cheng et al., 2016) 27
神经机器翻译的半监督学习 同时使用小规模标注数据和大规模未标注数据 (Cheng et al., 2016) 28
样例分析 未标注数据 第 0 轮自动标注 第 4 万轮自动标注 第 24 万轮自动标注 但一旦判决结果最终确定, 则必须在 30 天内执行 however, in the final analysis, it must be carried out within 30 days. however, in the final analysis, the final decision will be carried out within 30 days. however, once the verdict is finally confirmed, it must be carried out within 30 days. 模型和自动标注随着迭代次数的增加不断提高 (Cheng et al., 2016) 29
挑战 4: 可解释性 如何可视化分析神经网络的内部机制? (Bach et al., 2015; Li et al., 2016) source words source word embeddings source forward hidden states 我喜欢温哥华 </s> source backward hidden states source hidden states source contexts target hidden states target word embeddings target words Black Box attention I like Vancouver </s> 30
我们的工作 source words 我喜欢温哥华 </s> (Ding et al., 2017) 31
我们的工作 source words 我喜欢温哥华 </s> source word embeddings (Ding et al., 2017) 32
我们的工作 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states (Ding et al., 2017) 33
我们的工作 1.00 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states targeted vector of neurons relevant vector of neurons intermediate vector of neurons 1.0 irrelevant vector of neurons relevance 34
我们的工作 0.2 0.8 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states (Ding et al., 2017) 35
我们的工作 0.10 0.25 0.65 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states (Ding et al., 2017) 36
我们的工作 0.02 0.04 0.16 0.78 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states (Ding et al., 2017) 37
我们的工作 1.00 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states (Ding et al., 2017) 38
我们的工作 0.77 0.23 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states (Ding et al., 2017) 39
我们的工作 0.70 0.23 0.07 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states (Ding et al., 2017) 40
我们的工作 0.62 0.24 0.15 0.09 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states (Ding et al., 2017) 41
我们的工作 0.22 0.16 0.08 0.04 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states (Ding et al., 2017) 42
我们的工作 0.12 0.72 0.11 0.05 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states (Ding et al., 2017) 43
我们的工作 0.06 0.12 0.80 0.02 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states (Ding et al., 2017) 44
我们的工作 0.01 0.02 0.07 0.90 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states (Ding et al., 2017) 45
我们的工作 0.58 0.32 0.07 0.03 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention (Ding et al., 2017) 46
我们的工作 0.58 0.24 0.15 0.03 source words source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states 我喜欢温哥华 </s> attention (Ding et al., 2017) 47
我们的工作 0.78 0.12 0.07 0.03 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I attention (Ding et al., 2017) 48
我们的工作 0.18 0.29 0.25 0.03 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I 0.23 attention (Ding et al., 2017) 49
我们的工作 0.14 0.33 0.24 0.04 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I 0.25 attention (Ding et al., 2017) 50
我们的工作 0.11 0.45 0.11 0.02 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I 0.31 like attention (Ding et al., 2017) 51
我们的工作 0.09 0.15 0.51 0.04 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts target hidden states target word embeddings target words I 0.21 like attention (Ding et al., 2017) 52
我们的工作 0.05 0.16 0.35 0.02 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like 0.11 0.31 (Ding et al., 2017) 53
我们的工作 0.04 0.10 0.42 0.02 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like Vancouver 0.05 0.37 (Ding et al., 2017) 54
我们的工作 0.05 0.09 0.11 0.52 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like Vancouver 0.06 0.17 (Ding et al., 2017) 55
我们的工作 0.02 0.06 0.15 0.51 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like Vancouver 0.02 0.07 0.17 (Ding et al., 2017) 56
我们的工作 0.03 0.05 0.10 0.61 source words 我喜欢温哥华 </s> source word embeddings source forward hidden states source backward hidden states source hidden states source contexts attention target hidden states target word embeddings target words I like Vancouver </s> 0.04 0.05 0.12 (Ding et al., 2017) 57
向量级和神经元级相关性 向量级相关性 神经元级相关性 58
神经元级相关性 将目标神经元的激活函数值在相关神经元之间分解 例如 59
计算神经元级相关性 利用后向传播递归计算神经元级相关性 例如 60
计算权重比例 利用前向传播计算权重比例 For example 61
计算向量级相关性 62
ACL 2017 Outstanding Paper 63
THUMT http://thumt.thunlp.org/ 64
搜狗翻译 与搜狗合作推出 搜狗机器翻译 和 搜狗海外搜索 http://fanyi.sogou.com 65
未来展望 人工干预 规则机器翻译 规则 统计机器翻译 规则 特征 神经机器翻译 规则 特征 架构 架构学习先验知识融合可解释性 多模态单次学习高效算法 66
总结 神经机器翻译 : 通过神经网络直接实现自然语言的相互映射 神经机器翻译近年来取得迅速发展, 已经取代统计机器翻译成为新的主流技术 神经机器翻译在架构 先验知识融合 可解释性等方面仍面临挑战, 需要进一步深入探索 67
谢谢! http://nlp.csai.tsinghua.edu.cn/~ly/ http://thumt.thunlp.org/ 68