自然语言处理中的深度学习 从词语表示到句子表示 张家俊中国科学院自动化研究所 www.nlpr.ia.ac.cn/cip/jjzhang.htm jjzhang@nlpr.ia.ac.cn
自然语言处理 - 搜索引擎 2
自然语言处理 - 机器翻译 3
自然语言处理 - 自动摘要 4
自然语言处理 - 主题分析 5
自然语言处理 - 文本分类 6
自然语言处理 - 问答聊天 7
研究任务 - 词法分析 从南京站到南理工怎么走? 从南京站到南理工怎么走? 从南京站到南理工怎么走? 地名 机构名 8
研究任务 9
研究任务 - 句法分析 1
研究任务 - 语义分析 ( 北京, 中国, 首都 ) 实体实体关系 11
研究任务 - 篇章分析 1 识别篇章单元 : 识别并表示基本篇章单元 (EDU) 2 计算篇章单元间的关系 : 计算篇章单元之间的层次 关系与篇章关系 12
自然语言处理 输入文本 处理对象 词法分析 词语 句法分析 短语 语义分析 句子 篇章分析 段落 / 篇章 13
自然语言处理 - 最基础问题 输入文本 处理对象 词法分析 词语 句法分析 语义分析 短语 句子 如何表示? 篇章分析 段落 / 篇章 14
传统离散符号表示方法 典型方法 : 离散符号 ( 字符串 ) 该课程很枯燥, 大家觉得很无聊 w = 该 w 1 = 课程 w 2 = 很 w 3 = 枯燥 w 4 =, w 5 = 大家 w 6 = 觉得 w 7 = 很 w 8 = 无聊 w 9 = 等价表示方法 :one-hot 表示法 V 所有词按照出现的顺序排序 每个词语将对应唯一的下标 枯燥 1 无聊 1 15
词语 - 离散符号表示 问题 枯燥 1 无聊 1 枯燥 无聊 1 1 = 任意两个词之间的相似度都为! 16
词语 - 实数向量表示 枯燥 无聊 这个那个这些 单调枯燥无聊.24.15.42.51.21.25.12.39.46.26 今天明天昨天 一月三月五月 低维 稠密的连续实数空间 17
词向量 L = 枯燥 V D 单调无聊 1 L R D V 通常称为 look-up table 我们可以对 L 右乘一个词的 one-hot 表示 e 得到该词的低维 稠密的实数向量表达 : x = Le 18
词向量 L = V D L R D V 枯燥 单调 无聊 词表规模 V 和词向量维度 D 如何确定 V 的确定 :1, 训练数据中所有词 ;2, 频率高于某个阈值的所有词 ;3, 前 V 个频率最高的词 D 的确定 : 超参数, 人工设定, 一般从几十到几百 19
词向量 L = V D L R D V 枯燥 单调 无聊 如何学习 L 通常先随机初始化, 然后通过目标函数优化词的向量表达 (e.g. 最大化语言模型似然度 ) 2
自然语言处理常用的几种网络 前馈神经网络 循环神经网络 ( 递归 ) 自编码器 递归神经网络 卷积神经网络 21
前馈神经网络 x 1 f 2 f 3 W 1 W 2 W 3 f 4 x 2 h w,b (x) x 3 +1 +1 +1 输入层隐藏层输出层 22
循环神经网络 w t+1 U h t+1 W w t h t 1 U W h t V y t h t = UL w t + Wh t 1 p y t = ey t e y i i 23
自编码器 重构 x 输出 y 输入 x W 2 W 1 W 1, W 2 = argmin 1 2 x x 2 24
递归自编码器 每一层利用相同的自编码器 E Rec = 1 2 x 1, x 2 x 1 x 2 2 x 1 x 2 RAE RAE x 1 x 2 x 3 25
递归神经网络 label y 3 =f(w (3) [y 2 ; x 4 ]+b (3) ) label y 2 =f(w (2) [y 1 ; x 3 ]+b (2) ) label y 1 =f(w (1) [x 1 ; x 2 ]+b (1) ) x 1 x 2 x 3 x 4 26
变长句子 e 卷积神经网络 k 卷积 L 最大池化 定长输出 O e L 27
词向量表示 L = V D L R D V 单调 枯燥无聊 训练准则 : You shall know a word by the company it keeps (J. R. Firth 1957) 28
词向量表示 - 语言模型的副产品 训练准则 : You shall know a word by the company it keeps (J. R. Firth 1957) P w 1 w 2 w t 1 w n n = P w t w t 1 w t n+1 t=1 29
前馈神经网络 P w t w t 1 w t n+1 = ey w t e y i i θ θ + logp θ y = Utanh Hx + d + Wx + b L L L x = L w t 1, L w t n+1 L L [Bengio et al., 23] 3
前馈神经网络 Input Window Text the few supporters of Lookup Table 将每个词通过词向量矩阵 L 映射为低维实数向量 of (.23,.15,.8,.31,..,.42) Linear concatenate 拼接所有词的向量, 形成一个向量 Tanh 隐藏层 : 线性映射 + 非线性变换 Linear Softmax 输出层 : Softmax Prob 31
Input Window Input Window Text the supporters of Text the supporters of Lookup Table Lookup Table LT w D LT w D concatenate SUM Linear M 1 Tanh H VS. Tanh H D Linear Linear M 2 M 2 V V Softmax Softmax Prob Prob V V 32
Google s Word2Vec CBOW: Continuous Bag-of-Words 词序不影响预测 Input Window Text Lookup Table the supporters of LT w D SUM Tanh D Linear M 2 V Softmax Prob V 33
词向量分布 在低维 稠密的实数向量空间中, 相似的词聚集在一起, 在相同 34 的历史上下文中具有相似的概率分布!
词向量的优化 - 一词多义问题 星体 star 2 明星 1 1 2 35
词向量的优化 - 一词多义问题 在词语相似度实验上取得最好效果! [Hu et al., 216] 36
自然语言处理 - 最基础问题 输入文本 处理对象 词法分析 词语 句法分析 语义分析 短语 句子 如何表示? 篇章分析 段落 / 篇章 37
短语向量 - 无监督递归自编码器 目标函数 : 最小化所有节点的重构误差 E total = E Rec_node node RAE RAE 只能学到一部分短语的句法信息,, 但无法获得正确的语义 RAE 法国和俄罗斯的 38
短语向量 - 无监督递归自编码器 理想方法 : 有标注数据 但是, 现实中不存在正确标注的短语向量 监督学习 法国和俄罗斯 39
短语向量 - 双语约束的递归自编码器 假设 短语与其翻译具有相同的语义向量表示 目标函数 最小化短语翻译对间的语义表示误差 模型 Pre-training: 无监督递归自编码器学习短语初始表示 Fine-tuning: 相互监督学习, 优化短语向量表示 4
短语向量 - 双语约束的递归自编码器 r s = argmin 1 2 f r s r t 2 r t = argmin 1 2 f r t r s 2 源语言短语向量表示 r s 目标语言短语向量表示 r t 法国和俄罗斯 France and Russia 41
短语向量 - 双语约束的递归自编码器 目标函数 正则化项 重构误差 J = E S, T; θ + 1 2 λ 2 双语语义误差 E S, T; θ = αe rec S, T; θ + 1 α E regression S, T; θ E rec S, T; θ =E rec S; θ + E rec T; θ E regression S, T; θ = E regression S T, θ + E regression T S, θ E regression S T, θ = s S 1 2 f v 2 s_root v t_root 42
短语向量 - 双语约束的递归自编码器 相似短语 : 相似短语 : 相似短语 : do not agree will definitely reject will never accept abstract meaning real meaning intrinsic logic what is your opinion what do you think about how do you view those [Zhang et al., 214] 43
短语向量应用 短语相似度计算 句法分析 情感分析 统计机器翻译 44
情感分析 任务定义 This film is not very good. 45
情感分析 将词 短语与句子利用递归神经网络表示为连续向量, 从而预测词 短语与句子的情感极性 46
情感分析 [Socher et al., 211] 47
跨语言情感分析 This film is not very good. 这部手机不是很好. 48
跨语言情感分析 49
跨语言情感分析 [Jain and Batra, 215] 5
自然语言处理 - 最基础问题 输入文本 处理对象 词法分析 词语 句法分析 语义分析 短语 句子 如何表示? 篇章分析 段落 / 篇章 51
变长句子 e 卷积神经网络 k 卷积 L 最大池化 定长输出 O e L 52
sentence f sentence e 双语约束的 CNN This film is not very good. Shared Space O f O e 这部电影不是很好. 53
sentence f sentence e 基于语块划分的 CNN Shared Space O f O e 54
sentence f sentence e Max-Margin Training Shared Space O f O e dis f, e, Θ 55
sentence f sentence e* Max-Margin Training Shared Space O f O e dis f, e, Θ [Zhang et al., 215] 56
问题与思考 前述方法需要双语对照的训练数据 我们能否可以由词语表示直接组合为句子表示? 我们能否借鉴人类阅读的注意机制对句子 表示进行建模? 57
基于人类注意力指导的句子表示 自动问答文本摘要机器翻译 应用 句子表示 组合函数 : Addition / Multiplication / RNN 词向量 the two young sea-lions 离散符号表示 58
人的注意机制 The Dunee human reading time corpus Reading time/word the two young Sealions took RTfpass 27.2 138.7 155.5 314.8 169.3 RTgopast 27.2 138.7 178.4 426.1 18.9 RTrb 27.2 138.7 155.5 339.2 169.3 Surprisal POS tag CCG supertag Word length Word frequency 59
人的注意机制 POS 向量 / CCG 向量 / Surprisal 组合函数 : Addition / Multiplication / RNN 词向量 attention model the two young sea-lions 6
人的注意机制 61
人的注意机制 Surprisal/POS/ CCG 三种方法关注度最低和最高的五个词 62
人的注意机制 Surprisal/POS/ CCG 三种方法与人注意机制的相关程度 [Wang et al., 216] 63
总结 输入文本 处理对象 词法分析 词语 句法分析 短语 语义分析 句子 篇章分析 段落 / 篇章 64
参考文献 1, Bengio, Y.; Ducharme, R.; Vincent, P.; and Jauvin, C. 23. A neural probabilistic language model. Journal of Machine Learning Research 3:1137 1155. 2, Socher, R.; Pennington, J.; Huang, E. H.; Ng, A. Y.; and Manning, C. D. 211. Semisupervised recursive autoencoders for predicting sentiment distributions. In Proc. of EMNLP, 151 161. 3, Socher, R.; Perelygin, A.; Wu, J. Y.; Chuang, J.; Manning, C. D.; Ng, A. Y.; and Potts, C. 213. Recursive deep models for semantic compositionality over a sentiment treebank. In Proc. of EMNLP 213. 4, Collobert, R., and Weston, J. 28. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proc. of ICML, 16 167. 5, Mikolov, T.; Karafiat, M.; Burget, L.; Cernocky, J.; and Khudanpur, S. 21. Recurrent neural network based language model. In INTERSPEECH, 145 148. 6, Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G.; and Dean, J. 213. Distributed representations of words and phrases and their compositionality. In Proc. of NIPS. 7, Devlin J., Zbib R., Huang Z., Lamar T., Schwartz R., and Makhoul J. 214. Fast and robust neural network joint models for statistical machine translation. In Proc. of ACL, 214. 8. Sarthak Jain and Shashank Batra. 215. Cross-Lingual Sentiment Analysis using modified BRAE. In Proc. of EMNLP 215. 65
参考文献 9. Wenpeng Hu, Jiajun Zhang and Nan Zheng. Different Contexts Lead to Different Word Embeddings. In Proc. of COLING 216. 1. Shaonan Wang, Jiajun Zhang and Chengqing Zong. Learning Sentence Representation with Guidance of Human Attention. https://arxiv.org/pdf/169.9189.pdf. 11, Zhang, J.; Liu, S.; Li, M.; Zhou, M.; and Zong, C. 214. Bilingually-constrained phrase embeddings for machine translation. In Proc. of ACL. 12, Zhang, J.; Zhang, D.; and Hao, J. 215. Local Translation Prediction with Global Sentence Representation. In Proc. of IJCAI. 66
谢谢! Q&A