PowerPoint 演示文稿 - PDF Free Download

自然语言处理中的深度学习从词语表示到句子表示张家俊中国科学院自动化研究所 www.nlpr.ia.ac.cn/cip/jjzhang.htm jjzhang@nlpr.ia.ac.cn

自然语言处理 - 搜索引擎 2

自然语言处理 - 机器翻译 3

自然语言处理 - 自动摘要 4

自然语言处理 - 主题分析 5

自然语言处理 - 文本分类 6

自然语言处理 - 问答聊天 7

研究任务 - 词法分析从南京站到南理工怎么走? 从南京站到南理工怎么走? 从南京站到南理工怎么走? 地名机构名 8

研究任务 9

研究任务 - 句法分析 1

研究任务 - 语义分析 ( 北京, 中国, 首都 ) 实体实体关系 11

研究任务 - 篇章分析 1 识别篇章单元 : 识别并表示基本篇章单元 (EDU) 2 计算篇章单元间的关系 : 计算篇章单元之间的层次关系与篇章关系 12

自然语言处理输入文本处理对象词法分析词语句法分析短语语义分析句子篇章分析段落 / 篇章 13

自然语言处理 - 最基础问题输入文本处理对象词法分析词语句法分析语义分析短语句子如何表示? 篇章分析段落 / 篇章 14

传统离散符号表示方法典型方法 : 离散符号 ( 字符串 ) 该课程很枯燥, 大家觉得很无聊 w = 该 w 1 = 课程 w 2 = 很 w 3 = 枯燥 w 4 =, w 5 = 大家 w 6 = 觉得 w 7 = 很 w 8 = 无聊 w 9 = 等价表示方法 :one-hot 表示法 V 所有词按照出现的顺序排序每个词语将对应唯一的下标枯燥 1 无聊 1 15

词语 - 离散符号表示问题枯燥 1 无聊 1 枯燥无聊 1 1 = 任意两个词之间的相似度都为! 16

词语 - 实数向量表示枯燥无聊这个那个这些单调枯燥无聊.24.15.42.51.21.25.12.39.46.26 今天明天昨天一月三月五月低维稠密的连续实数空间 17

词向量 L = 枯燥 V D 单调无聊 1 L R D V 通常称为 look-up table 我们可以对 L 右乘一个词的 one-hot 表示 e 得到该词的低维稠密的实数向量表达 : x = Le 18

词向量 L = V D L R D V 枯燥单调无聊词表规模 V 和词向量维度 D 如何确定 V 的确定 :1, 训练数据中所有词 ;2, 频率高于某个阈值的所有词 ;3, 前 V 个频率最高的词 D 的确定 : 超参数, 人工设定, 一般从几十到几百 19

词向量 L = V D L R D V 枯燥单调无聊如何学习 L 通常先随机初始化, 然后通过目标函数优化词的向量表达 (e.g. 最大化语言模型似然度 ) 2

自然语言处理常用的几种网络前馈神经网络循环神经网络 ( 递归 ) 自编码器递归神经网络卷积神经网络 21

前馈神经网络 x 1 f 2 f 3 W 1 W 2 W 3 f 4 x 2 h w,b (x) x 3 +1 +1 +1 输入层隐藏层输出层 22

循环神经网络 w t+1 U h t+1 W w t h t 1 U W h t V y t h t = UL w t + Wh t 1 p y t = ey t e y i i 23

自编码器重构 x 输出 y 输入 x W 2 W 1 W 1, W 2 = argmin 1 2 x x 2 24

递归自编码器每一层利用相同的自编码器 E Rec = 1 2 x 1, x 2 x 1 x 2 2 x 1 x 2 RAE RAE x 1 x 2 x 3 25

递归神经网络 label y 3 =f(w (3) [y 2 ; x 4 ]+b (3) ) label y 2 =f(w (2) [y 1 ; x 3 ]+b (2) ) label y 1 =f(w (1) [x 1 ; x 2 ]+b (1) ) x 1 x 2 x 3 x 4 26

变长句子 e 卷积神经网络 k 卷积 L 最大池化定长输出 O e L 27

词向量表示 L = V D L R D V 单调枯燥无聊训练准则 : You shall know a word by the company it keeps (J. R. Firth 1957) 28

词向量表示 - 语言模型的副产品训练准则 : You shall know a word by the company it keeps (J. R. Firth 1957) P w 1 w 2 w t 1 w n n = P w t w t 1 w t n+1 t=1 29

前馈神经网络 P w t w t 1 w t n+1 = ey w t e y i i θ θ + logp θ y = Utanh Hx + d + Wx + b L L L x = L w t 1, L w t n+1 L L [Bengio et al., 23] 3

前馈神经网络 Input Window Text the few supporters of Lookup Table 将每个词通过词向量矩阵 L 映射为低维实数向量 of (.23,.15,.8,.31,..,.42) Linear concatenate 拼接所有词的向量, 形成一个向量 Tanh 隐藏层 : 线性映射 + 非线性变换 Linear Softmax 输出层 : Softmax Prob 31

Input Window Input Window Text the supporters of Text the supporters of Lookup Table Lookup Table LT w D LT w D concatenate SUM Linear M 1 Tanh H VS. Tanh H D Linear Linear M 2 M 2 V V Softmax Softmax Prob Prob V V 32

Google s Word2Vec CBOW: Continuous Bag-of-Words 词序不影响预测 Input Window Text Lookup Table the supporters of LT w D SUM Tanh D Linear M 2 V Softmax Prob V 33

词向量分布在低维稠密的实数向量空间中, 相似的词聚集在一起, 在相同 34 的历史上下文中具有相似的概率分布!

词向量的优化 - 一词多义问题星体 star 2 明星 1 1 2 35

词向量的优化 - 一词多义问题在词语相似度实验上取得最好效果! [Hu et al., 216] 36

自然语言处理 - 最基础问题输入文本处理对象词法分析词语句法分析语义分析短语句子如何表示? 篇章分析段落 / 篇章 37

短语向量 - 无监督递归自编码器目标函数 : 最小化所有节点的重构误差 E total = E Rec_node node RAE RAE 只能学到一部分短语的句法信息,, 但无法获得正确的语义 RAE 法国和俄罗斯的 38

短语向量 - 无监督递归自编码器理想方法 : 有标注数据但是, 现实中不存在正确标注的短语向量监督学习法国和俄罗斯 39

短语向量 - 双语约束的递归自编码器假设短语与其翻译具有相同的语义向量表示目标函数最小化短语翻译对间的语义表示误差模型 Pre-training: 无监督递归自编码器学习短语初始表示 Fine-tuning: 相互监督学习, 优化短语向量表示 4

短语向量 - 双语约束的递归自编码器 r s = argmin 1 2 f r s r t 2 r t = argmin 1 2 f r t r s 2 源语言短语向量表示 r s 目标语言短语向量表示 r t 法国和俄罗斯 France and Russia 41

短语向量 - 双语约束的递归自编码器目标函数正则化项重构误差 J = E S, T; θ + 1 2 λ 2 双语语义误差 E S, T; θ = αe rec S, T; θ + 1 α E regression S, T; θ E rec S, T; θ =E rec S; θ + E rec T; θ E regression S, T; θ = E regression S T, θ + E regression T S, θ E regression S T, θ = s S 1 2 f v 2 s_root v t_root 42

短语向量 - 双语约束的递归自编码器相似短语 : 相似短语 : 相似短语 : do not agree will definitely reject will never accept abstract meaning real meaning intrinsic logic what is your opinion what do you think about how do you view those [Zhang et al., 214] 43

短语向量应用短语相似度计算句法分析情感分析统计机器翻译 44

情感分析任务定义 This film is not very good. 45

情感分析将词短语与句子利用递归神经网络表示为连续向量, 从而预测词短语与句子的情感极性 46

情感分析 [Socher et al., 211] 47

跨语言情感分析 This film is not very good. 这部手机不是很好. 48

跨语言情感分析 49

跨语言情感分析 [Jain and Batra, 215] 5

自然语言处理 - 最基础问题输入文本处理对象词法分析词语句法分析语义分析短语句子如何表示? 篇章分析段落 / 篇章 51

变长句子 e 卷积神经网络 k 卷积 L 最大池化定长输出 O e L 52

sentence f sentence e 双语约束的 CNN This film is not very good. Shared Space O f O e 这部电影不是很好. 53

sentence f sentence e 基于语块划分的 CNN Shared Space O f O e 54

sentence f sentence e Max-Margin Training Shared Space O f O e dis f, e, Θ 55

sentence f sentence e* Max-Margin Training Shared Space O f O e dis f, e, Θ [Zhang et al., 215] 56

问题与思考前述方法需要双语对照的训练数据我们能否可以由词语表示直接组合为句子表示? 我们能否借鉴人类阅读的注意机制对句子表示进行建模? 57

基于人类注意力指导的句子表示自动问答文本摘要机器翻译应用句子表示组合函数 : Addition / Multiplication / RNN 词向量 the two young sea-lions 离散符号表示 58

人的注意机制 The Dunee human reading time corpus Reading time/word the two young Sealions took RTfpass 27.2 138.7 155.5 314.8 169.3 RTgopast 27.2 138.7 178.4 426.1 18.9 RTrb 27.2 138.7 155.5 339.2 169.3 Surprisal POS tag CCG supertag Word length Word frequency 59

人的注意机制 POS 向量 / CCG 向量 / Surprisal 组合函数 : Addition / Multiplication / RNN 词向量 attention model the two young sea-lions 6

人的注意机制 61

人的注意机制 Surprisal/POS/ CCG 三种方法关注度最低和最高的五个词 62

人的注意机制 Surprisal/POS/ CCG 三种方法与人注意机制的相关程度 [Wang et al., 216] 63

总结输入文本处理对象词法分析词语句法分析短语语义分析句子篇章分析段落 / 篇章 64

参考文献 1, Bengio, Y.; Ducharme, R.; Vincent, P.; and Jauvin, C. 23. A neural probabilistic language model. Journal of Machine Learning Research 3:1137 1155. 2, Socher, R.; Pennington, J.; Huang, E. H.; Ng, A. Y.; and Manning, C. D. 211. Semisupervised recursive autoencoders for predicting sentiment distributions. In Proc. of EMNLP, 151 161. 3, Socher, R.; Perelygin, A.; Wu, J. Y.; Chuang, J.; Manning, C. D.; Ng, A. Y.; and Potts, C. 213. Recursive deep models for semantic compositionality over a sentiment treebank. In Proc. of EMNLP 213. 4, Collobert, R., and Weston, J. 28. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proc. of ICML, 16 167. 5, Mikolov, T.; Karafiat, M.; Burget, L.; Cernocky, J.; and Khudanpur, S. 21. Recurrent neural network based language model. In INTERSPEECH, 145 148. 6, Mikolov, T.; Sutskever, I.; Chen, K.; Corrado, G.; and Dean, J. 213. Distributed representations of words and phrases and their compositionality. In Proc. of NIPS. 7, Devlin J., Zbib R., Huang Z., Lamar T., Schwartz R., and Makhoul J. 214. Fast and robust neural network joint models for statistical machine translation. In Proc. of ACL, 214. 8. Sarthak Jain and Shashank Batra. 215. Cross-Lingual Sentiment Analysis using modified BRAE. In Proc. of EMNLP 215. 65

参考文献 9. Wenpeng Hu, Jiajun Zhang and Nan Zheng. Different Contexts Lead to Different Word Embeddings. In Proc. of COLING 216. 1. Shaonan Wang, Jiajun Zhang and Chengqing Zong. Learning Sentence Representation with Guidance of Human Attention. https://arxiv.org/pdf/169.9189.pdf. 11, Zhang, J.; Liu, S.; Li, M.; Zhou, M.; and Zong, C. 214. Bilingually-constrained phrase embeddings for machine translation. In Proc. of ACL. 12, Zhang, J.; Zhang, D.; and Hao, J. 215. Local Translation Prediction with Global Sentence Representation. In Proc. of IJCAI. 66

谢谢! Q&A