<4D F736F F F696E74202D E4E4C50A3BAB4CAB7A8A1A2BEE4B7A8A1A2D3EFD2E5>

中文自然语言处理平台 FudanNLP: 从词法到句法, 再到语义报告人 : 邱锡鹏 xpqiu@fudan.edu.cn http://jkx.fudan.edu.cn/~xpqiu/

提纲 1 FudanNLP 系统介绍 2 算法原理 3 词法句法语义

FudanNLP 系统介绍

设计目标为中文自然语言处理研发一个开源平台, 使用统一框架, 集成先进研究成果, 降低中文分析门槛, 促进中文自然语言处理的发展算法数据集 LGPL3.0

目前主要功能中文自然语言处理中文分词词性标注实体名识别句法分析指代消解

FudanNLP 框架

研发路线图 2012.10(?) 发布 1.5 版, 改进句法分析性能, 增加指代消解模块, 大幅改进新词识别率, 增加详细的文档 2011.10.14 发布 FudanNLP1.05 版, 增加程序注释, 修正一些 bug, 支持并行化, 支持自定义词典, 高速关键词抽取等 2011.8.1 1 发布 FudanNLP1.0 版 ( 速度更快, 内存占有更少 ) 2011.1.20 1 发布 FudanNLPWebServices 版 2010.12.22 发布 FudanNLP0.95 版 2010.06.28 06 28 发布 FudanNLP0.8 08 版

使用信息信息来源 : https://www.google.com/analytics Google Code FudanNLP WS 平均每日访问次数 3000+ 工具包累计下载 7000+ 次

主要算法

结构化学习在结构化学习中, 预测不再局限在一个数, 而可以是复杂的结构化对象, 比如一副图像, 一个标签序列, 或是分析树等 C.M. Bishop, Pattern recognition and machine learning, Springer New York, 2006.

结构化学习的三个基本问题模型表示定义一个模型, 将自然语言处理任务转换为结构化学习问题解码问题给定一个模型, 计算最可能的解参数估计给定训练语料, 学习模型参数

结构化学习形式化表示 argmax: 解码 W: 参数估计

结构化学习的表示问题将自然语言处理任务转换为结构化学习问题定义合适的目标函数 Hierarchical Multi-Class Text Categorization with Global Margin Maximization (ACL 2009) Hierarchical Text Classification with Latent Concepts (ACL 2011)

结构化学习的参数估计问题最大似然估计条件随机场 (CRF) 隐马尔可夫模型 (HMM) 最大边际距离 PA 算法 M 3 N 在线学习 Perceptron Labelwise Margin Maximization for Sequence Labeling (CICLING 2011)

结构化学习的解码问题精确推理 Max-Sum 算法 :BeliefPropagation,Viterbi 近似推理优化线性规划 MCMC,LoopyBeliefPropagation,Expectation Propagation 基于动态特征的 Viterbi 算法 Part-of-Speech Tagging for Chinese-English Mixed Texts with Dynamic Features (EMNLP 2012)

性能优化性能问题高维特征数量词性标注中特征数 :115M, 非零参数数量 :1.5M 解码问题状态数多人工规则词性标注中有 148 个状态结合机制容错性

系统流程

词法句法语义

词法难点 : 标准不明确 + 新词信息处理用现代汉语分词规范 GB/T13715-92 词 : 最小的能独立运用的语言单位汉语分词 : 从信息处理需要出发, 按照特定的规范, 对汉语按分词单位进行划分的过程基本原则 : 结合紧密使用稳定例子 : / 吃饭 / / 吃 / 鱼 / / 不管三七二十一 / / 由此可见 / 自干五

句法分析难点 : 更灵活语法和词性不同于欧洲语言大量省略成分与语义紧密结合

主流方法流水线方式 : 分词词性句法联合方法 : 分词词性句法如何进一步提高? 分词词性句法

引入语义信息东京都是在日本吗? 都 : 词义都是 : 单复数东京都 : 实体名

怎样结合语义信息到统计模型? 语义信息人工语义, 需要语言学专家 ( 代价高 ) 众包自动抽取的含噪声语义马尔科夫逻辑网将概率图模型和一阶逻辑结合概率图模型能有效地应对不确定性一阶逻辑容易表达知识 Discovering Logical Knowledge for Deep Question Answering, (CIKM, 2012) Recognizing Inference in Texts with Markov Logic Networks, (ACM TALIP 2012)

相关论文 1. SparseHigherOrderConditionalRandomFieldsforimprovedsequence di i d i ld i d labeling(icml2009) 2. HierarchicalMulti-ClassTextCategorizationwithGlobalMarginMaximization (ACL2009) 3. DetectingHedgeCuesandtheirScopeswithAveragePerceptron(CONLL 2010) 4. 2DTrie forfastparsing(coling2010) fast 5. JointTrainingandDecodingUsingVirtualNodesforCascadedSegmentation andtaggingtasks(emnlp2010) 6. HierarchicalTextClassificationwithLatentConcepts Concepts (ACL2011) 7. Labelwise MarginMaximizationforSequenceLabeling(CICLING2011) 8. FusionofMultipleFeaturesandSupervisedLearningforChineseOOVTerm DetectionandPOSGuessing(IJCAI2011) g( 9. Part-of-SpeechTaggingforChinese-EnglishMixedTextswithDynamic Features(EMNLP2012) 10. DiscoveringLogicalKnowledgeforDeepQuestionAnswering,(CIKM2012) g g g 11. RecognizingInferenceinTextswithMarkovLogicNetworks,(ACMTALIP2012)

下一步工作自然语言处理增加语义分析语义获取 WebServices 文档众包

致谢项目负责邱锡鹏黄萱菁当前开发人员曹零 (2010-) 赵嘉亿 (2010-) 田乐 (2010-) 刘昭 (2010-) 过去开发人员计峰 (2009-2012) 高文君 (2009-2010) 2010) 缪有栋 (2009-2010) 沈超 (2009) 希望有兴趣的老师同学一起参与开发!

谢谢 Q&A