中文自然语言处理平台 FudanNLP: 从词法到句法, 再到语义 报告人 : 邱锡鹏 xpqiu@fudan.edu.cn http://jkx.fudan.edu.cn/~xpqiu/
提纲 1 FudanNLP 系统介绍 2 算法原理 3 词法 句法 语义
FudanNLP 系统介绍
设计目标 为中文自然语言处理研发一个开源平台, 使用统一框架, 集成先进研究成果, 降低中文分析门槛, 促进中文自然语言处理的发展 算法 数据集 LGPL3.0
目前主要功能 中文自然语言处理 中文分词 词性标注 实体名识别 句法分析 指代消解
FudanNLP 框架
研发路线图 2012.10(?) 发布 1.5 版, 改进句法分析性能, 增加指代消解模块, 大幅改进新词识别率, 增加详细的文档 2011.10.14 发布 FudanNLP1.05 版, 增加程序注释, 修正一些 bug, 支持并行化, 支持自定义词典, 高速关键词抽取等 2011.8.1 1 发布 FudanNLP1.0 版 ( 速度更快, 内存占有更少 ) 2011.1.20 1 发布 FudanNLPWebServices 版 2010.12.22 发布 FudanNLP0.95 版 2010.06.28 06 28 发布 FudanNLP0.8 08 版
使用信息 信息来源 : https://www.google.com/analytics Google Code FudanNLP WS 平均每日访问次数 3000+ 工具包累计下载 7000+ 次
主要算法
结构化学习 在结构化学习中, 预测不再局限在一个数, 而可以是复杂的结构化对象, 比如一副图像, 一个标签序列, 或是分析树等 C.M. Bishop, Pattern recognition and machine learning, Springer New York, 2006.
结构化学习的三个基本问题 模型表示 定义一个模型, 将自然语言处理任务转换为结构化学习问题 解码问题 给定一个模型, 计算最可能的解 参数估计 给定训练语料, 学习模型参数
结构化学习形式化表示 argmax: 解码 W: 参数估计
结构化学习的表示问题 将自然语言处理任务转换为结构化学习问题 定义合适的目标函数 Hierarchical Multi-Class Text Categorization with Global Margin Maximization (ACL 2009) Hierarchical Text Classification with Latent Concepts (ACL 2011)
结构化学习的参数估计问题 最大似然估计 条件随机场 (CRF) 隐马尔可夫模型 (HMM) 最大边际距离 PA 算法 M 3 N 在线学习 Perceptron Labelwise Margin Maximization for Sequence Labeling (CICLING 2011)
结构化学习的解码问题 精确推理 Max-Sum 算法 :BeliefPropagation,Viterbi 近似推理 优化 线性规划 MCMC,LoopyBeliefPropagation,Expectation Propagation 基于动态特征的 Viterbi 算法 Part-of-Speech Tagging for Chinese-English Mixed Texts with Dynamic Features (EMNLP 2012)
性能优化 性能问题 高维特征数量 词性标注中特征数 :115M, 非零参数数量 :1.5M 解码问题 状态数多 人工规则 词性标注中有 148 个状态 结合机制 容错性
系统流程
词法 句法 语义
词法难点 : 标准不明确 + 新词 信息处理用现代汉语分词规范 GB/T13715-92 词 : 最小的能独立运用的语言单位 汉语分词 : 从信息处理需要出发, 按照特定的规范, 对汉语按分词单位进行划分的过程 基本原则 : 结合紧密 使用稳定 例子 : / 吃饭 / / 吃 / 鱼 / / 不管三七二十一 / / 由此可见 / 自干五
句法分析难点 : 更灵活 语法和词性不同于欧洲语言 大量省略成分 与语义紧密结合
主流方法 流水线方式 : 分词词性句法 联合方法 : 分词 词性 句法 如何进一步提高? 分词 词性 句法
引入语义信息 东京都是在日本吗? 都 : 词义都是 : 单复数东京都 : 实体名
怎样结合语义信息到统计模型? 语义信息 人工语义, 需要语言学专家 ( 代价高 ) 众包 自动抽取的含噪声语义 马尔科夫逻辑网 将概率图模型和一阶逻辑结合 概率图模型能有效地应对不确定性 一阶逻辑容易表达知识 Discovering Logical Knowledge for Deep Question Answering, (CIKM, 2012) Recognizing Inference in Texts with Markov Logic Networks, (ACM TALIP 2012)
相关论文 1. SparseHigherOrderConditionalRandomFieldsforimprovedsequence di i d i ld i d labeling(icml2009) 2. HierarchicalMulti-ClassTextCategorizationwithGlobalMarginMaximization (ACL2009) 3. DetectingHedgeCuesandtheirScopeswithAveragePerceptron(CONLL 2010) 4. 2DTrie forfastparsing(coling2010) fast 5. JointTrainingandDecodingUsingVirtualNodesforCascadedSegmentation andtaggingtasks(emnlp2010) 6. HierarchicalTextClassificationwithLatentConcepts Concepts (ACL2011) 7. Labelwise MarginMaximizationforSequenceLabeling(CICLING2011) 8. FusionofMultipleFeaturesandSupervisedLearningforChineseOOVTerm DetectionandPOSGuessing(IJCAI2011) g( 9. Part-of-SpeechTaggingforChinese-EnglishMixedTextswithDynamic Features(EMNLP2012) 10. DiscoveringLogicalKnowledgeforDeepQuestionAnswering,(CIKM2012) g g g 11. RecognizingInferenceinTextswithMarkovLogicNetworks,(ACMTALIP2012)
下一步工作 自然语言处理 增加语义分析 语义获取 WebServices 文档 众包
致谢 项目负责 邱锡鹏 黄萱菁 当前开发人员 曹零 (2010-) 赵嘉亿 (2010-) 田乐 (2010-) 刘昭 (2010-) 过去开发人员 计峰 (2009-2012) 高文君 (2009-2010) 2010) 缪有栋 (2009-2010) 沈超 (2009) 希望有兴趣的老师 同学一起参与开发!
谢谢 Q&A