<4D F736F F F696E74202D E4E4C50A3BAB4CAB7A8A1A2BEE4B7A8A1A2D3EFD2E5>

Similar documents
女人常揉三陰交,保妳終身不變老 (對男人也有效


申 请 挂 牌 公 司 声 明 本 公 司 及 全 体 董 事 监 事 高 级 管 理 人 员 承 诺 不 存 在 虚 假 记 载 误 导 性 陈 述 或 重 大 遗 漏, 并 对 其 真 实 性 准 确 性 完 整 性 承 担 个 别 和 连 带 的 法 律 责 任 本 公 司 负 责 人 和 主

<4D F736F F D20B9F0D5FEB0ECB7A2A3A A3A93835BAC52E646F63>


FP.pdf


(Microsoft Word - \244g\246a\247B\244\275\253H\245\365\244\247\275\325\254d\254\343\250s doc)

强迫症毁灭天才

公文管理系統問答集

yy.xls

( ) 5. 自 行 車 有 吱 吱 喳 喳 的 聲 音 可 能 是 什 麼 原 因 所 造 成?(1) 鈴 號 的 聲 音 (2) 螺 栓 ( 帽 ) 鬆 動 (3) 腳 踏 板 磨 損 ( ) 6. 下 列 敘 述 何 者 是 對 的?(1) 輪 胎 的 胎 壓 是 愈 高 愈 好, 所 以 填

人体解剖实习指导.doc


穨finaldiss.doc

13. 下 列 植 物 的 向 性 或 運 動, 哪 些 是 受 到 生 長 素 作 用 的 影 響?(5-4) 甲. 睡 蓮 的 花 到 了 晚 上 會 合 起 來 ; 乙. 黃 瓜 的 捲 鬚 攀 附 竹 竿 向 上 生 長 ; 丙. 含 羞 草 的 葉 經 碰 觸 後 閉 合 ; 丁. 紅 豆


第十二章 角色转换 走向成功

16 标 本 缓 急 的 护 理 原 则 不 包 括 ( 扶 正 祛 邪 法 ) 17 顺 从 疾 病 假 象 而 进 行 护 理 的 方 法 为 ( 反 护 法 ) 18 下 列 属 于 正 护 法 的 是 ( 虚 则 补 之 ) 19 因 中 气 不 足 脾 阳 不 运 而 致 的 腹 胀 便

???p???????????i?h?h?D???N_?s_

國立和美實驗學校103學年度第1次教師甄選簡章

3. 透 過 團 體 小 組 分 別 設 計 出 一 套 自 行 車 伸 展 操 4. 教 師 介 紹 騎 乘 自 行 車 上 座 方 法 煞 車 及 踩 踏 等 要 領. 練 習 自 行 車 運 動 中 基 本 的 上 座 平 衡 直 行 轉 彎 煞 車 等 動 作 ( 二 ) 自 行 車 運 動

104 年 度 推 廣 校 園 正 確 用 藥 教 育 模 式 中 心 學 校 成 果 報 告 書 學 校 : 桃 園 市 中 心 學 校 田 心 國 民 小 學 壹 計 畫 目 的 一 凝 聚 本 市 中 心 學 校 與 重 點 種 子 學 校 正 確 用 藥 教 育 推 廣 共 識, 期 能 培

学做一体手册,餐饮.doc

硕士论文正文

ZW.PDF

cm 50.5cm

外科手术基础概述

Microsoft Word G...doc

第一章

Microsoft PowerPoint - 1

參、社會 華士傑

附件: 学年华南师范大学共青团工作先进集体和优秀个人名单

然 而 打 开 目 前 市 场 上 流 行 的 任 意 一 款 智 能 输 入 法, 上 面 提 到 的 词 都 会 被 轻 轻 松 松 的 输 出 来 ; 不 仅 如 此, 所 有 的 智 能 输 入 法 都 支 持 用 户 短 句 级 别 以 及 句 子 级 别 的 输 入 方 法, 并 且 能

子 列 子 曰 : 昔 者 聖 人 因 陰 陽 以 統 天 地. 夫 有 形 者 生 於 無 形, 則 天 地 安 從 生? 故 曰 : 有 太 易, 有 太 初, 有 太 始, 有 太 素. 太 易 者, 未 見 氣 也 ; 太 初 者, 氣 之 始 也 ; 太 始 者, 形 之 始 也 ; 太

[ 汉 ] 朝 侯 小 子 残 碑 杨 鲁 安 旧 藏 拓 片 具 有 类 似 的 特 征, 于 是 康 有 为 便 得 出 北 碑 很 好 地 继 承 了 汉 魏 古 法 的 推 论, 进 而 提 出 晋 唐 名 家 因 取 法 汉 代 而 获 得 成 功 的 观 点 康 有 为 首 先 广 泛

<30312EABCAADB1A544C3442E747066>

2001 年 1 月 8 日 乌 克 兰 常 驻 联 合 国 代 表 团 临 时 代 办 给 秘 书 长 的 信 的 附 件 2000 年 12 月 15 日 乌 克 兰 总 统 列 奥 尼 德 库 奇 马 先 生 阁 下 在 关 闭 切 尔 诺 贝 利 核 电 厂 时 的 讲 话 我 要 就 一

艾滋病毒/艾滋病问题高级别会议:为联合国人口基金、联合国教育、科学及文化组织和联合国毒品和犯罪问题办事处联合举办的预防问题圆桌会议编写的讨论文件

泰迪杯全国数据挖掘挑战赛 OCR (CNN) OCR() CNN % 92.1% 15% 90%. Viterbi. OCR..,,,,,

<4D F736F F D C33A3BAD7D4C8BBD3EFD1D4B4A6C0EDD3EBBBFAC6F7D1A7CFB A3A8D3E0A3A92E646F63>

九江学院 2014年度毕业生就业质量报告


作 者 : 出 版 社 : 出 版 :


《中文信息学报》投稿模版

untitled

No.32

Transcription:

中文自然语言处理平台 FudanNLP: 从词法到句法, 再到语义 报告人 : 邱锡鹏 xpqiu@fudan.edu.cn http://jkx.fudan.edu.cn/~xpqiu/

提纲 1 FudanNLP 系统介绍 2 算法原理 3 词法 句法 语义

FudanNLP 系统介绍

设计目标 为中文自然语言处理研发一个开源平台, 使用统一框架, 集成先进研究成果, 降低中文分析门槛, 促进中文自然语言处理的发展 算法 数据集 LGPL3.0

目前主要功能 中文自然语言处理 中文分词 词性标注 实体名识别 句法分析 指代消解

FudanNLP 框架

研发路线图 2012.10(?) 发布 1.5 版, 改进句法分析性能, 增加指代消解模块, 大幅改进新词识别率, 增加详细的文档 2011.10.14 发布 FudanNLP1.05 版, 增加程序注释, 修正一些 bug, 支持并行化, 支持自定义词典, 高速关键词抽取等 2011.8.1 1 发布 FudanNLP1.0 版 ( 速度更快, 内存占有更少 ) 2011.1.20 1 发布 FudanNLPWebServices 版 2010.12.22 发布 FudanNLP0.95 版 2010.06.28 06 28 发布 FudanNLP0.8 08 版

使用信息 信息来源 : https://www.google.com/analytics Google Code FudanNLP WS 平均每日访问次数 3000+ 工具包累计下载 7000+ 次

主要算法

结构化学习 在结构化学习中, 预测不再局限在一个数, 而可以是复杂的结构化对象, 比如一副图像, 一个标签序列, 或是分析树等 C.M. Bishop, Pattern recognition and machine learning, Springer New York, 2006.

结构化学习的三个基本问题 模型表示 定义一个模型, 将自然语言处理任务转换为结构化学习问题 解码问题 给定一个模型, 计算最可能的解 参数估计 给定训练语料, 学习模型参数

结构化学习形式化表示 argmax: 解码 W: 参数估计

结构化学习的表示问题 将自然语言处理任务转换为结构化学习问题 定义合适的目标函数 Hierarchical Multi-Class Text Categorization with Global Margin Maximization (ACL 2009) Hierarchical Text Classification with Latent Concepts (ACL 2011)

结构化学习的参数估计问题 最大似然估计 条件随机场 (CRF) 隐马尔可夫模型 (HMM) 最大边际距离 PA 算法 M 3 N 在线学习 Perceptron Labelwise Margin Maximization for Sequence Labeling (CICLING 2011)

结构化学习的解码问题 精确推理 Max-Sum 算法 :BeliefPropagation,Viterbi 近似推理 优化 线性规划 MCMC,LoopyBeliefPropagation,Expectation Propagation 基于动态特征的 Viterbi 算法 Part-of-Speech Tagging for Chinese-English Mixed Texts with Dynamic Features (EMNLP 2012)

性能优化 性能问题 高维特征数量 词性标注中特征数 :115M, 非零参数数量 :1.5M 解码问题 状态数多 人工规则 词性标注中有 148 个状态 结合机制 容错性

系统流程

词法 句法 语义

词法难点 : 标准不明确 + 新词 信息处理用现代汉语分词规范 GB/T13715-92 词 : 最小的能独立运用的语言单位 汉语分词 : 从信息处理需要出发, 按照特定的规范, 对汉语按分词单位进行划分的过程 基本原则 : 结合紧密 使用稳定 例子 : / 吃饭 / / 吃 / 鱼 / / 不管三七二十一 / / 由此可见 / 自干五

句法分析难点 : 更灵活 语法和词性不同于欧洲语言 大量省略成分 与语义紧密结合

主流方法 流水线方式 : 分词词性句法 联合方法 : 分词 词性 句法 如何进一步提高? 分词 词性 句法

引入语义信息 东京都是在日本吗? 都 : 词义都是 : 单复数东京都 : 实体名

怎样结合语义信息到统计模型? 语义信息 人工语义, 需要语言学专家 ( 代价高 ) 众包 自动抽取的含噪声语义 马尔科夫逻辑网 将概率图模型和一阶逻辑结合 概率图模型能有效地应对不确定性 一阶逻辑容易表达知识 Discovering Logical Knowledge for Deep Question Answering, (CIKM, 2012) Recognizing Inference in Texts with Markov Logic Networks, (ACM TALIP 2012)

相关论文 1. SparseHigherOrderConditionalRandomFieldsforimprovedsequence di i d i ld i d labeling(icml2009) 2. HierarchicalMulti-ClassTextCategorizationwithGlobalMarginMaximization (ACL2009) 3. DetectingHedgeCuesandtheirScopeswithAveragePerceptron(CONLL 2010) 4. 2DTrie forfastparsing(coling2010) fast 5. JointTrainingandDecodingUsingVirtualNodesforCascadedSegmentation andtaggingtasks(emnlp2010) 6. HierarchicalTextClassificationwithLatentConcepts Concepts (ACL2011) 7. Labelwise MarginMaximizationforSequenceLabeling(CICLING2011) 8. FusionofMultipleFeaturesandSupervisedLearningforChineseOOVTerm DetectionandPOSGuessing(IJCAI2011) g( 9. Part-of-SpeechTaggingforChinese-EnglishMixedTextswithDynamic Features(EMNLP2012) 10. DiscoveringLogicalKnowledgeforDeepQuestionAnswering,(CIKM2012) g g g 11. RecognizingInferenceinTextswithMarkovLogicNetworks,(ACMTALIP2012)

下一步工作 自然语言处理 增加语义分析 语义获取 WebServices 文档 众包

致谢 项目负责 邱锡鹏 黄萱菁 当前开发人员 曹零 (2010-) 赵嘉亿 (2010-) 田乐 (2010-) 刘昭 (2010-) 过去开发人员 计峰 (2009-2012) 高文君 (2009-2010) 2010) 缪有栋 (2009-2010) 沈超 (2009) 希望有兴趣的老师 同学一起参与开发!

谢谢 Q&A