ognitiongedr) CDC JHU ACE2005 CDC ACE2005 IBM CDC ACE2005 CDC 1 ACE [35-8] CDC CDC [ ] NIST ACE2008 GEDR CDC 1 1 CDC John Smiths [

Similar documents
<4D F736F F D20BBB3BBAFD1A7D4BA C4EAB1CFD2B5C9FABECDD2B5D6CAC1BFB1A8B8E62E646F63>

3 : 21 [6] [7] (DiscoursePar- sing) RST-DT(RhetoricalStruc- turetheory-discoursetreebank RST-DT) (Term Frequency-InverseDocumentFrequency) PDTB (Penn

一种快速获取领域新词语的新方法

第一章

计算机网络与经济(六).doc

、審計稽察之成果

「西醫基層總額支付委員會《第28次委員會議紀錄

附3

6 : 27 (Round-tableConference onlinguisticcorpusandcorpuslinguistics), Web : (NaturalLan- guage Processing Based on Huge-scale Naturaly ( ) Annotated


<4D F736F F D205BCAE9B0FCCDF85DC8FDC9FAC8FDCAC0CAAEC0EFCCD2BBA82E646F6378>

并非没有必要的一些宏观思考

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

美容 丙級 工作項目0 1 : 職業道德

NOTEBOOK COOLING PAD WITH THREE-DIMENSION SEAKERS

水土保持通报 第 31 卷 192 发现状出发分析了水电开发对生态环境产生的主要 型水电站被列入 十一五 重点项 目 31 云 南 省 水 电 问题和影响 6 王学琴 7 以岷江 嘉陵江上已 建 正建 资源的可开发程度低可开发的潜能 巨 大 云南省地 和规划设计的一些 低 水 头 河 床 式 或 引

¥]¸Ë»¡©ú

100-1「經典研讀:梁啟超《新民說》」學習歷程檔案

<4D F736F F D D C4EAC5A9D2B5B2FAD6B5BACDBCDBB8F1D7DBBACFCDB3BCC6B1A8B1EDD6C6B6C82E646F63>

然 而 打 开 目 前 市 场 上 流 行 的 任 意 一 款 智 能 输 入 法, 上 面 提 到 的 词 都 会 被 轻 轻 松 松 的 输 出 来 ; 不 仅 如 此, 所 有 的 智 能 输 入 法 都 支 持 用 户 短 句 级 别 以 及 句 子 级 别 的 输 入 方 法, 并 且 能

untitled

<4D F736F F D C33A3BAD7D4C8BBD3EFD1D4B4A6C0EDD3EBBBFAC6F7D1A7CFB A3A8D3E0A3A92E646F63>

标题


CH01.indd

团 学 要 闻 我 校 召 开 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 3 月 17 日, 我 校 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 在 行 政 办 公 楼 五 楼 会 议 室 举 行, 校 团 委 委 员 各 院 ( 系 ) 团 委 书 记 校 学 生

支撑材料4.4.doc

任 务 单 一 ~2: 文 具 书 本 摆 整 齐, 争 得 自 理 星 争 星 要 求 : 文 具 用 品 摆 放 好, 书 本 叠 叠 放 整 齐 探 秘 任 务 一 ~2: 文 具 书 本 摆 整 齐, 争 得 自 理 星 任 务 1: 跟 小 辅 导 员 一 起 参 观 高 年 级 的 教

课程整体教学设计指导意见

???h?????????W??????

天天星期三

党 政 投 资 基 金 落 户 上 城 区 曰 全 年 新 批 外 商 投 资 项 目 30 个 袁 实 际 利 用 外 资 万 美 元 曰 引 进 市 外 内 资 项 目 598 个 袁 实 际 到 位 资 金 亿 元 曰 推 进 区 市 协 作 工 程 袁 出 台 实 施

社 工 系 师 生 继 续 服 务 金 竹 林 儿 童 之 家.7 专 业 技 能 训 练 动 员 大 会..7 顶 岗 实 习 动 员 会 级 本 科 班 专 业 技 能 训 练...9 保 山 学 院 盈 江 青 爱 小 屋 支 教 行 级 政 本 班 德 育

簡 述 所 有 參 與 教 案 編 寫 人 員 之 學 經 歷 及 負 責 內 容 參 與 教 案 編 寫 人 員 魏 俊 陽 學 歷 經 歷 負 責 內 容 國 立 臺 灣 師 範 新 北 市 閩 南 語 教 案 編 寫 大 學 課 程 與 教 輔 導 團 教 學 者 學 研 究 所 博 士 新

信工学生工作简报 第四期.doc

教学设计方案

2009杭州市小学地方课程

<4D F736F F D20B6C0AE78B0EDAABAC0B8A740B8D65FA7EBA7BAA54EA4E5BEC7ACE3A873C24FA55AA15E2E646F63>

Microsoft Word - F5.docx

<4D F736F F D20C8CBB8A3D2BDD2A9BCAFCDC5B9C9B7DDB9ABCBBECFEACABDC8A8D2E6B1E4B6AFB1A8B8E6CAE9A3A8CEE4BABAB5B1B4FABFC6BCBCB2FAD2B5BCA

第十号 上市公司关联交易公告

Microsoft Word - 朗诵诵材.doc

06-07周年報告template.PDF

壹:教育文化公益慈善機關或團體免納所得稅適用標準

Untitiled

中艺华海修改1.7.indd

北 京 蓝 皮 书 公 共 服 务 相 比 而 言, 养 老 医 疗 失 业 等 保 险 都 早 已 经 由 国 务 院 颁 布 了 相 应 的 立 法 条 例, 在 全 国 范 围 内 形 成 了 统 一 的 制 度 党 的 十 八 届 四 中 全 会, 首 次 以 依 法 治 国 为 主 题,

2006年中央、国家机关公务员录用考试


untitled

2013-comp-022.dvi

《中文信息学报》投稿模版

了 波 涛 和 号 声 袁 读 者 很 容 易 就 进 入 广 州 城 的 水 上 旅 途 袁 进 入 一 座 野 水 上 名 城 冶 的 传 说 中 去 遥 于 是 袁 一 座 名 城 往 事 充 满 了 漂 流 感 袁 旋 律 自 水 上 而 来 袁 我 们 就 这 样 来 到 了 往 事 的

壹、摘 要

% 30% % % % %

Microsoft Word - report 4.doc

(Geographic data or geodata ) 30 (Buelher, K and L. Mckee1996) (Open GIS Consortium OGC) OGC GIS Open GIS OGC (Geography Markup Langu

JAIST Reposi Title WWW における関連リンク集の自動生成 Author(s) 田村, 雅樹 Citation Issue Date Type Thesis or Dissertation Text version author U

江苏省高等学校

中文模板

Microsoft Word - MIS.doc

Microsoft Word - 文档 2

20 79 Bateman APRA ATO GDP APRA % %

Microsoft Word G...doc

实验室代码

自我保健随身行

Microsoft Word - 小論文.doc

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

untitled

untitled

untitled

untitled

untitled


第一章

<4D F736F F D20B9FABCD2BBFAB9D8B0ECB9ABBDA8D6FEBACDB4F3D0CDB9ABB9B2BDA8D6FEC4DCBAC4BCE0B2E2CFB5CDB3C8EDBCFEBFAAB7A2D6B8B5BCCBB5C3F7CAE92E646F63>

目錄

Microsoft Word - 01-苏娅(排).docx

A 股 投 资 参 考 日 报 一 每 日 重 点 财 经 要 闻 解 读 中 央 一 号 文 件 : 大 力 推 进 农 业 现 代 化 中 国 证 券 网 讯, 中 央 一 号 文 件 1 月 27 日 由 新 华 社 受 权 发 布 文 件 指 出, 大 力 推 进 农 业 现 代 化, 必

某某某某详细报告

某某某某详细报告

MAXQ BA ( ) / 20

Microsoft Word 定版

附件2

数学之美

( Version 0.4 ) 1

2 SGML, XML Document Traditional WYSIWYG Document Content Presentation Content Presentation Structure Structure? XML/SGML 3 2 SGML SGML Standard Gener

59 1 CSpace 2 CSpace CSpace URL CSpace 1 CSpace URL 2 Lucene 3 ID 4 ID Web 1. 2 CSpace LireSolr 3 LireSolr 3 Web LireSolr ID

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

一 本 周 综 述 本 周 首 次 发 布 国 企 改 革 的 地 方 主 要 是 武 汉 市, 其 他 省 市 广 东 上 海 和 合 肥 进 入 国 企 改 革 的 实 施 阶 段 央 企 方 面 本 周 最 大 的 看 点 是 中 国 船 舶 重 工 集 团 和 中 国 航 空 工 业 集 团

17

untitled

1 市 场 要 闻 回 顾 : 名 称 收 盘 价 日 涨 跌 幅 上 证 综 指 4, 深 证 成 指 14, 沪 深 300 4, 融 资 余 额 当 日 买 入 额 截 至 周 三 (5 月 6 日 ),A 股 融 资 融 券

现代汉语语料库基本加工规格说明书

untitled

人20 感覺統合失調.DOC

Microsoft Word - Preface_1_14.doc

某某某某详细报告


池州学院文件

Transcription:

29 1 2015 1 JOURNAL OFCHINESEINFORMATION PROCESSING Vol.29No.1 Jan.2015 1003-0077(2015)01-0057-10 (1. 215006) (2. 215006) (CrossDocumentCoreferenceCDC) CDC ACE2005 ACE CDC TP391 A ConstructionofInformationExtraction-orientatedChinese CrossDocumentCoreferenceCorpus ZHAOZhiweiQIAN LonghuaZHOU Guodong (1.NaturalLanguageProcessingLaboratorySoochow UniversitySuzhouJiangsu215006China 2.SchoolofComputerScience & TechnologySoochow UniversitySuzhouJiangsu215006China) 1 [2] [3] AbstractCrossDocumentCoreference(CDC)resolutionisanimportantstepininformationintegrationandinforma- tionfusion.asaconsequenceacdccorpusisindispensableforresearchandevaluationofcdcresolution.given thefactthatnochinesecdccorpusispubliclyavailableorientedforinformationextractionthispaperdescribes howtobuildacdccorpusbasedontheace2005chinesecorpusviaautomaticgenerationandmanualannotation whichcoversaltheaceentitytypes.thecorpusismadepubliclyavailabletoadvancetheresearchonchinese CDCresolution.InadditionthispaperanalysesthetypesandcharacteristicsofCDCinChinesetextaswelaspro- posestheconceptoftwometricsi.e. variationperplexity and ambiguityperplexity toevaluatethedificulty ofchinesecdcresolutionprovidingsomeinsightsforfurthercdcresearch. Keywordscrossdocumentcoreferenceinformationextractioncorporaannotationperplexity MUC-6 [4] (CrossDocumentCo-referenceCDC) [1] ACE2008 [5] (GlobalEntityDetectionandRec- 2012-04-09 2012-08-06 (6087315090920004) (BK201021911KJA520003)

58 2015 ognitiongedr) CDC JHU ACE2005 CDC ACE2005 IBM CDC ACE2005 CDC 1 ACE2005 2 [35-8] CDC CDC [6-79-10] NIST ACE2008 GEDR CDC 1 1 CDC John Smiths [6] WePS2007 [9] CIPS2010 [10] ACE2008 [5] 197 1 3477 49 2968 30 6932 32 5604 26 10 000 Wikipedia 4.3 WEB LinkCorpus [11] 150 Person-X [7] 40000 1 zip htp//nlp.suda.edu.cn/~qianlonghua/ace2005-cdc.

1 59 ACE2005 3660 CDC [12] 7129 633 ACE2005 3816 CDC 6771 CDC WEB (ORG) a)web WEB [6] JohnSmiths [11] WikiLink WePS [9] CIPS [10] ACE2008 JHU2007CLSP ACE2005CDC Person-X [7] ACE2005 Person-X CDC Singh [11] ACE2008 CDC CDC PER ORG GPE CDC 2419 CDC ACE2008 GEDR GRDR(GlobalRelation 10000 [12] ACE2005 CDC ACE2005 CDC 85.4% b) CDC CDC CDC NIST ACE2005 Detectionand Recognition) TAC CDC ACE2008 (TextAnalysisConference) KBP (Knowl- edgebasepopulation) [13] (PER) (EntityLinking)

60 2015 ( ) (EntityDisambiguation) [14] ID 3.2 (Infobox) 3.3 [15-16] Web [9] Web [14] A B Web 3 ACE2005 1 (headword) 3.1 ACE XML ACE XML XML C 1 CDC

1 61 4.1 a) Passoneau [17] Krippendorf [18] alpha Passoneau b) 0 GPE 0.33 0.67 1 3.4 2 4.2 CDC ID ENT TYPE 4.2.1 ENTITY DOC 3618 6771 ID ( ) FAC MENTION 299 GPE 2419 LOC 233 ORG 2 CDC 4 CDC alpha 96% Krippendorf 67% alpha 1939 PER 1860 VEH WEA 17 4 2795 2795 41.3% 3976 643 3 GPE 85% 55%ORG PER LOC FAC GPE 4.2.2

62 2015 3 CDC 643 4.2.3 255 CDC 40% 7% 3795 3795 1 666 GPE BandaAceh ACE ORG DPRK(DemocraticPeople s RepublicofKorea) PER 2 ACE ACE 2 3 /% 61.2 14.5 15.3 9.0 70 GPE

1 63 H v E( i) E i =- j=1 pj log p( j ) (1) C e H v ( C) = w e i H v (E i ) (2) i=1 PP v =2 H v() C (3) H v (E i ) E i H v (C) w i e E i C e 100% PP v 1.19 2795 3 1.36 /% 7.1 90.0 2.9 1.19 4.3 1.36 Popescu [19] 4.3.2 Popescu M i CDC (PP r ) 1.06 4.3.1 1.10 1.06 1.10 4.4 E i m j c j E i m j E i Ψ E( i) = E m{ j} i j=1 E i E i C e pj m j PP v C m E i pj =c / j c k PP r k=1 (1)~(3) B3 [20] (PP r ) (PP v )

64 2015 B3 TF*IDF 5 B3 ACE2005 4 4 CDC F1 0.909 0.735 0.813 ACE 0.963 0.820 0.886 0.633 0.425 0.508 GPE ORG PER CDC [321] CDC ACE2005 CDC CDC ( ) ( ) [1] DaganIItaiA.AutomaticProcessingofLargeCor- porafortheresolutionofanaphorareferences[c]// Proceedingsofthe13thconferenceon Computational linguistics.stroudsburgpausahanskarlgren 1990330-332. [2]. [D]. 2000. [3] MayfieldJAlexanderDDorrBetal.Cross-Docu- mentcoreferenceresolutiona Key Technologyfor Learningby Reading[C]//Proceedingsofthe AAAI

1 65 2009SpringSymposium onlearningby Readingand Learningto Read.StanfordCalifornia March 23 200965-70. ence-6abriefhistory[c]//proceedingsofthe16th Conferenceon ComputationalLinguistics (COLING' 96).CopenhagenDenmarkAugust199605-09. [5] NISTSpeechGroup.TheACE2008evaluationplan AssessmentofDetectionand RecognitionofEntities andrelationswithinandacrossdocuments[eb/ol]. htp//www.nist.gov/speech/tests/ace/2008/doc/ ace08-evalplan.v1.2d.pdf2008. [6] Bagga ABaldwin B.Entity-Based Cross-Document Coreferencing Usingthe VectorSpace Model[C]// [4] GrishmanRBethS.MessageUnderstandingConfer- Proceedingsofthe36thAnnualMeetingoftheAssoci- ationforcomputationallinguisticsandthe17thinter- national Conference on Computational Linguistics (COLING-ACL'98). Montréal Québec Canada 199879-85. [7] GooiC HAlanJ.Cross-DocumentCoreferenceona LargeScaleCorpus[C]//ProceedingsofHLT-NAACL 2004.USA20049-16. [8] Batista-NavarroR TAnaniadouS.BuildingaCoref- erence-annotatedcorpusfromthedomainofbiochem- istry[c]//proceedingsofthe2011 WorkshoponBio- medical Natural Language Processing ACL-HLT 2011.PortlandOregonUSAJune23-24201183- 91. [9] ArtilesJGonzaloJSekineS.Web PeopleSearch TaskatSemEval-2007[EB/OL].htp//nlp.uned.es/ weps/weps2007 data readme 1.1.txt2007 [10] CIPS-SIGHAN Joint Conference on Chinese Lan- guage Processing (CLP2010)[EB/OL]. htp// www.cipsc.org.cn/clp2010/task3 ch.htm2010. [11] Singh SSubramanya APereira Fetal.Large- ScaleCross-DocumentCoreferenceUsingDistributed Inferenceand Hierarchical Models[C]//Proceedings ofthe49th Annual Meetingofthe Associationfor ComputationalLinguistics.PortlandOregon2011 793-803. [12] CLSPSummerWorkshop.ExploitingLexical& En- cyclopedicresourcesforentitydisambiguation[eb/ OL].htp//www.clsp.jhu.edu/ws2007/groups/ elerfed/documents/elerfed-cdc-overview. v2. ppt2007. [13] TaskDescriptionfor KnowledgeBasePopulationat TAC 2009[EB/OL].htp//apl.jhu.edu/~paul- mac/kbp/090601-kbptaskguidelines.pdf2009 [14]. [J]. 201125(6)98-110. [15] Rao D McNamee PDredze M.Entity Linking Finding Extracted Entitiesin a Knowledge Base Multi-source Multi-lingual Information Extraction andsummarization[m].germanyspringer2011. ationbasedon Wikipedia Data[C]//Proceedingsof EmpiricalMethodsin NaturalLanguageProcessing. PragueJune28-302007708-716. [16] Cucerzan S.Large-Scale Named Entity Disambigu- [17] PassoneauRJ.Computingreliabilityforcoreference annotation[c]//proceedingsoftheinternationalcon- ferenceon Language Resouces (LREC).Lisbon PortugalMay2004. [18] KrippendorfK H.ContentAnalysisAnIntroduc- tiontoits Methodology[M].Beverly HilsCA SagePublications1980. [19] PopescuO.PersonCrossDocumentCoreferencewith NamePerplexity Estimates[C]//Proceedingsofthe 2009 Conference on Empirical Methodsin Natural LanguageProcessing.Singapore6-7 August2009 997-1006. adaspainmay1998. [21] Baron AFreedman M.Whois Whoand Whatis WhatExperimentsinCross-DocumentCo-Reference [20] BaggaA.EvaluationofCoreferencesandCoreference Resolution Systems[C]//Proceedings ofthe First LanguageResourceandEvaluationConference.Gran- [C]//Proceedingsofthe2008ConferenceonEmpiri- calmethodsinnaturallanguageprocessing.hono- luluoctober2008274-283. (1987 ) E-mailnone.zhao@gmail.com (1966 ) E-mailqianlonghua@suda.edu.cn

66 2015 (1967 ) E-mailgdzhou@ suda.edu.cn 櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚櫚 ( 48 ) [8] PeterLinz. dom FieldsProbabilistic ModelsforSegmentingand [M]. 2004. LabelingSequenceData[C]//Proceedingsofthe18th [9]. ICML-012001282-289. [J]. [14] ZhangKunliZhang WencongZan Hongyingetal. ( )200842(2)190-194. Studiesonautomaticrecognitionofseveralcommon [10]. Chineseadverbs usagesbasedonbpneuralnetworks [J]. 2006317-20. [11] SchubertFooHuiLi.Chinese wordsegmentation anditsefectoninformationretrieval[j].informa- tionprocessingand Management200440(1)161-191. [12] GeorgeA Miler.WordNetA LexicalDatabasefor English[C]//ProceedingsofCommunicationsofthe ACM.19953839-41. [13] LafertyJMcCalum APereiraF.ConditionalRan- [C]//Proceedingsofthe10thChineseLexicalSeman- tics Workshop. 200931-37. [15] LovaszLPlummer M D. Matchingtheory [M]. AmsterdamElsevierScience2009. [16].BFS-CTC [J]. 201327(1)72-80. [17]. [J]. 201226(6)65-71. (1968 ) E-mailjiasuimin@163.com (1986 ) E-mailleili lei@163.com (1973 ) E-mailhero jack@163.com