PowerPoint 演示文稿

Similar documents
Natural Language Question Answering over Large-scale Linked Data

c_onto-intro-0304.doc

untitled

untitled

AUCWA0501p00A.indd

腾讯.key

Microsoft Word - Preface_1_14.doc

M M. 20

<4D F736F F F696E74202D20312EB9FEB6FBB1F5B9A4D2B5B4F3D1A7D5E7C1BCA3BAC3E6CFF2D1D0BEBFC9FAB8B4CAD4B5C4BDE1B9B9BBAFC3E6CAD4BFBCBACBCCBDCBF7D3EBCAB5BCF92E BBCE6C8DDC4A3CABD5D>

Microsoft Word doc

untitled

<4D F736F F D20B773B0AAA4A4BFEFACECC2B2A4B628B6B6A7C7AAA D E65772E646F63>

高中英文科教師甄試心得

Microsoft Word doc

F4ChoiceOfSubjects2008

( 一 ) 實 習 的 時 候 就 和 讀 書 會 的 同 學 一 起 把 陳 嘉 陽 紮 實 地 讀 過 一 遍 了, 也 因 此 在 考 完 教 檢 之 後, 我 們 只 有 把 不 熟 或 是 常 考 的 章 節 再 導 讀 一 次 ( 例 如 : 統 計 行 政 法 規 ), 主 力 則 是

中文知识图谱CN-DBpedia构建的关键技术

Microsoft Word - 宜中電子報-第11期 doc

<30312EABCAADB1A544C3442E747066>

目 录 2015 年 第 2 期 ( 总 第 122 期 ) 39 人 与 自 然 滇 楠 远 嫁 皖 南,400 年 沧 桑 竟 成 林 43 绿 色 讲 坛 浅 析 我 国 城 市 空 气 污 染 现 状 及 对 策 46 法 制 经 纬 倾 倒 2 万 多 吨 废 酸, 赔 付 1.6 亿 元

2007年刊2.pdf

ok.pdf

楹 聯 功 能 之 研 究 摘 要 本 研 究 從 楹 聯 的 起 源 楹 聯 的 格 律 楹 聯 的 分 類 上 做 系 統 性 的 探 討 利 用 眾 家 聯 集 聯 話 聯 論, 分 析 探 索 楹 聯 的 功 能, 並 提 供 應 用 性 藝 術 性 教 育 性 娛 樂 性 的 奇 聯 與


80 温 州 大 学 学 报 社 会 科 学 版 (2012) 第 25 卷 第 1 期 构 混 乱 表 意 不 明 不 合 逻 辑 其 中 前 四 种 属 于 结 构 类 语 病, 考 查 几 率 较 高 ; 后 两 种 属 于 语 义 类 语 病, 有 时 会 单 独 出 题 上 面 这 道 题

PowerPoint 演示文稿

标题

日本清酒精妙绝伦的另一面

香港明愛青少年及社區服務-

(七)教職員編排

2006中國文學研究範本檔

Microsoft PowerPoint - 01國家考試講座簡報--中興大學簡報

(2010) [ English] (Category of Introductory Seminars on University Education) (Introduction to University Education) ( )... ( ( 1 )) / / (Introduction

Microsoft Word - 1HF12序.doc

Microsoft Word - 讀報看科普─人體篇_橫_.doc

Microsoft Word - 2B802內文.doc

鍟嗗搧瑙傚療鈥㈤挗鏉

席 远 杨 一 人 了, 正 当 她 开 枪 时 却 发 现 子 弹 没 了 该 死, 只 能 赤 手 空 拳 了 洛 水 云 与 席 远 杨 交 起 手 来, 洛 水 云 出 手 招 招 致 命 想 那 席 远 杨 也 不 是 泛 泛 之 辈, 很 快 掌 握 了 洛 水 云 出 招 路 数 看

東區校園中法治教育種子師資教學研習營

閱 讀 素 材 V.S 分 組 方 式 的 差 異 化 教 學 工 具 表 班 級 :( ) 閱 讀 素 材 V.S 分 組 方 式 獨 立 閱 讀 夥 伴 閱 讀 ( 同 質 性 ) 夥 伴 閱 讀 ( 異 質 性 ) 友 善 陪 伴 虛 心 受 教 國 語 日 報 新 聞 生 活 文 藝 兒 童


一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

1-2

全球互联网统计信息跟踪报告

Microsoft Word - FPKLSC_21.docx

1對外華語文詞彙教學的策略研究_第三次印).doc

A VALIDATION STUDY OF THE ACHIEVEMENT TEST OF TEACHING CHINESE AS THE SECOND LANGUAGE by Chen Wei A Thesis Submitted to the Graduate School and Colleg

【摘要】

1 行 业 发 展 不 平 衡 我 国 房 地 产 中 介 服 务 业 起 步 较 晚, 专 业 分 工 程 度 和 国 外 发 达 国 家 相 比 还 有 很 大 差 距 房 地 产 中 介 服 务 行 业 的 发 展 水 平 与 房 地 产 开 发 行 业 的 市 场 化 水 平 密 切 相 关

汇集全球21位医生的经验和智慧,总结出最实用的专业建议,这些都是最值得你牢记的健康提醒

Microsoft Word - finalized Yao T and Yang K.T. article edited Haihui.doc

104 學 年 度 第 2 學 期 第 1 次 院 務 會 議 紀 錄 開 會 時 間 :105 年 5 月 11 日 ( 三 ) 中 午 12 時 至 下 午 1 時 30 分 開 會 地 點 : 社 管 大 樓 5 樓 533 會 議 室 主 持 人 : 王 院 長 精 文 紀

第 1 頁 96 年 指 考 第 壹 部 分 : 選 擇 題 ( 佔 55 分 ) 一 單 選 題 (34 分 ) 說 明 : 第 1 至 第 17 題, 每 題 選 出 一 個 最 適 當 的 選 項, 劃 記 在 答 案 卡 之 選 擇 題 答 案 區 每 題 答 對 得 2 分, 答 錯 或

服務記錄撰寫技巧

Process Data flow Data store External entity 6-10 Context diagram Level 0 diagram Level 1 diagram Level 2 diagram

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

untitled

蔡 氏 族 譜 序 2

的 社 会 应 用 的 公 共 领 域 或 空 间 这 个 概 念 体 现 出 互 联 网 结 构 的 三 个 层 次, 即 传 输 基 础 网 络 构 成 和 人 们 的 使 用 行 为 传 输 基 础 是 人 们 利 用 互 联 网 进 行 各 种 活 动 的 通 信 信 道 网 络, 主 要

Microsoft Word 定版

第一章

I

國立臺灣藝術大學

经 济 和 社 会 事 务 部 人 口 司 ST/ESA/SER.A/ 年 世 界 人 口 状 况 简 要 报 告 asdf 联 合 国 纽 约,2014 年


paper_c8.doc

66 臺 中 教 育 大 學 學 報 : 人 文 藝 術 類 Abstract This study aimed to analyze the implementing outcomes of ability grouping practice for freshman English at a u

一种快速获取领域新词语的新方法

States and capital package

Microsoft Word ROCLING-WESum-LongAbstract.docx

<4D F736F F D20B2F8A74AA4AF5FA578C657A175BCC6A6ECB6D7AC79A176BB50A46AB3B0A175A454BAF4A658A440A176AC46B5A6A641B1B4>

考試學刊第10期-內文.indd

untitled

Easterlin GNH Gross National Happiness 2008

(Microsoft Word - 10\246~\253\327\262\304\244@\264\301\256\325\260T_Version4)

Microsoft Word RCE MP_Year Book.doc

Liao Mei-Yu Professor, Department of Chinese Literature, National Cheng Kung University Abstract Yao Ying was a government official in Taiwan for more

穨6街舞對抗中正紀念堂_林伯勳張金鶚_.PDF

95 12 携 浅 150

1 研究背景与目的

行 政 院 國 家 科 學 委 員 會 補 助 專 題 研 究 計 畫 成 果 報 告 ( 水 利 與 地 方 社 會 ( 一 ): 以 三 七 圳 與 社 子 溪 流 域 為 中 心 ) 計 畫 類 別 : 個 別 型 計 畫 計 畫 編 號 :NSC H 執 行 期

附件1:

2 SGML, XML Document Traditional WYSIWYG Document Content Presentation Content Presentation Structure Structure? XML/SGML 3 2 SGML SGML Standard Gener

pg19_BackCover

090304issue

一、簡報:

Microsoft Word - ChiIndexofNHE-03.doc


Microsoft Word - (web)_F.1_Notes_&_Application_Form(Chi)(non-SPCCPS)_16-17.doc

東莞工商總會劉百樂中學

强迫症毁灭天才

在 美 國 學 習 中 文 有 二 種 情 況, 一 種 是 把 中 文 當 作 一 門 外 國 語 言 來 學 (Chinese as a Foreign Language, CFL); 一 種 是 把 中 文 當 作 第 二 語 言 來 學 (Chinese as Second Language

天 主 教 輔 仁 大 學 社 會 學 系 學 士 論 文 小 別 勝 新 婚? 久 別 要 離 婚? 影 響 遠 距 家 庭 婚 姻 感 情 因 素 之 探 討 Separate marital relations are getting better or getting worse? -Exp

Microsoft Word - 01李惠玲ok.doc

经 验 交 流 坊 ( 第 十 八 期 ):SSCI 论 文 写 作 与 发 表 及 高 层 次 科 研 项 目 申 报 成 功 举 办 12

epub 61-2

厦 门 大 学 学 位 论 文 原 创 性 声 明 兹 呈 交 的 学 位 论 文, 是 本 人 在 导 师 指 导 下 独 立 完 成 的 研 究 成 果 本 人 在 论 文 写 作 中 参 考 的 其 他 个 人 或 集 体 的 研 究 成 果, 均 在 文 中 以 明 确 方 式 标 明 本

目 錄 壹 教 學 計 劃 表 P.2 貳 修 課 名 單 P.5 參 服 務 學 習 計 畫 書 P.7 肆 反 思 心 得 分 享 P.37 伍 服 務 學 習 照 片 P.65 陸 服 務 時 數 證 明 P.85 柒 其 他 P.149 1

ru'he

新竹市立新科國中

Transcription:

中文知识图谱 : 体系 获取与服务 中国科学院自动化研究所 模式识别国家重点实验室 赵军刘康

什么是知识图谱 The Knowledge Graph is a system that understands facts about people, places and things and how these entities are all connected. 知识图谱本质上是一种语义网络 其结点代表实体 (entity) 或者概念 (concept), 边代表实体 / 概念之间的各种语义关系

已有的知识图谱 百度知心 搜狗知立方

其他已有的知识库 Name language Year Construction Types Hownet Chinese 2000 Manual Common Sense Knowledge Wordnet English 1985 CYC 1984 DBpedia 2007 Automatic Common Sense Knowledge + Yago 2007 Factual Knowledge Freebase 2007 Crowding Sourcing

知识工程 : 三个层面问题 知识体系 知识获取 多数研究集中在这一层面 知识服务

知识体系

知识体系 : 几个术语 Ontology vs. Knowledge Base Ontology: 共享概念化的规范, 涉及概念 关系和公理三个要素 Knowledge Base: 服从于 ontology 控制的知识单元的载体 Ontology 是蛋糕的模具,Knowledge Base 是蛋糕 Formal Ontology vs. Lightweight Ontology Formal Ontology: 大量使用公理 Lightweight Ontology: 不用或很少使用公理

知识体系 : 几个术语 (cont) 关系 层级关系 Hypernym-Hyponym Is-a (Kind-of) Part-Whole 非层级关系 Thematic roles 论旨角色 Possession 领属 Attribute 属性 Casuality 因果

知识体系 : 三种组织形式 层级分类法 Ontology ( 狭义 ) 树状结构, 不同层节点之间具有严格的 IsA 关系 Human activities -> leisure activities -> sports -> golf 优点 : 因为概念关系单一, 方便于知识推理 缺点 : 无法表示概念关系的多样性 Taxonomy 树状结构, 上下位节点之间非严格的 IsA 关系, 而是 Hypernym- Hyponym 关系 Places -> Milky Way Galaxy -> Solar Systems -> Sol -> Inner Planets -> Earth -> North America -> United States -> California -> Cupertino. 优点 : 可以表示比较丰富的概念关系 缺点 : 给推理带来困难, 无法避免概念冗余

知识体系 : 三种组织形式 (Cont.) 标签分类法 Folksonomy 网络用户自发性定义的平面的 非层级的标签分类 优点 : 灵活, 可以表达更为丰富的概念关系 缺点 缺乏层次性, 难以揭示复杂的关系 自定义的标签缺乏语义精确性, 标签缺乏组织与关联 给推理带来很大的困难

目前网络知识资源的组织形式 目前网络知识资源 (Wikipedia 百度百科 互动百科等 ) 多是采用 Taxonomy 与 Folksonomy 相结合的组织形式, 以 Taxonomy 为主

目前的 Folksonomy 存在的问题 Folksonomy 的标签不能覆盖的所有的关系 无论是开放分类标签 还是 Infobox 属性标签 这些开放式类别标签存在冗余 不规范的问题, 标签之间也缺乏关联 1980 年 购房 房产 房地产

目前的 Taxonomy 存在的问题 不同的知识资源采用不同的 Taxonomy

百度百科 类别属性定义不统一 互动百科

Solution:Ontology Matching 建立体系间的 Alignment 挖掘概念之间 SameAs 关系 评测 :Ontology Alignment Evaluation Initiative 2004-2013 Benchmarks (bibliographic references), Web directories, Anatomy (biomedical) 关键 : 概念之间的相似度计算 挑战 Large-scale ontology matching and evaluation Matching with background knowledge (Increase recall but hurt precision) Multiple matchers and selection(global Alignment) Incorporating social information

Solution: 建立框架? 是否需要建立知识体系的框架 已有的体系框架 GeoNames/DBpedia Ontology/TexonConcept Ontology KOS/Schema.org Schema.org 的翻译和扩展 体系覆盖度不足, 局限于英文 细致化不足 百科知识描述体系的制订 中国大百科全书出版社

知识获取

文本信息结构 结构化数据 (Infobox) 置信度高 规模小 缺乏个性化的属性信息 半结构化数据 置信度较高 规模较大 个性化的信息 形式多样 含有噪声 纯文本 置信度低 复杂多样 规模大

抽取方法 结构化与半结构化文本信息 ( 利用网页结构 ) 信息块的识别 (Record Identification) 模板的学习 (Pattern Learning) 属性值的抽取 (Attribute Value Extraction) Infobox 中的属性名 身高 语言 国籍 体重

抽取方法 ( 续 ) 相对于工业界, 学术界更加侧重于从纯文本中抽取实体知识 传统关系抽取 给定关系类别和训练语料 开放式关系抽取 已有关系类别, 缺乏训练语料 Distant Supervision 完全开放式 从句法到语义

结构化 vs. 半结构化 vs. 非结构化 随机抽取 100 篇百科文档 ( 共 5 类 ) 对于其中三部分都包含的网页进行了统计 Infobox 人物地理电影动物图书 InfoBox 87 182 260 183 104 816 非结构化 79 147 109 107 36 半结构化 119 96 327 129 76 OverLap Info vs. 非 62 101 87 72 26 OverLap Info vs. 半 11 11 21 7 17 OverLap 非 vs. 半 8 7 4 4 10 747 37 30 3 318 478 三方 OverLap 7 7 3 4 9 半结构化半结构化和非结构化文本的实体关系抽取非常重要非结构化文本的实体关系抽取 : 对于文本进行结构化半结构化文本实体关系抽取 : 抽取个性化的实体属性 非结构化

CMU: NELL(Never-Ending Language Learning) Input Aim Initial ontology 500 million web pages Extract new instances of categories and relations Learn to read better than yesterday 1,994,282 Instances of 874 different categories and relations

UW: Machine Reading TexRunner ReVerb WOE OLLIE 从 Wikipedia Infobox 获得关系名 通过在句法树上回标获得句法关系模板

NELL: 思考 给定了 Ontology, 约束了关系的类别, 很难发现未知的实体关系 University of Washington : 从句法结构判别实体关系, 可以发现未知的实体关系, 但是所抽取的都是关系的 mention, 缺乏对于关系语义的确定 需要对于关系的语义进行挖掘 已有方法都是集中于英文, 在中文方面表现如何

开放式中文实体关系抽取 已有百科知识进行回标产生训练语料并训练 CRF 抽取器 姚明 1980 年生于上海 对于新文档 文档分类 选择抽取器进行抽取 句子级验证

开放式中文实体关系抽取 五个类别上测试 : 人物 植物 地理 电影 书籍

Sentence Level vs. Set level 思考 构建知识图谱不需要正确识别每个句子中的实体关系 充分利用网络数据的冗余特性 根据数据源 文本信息结构的置信度进行投票 中文 vs. 英文 中文文本缺乏严格的句法信息 Yao Ming was born in 1980. 姚明,1980, 上海人, 篮球运动员.

海量数据下的实体关系抽取 回标产生的训练语料越准确, 训练得到的模型就越准确? 增加两条规则以保证训练语料的正确性 TopN 规则 ( 回标后选取实体 1 与实体 2 最近的 N 个句子 ) Top1 vs. Top5 最近邻规则 ( 当一个句子中出现多个实体 1 与多个实体 2, 则取最近邻的那个规则 ) 最近邻 vs. 无最近邻 用不同的训练语料训练抽取器 规则所产生的训练语料规模 : Top1+ 无最近邻 12.8 MB Top1+ 最近邻 12.8 MB Top5+ 无最近邻 25.4 MB Top5+ 最近邻 25.4 MB 在大数据环境下, 细致的处理不再重要训练语料量的增加比训练语料质的提升更为重要

知识服务

已有的知识服务 : 检索与问答

基于知识图谱的检索或问答的核心问题 :Semantic Parsing 自然语言句子到知识库中概念和关系的映射 姚明到底有多高?

Semantic Parsing 传统 semantic parsing 在一个限定的领域中做 semantic parsing Ontology 规模小 基于关键词匹配或者人工书写模板 CCG(Combinatory Categorial Grammar) PCCG(Probabilistic Combinatory Categorial Grammar)

评测 : QALD

面向复杂问句的知识问答 Who are the parents of the wife of Juan Carlos I? 问题分析 : 把自然语言问句转换成语义三元组的形式 资源映射 : 对 Query Triple 中的每个短语, 确定其在知识库中的对应资源 SPARQL 生成 : 对于不同类型的问题依据不同的模板生成 SPARQL 语句

Inference over the Web 关键难点 如何学习鲁棒的推理规则 如何推理 验证新的知识

知识体系 何种知识体系是有效的? 小结 是否需要建立知识体系的框架? 或者建立进行 ontology matching, 或者 Tag matching 知识获取 非结构化文本的实体关系抽取是构建知识图谱的重要组成部分, 目前的性能还未达到实用 开放式关系抽取中, 确定关系元组的语义重要 中文知识抽取与英文有很大区别 知识服务 Semantic Parsing 知识推理

谢谢