PowerPoint 演示文稿

Save this PDF as:
 WORD  PNG  TXT  JPG

Size: px
Start display at page:

Download "PowerPoint 演示文稿"

Transcription

1 科学知识图谱助你高效选题开题 主讲人 宋征玺

2 前言内容推荐 什么是科学知识图谱? 科学知识图谱有什么用? 科学知识图谱为什么有用? 如何获取数据? 有哪些知识图谱分析工具? 如何展开分析? 如何为你的问题选择合适的网络? 如何解读绘制知识图谱? 一些例子? 一些书? 一些公众号? 一些人?

3 前言 reface 01 什么是科学知识图谱 02 科学知识图谱有什么用 03 科学知识图谱为什么有用 04 如何获取数据

4 什么是科学知识图谱?

5 科学知识图谱有什么用? 做科研又叫 doing research 反复地 search 可以有效的提高科研效率 搜集资料实验验证 理解文献提出观点 我们需要了解一个知识领域的来龙去脉 它的现状以及今后的发展 The longer you can look back, the farther you can look forward. Wiston Chirchill Creativity is just connecting things

6 科学知识图谱有什么用? 信息爆炸 大数据 人工智能 机器学习 数据密集型科学发现 知识图谱将改变我们看世界的方式 SCI 一个数据库就 Deep Learning 关键词下文献的数量 知网一个数据库深度学习关键词下文献 8327 个 百度找到的相关结果约 个

7 科学知识图谱有什么用? 常用的科研思路 : 大量阅读利用相关文献建立你所研究的学术领域的系统认识 奠基式的研究 关键理论与技术 选题 开题时我们需要回答的问题 主要研究的问题 里程碑式的研究 面临的最严峻的挑战 综述找到一篇综述就好了! 新兴的领域没有系统的综述! 每一个高歌猛进的领域任何综述很快过时这篇综述真的够全面够系统吗? 等待永远慢半拍 科学知识图谱能够根据搜集的文献信息绘制一张属于我们自己的知识图谱

8 中介中心性 科学知识图谱为什么有用? 科学文献本身提供了大量的信息 引文 Web of Science EI Scopus 中国知网可以导出文本数据数据库在著录文献时会增加文献的学科 关键词等信息大型文摘索引型数据库常常能够提供引文关系与参考文献信息 学术论文中的引文体现了专家学者们对现有文献的选择 不论这种选择是出于何种动机及其具体原因, 选择本身提供的信息就很有价值 频率突增 如果一篇论文的引文频次突然急速增长, 有可能这篇论文切中了学术领域这个复杂系统的某个要害部位 理论依据 托马斯库恩的科学发展模式理论普赖斯的科学前沿理论结构洞理论 参考文献模式标志科学研究前沿的本质 研究前沿是基于最新近研究成果, 随着发展知识网络越来越密集

9 如何准备数据? 1) 下载 WOS 数据 2) 更改数据 数据格式 CiteSpace 对分析的数据文本命名有特殊要求, 文件名需要类似于 download_****** ( 注意 Download 有时不能识别, 首字母需要小写 ) 3) 准备文件夹 知网

10 内容 CONTENTS 01 有哪些知识图谱分析工具 02 如何展开分析 03 如何为你的问题选择合适的网络 04 如何解读绘制知识图谱

11 有哪些知识图谱分析工具? DDT, Pajek, Citespace,UCINET,Bibexcel,Gephi,VOSviewer,Vantage- Point,Sci2, SciMAT,Hiscite, R 语言 ~~~

12 有哪些知识图谱分析工具? 拍摄图像 客观世界 分析工具的功能类似一架照相机只是它拍摄的对象是科学文献而不是自然景色 设置分析工具的各项参数大致相当于取景, 调焦, 对光圈 知识图谱分析工具

13 有哪些知识图谱分析工具? 时间切片 项目区 文本处理 CiteSpace 界面 主界面 过程区 网络配置 结果区 网络剪裁 可视化设置

14 有哪些知识图谱分析工具? 2 快捷功能网络聚类及命名节点样式快捷调整区 3 网络调整计算 CiteSpace 界面 可视化界面 1 5 标签形式快捷功能区 节点列表 4 节点信息

15 CiteSpace 术语中介中心性 有哪些知识图谱分析工具? 中介中心性 (Betweenness centrality) 是测度节点在网络中重要性的一个指标 表示在网络图中, 一个节点在多大程度上是图中其他节点的 中介 此类节点在网络中起到 沟通桥梁 的作用 什么是重要信息? 一个节点包含了大量的信息 VS 一个节点在图谱中链接了两个重要的聚类 转折点 CiteSpace 中使用此指标来发现和衡量文献的重要性, 并用紫色圈对该类文献进行重点标注

16 CiteSpace 术语突发性探测 有哪些知识图谱分析工具? Burst 检测 : 突发主题 ( 或文献 作者以及期刊引证信息等 ), 在 CiteSpace 中使用 Kleinberg, J(2002) 年提出的算法进行检测 意义 (1) 如果一篇论文的引文频次突然呈现急速增长 ;(2) 这篇论文切中了学术领域要害问题 ; CiteSpace 将这种突变信息视为一种可用来度量更深层变化的手段

17 CiteSpace 术语 引文年环 有哪些知识图谱分析工具? 引文年环 (Citation Tree-Rings ) 代表着某篇文章的引文历史 引文年轮的颜色代表相应的引文时间, 一个年轮厚度和与相应时间分区内引文数量成正比

18 CiteSpace 术语 有哪些知识图谱分析工具? 时间切片 阈值与修剪 时间切片 : 按照所下载数据的时间范围, 对数据进行切分 调节相机曝光时间 曝光时间过短, 丢失一些有用的信息 阈值 : 在数据处理中 CiteSpace 会按照用户设定的阈值提取出各个时间切片满足的文献, 并最后合并到网络中 数据范围过窄, 有价值信息未能入选 调整 ISO 感光能力 修剪 : 采用一定算法剔除网络一些次要信息

19 CiteSpace 如何理解文献关系 有哪些知识图谱分析工具? 研究前沿 研究前沿聚类术语 知识基础 研究前沿的三种典型认识 : (1) 共被引文献聚类 (2) 共被引文献聚类和所有引用这个聚类的文章 (3) 引用共群文章的文献聚类知识基础是一个有利于进一步明晰研究前沿本质的概念 如果把研究前沿定义为一个研究领域的发展状况, 那么研究前沿的参考文献就形成了相应的知识基础 研究前沿的知识基础是研究前沿在文献中的引用轨迹

20 CiteSpace 如何呈现文献关系 有哪些知识图谱分析工具? 聚类标签 研究前沿 + 前沿术语 知识基础

21 有哪些知识图谱分析工具? 导航面板 Vosviewer 界面 主面板 操作面板 控制面板 信息面板

22 内容 CONTENTS 01 有哪些知识图谱分析工具 02 如何展开分析 03 如何为你的问题选择合适的网络 04 如何解读绘制知识图谱

23 如何展开分析? 分析的粒度 可以分析的对象? 关键词 术语 (term) 学科领域作者 机构 国家参考文献基金 可以用来构建网络的关系? 共现分析合作分析耦合分析 参考文献 文献 文献引用关系 施引文献

24 如何展开分析? 共被引网络 参考文献耦合网络 施引文献 PA1 PA2 PA3 PA4 参考文献 PB1 PB2 PB3 PB4 PB5 PB2 PA2 PB1 PB3 PB4 文献的共被引网络 PB5 pa1 pa2 pa3 pa4 pb1 pb2 pb3 pb4 pb PA1 PA3 文献的耦合网络 PA4 pb1 pb2 pb3 pb4 pb5 pb1 pb2 pb3 pb4 pb 原始引证矩阵 pa1 pa2 pa3 pa4 pa1 pa2 pa3 pa 文献的共被引矩阵 文献的耦合矩阵

25 论文列表 Whittaker 最早提出共词分析的假设前提 : 作者都是很认真的选择他们的技术术语 共词分析 如何展开分析? 当在同一篇文章中使用不同的术语时, 就意味着这些不同的术语之间的关系并不是微不足道, 他们一定是被作者认可和认同的 如果足够多的作者对同一种关系认可, 那么认为这种关系在他们所关注的科学领域中具有一定的意义 当针对关键词时, 经过专业学习的学者, 在其论文中标引出来的关键词时能够反映文章的内容的, 是值得信赖的指标 在作者 标引关键词时, 通常也会收到其他学者成果的影响而在论文中使用相同或者类似的关键词标引自己的论文 关键词列表 P1 K1 K2 K3 K4 K5 P2 K2 K4 K6 K7 P3 K3 K8 K4 K9 K2 P4 K5 K7 P5 K2 K9 K7 K8 P1 论 P2 文列 P3 表 P4 P5 K1 K2 关键词列表 K3 K4 K5 K6 K7 K8 K 关键词列表 K1 K2 K3 K4 K5 K6 K7 K8 K9 K1 K2 K3 K4 K5 K6 K7 K8 K K7 K8 K2 K5 K9 K3 K4

26 如何展开分析? 这些功能键都在哪? 选择 Term 提取的位置 CiteSpace 提取名词术语 突发性检测 共词分析的补充选择 作者 / 机构 / 国家合作分析 术语 / 关键词 / 期刊 / 学科共现分析 文献 / 作者 / 期刊共被引分析 文献 / 基金耦合分析

27 如何展开分析? 这些功能键都在哪? 共现分析 VOSviewer 数据清洗 Author Keywords DE 作者提供关键 KeyWords Plus ID 数据库著录时增加一部分关键词

28 如何展开分析? 这些功能键都在哪? 引用分析 VOSviewer

29 如何展开分析? 这些功能键都在哪? VOSviewer 参考文献耦合分析 文献期刊作者机构国家耦合分析

30 如何展开分析? 这些功能键都在哪? VOSviewer 共被引分析 文献期刊作者共被引分析

31 内容 CONTENTS 01 有哪些知识图谱分析工具 02 如何展开分析 03 如何为你的问题选择合适的网络 04 如何解读绘制知识图谱

32 如何为你的问题选择合适的网络? 典型问题一 : 我希望了解一个领域的研究前沿以及知识基础? 分析 : 知识基础是由共被引文献集合组成的, 而研究前沿是由引用这些知识基础的施引文献集合组成的 节点类型 :Cited Reference 网络名称 : 共被引网络 如何获取由共被引网络 ( 知识基础 ) 得到的研究前沿 CiteSpace: 聚类命名 通过从施引文献 ( 摘要 题目 关键词 ) 中提取的名词性术语确定的突发性术语检测 案例说明 :Light Field 领域的知识基础与研究前沿? 在 Web of Science 数据库中下载 Light NEAR/0 Feild 主题下的所有文献, 共 7850 条记录

33 如何为你的问题选择合适的网络? 构建共被引网络进行聚类分析 图片中的每一个小点点是文献的参考文献, 所代表的的就是研究基础 通过聚类算法标注出来的方法就是研究前沿, 体现的是在该领域目前施引文献研究的话题

34

35 对分析的文献进行突发性检测

36 如何为你的问题选择合适的网络? 典型问题一 : 我希望了解一个领域的研究前沿? 分析 : 最新的文献进行耦合分析 节点类型 :Paper 网络名称 : 文献耦合网络 如何获取由文献耦合网络得到的研究前沿 CiteSpace: 搜索某一关键词下最新的文章 - 近一个月 - 近一年 - 近三年点击施引文献列表导出所有的施引文献进行文献耦合分析聚类分析突发性术语检测

37 如何为你的问题选择合适的网络? 在图像处理的去雾领域研究某一高被引文章的研究前沿, 下载其施引文献 959 篇 研究文献耦合情况

38

39 如何为你的问题选择合适的网络? 典型问题二 : 我希望了解一个领域的研究热点 / 研究趋势 / 知识结构? 分析 : 热点? 某个领域学者共同关注的一个或者多个话题? 体现了一种时间属性话题在哪里找 - 关键词 术语 网络名称 : 关键词 / 术语共现网络 节点类型 :Keyword; Term 对关键词构成的共现网络进行聚类分析 / 词语的时间趋势 / 词汇的突发性检测

40 如何为你的问题选择合适的网络?

41 如何为你的问题选择合适的网络? 典型问题三 : 我希望了解一个领域的学科结构? 分析 : 更为宏观的角度看一个领域, 比如我们看一看这个领域文章涉及哪些学科 节点类型 :Category 可以根据学科的耦合关系进行分析, 也可以通过合作者的聚类 文献的聚类

42 光学 如何为你的问题选择合适的网络?

43 如何为你的问题选择合适的网络? 典型问题四 : 我希望了解一个领域的有哪些牛人 / 牛刊 / 牛机构? 分析 : 快速的了解一个领域 节点类型 :Cited Author/Cited Journal/Author 思路 : 可以采用共被引结构, 分析哪些作者是一个领域重要的奠基式任务目前引用这些作者的论文在研究什么? 从发文量的角度看哪些是高产的? 可以分析个人 期刊 机构之间的合作关系, 哪些是在这个领域具有最多合作伙伴的? 哪些人在这个领域具有重要的桥梁作用?

44 由作者合作关系看 Light Field 领域有哪些重要的学者? 他们都在研究什么?

45 具体查看每一个聚类中, 算法提取出来的话题

46 由机构合作关系看 Light Field 领域有哪些重要的学术机构? 他们都在研究什么?

47 内容 CONTENTS 01 有哪些知识图谱分析工具 02 如何展开分析 03 如何为你的问题选择合适的网络 04 如何解读绘制知识图谱

48 如何解读绘制知识图谱? 解读要点 : 网络聚类 关键节点 ( 转折点 ) 网络整体结构 各个聚类之间的关联 路径

49 结构 内容 时间 指标 如何解读绘制知识图谱? 是否能够看到自然聚类 ( 未经聚类算法而能直接判定的组合 ), 观察通过算法能得到几个聚类? 是否包含一些重要的节点? 转折点 (Pivot node, 有紫色外圈的节点, 具有高的中介中心性的节点 ) 标志点 (Landmark node, 如每个节点大小代表它的总被引次数, 节点越大则总被引频次越高 ) 具有高的度中心性的点 (Hub node, 枢纽节点, 具有高的度中心性 )

50 结构 内容 时间 指标 如何解读绘制知识图谱? 每个自然聚类是否有主导颜色 ( 出现时间相对集中 ) 是否有明显的热点 ( 节点年轮中出现红色年轮, 即被引频率是否曾经或仍在急速增加 )? 通过各个年轮的色彩可判断被引时间分布 时间线显示将每一聚类按时间顺序排列, 相邻聚类常常对应相关主题 ( 聚类间共引 ) 聚类之间的知识流向也可从时间 ( 色彩 ) 上看到 ( 由冷色到暖色 )

51 结构 时间 如何解读绘制知识图谱? 每个聚类的影响 ( 被引时涉及的主题, 摘要和关键词 ) 和几种不同算法所选出的最有代表性的名词短语 内容 指标

52 结构 时间 如何解读绘制知识图谱? 每个聚类是否具有足够的相似性 (silhouette 值是否足够大, 太小则无明确主题可言 ), 整个聚类是否有足够节点 ( 太少则很可能全都出自同一篇文献的参考文献, 因而缺乏普遍意义 ) 内容 指标 Modularity 值 Modularity 是网络模块化的评价指标, 一个网络的 Modularity 值越大, 则表示网络得到聚类越好 Q 的取值区间为 [0,1],Q>0.3 时就意味着得到的网络社团结构是显著的 Silhouette 值是用来衡量网络同质性的指标, 越接近 1, 反映网络的同质性越高,Silhouette 为 0.7 时聚类结果是具有高信度的 在 0.5 以上, 可以认为聚类结果是合理的 若 Silhouette 值无穷大, 聚类数量通常为 1, 这样的结果对于聚类分析而言没有意义 ( 注意 Silhouette 主要在聚类后来衡量某个聚类内部的同质性, 但是在聚类内部成员很少时, 这个值的信度会降低 )

53 推荐 RECOMMANDATION 01 一些例子 02 一些书 03 一些公众号 04 一些人

54 一些书? 手册类的书 偏理论的书

55 一些公众号? 一些人? 李杰 - 安全科学与知识图谱的博客 QQ 群 学习资料 科学知识前沿图谱 微信号 : CiteSpace-Home 功能介绍 : 国内学者对科学知识图谱的热衷, 显现了使用数据可视化技术来呈现知识的优势 本平台旨在为国内外关注 喜欢或从事知识图谱理论 实践的学者提供一个信息分享的平台 帐号主体 : 国内学者对科学知识图谱的热衷, 显现了使用数据可视化技术来呈现知识的优势 本平台旨在为国内外关注 喜欢或从事知识图谱理论 实践的学者提供一个信息分享的平台 QQ 空间

56 Thanks! 西北工业图书馆微信公众平台