54 48 6-7 word2vec 8-10 GloVe 11 Word2vec X king - X man X queen - X woman Recurrent Neural Network X shirt - X clothing X chair - X furniture 2 n-gra



Similar documents
一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

2015 年 第 24 卷 第 11 期 计 算 机 系 统 应 用 历 的 主 体 部 分 多 以 非 结 构 化 的 文 本 形 式 存 储, 很 多 研 究 只 能 基 于 有 限 的 结 构 化 数 据 进 行 [4,5], 无 法 满 足 临

,,, () 20 80,,,,, ;,, ;,, ;,,,,,,,,, [1 ], :,,,,2 2,,, () (),,,,:,,,,:,,,, :, [2 ] :,,,,,,, : AN NA,,,,,, ( ),:,,: ( F) = (A1 + A2 + A3 + An -

然 而 打 开 目 前 市 场 上 流 行 的 任 意 一 款 智 能 输 入 法, 上 面 提 到 的 词 都 会 被 轻 轻 松 松 的 输 出 来 ; 不 仅 如 此, 所 有 的 智 能 输 入 法 都 支 持 用 户 短 句 级 别 以 及 句 子 级 别 的 输 入 方 法, 并 且 能

2 3. 1,,,.,., CAD,,,. : 1) :, 1,,. ; 2) :,, ; 3) :,; 4) : Fig. 1 Flowchart of generation and application of 3D2digital2building 2 :.. 3 : 1) :,

g 100mv /g 0. 5 ~ 5kHz 1 YSV8116 DASP 1 N 2. 2 [ M] { x } + [ C] { x } + [ K]{ x } = { f t } 1 M C K 3 M C K f t x t 1 [ H( ω )] = - ω 2

2 ( 自 然 科 学 版 ) 第 20 卷 波 ). 这 种 压 缩 波 空 气 必 然 有 一 部 分 要 绕 流 到 车 身 两 端 的 环 状 空 间 中, 形 成 与 列 车 运 行 方 向 相 反 的 空 气 流 动. 在 列 车 尾 部, 会 产 生 低 于 大 气 压 的 空 气 流

IT 36% Computer Science Teachers Association, CSTA K K-12 CSTA K-12 K-12 K-6 K6-9 K STEM STEM STEM

Microsoft Word - 专论综述1.doc

PCA+LDA 14 1 PEN mL mL mL 16 DJX-AB DJ X AB DJ2 -YS % PEN

, [3 ] Petri, 25 7, 500, [4,5 ], 3, (2), 2003, [ 6 ],,, ,, [7 ], 569, 26, ( ) : 2 ; 3 ; 4, ; 5, : (a) ( ) :,,

1 引言

附3

第 2 期 王 向 东 等 : 一 种 运 动 轨 迹 引 导 下 的 举 重 视 频 关 键 姿 态 提 取 方 法 257 竞 技 体 育 比 赛 越 来 越 激 烈, 为 了 提 高 体 育 训 练 的 效 率, 有 必 要 在 体 育 训 练 中 引 入 科 学 定 量 的 方 法 许 多

* CUSUM EWMA PCA TS79 A DOI /j. issn X Incipient Fault Detection in Papermaking Wa

Microsoft Word 定版

山东省招生委员会

《中文信息学报》投稿模版

Sep (SCI) 10. Jiann-Ming Wu, Annealing by two sets of interactive dynamics, IEEE Trans. on Systems Man and Cybernetics Part B-Cybernetics 34 (3)

Vol. 15 No. 1 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb O21 A

,, [1 ], [223 ] :, 1) :, 2) :,,, 3) :,, ( ),, [ 6 ],,, [ 3,728 ], ; [9222 ], ;,,() ;, : (1) ; (2),,,,, [23224 ] ; 2,, x y,,, x y R, ( ),,, :

关于2007年硕士研究生培养方案修订几点要求的说明

基于矩阵分解和矩阵变换的多义词向量研究

TOPIC 专 题 45 1 加 快 农 业 大 数 据 发 展 的 现 实 意 义 农 业 大 数 据 运 用 大 数 据 的 理 论 技 术 和 方 法, 解 决 农 业 领 域 数 据 的 采 集 存 储 计 算 和 应 用 等 一 系 列 问 题, 大 数 据 技 术 是 保 障 国 家 粮

Microsoft Word - A doc

1

untitled

48 Computer Education 课 程 体 系 设 置 2.1 科 学 设 置 培 养 方 案 课 程 模 块, 确 定 培 养 方 向 首 先, 我 们 通 过 对 人 才 市 场 需 求 分 析, 确 定 了 专 业 培 养 目 标 然 后, 根 据 教 育 部 高 等

标题

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

<4D F736F F D20B8BDBCFE3220BDCCD3FDB2BFD6D8B5E3CAB5D1E9CAD2C4EAB6C8BFBCBACBB1A8B8E6A3A8C4A3B0E5A3A92E646F6378>

MAXQ BA ( ) / 20

59 1 CSpace 2 CSpace CSpace URL CSpace 1 CSpace URL 2 Lucene 3 ID 4 ID Web 1. 2 CSpace LireSolr 3 LireSolr 3 Web LireSolr ID

Microsoft Word - sbs.doc

y 1 = 槡 P 1 1h T 1 1f 1 s 1 + 槡 P 1 2g T 1 2 interference 2f 2 s y 2 = 槡 P 2 2h T 2 2f 2 s 2 + 槡 P 2 1g T 2 1 interference 1f 1 s + n n

中 国 系 统 工 程 学 会 理 事 会 民 主 管 理 办 法 中 国 系 统 工 程 学 会 行 政 人 员 人 事 管 理 制 度 中 国 系 统 工 程 学 会 财 务 管 理 办 法 教 育 系 统 工 程 专 业 委 员 会 2015 年 工 作 总 结 过 程 系 统 工 程 专 业

182 第 41 卷 方面发挥了重要作用 因此研究留日物理学生是中 国近现代物理学史研究的一项重要内容 出身 并任翰林院编修 不久 云贵总督李经羲上 奏 要求调其回云南兴办新学 他欣然回滇办学宣 1 统二年( 1910) 他接任云南优级师范学堂监督 兼 专任理化教员 负责筹办云南工矿学堂 并担任第一

标题

1. 课 程 负 责 人 情 况 姓 名 蒋 效 宇 性 别 男 出 生 年 月 基 本 信 息 最 终 学 历 研 究 生 职 称 副 教 授 电 话 学 位 博 士 职 务 无 传 真 研 究 方 向 MIS 系 统 整 合 电 子

Microsoft Word - A _ doc

Vol. 22 No. 4 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Aug GPS,,, : km, 2. 51, , ; ; ; ; DOI: 10.

科 研 信 息 化 技 术 与 应 用,2015, 6 (1) of identity and the framework of identity management, this paper analyses the development trend of Identity Management

untitled

Microsoft Word - chnInfoPaper6

85% NCEP CFS 10 CFS CFS BP BP BP ~ 15 d CFS BP r - 1 r CFS 2. 1 CFS 10% 50% 3 d CFS Cli

在 培 养 职 前 卓 越 化 学 教 师 的 院 校, 会 编 一 本 过 去 称 作 化 学 教 学 论 实 验, 现 在 拟 为 卓 越 化 学 教 师 教 育 实 验 教 学 研 究 的 教 材 各 院 校 对 这 门 课 程 所 给 的 学 时 不 太 一 样, 但 都 是 围 绕 实 验

% GIS / / Fig. 1 Characteristics of flood disaster variation in suburbs of Shang

标题

语篇中指代词的分布规律与心理机制*

~ 10 2 P Y i t = my i t W Y i t 1000 PY i t Y t i W Y i t t i m Y i t t i 15 ~ 49 1 Y Y Y 15 ~ j j t j t = j P i t i = 15 P n i t n Y

Microsoft Word - A _ doc

UDC Empirical Researches on Pricing of Corporate Bonds with Macro Factors 厦门大学博硕士论文摘要库

Dan Buettner / /

标题

<4D F736F F D D DBACEC0F25FD0A3B6D4B8E55F2DB6FED0A32D2D2DC8A5B5F4CDBCD6D0B5C4BBD8B3B5B7FBBAC52E646F63>

. 1 4 Web PAD

X i i 2003 X' i i W i V i = S i / X珔 i W i = V i / m V i = 1 i 2 2 X珔 ESDA i i S i i V i i W i i m ESI = m W i = 1 i X i 3 3 ESI m 2.ESDA ESD

F4

标题

实验室代码

中国媒体发展研究报告

4 115,,. : p { ( x ( t), y ( t) ) x R m, y R n, t = 1,2,, p} (1),, x ( t), y ( t),,: F : R m R n.,m, n, u.,, Sigmoid. :,f Sigmoid,f ( x) = ^y k ( t) =

我 会 国 际 合 作 与 交 流 工 作 成 绩 受 到 科 协 国 际 部 领 导 充 分 肯 定 朱 松 春 教 授 到 中 国 政 法 大 学 讲 授 系 统 工 程 2

McGraw-Hill School Education Group Physics : Principles and Problems G S 24

Corporate Social Responsibility CSR CSR CSR 1 2 ~ CSR 6 CSR 7 CSR 8 CSR 9 10 ~ CSR 14 CSR CSR 2013 A A 23.

业 务 与 运 营 社 交 网 络 行 为 将 对 网 络 流 量 造 成 较 大 影 响 3) 即 时 通 信 类 业 务 包 括 微 信 QQ 等, 该 类 业 务 属 于 典 型 的 小 数 据 包 业 务, 有 可 能 带 来 较 大 的 信 令 开 呼 叫 建 立 的 时 延 销 即 时

基于因子分析法对沪深农业类上市公司财务绩效实证分析

[1] Liu Hongwei,2013, Study on Comprehensive Evaluation of Iron and Steel Enterprises Production System s Basic Capacities, International Asia Confere

Fig. 1 1 The sketch for forced lead shear damper mm 45 mm 4 mm 200 mm 25 mm 2 mm mm Table 2 The energy dissip

<A448A4E5AAC0B77CBEC7B3F8B2C43132A8F7B2C434B4C15F E706466>

中文模板

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

填 写 要 求 一 以 word 文 档 格 式 如 实 填 写 各 项 二 表 格 文 本 中 外 文 名 词 第 一 次 出 现 时, 要 写 清 全 称 和 缩 写, 再 次 出 现 时 可 以 使 用 缩 写 三 涉 密 内 容 不 填 写, 有 可 能 涉 密 和 不 宜 大 范 围 公

Microsoft Word - 33-p skyd8.doc

ULC ULC ULC ULC 1. 88

标题

一 课 程 负 责 人 情 况 姓 名 吴 翊 性 别 男 出 生 年 月 基 本 信 息 学 位 硕 士 职 称 教 授 职 务 所 在 院 系 理 学 院 数 学 与 系 统 科 学 系 电 话 研 究 方 向 数 据 处 理 近 三 年 来

Microsoft Word 記錄附件

Microsoft Word (du)(改2)

具有多个输入 特别是多个输出的 部门 或 单位 ( 称为 决策单元 Decision Making Unit 简称 DMU) 间的相对有效 8 性 C2R 模型是 DEA 的个模型 也是 DEA 的基础 和重要模型 假设有 n 个决策单元 DMUj( j = n) 每个 DMU 有 m

交流活动

cm /s c d 1 /40 1 /4 1 / / / /m /Hz /kn / kn m ~

/MPa / kg m - 3 /MPa /MPa 2. 1E ~ 56 ANSYS 6 Hz (a) 一阶垂向弯曲 (b) 一阶侧向弯曲 (c) 一阶扭转 (d) 二阶侧向弯曲 (e) 二阶垂向弯曲 (f) 弯扭组合 2 6 Hz

Mechanical Science and Technology for Aerospace Engineering October Vol No. 10 Web SaaS B /S Web2. 0 Web2. 0 TP315 A

清 华 大 学

Microsoft Word - 19王建华.doc

JOURNAL OF NANJING UNIVERSITY OF FINANCE AND ECONOMICS Wild t % 50% 15% % 19 17%

2013 年 7 月 总 第 235 期 主 办 单 位 : 中 国 科 学 院 自 动 化 研 究 所 CONTENTS 中 国 科 学 院 自 动 化 研 究 所 所 刊 卷 首 语 节 令 是 一 种 命 令 毕 淑 敏 1 聚 焦 CASIA 自 动 化 所 召 开 庆 祝 建 党 92 周

44(1) (1) (4) (4) 63-88TSSCI Liu, W. Y., & Teele S. (2009). A study on the intelligence profile

计 算 机 系 统 应 用 年 第 25 卷 第 1 期 的 编 程 语 言 Giotto [9] 编 写 控 制 程 序, 可 以 方 便 的 控 制 程 序 的 逻 辑 执 行 时 间, 从 而 使 得 任 务 时 间 的 依 赖 关 系

132 包 装 工 程 2016 年 5 月 网 产 品 生 命 周 期 是 否 有 与 传 统 产 品 生 命 周 期 曲 线 相 关 的 类 似 趋 势 旨 在 抛 砖 引 玉, 引 起 大 家 对 相 关 问 题 的 重 视, 并 为 进 一 步 研 究 处 于 不 同 阶 段 的 互 联 网

<4D F736F F D F B0E6B8DFB1BBD2FDD6B8CAFDC7B0D1D42E646F63>

报 告 1: 郑 斌 教 授, 美 国 俄 克 拉 荷 马 大 学 医 学 图 像 特 征 分 析 与 癌 症 风 险 评 估 方 法 摘 要 : 准 确 的 评 估 癌 症 近 期 发 病 风 险 和 预 后 或 者 治 疗 效 果 是 发 展 和 建 立 精 准 医 学 的 一 个 重 要 前

University of Science and Technology of China A dissertation for master s degree Research of e-learning style for public servants under the context of

Maxwell [8] GDP Lipschitz McDonald [9] ULC [10] HBS [11] [12] [13] BIS IMF JP JP VAR [5] 1 W i = xi n Σx i k=1 1 4 Vol.24

Microsoft Word doc

附件1:

Preparing_Seminar

f 2 f 2 f q 1 q 1 q 1 q 2 q 1 q n 2 f 2 f 2 f H = q 2 q 1 q 2 q 2 q 2 q n f 2 f 2 f q n q 1 q n q 2 q n q n H R n n n Hessian

中國傳統醫學及養生保健學說中,與經脈及穴道有密不可分的關係

Transcription:

Journal of South China Normal University Natural Science Edition 2016 48 3 53-58 doi 106054 /jjscnun201605006 1 2* 2 3 2 1 510631 2 3 510225 Glove TP3911 A 1000-5463 2016 03-0053-06 Research on Academic Semantic Search Using Word Vector Representations CHEN Guohua 1 TANG Yong 2* XU Yuying 2 HE Chaobo 3 XIAO Danyang 2 1 Network Center South China Normal University Guangzhou 510631 China 2 School of Computer Science South China University of Technology Guangzhou 510631 China 3 School of Information Science and Technology Zhongkai University of Agriculture and Engineering Guangzhou 510225 China Abstract Using the papers in computer science extracted from Scholat as the corpus multiple word vector training schemes are proposed using the Glove semantic toolkit and their performances are compared and analyzed Then a random projection method is proposed to quickly access vectors in the large vector space Finally a semantic vector computing scheme for the whole academic documents is proposed based on the word vector representations A series of experiments are conducted and the effectiveness of the proposed scheme word vector based academic semantic search is verified This scheme is applied to the search function of Scholat and it can obtain satisfying performance Key words academic semantic computing word vectors random projection Scholat 90 Latent Semantic Analysis LSA 1-3 Singular Value Decomposition - BLEI 4-5 Dirichlet Topic Model 1 1 1 80 1 2016-04-24 http / /journalscnueducn /n 863 2013AA01A212 61272067 61502180 2013B090800024 2015A020209178 2016A030303058 2015A030310509 2014A030310238 2014J4300033 * Email ytang4@ qqcom

54 48 6-7 word2vec 8-10 GloVe 11 Word2vec X king - X man X queen - X woman Recurrent Neural Network X shirt - X clothing X chair - X furniture 2 n-gram X king king CBOW 12 GloVe log- 1 LSA 8 000 10 16 2 Topic Model 1 1 1 1 D 2 ansj_seg 3 GloVe 1 V 1 4 Q θ Q 5 Q V 13 Bag of Words SOCHER 14 1 1 1 15 Paragraph Vector 1 1 Ansj_seg 17 Ansj_seg N-Gram 200 /s 96% 1 2 1 4 1 Q V m V n d

3 55 O mdn 2 16 12 727 V V 2 1 1 Figure 1 Split of random trees 3 T i 4 T i v S j 5 S j V i 6 V = V V i 7 Return V 2 + + + TF-IDF 21 + + V TF-IDF 1 1+ -1 = 0 2 Input v d N Output V 22 Procedure 1 V = 2 for i in 1 N 2

56 48 Table 1 1 Comparison of the query performance with or without abstracts 0926 450 286 0517 000 482 1-DFFT 0686 018 873 E-CSPE 0421 188 453 0674 879 131 0414 511 314 0657 541 765 SMT RTL 0396 606 624 U- 0643 088 652 0391 683 085 Q 0641 766 516 0386 460 748 0628 374 558 0385 903 833 Newton-Thiele 0628 356 107 0383 847 701 0738 215 726 0443 087 229 0668 840 042 0389 737 297 0654 369 302 0384 204 714 0609 374 842 0374 215 445 0603 729 577 0372 000 271 0601 388 043 0371 005 674 V- 0592 452 381 0363 339 901 0567 773 813 0362 977 328 Table 2 2 Comparison of single word splitting performance with or without key words 0926 450 286 1979 2 0399 743 546 1-DFFT 0686 018 873 0399 503 776 0674 879 131 2009 0391 703 807 0657 541 765 DTI 0390 108 847 U- 0643 088 652 H264 0377 643 127 Q 0641 766 516 0376 913 545 0628 374 558 0361 568 256 Newton-Thiele 0628 356 107 0354 862 961 0738 215 726 0505 907 123 0668 840 042 G/G/1-FCFS M/G/1-PS M/G/ Web 0468 035 227 0654 369 302 Deep Web 0416 168 959 0609 374 842 0412 447 286 0603 729 577 / Verilog 0406 117 685 0601 388 043 0401 674 471 V- 0592 452 381 0399 956 055 0567 773 813 0376 883 075

3 57 23 2 3 1 1 TF-IDF TF-IDF 1 2 1 TF-IDF 1 Table 3 3 Comparison of query performance with or without weight information TF-IDF 0926 450 286 0926 450 288 1-DFFT 0686 018 873 1-DFFT 0686 018 877 0674 879 131 0674 879 135 0657 541 765 0657 541 767 U- 0643 088 652 U- 0643 088 651 Q 0641 766 516 Q 0641 766 517 0628 374 558 0628 374 561 Newton-Thiele 0628 356 107 Newton-Thiele 0628 356 109 0738 215 726 0738 215 729 0668 840 042 0668 840 044 0654 369 302 0654 369 299 0609 374 842 0609 374 841 0603 729 577 0603 729 577 0601 388 043 0601 388 044 V- 0592 452 381 V- 0592 452 378 0567 773 813 0567 773 811 24 1 4 Q Q θ 4 065 5 4 Table 4 Related word expansion of machine learning 4 0999 999 999 999 999 6 0706 581 424 336 596 7 0700 522 392 797 570 3 + 0650 479 383 139 883 8 TF-IDF

58 48 Table 5 5 Comparison of query performance with or without query expansion 0926 450 286 0883 932 571 1-DFFT 0686 018 873 0707 267 018 0674 879 131 0654 039 706 0657 541 765 0653 243 473 U- 0643 088 652 Q 0651 101 475 Q 0641 766 516 0647 492 558 0628 374 558 0638 793 333 Newton-Thiele 0628 356 107 0636 359 742 3 8 MIKOLOV T CHEN K CORRADO G et al Efficient estimation of word representations in vector space J /OL 2013-09-07 2016-03-25 Computer Science http wwwoalibcom/ paper /4057741#Vx3Rz_mEAso + 9 MIKOLOV T SUTSKEVER I CHEN K et al Distributed representations of words and phrases and their compo- sitionality J Advances in Neural Information Processing Systems 2013 26 3111-3119 10 MIKOLOV T YIH W ZWEIG G Linguistic regularities in continuous space word representations C Proceedings of NAACL-HLT Atlanta sn 2013 746-751 11 PENNINGTON J SOCHER R MANNING C D Glove global vectors for word representation C Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing EMNLP Doha s n 2014 1532-1543 12 BENGIO Y SCHWENK H SEN CAL J S et al Neural 1 DEERWESTER S DUMAIS S T FURNAS G W et al Indexing by latent semantic analysis J Journal of the American Society for Information Science 1990 41 6 391 2 HOFMANN T Unsupervised learning by probabilistic latent semantic analysis J Machine Learning 2001 42 1 /2 177-196 3 DUMAIS S T Latent semantic analysis J Annual Review of Information Science and Technology 2004 38 1 188-230 4 BLEI D M NG A Y JORDAN M I Latent dirichlet allocation J The Journal of Machine Learning Research 2003 3 993-1022 5 BLEI D M LAFFERTY J D A correlated topic model of science J The Annals of Applied Statistics 2007 1 1 17-35 6 SCHMIDHUBER J Deep learning in neural networks an overview J Neural Networks 2015 61 85-117 7 WESTON J RATLE F MOBAHI H et al Deep learning via semi-supervised embedding J Lecture Notes in Computer Science 2012 7700 1168-1175 probabilistic language models M HOLMES D E JAIN L C Innovations in Machine Learning Berlin Springer 2006 137-186 13 MITCHELL J LAPATA M Composition in distributional models of semantics J Cognitive Science 2010 34 8 1388-1429 14 SOCHER R LIN C C MANNING C et al Parsing natural scenes and natural language with recursive neural networks C Proceedings of the 28th International Conference on Machine Learning Bellevue sn 2011 129-136 15 LE Q V MIKOLOV T Distributed representations of sentences and documents C Proceedings of the 31th International Conferences of Machine Learning Beijing sn 2014 1188-1196 16 Z /OL 2016-03- 25 http wwwscholatcom 17 NLPChina Ansj Z /OL 2016-04- 10 https githubcom / NLPchina / ansj_seg