JAIST Reposi Title WWW における関連リンク集の自動生成 Author(s) 田村, 雅樹 Citation Issue Date Type Thesis or Dissertation Text version author U

Similar documents
女性美容保健(七).doc

(Microsoft Word \256\325\260\310\267|\304\263\254\366\277\375.doc)

JAIST Reposi Title コーパスからの単語の意味の発見 Author(s) 九岡, 佑介 Citation Issue Date Type Thesis or Dissertation Text version author URL h

一般社団法人電子情報通信学会 信学技報 THE INSTITUTE OF ELECTRONICS, IEICE Technical Report INFORMATION THE INSTITUTE OF AND ELECTRONICS, COMMUNICATION ENGINEERS IEICE L

最新执法工作手册(九十八)

EC( )18 第 2 頁 (c) 刪 除 以 下 常 額 職 位 2 個 顧 問 醫 生 職 位 第 4 / 第 3 / 第 2 點 ) ( 145,150 元 至 149,600 元 /127,900 元 至 135,550 元 /113,520 元 至 120,553 元 ) (

Microsoft Word - 發布版---規範_全文_.doc

概 述 随 着 中 国 高 等 教 育 数 量 扩 张 目 标 的 逐 步 实 现, 提 高 教 育 质 量 的 重 要 性 日 益 凸 显 发 布 高 校 毕 业 生 就 业 质 量 年 度 报 告, 是 高 等 学 校 建 立 健 全 就 业 状 况 反 馈 机 制 引 导 高 校 优 化 招

鱼类丰产养殖技术(二).doc

疾病诊治实务(一)

名人养生.doc

<4D F736F F D2040B9C5B871A661B0CFABC8AE61C2A7AB55ACE3A8735FA7F5ABD8BFB3B9C5B871A661B0CFABC8AE61C2A7AB55ACE3A8732E646F63>


中老年保健必读(十).doc

27 i

% % ,542 12,336 14,53 16,165 18,934 22,698 25, ,557 7,48 8,877 11, 13,732 17,283 22,

海淀区、房山区(四)

穨ecr1_c.PDF

穨2005_-c.PDF

北京理工大学.doc

尲㐵.⸮⸮⸮⸮⸮

东城区(下)

果树高产栽培技术(一).doc

物质结构_二_.doc

第一節 研究動機與目的

i

水力发电(九)

中国古代文学家(八).doc

景观植物(一)

Microsoft Word - 目录.doc

园林植物卷(三).doc

19q indd

厨房小知识_一_

中南财经大学(七).doc


赵飞燕外传、四美艳史演义

厨房小知识(五)

最新监察执法全书(十八).doc

园林植物卷(十二).doc

华东师范大学.doc

國立中山大學學位論文典藏

乳业竞争_一_

最新执法工作手册(十).doc

untitled

最新执法工作手册(十六)

中国政法大学(六).doc

胎儿健康成长.doc

bnbqw.PDF

1. 本文首段的主要作用是 A. 指出 異蛇 的藥用功效 說明 永之人爭奔走焉 的原因 B. 突出 異蛇 的毒性 為下文 幾死者數矣 作鋪墊 C. 交代以蛇賦稅的背景 引起下文蔣氏有關捕蛇的敘述 2. 本文首段從三方面突出蛇的 異 下列哪一項不屬其中之一 A. 顏色之異 B. 動作之異 C. 毒性之

nb.PDF

第三章

untitled

Microsoft Word - edu-re~1.doc

Microsoft Word - 08 单元一儿童文学理论

南華大學數位論文

Microsoft Word 一年級散文教案.doc

米食天地教案

第32回独立行政法人評価委員会日本貿易保険部会 資料1-1 平成22年度財務諸表等

項 訴 求 在 考 慮 到 整 體 的 財 政 承 擔 以 及 資 源 分 配 的 公 平 性 下, 政 府 採 取 了 較 簡 單 直 接 的 一 次 性 減 稅 和 增 加 免 稅 額 方 式, 以 回 應 中 產 家 庭 的 不 同 訴 求 ( 三 ) 取 消 外 傭 徵 費 6. 行 政 長

(f) (g) (h) (ii) (iii) (a) (b) (c) (d) 208

Table of Contents

、,

第一章

二零一零至一一年施政报告 - 施政纲领

A-1 HTML A-1-1 HTML 1 HTML JSP HTML HTML HTML JSP A HTML HTML HTML HTML HTML HTML HTML HTML.htm.html HTML Windows NotePad HTML IE [ / ] NotePad A-2

一月七日


MergerPdf.dll

7Eleven 7Eleven 7Eleven 1927 Texas Dallas, Tote'm Stores Eleven Eleven Eleven 7Eleven Eleven 1 7El

行 为 能 力 人 或 限 制 民 事 行 为 能 力 人 的, 应 由 其 监 护 人 指 定 或 变 更 身 故 保 险 金 受 益 人 ( 二 ) 伤 残 保 险 金 受 益 人 除 另 有 约 定 外, 本 保 险 合 同 的 伤 残 保 险 金 的 受 益 人 为 被 保 险 人 本 人

Contents 1 深 圳 大 学 经 济 学 院 学 生 代 表 大 会 章 程 2 2 优 秀 毕 业 生 评 选 细 则 7 3 议 事 规 则 8 i

Preparing_Seminar

1-28(长江二号)

PPT题目

女性健美保健(中).doc

马太亨利完整圣经注释—雅歌

Microsoft Word - 97整建成果報告書 doc

二零零六年一月二十三日會議

(1) (2) (3) 1. (1) 2

關於本書 Part 3 CSS XHTML Ajax Part 4 HTML 5 API JavaScript HTML 5 API Canvas API ( ) Video/Audio API ( ) Drag and Drop API ( ) Geolocation API ( ) Part 5

Microsoft Word - 0-封面

(i) (ii) (iii) (iv) 380,000 [ ] , , % % % 5.5% 6.5%

厨房小知识(四)

妇女更年期保健.doc

小儿传染病防治(上)

<4D F736F F D B875B9B5A448ADFBBADEB27AA740B77EA4E2A5555FA95EAED6A641ADD75F2E646F63>

女性青春期保健(下).doc

避孕知识(下).doc

孕妇饮食调养(下).doc

禽畜饲料配制技术(一).doc

中老年保健必读(十一).doc

i

怎样使孩子更加聪明健康(七).doc

i

女性美容保健(四).doc

第六章 結論

學 習 內 容 元 素 一 直 透 過 中 小 學 校 課 程 相 關 課 題 培 養, 如 : 小 學 常 識 科 人 文 學 科 和 科 學 科 等 這 些 從 沒 有 因 為 德 育 及 國 民 教 育 科 課 程 指 引 在 2012 年 擱 置 而 有 任 何 改 變 4. 教 育 局 持

untitled

新婚夫妇必读(九).doc

FEELING COMFORTABLE ABOUT SEX

Transcription:

JAIST Reposi https://dspace.j Title WWW における関連リンク集の自動生成 Author(s) 田村, 雅樹 Citation Issue Date 2006-03 Type Thesis or Dissertation Text version author URL http://hdl.handle.net/10119/1979 Rights Description Supervisor: 白井清昭, 情報科学研究科, 修士 Japan Advanced Institute of Science and

WWW 2006 3

WWW 410080 : 2006 2 Copyright c 2006 by Tamura Masaki

1 1 2

1 1 1.1................................... 1 1.2................................... 1 1.3.................................. 2 2 3 2.1....................... 3 2.2........................ 4 2.3........................ 5 3 7 3.1................................. 7 3.2................................... 7 3.2.1.............................. 7 3.2.2............................ 7 3.2.3............................ 9 3.2.4.......................... 10 3.2.5............................. 11 3.2.6............................. 12 3.3................................. 12 3.3.1..................... 13 3.3.2....................... 14 3.3.3........................ 16 3.3.4........................ 17 3.4................ 18 3.4.1.......................... 18 3.4.2.................... 23 4 29 4.1..................................... 29 4.2.............................. 30 4.2.1............................. 30 i

4.2.2.............................. 31 4.2.3........................ 37 5 41 5.1...................................... 41 5.2................................... 41 43 44 ii

3.1................................ 8 3.2................................ 9 3.3....................... 10 3.4................................. 11 3.5................................. 12 3.6............................. 13 3.7.............................. 15 3.8................................ 17 3.9........................... 18 3.10.................................. 20 iii

2.1 Clusty........................ 6 3.1....................... 21 3.2................................... 21 4.1.............................. 29 4.2.............................. 30 4.3.................................. 32 4.4............................. 34 4.5 ( ).................. 36 4.6........................... 38 4.7 ( )............... 39 iv

1 1.1 Yahoo Goo Google 1 1 1 Yahoo 1.2 1 2 1

1.3 2 3 4 3 5 2

2 2.1 [1] ( ) ( ) HTML ( ) HTML 4 (li) (dl dt dd) ( ) (2 ) ( ) (<br>) 5 : : : 2 3

: : 1.2 2.2 [2] Name Collector Contents Editor Organizer 3 Name Collector ( ) aquarium Waikiki Aquarium Steinhart Aquarium Monterey Bay Aquarium 2 URL Contents Editor URL Organizer 2 1 2 4 2 4

2.3 Zamir Suffix Tree Clustering(STC) [3] Suffix Tree ( S) 1. 2. 2 3. S ( ) 4. ( ) 5. S s s Suffix Tree STC Suffix Tree 10 STC STC Gooots [4] 5 (pdf doc ) 2 5

Gooots Gooots 2 Gooots Gooots googleapi 5 Vivísimo[5] Clusty.com ( Clusty.jp 2006 2 β ) Clusty Velocity 2.1 (2006/02/03 ) 2.1: Clusty ( ) 154 26 26 22 16 11.. Clusty 1 6

3 3.1 3.2 6 1. 2. 3. 4. 5. 6. 3.2.1 3.2.2 3.1 3.2.1 Goo 500 7

GNU Wget Goo ( 500 ) GNU Wget 3.1: Goo Goo PDF HTML Content-Type text/html application/xhtml+xml 8

3.2.3 3.2.2 Goo 500 3.2 1 2... 3.2: 1. 3.3 2. 1 3. 4. 9

WikiPedia Perl 3.3 ( ) Perl 3.3: (WikiPedia > Perl ) 3.2.4 1. (3.3 ) 2. HTML 3. 80% 10

HTML 3.2.5 3.4 3.5 ( ) 3.4: 3.4 11

3.5: 3.2.6 3.3 HTML 1. 2. 3. 4. 1 3 12

3.3.1 (li ) 3.6 3.6: (TEX Wiki> ) (ul) (ol) <li> <ul> </ul> <li> <a> <a> href 13

2 3 (dl) (a) URL (b) URL URL (c) URL (a) URL./../ / URL ( mailto: ) http:// ftp:// (b) URL http://www.jaist.ac.jp/is/index-jp.html http://www.jaist.ac.jp/is/ Yahoo! http://www.geocities.jp/abc/ http://www.geocities.jp/def/ 3.3.2 (br ) 3.7 14

3.7: ( ) 15

href <a> </a> 1. 0 2. <br> <br> 1. 0 2. <a> 3 (font b i ) (em strong q ) (img) 1 <b><a href="url"> </a></b><br> 3.3.3 1 2 3.8 16

3.8: (shirabeyou.com > ) <table> </table> <tr> </tr> <a> <a> href <tr> 8 2 3 3.3.4 3 3.9 17

1 1 2 3 4 5 5 6 6 7 7 8 8 3.9: 3.4 3.4.1 ( ) 18

1 1. 2. 3. 4. [6] 1 1 ( ) 1 1 [ ] 3.10 ([ ], ) [7] 19

: ([ ], ) 3.10: 1 3.10 ([ ], ) p k mean(p, k) p k 1 (n p,n f ) mean(p, k) =(n p,n f ) p k k (n p,n f ) 1 mean(p, k) =(n p,n f ) p k 2 mean(p, k) 75% p x 3.1 ([ ], ) ([ ], ) 4 75%(3 ) ([ ], ) mean(p x, ) = (([ ], ), ([ ], )) 20

3.1: [ ] 4 1 [ ] 3 ( ) 6 3.2 Goo 2 ( ) 3.2: ([ ], [ ]) (003, 004,...) 211 ([ ], ) (002, 016,...) 102 ([ ], ) (006, 018,...) 23 ([ ], ) (240, 312,...) 22 ([ ], ) (043, 052,...) 15 ([ ], ) (005, 008,...) 7... ([ ], [ ]) 1. 5 21

10% 2. ([ ], [ ]) 3. [ ] ([ ], ) 3.2 1 5 ([ ], ) ([ ], [ ]) 211 10% ([ ], ) 4 ([ ], [ ]) ([ ], ) ([ ], ) ([ ], ) 2 ([ ], [ ]) 3 ([ ], ) ([ ], ) ([ ], ) 3 22

3.4.2 ( ) :... ([ ], [ ]) ([ ], ) :... ([ ], ) ([ ], ) :... (, ) ([ ], ) 1. 2. 3. 23

(a) (b) 4. 2 3 2 a b s(a, b) = at b a b (3.1) x : x [8] 3 0.4 50 ( ) 3.4.1 (Bag of words) TF(Term Frequency) IDF(Inverse Document Frequency) TF-IDF IDF ICF(Inverse Cluster Frequency) t ICF ( ) Nc icf(t) =ln cf(t) +1 (3.2) N c : cf(t) : t (N c, cf(t) ) 24

ICF IDF p t w(t, p) w(t, p) =Normalize ( tf(t, p) ) icf(t) ( ) tf(t, p) Nc = ln t tf(t, p) cf(t) +1 (3.3) (3.3) TF p ICF c t w(t, c) w(t, c) = p c w(t, p) (3.4) 5 (p n, n =1,...,5) 5 (t m, m = 1,...,5) p 1 p 2 p 3 p 4 p 5 t 1 3 1 2 0 1 t 2 0 0 1 0 0 t 3 1 0 1 0 0 t 4 0 1 0 2 1 t 5 0 0 0 2 3 p1, p2 c 1 p5 c 2 N c =3 cf 3 1 cf(t) = 2 3 2 25

ICF ln ( 3 +1) 3 ln ( 0.693 3 +1) 1 icf(t) = ln ( 1.386 3 +1) 2 ln ( 0.916. 3 +1) 3 ln ( 0.693 3 +1) 0.916 2 TF-ICF w(t, p) =tficf(t, p) = p 1 p 2 p 3 p 4 p 5 3 t 1 0.693 1 0.693 2 0.693 0 0.693 1 0.693 4 2 4 4 5 0 t 2 1.386 0 1.386 1 1.386 0 1.386 0 1.386 4 2 4 4 5 t 3 1 0.916 0 0.916 1 0.916 0 0.916 0 0.916 4 2 4 4 5 0 t 4 0.693 1 0.693 0 0.693 2 0.693 1 0.693 4 2 4 4 5 0 t 5 0.916 0 0.916 0 0.916 2 0.916 3 0.916 4 2 4 4 5 p 1 p 2 p 3 p 4 p 5 t 1 0.520 0.347 0.347 0 0.139 t 2 0 0 0.347 0 0 t 3 0.229 0 0.229 0 0. t 4 0 0.347 0 0.347 0.139 t 5 0 0 0 0.347 0.550 26

w(t, c) = = c 1 c 2 t 1 0.520 + 0.347 0.139 t 2 0+0 0 t 3 0.229 + 0 0 t 4 0+0.347 0.139 t 5 0+0 0.550 c 1 c 2 t 1 0.866 0.139 t 2 0 0 t 3 0.229 0. t 4 0.347 0.139 t 5 0 0.550 p 3, p 4, c 1, c 2 p 3 = 0.347 2 +0.347 2 +0.229 2 0.542, p 4 = 0.347 2 +0.458 2 0.575, c 1 = 0.866 2 +0.229 2 +0.347 2 0.961, c 2 = 0.139 2 +0.139 2 +0.550 2 0.584. 27

s(p, c) = = = c 1 c 2 p 3 c 1 p 3 c 2 p 3 p 3 c 1 p 3 c 2 p 4 c 1 p 4 c 2 p 4 p 4 c 1 p 4 c 2 c 1 c 2 0.347 0.866 + 0.229 0.229 0.347 0.139 p 3 0.542 0.961 0.542 0.584 0.347 0.347 p 4 0.575 0.961 ( c 1 c 2 ) p 3 0.678 0.152. p 4 0.218 0.894 0.347 0.139 + 0.458 0.550 0.575 0.584 p 4 c 2 0.894 > 0.4 p 4 c 2 p 3 c 1, c 2 s(p 3, c) = ( c 1 c 2 ) p 3 0.678 0.152. c 1 0.678 > 0.4 p 3 c 1 p 1,p 2,p 3 c 1 p 4, p 5 c 2 28

4 4.1 4.1 5 3 4.1: ( ) 1 2 3 perl 4 5 29

4.2 4.2.1 3.3 1 15 15 (Error rate: E) (Precision: P ) (Recall: R) 1 E = ( ) ( ) P = ( ) ( ) R = ( ) ( ) (4.1) (4.2) (4.3) 4.2 4.2: 1 8.3% (1 / 12) 95.5% (21 / 22) 53.8% (21 / 39) 2 42.1% (8 / 19) 52.9% (9 / 17) 34.6% (9 / 26) 3 37.5% (9 / 24) 65.4% (17 / 26) 68.0% (17 / 25) 4 34.8% (8 / 23) 50.0% (8 / 16) 57.1% (8 / 14) 5 31.3% (5 / 16) 66.7% (10 / 15) 71.4% (10 / 14) 33.0% (31 / 94) 67.7% (65 / 96) 55.1% (65 / 118) 30

URL URL JAIST ( http://www.jaist.ac.jp/ks/index.html ) ( http://www.jaist.ac.jp/is/index-jp.html ) ( http://www.jaist.ac.jp/ms/index.html ) JAIST http://www.jaist.ac.jp/ks/ http://www.jaist.ac.jp/is/ http://www.jaist.ac.jp/ms/ 3.3 3 ( ) (dt dd ) 4.2.2 3.4.1 2 31

15 3.2.3 15 30 15 30 4.3 4.3: 102 1 23 22 71 79 34 2 32 53 91 28 perl5 27 3 28 perl 39 78 4 80 25 99 5 73 148 56 1188 1 32

4.3 1 3 2 3 perl5 perl 3.4 1 perl5 perl perl5 perl 3 perl perl Perl P = ( ) ( ) (4.4) 4.4 1 = ( ) 2 1 2 ( ) 30 2 33

4.4: 1 2 3 4 5 53.3% (16 / 30) 56.5% (13 / 23) 81.8% (18 / 22) 30.0% (9 / 30) 6.7% (2 / 30) 33.3% (10 / 30) 20.0% (6 / 30) 50.0% (15 / 30) 23.3% (7 / 30) 3.3% (1 / 28) perl5 92.6% (25 / 27) 28.6% (8 / 28) perl 23.3% (7 / 30) 50.0% (15 / 30) 63.3% (19 / 30) 24.0% (6 / 25) 73.3% (22 / 30) 13.3% (4 / 30) 46.7% (14 / 30) 90.0% (27 / 30) 42.6% (244 / 573) 34

3 perl5 perl perl perl5 perl5 perl 4 2 2 [ ] 5 2 2 2 3.2.4 15 3.2.3 15 4.5 1 2 perl5 Goo 35

4.5: ( ) ( ) ( ) 1 2 3 4 5 93.3% (14 / 15) 13.3% (2 / 15) 91.7% (11 / 12) 18.2% (2 / 11) 100.0% (4 / 4) 77.8% (14 / 18) 60.0% (9 / 15) 0.0% (0 / 15) 13.3% (2 / 15) 0.0% (0 / 15) 57.1% (8 / 14) 12.5% (2 / 16) 26.7% (4 / 15) 13.3% (2 / 15) 46.7% (7 / 15) 53.3% (8 / 15) 40.0% (6 / 15) 6.7% (1 / 15) 6.7% (1 / 15) 0.0% (0 / 13) perl5 100.0% (1 / 1) 92.3% (24 / 26) 29.6% (8 / 27) 0.0% (0 / 1) perl 24.1% (7 / 29) 0.0% (0 / 1) 53.6% (15 / 28) 0.0% (0 / 2) 72.0% (18 / 25) 20.0% (1 / 5) 26.1% (6 / 23) 0.0% (0 / 2) 73.3% (11 / 15) 73.3% (11 / 15) 100.0% (4 / 4) 0.0% (0 / 26) 66.7% (10 / 15) 26.7% (4 / 15) 80.0% (8 / 10) 95.0% (19 / 20) 49.4% (154 / 312) 34.5% (90 / 261) 36

4.2.3 3.4.2 3.4.2 4.2.2 15 15 30 15 30 P = ( ) ( ) (4.5) 4.6 5 2/3 4.4 2 5 37

4.6: 1 2 3 4 5 24 87.5% (21 / 24) 0-0 - 3 33.3% (1 / 3) 150 10.0% (3 / 30) 106 3.3% (1 / 30) 20 30.0% (6 / 20) 32 40.0% (12 / 30) 85 76.7% (23 / 30) 1 0.0% (0 / 1) perl5 0-5 20.0% (1 / 5) perl 88 66.7% (20 / 30) 102 50.0% (15 / 30) 41 40.0% (12 / 30) 1 0.0% (0 / 1) 70 80.0% (24 / 30) 1 0.0% (0 / 1) 119 30.0% (9 / 30) 77 93.3% (28 / 30) 925 49.6% (176 / 355) 38

2 4.2.2 15 3.2.3 15 4.7 4.7: ( ) ( ) ( ) 1 2 3 4 5 85.0% (17 / 20) 100.0% (4 / 4) - - - - 50.0% (1 / 2) 0.0% (0 / 1) 13.3% (2 / 15) 6.7% (1 / 15) 6.7% (1 / 15) 0.0% (0 / 15) 50.0% (4 / 8) 16.7% (2 / 12) 36.8% (7 / 19) 45.5% (5 / 11) 66.7% (10 / 15) 86.7% (13 / 15) 0.0% (0 / 1) - perl5 - - 20.0% (1 / 5) - perl 63.6% (14 / 22) 75.0% (6 / 8) 70.6% (12 / 17) 23.1% (3 / 13) 46.2% (12 / 26) 0.0% (0 / 4) - 0.0% (0 / 1) 60.0% (9 / 15) 100.0% (15 / 15) - 0.0% (0 / 1) 33.3% (5 / 15) 26.7% (4 / 15) 50.0% (1 / 2) 96.4% (27 / 28) 48.7% (96 / 197) 50.6% (80 / 158) 30 30 30 39

40

5 5.1 55% 5 42.6% 5.2 4.2.1 3 3.4.1 41

50 TF-ICF 42

43

[1], Web. Master s thesis,, 2004. [2] Satoshi Sato, Madoka Sato: Automatic Generation of Web Directories for Specific Categories. AAAI Workshop on Intelligent Information Systems, Orlando, July, 18-19, 1999. [3] Oren Zamir, Oren Etzioni: Web Document Clustering: A Feasibility Demonstration. SI- GIR 98: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Melbourne, Australia, pp.46-54, August 24-28, 1998. [4],,, : Gooots. 67, 2005. [5] Vivísimo, http://vivisimo.com/ [6] ChaSen s Wiki, http://chasen.naist.jp/hiki/chasen/ [7] syger.com - The English language stop-words, http://www.syger.com/jsc/docs/stopwords/english.htm [8] Alexander Strehl, Joydeep Ghosh, and Raymond Mooney: Impact of Similarity Measures on Web-page Clustering. AAAI 2000: Workshop of Artificial Intelligence for Web Search, pp.58-64, July, 2000. 44