Fuzzy Highlight.ppt

Similar documents
嘉義市政府暨附(所)屬機關電話禮貌測試實施要點

國語 領域計畫表

第一章

<4D F736F F D20A5FEB0EAB0AAAFC5A4A4B5A5BEC7AED5B14DB77EB873ACEC313035A67EAE61AC46B873B14DC344BA5BB3D0B74EBB73A740C476C1C9BDC6C1C9B9EAAC49AD70B5652D ADD7A5BF>

Perl

國立臺灣師範大學校務基金出國報告

務 相 關 的 約 點 及 內 容 / 托 嬰 契 約 (2) 居 家 托 育 人 員 在 中 心 托 育 人 員 2. 瞭 解 契 約 ( 到 ) 宅 托 兒 契 約 一 天 的 工 作 重 的 意 義 (3) 契 約 的 意 義 分 點 及 內 容 法 律 效 類 自 由 與 限 制 及 2.

2008国优评审会讲稿

合 作 就 是 力 量 得 獎 者 : 張 毓 婷 指 導 老 師 : 李 郁 棻 一 塊 香 甜 又 酥 脆 的 餅 乾 屑 掉 在 地 上, 首 先 出 來 偵 查 的 螞 蟻 並 不 自 己 獨 佔, 反 而 伸 伸 觸 角, 將 美 食 的 訊 息 告 知 其 他 螞 蟻, 不 久 螞 蟻

Microsoft Word - FPKLSC_21.docx

Computer Architecture

ebook14-4

jsj0.nps

Microsoft Word 碩專手冊封面.doc

天仁期末個人報告1.PDF


012

中国科学技术大学学位论文模板示例文档

社大規畫-生活藝能期末報告.doc

國 立 中 央 大 學 客 家 學 院 電 子 報 贊 助 單 位 / 客 家 委 員 會 發 行 單 位 / 國 立 中 央 大 學 客 家 學 院 榮 譽 發 行 人 / 周 景 揚 校 長 發 行 人 / 孫 煒 院 長 編 輯 顧 問 / 主 王 俐 容 老 師 周 錦 宏 老 師 姜 貞

Title

第一章 系统概述

117

Microsoft Word - 文件1

<4D F736F F D20A8ECABC8AE61C9DCEBD0EBD05FA4F1C1C95F2E646F63>

93年各縣國中教師甄試最新考情.doc

<5B BECBB0EDB8AEC1F25D312D34B0AD5FC3E2BCAEBCF6BEF7C0DAB7E F31702E504446>

有 一 个 小 和 尚 要 去 云 游 参 学, 他 的 师 父 知 道 他 信 念 不 够 坚 定, 就 问 : 弟 子 什 么 时 候 动 身? 小 和 尚 说 : 下 星 期 吧, 路 途 远 我 要 多 打 几 双 草 鞋 师 父 说 : 我 通 知 大 家 明 天 送 草 鞋 给 你 于


SSReader Print.

C/C++ - 函数

內政部役+政署100年採購標案辦理情形一覽表2[1].doc

untitled

上海浦~1

$$% % $ (%) % %$ $ ( *+,)(-)-./0-1//0- %) %) % - $%2)33%0 $ % ((3./. 3/3 )3 / % (()33(1 % (()3(/ %89856%:;< % (()3 0()0 3 (. <<=330(<</ 3 3. ()

(08) (08)


書本介紹

<4D F736F F D20BAEEA658ACA1B0CABEC7B2DFBBE2B0ECBDD2B57BBB50B1D0BEC7ACE3B3D0B14DBFE85FA4545F5FABCAADB12E646F63>

<4D F736F F D20D1A7C9FACAD6B2E1B8C4D7EED6D5A3A8B4F8B1EDB8F1BCD3D2B3C2EBB0E6A3A9372E3239>

桂林市劳动和社会保障局关于

第三章 維修及管理

Microsoft Word 年度选拔硕博连读研究生的通知.doc

Improved Preimage Attacks on AES-like Hash Functions: Applications to Whirlpool and Grøstl

第 二 章 古 代 慢 慢 睁 开 眼 睛, 我 的 面 前 出 现 一 个 女 孩 子, 大 约 十 六 七 岁, 身 穿 淡 绿 色 布 裙, 头 上 两 个 小 圆 髻 特 别 娇 俏 可 爱 医 院 什 么 时 候 出 现 这 么 一 个 可 爱 的 古 装 护 士 啊! 这 医 院 真 有

<4D F736F F D D342DA57CA7DEA447B14D2DA475B57BBB50BADEB27AC3FEB14DA447B8D5C344>


99行政實習心得分享及檢討會議記錄

(1) ( ) : (3), (12) (7) (10)

2/80 2

菩提道次第廣論

路 上 沒 說 話, 車 子 被 爸 離 去 後 開 走 了, 沒 什 麼 變, 除 了 一 股 淡 淡 的 香 味, 我 不 太 習 慣, 像 空 氣 中 的 粉 塵, 左 飄 右 飄, 光 中 飛 舞 我 沒 提, 看 車 窗 外, 外 面 不 太 有 趣, 我 只 是 沒 事 幹, 我 們 本

繁 華 國 小 101 學 年 母 親 節 感 恩 惜 福 - 跳 蚤 市 場 暨 科 學 闖 關 遊 戲 親 子 活 動 實 施 計 畫 一 依 據 : 本 校 101 學 年 度 校 務 計 畫 及 行 事 曆 二 目 的 : 1. 培 養 學 生 感 恩 惜 物 知 福 惜 福 的 節 儉 觀

台 中 市 北 屯 區 東 山 里 橫 坑 9 林 志 明 巷 89-5 菜 豆 菜 大 漿 果 菜 豆 菜 大 漿 果 小 漿 果 核 果 柑 桔 無 陳 錦 生 新 竹 市 香 山 區


育儿小故事(四)

第 15 章 程 式 編 写 語 言 15.1 程 式 編 写 語 言 的 角 色 程 式 編 寫 語 言 是 程 式 編 寫 員 與 電 腦 溝 通 的 界 面 語 法 是 一 組 規 則 讓 程 式 編 寫 員 將 字 詞 集 合 起 來 電 腦 是 處 理 位 元 和 字 節 的 機 器, 與

<4D F736F F D C2E0BEC7A6D2A4ADB14DB0EAA4E52DB8D5C344A8F72E646F63>

影視後製全攻略 Premiere Pro After Effects Encore 自序 Adobe Premiere Pro After Effects Encore 2008 Adobe CS Adobe CS5 Adobe CS4 Premiere Pro After Effect

Progperl.PDF

1

Microsoft Word - 《师范教育信息参考》 2011年第2期

09

外國人從事就業服務法第四十六條第一項第八款至第十一款工作資格及審查標準第二十二條附表五修正草案總說明

碩士班學生應注意事項:

99下民主法治教育 法律常識測驗題庫

标题

教育情境中的情緒管理成長社群

03-04 Self-Study Questionnaire

Microsoft Word - 11月電子報1130.doc

soturon.dvi

cover1-4.ai

科学计算的语言-FORTRAN95

全国计算机技术与软件专业技术资格(水平)考试

楊 泰 興 關 東 煮 1 魏 輔 雄 關 東 煮 8 黃 雅 萍 白 米 23 周 庭 淯 奶 粉 高 浚 翔 保 久 乳 3 箱 陳 先 生 貢 丸 林 淑 櫻 衣 物 呂 淑 芬 奶 粉 郁 涵 清 奶 粉 衣 物 物 資 塑 膠 袋 5 個 顏 兆 敏 王 文 伶 清 潔 棉 1 個 陳 語

扉页.doc

2 A 1 A 2 B B

审 计 报 告

PowerPoint プレゼンテーション

27 :OPC 45 [4] (Automation Interface Standard), (Costom Interface Standard), OPC 2,,, VB Delphi OPC, OPC C++, OPC OPC OPC, [1] 1 OPC 1.1 OPC OPC(OLE f

Microsoft Word 國企國貿.doc

C/C++ - 字符输入输出和字符确认

Microsoft Word - diy_chi.doc

Microsoft Word - template.doc

PowerPoint 演示文稿

2007 CS Part 05: (ONO, Kouichi)

1 Framework.NET Framework Microsoft Windows.NET Framework.NET Framework NOTE.NET NET Framework.NET Framework 2.0 ( 3 ).NET Framework 2.0.NET F

目 錄 壹 青 輔 會 結 案 附 件 貳 活 動 計 劃 書 參 執 行 內 容 一 教 學 內 容 二 與 當 地 教 師 教 學 交 流 三 服 務 執 行 進 度 肆 執 行 成 效 一 教 學 課 程 二 與 當 地 教 師 教 學 交 流 三 服 務 滿 意 度 調 查 伍 服 務 檢

Microsoft Word - A doc

多層次傳銷與獎金系統

妇保大课笔记

Open topic Bellman-Ford算法与负环

<4D F736F F D20BBB3BBAFD1A7D4BA C4EAB1CFD2B5C9FABECDD2B5D6CAC1BFB1A8B8E62E646F63>

參、社會 華士傑

<4D F736F F D20B773A6CBABD8A55CB0EAA BEC7A67EABD73351B946A448B16FBCFAA740AB7E5FA457BAF45F2E646F63>

1. ( B ) IT (A) (B) (C) (D) 2. ( A ) (A) (B) (C) (D) 3. ( B ) (A) GPS (B) GIS (C) ETC (D) CAI 4. ( D ) (A) (B) (C) (D) 5. ( B ) (Stored Program) (A) H

「全國紡織技術論文競賽」投稿須知

9, : Java 19., [4 ]. 3 Apla2Java Apla PAR,Apla2Java Apla Java.,Apla,,, 1. 1 Apla Apla A[J ] Get elem (set A) A J A B Intersection(set A,set B) A B A B

<4D F736F F D C4EAA1B6B1CFD2B5C2DBCEC4D6B8B5BCCAD6B2E1A1B7A3A8B3F5B8E5A3A92E646F63>

Microsoft Word 軟體設計第二部份範例試題_C++_ _1_.doc

Transcription:

Fuzzy Highlight

high light Openfind O(kn) n k O(nm) m Knuth O(n) m Knuth Unix grep regular expression exact match Yahoo agrep fuzzy match Gais agrep Openfind gais

exact match fuzzy match fuzzy match O(kn) fuzzy match dynamic programming

1/3 fuzzy highlight FuzzyHighlight.zip highlight Perl, 0, :\>perl -s fuzzymatch5.pl " " " esult:<font color=red> </font> :\>perl -s fuzzymatch5.pl 1 esult: <font color=red> </font> :\>perl -s fuzzymatch5.pl CD-R cdr 1 esult: <font color=red>cd-r </font> :\>perl -s fuzzymatch5.pl "My name is 'sam Tseng'" "sam esult:my name is '<font color=red>sam Tseng</font>' Tseng"

highlight 2/3 D:\>perl -s fuzzymatch5.pl " ", " 1 Result: <font color=red> </font><font color=red> </font> D:\>perl -s fuzzymatch5.pl " ", " 1 Result: <font color=red> <font color=red> </font></font> highlight D:\>perl -s fuzzymatch5.pl " computer " " camputorization " Result:<font color=red> computer </font>

high light 3/3 D:\>perl -s fuzzymatch5.pl " computer " " camputorization" Result: computer high light D:\>perl -s fuzzymatch5.pl " computer " " camputorization" 1 Result:<font color=red> computer</font>

highlight substitution highlight Perl sub FuzzyHighLight { my($doc, $Query, $OSoundex) = @_; # given 3 arguments $Query =~ s/\s+(\w)/$1/g; # delete white spaces my($w, @Terms); # @Terms = FuzzyMatchTerms($Doc, $Query, $OSoundex); # High light longer term first, e.g. : 'DVD', 'DVD Player' # so that 'DVD player' can be correctly high lighted. foreach $w (sort {length($b)<=>length($a)} @Terms) { $Doc =~ s \Q$w\E <font color=red>$w</font> g; } # <font color=red> </font> return $Doc; } # End of &FuzzyHighLight()

Fuzzy Match: highlight fuzzy match highlight token token word token token token Computer white space Computer ( byte ) comput lowercase and stem Computer ( byte ) C513 ( C513 Knuth soundex code soundex code) ( Perl use Text::Soundex; soundex() ) dynamic programming

HTML HTML HTML tag <font-family: Times New Roman > highlight new party HTML tag HTML tag <...> space space In function &DocToken() of FuzzyHighlight.pm } elsif ($c =~ /\s/) { # if white space, do nothing $space.= $c; } elsif ($c eq '<') { # if an HTML tag push @Stack, $c; # Find next balanced '>' for ($wb=$i+1; $wb < $strlen; $wb++) { if (substr($str, $wb, 1) eq '<') { push @Stack, substr($str, $wb, 1); } elsif (substr($str, $wb, 1) eq '>') { pop @Stack; last if @Stack == 0 ; # if empty } } $space.= substr($str, $i, $wb-$i); $i = $wb - 1;

Dynamic Programming for Fuzzy Match DP algorithm: d[i, j] = min( d[i-1, j] + w(a[i], 0), d[i-1, j-1] + w(a[i], B[j]), d[i, j-1] + w(0, B[j]) ) d[i, j] : accumulated distance between sequence A and B w(a[i], B[j]) : cost of substituting A[i]with B[j] w(a[i], 0) : cost of inserting A[i] w(0, B[j]) : cost of deleting B[j] d[0, 0] = 0 (i-1,j-1) (i, j-1) d[i, 0] = d[i-1, 0] + w(a[i], 0), 1<= i <= m d[0, j] = d[0, j-1] + w(0, B[j]), 1<= j <= n Complexity: O(n * m), m : length of A, n : length of B (i-1, j) ( i, j )

Basic Dynamic Programming: Examples B=adecdecf A=adec d[4,4] 0 d[4,4] d[3,3] d[2,2] d[1,1], 0, match adec match adec B 0 DP 0 B A a d e c d e c f a 0 1 2 3 4 5 6 7 d 1 0 1 2 3 4 5 6 e 2 1 0 1 2 3 4 5 c 3 2 1 0 1 2 3 4 B A a c d a d e c f a 0 1 2 3 4 5 6 7 d 1 1 1 2 3 4 5 6 e 2 2 2 2 3 3 4 5 c 3 2 3 3 3 4 3 4

Improved Dynamic Programming 0 d[0, j] = d[0, j-1] + w(0, B[j]), 1<= j <= n d[0, j] = 0, 1<= j <= n d( m) = 0 m exp min m min min d(m) 0 1 m if ($min == $lenq) { $dm = 0; } else { $dm = 1/exp($min/($lenq-$min)); } if (($lenq < 5 && $dm < 0.7) or ($dm < 0.54)) { } #The No Match threshold 1 B a c d a d e c f A 0 0 0 0 0 0 0 0 a 0 1 1 0 1 1 1 1 d 1 1 1 1 0 1 2 2 e 2 2 2 2 2 0 1 2 c 3 3 3 3 3 1 0 1

fuzzymatch5.pl exact match high light match match match O(mn) O(n) fuzzy match