Microsoft PowerPoint - NGDM07 Philip Yu.ppt

Similar documents
2015年4月11日雅思阅读预测机经(新东方版)

Microsoft Word - 第四組心得.doc

從篤加有二「區」談當代平埔文化復振現相


Microsoft Word - A doc

理 成 可 做 關 聯 分 析 的 格 式, 再 應 用 統 計 統 計 計 算 軟 體 R (R Core Team, 2013) 中 的 延 伸 套 件 arules (Hahsler, Gruen, and Hornik, 2005; Hahsler, Buchta, Gruen, and H

<4D F736F F D20312E5FA473AEFCB867AED5AA605FBB50B04BCFC8AABAAFABB8DCACE3A8732E646F63>

untitled

從詩歌的鑒賞談生命價值的建構

國立中山大學學位論文典藏.PDF

國立中山大學學位論文典藏.pdf

ENGG1410-F Tutorial 6

国 际 视 野 中 国 立 场 原 创 诉 求 专 业 精 神 读 者 寄 语 Readers of the Message

<4D F736F F D C4EAC0EDB9A4C0E04142BCB6D4C4B6C1C5D0B6CFC0FDCCE2BEABD1A15F325F2E646F63>

A VALIDATION STUDY OF THE ACHIEVEMENT TEST OF TEACHING CHINESE AS THE SECOND LANGUAGE by Chen Wei A Thesis Submitted to the Graduate School and Colleg

2-7.FIT)

untitled

Microsoft PowerPoint - STU_EC_Ch08.ppt

(baking powder) 1 ( ) ( ) 1 10g g (two level design, D-optimal) 32 1/2 fraction Two Level Fractional Factorial Design D-Optimal D

COCO18-DensePose-BUPT-PRIV

Logitech Wireless Combo MK45 English

壹、前言

The Development of Color Constancy and Calibration System

Untitled-3

096STUT DOC

Microsoft PowerPoint _代工實例-1

天 主 教 輔 仁 大 學 社 會 學 系 學 士 論 文 百 善 孝 為 先? 奉 養 父 母 與 接 受 子 女 奉 養 之 態 度 及 影 響 因 素 : 跨 時 趨 勢 分 析 Changes in attitude toward adult children's responsibilit

( s y s t e m ) ( s t r e s s ) (stress model) ( s y s t e m ) [ ] [ 5 ] C o x [ 3 ] 1 [ 1, 2 ] [ 6-8 ] [ 9 ] Tw Fam Med Res 2003 Vol.1 No.1 23

穨6街舞對抗中正紀念堂_林伯勳張金鶚_.PDF

VASP应用运行优化

Time Estimation of Occurrence of Diabetes-Related Cardiovascular Complications by Ching-Yuan Hu A thesis submitted in partial fulfillment of the requi

參 加 第 二 次 pesta 的 我, 在 是 次 交 流 營 上 除 了, 與 兩 年 沒 有 見 面 的 朋 友 再 次 相 聚, 加 深 友 誼 外, 更 獲 得 與 上 屆 不 同 的 體 驗 和 經 歴 比 較 起 香 港 和 馬 來 西 亞 的 活 動 模 式, 確 是 有 不 同 特

Improved Preimage Attacks on AES-like Hash Functions: Applications to Whirlpool and Grøstl

論 文 摘 要 佛教起源於印度 是大多數人所週知的觀念 而素食觀念的起源與實行方 法 在世界各地是各有其特色並非一致 在中國社會 對佛教的飲食觀念 多 數人直覺認為佛教徒應與素食劃上等號 事實上並非如此 因為隨著佛教流傳 到世界各地 與當地的民俗及風土人情相結合 進而使不同國家的佛教徒依照 不同國情

~ ~



2. 佔 中 對 香 港 帶 來 以 下 影 響 : 正 面 影 響 - 喚 起 市 民 對 人 權 及 ( 專 制 ) 管 治 的 關 注 和 討 論 o 香 港 市 民 總 不 能 一 味 認 命, 接 受 以 後 受 制 於 中 央, 沒 有 機 會 選 出 心 中 的 理 想 特 首 o 一

<4D F736F F D203338B4C12D42A448A4E5C3C0B34EC3FE2DAB65ABE1>

Microsoft Word - 11月電子報1130.doc

(Microsoft Word - 10\246~\253\327\262\304\244@\264\301\256\325\260T_Version4)

南華大學數位論文

天 主 教 輔 仁 大 學 社 會 學 系 學 士 論 文 小 別 勝 新 婚? 久 別 要 離 婚? 影 響 遠 距 家 庭 婚 姻 感 情 因 素 之 探 討 Separate marital relations are getting better or getting worse? -Exp

穨control.PDF

Microsoft PowerPoint - Aqua-Sim.pptx

中 文 摘 要 : 我 國 工 會 法 自 有 強 制 入 會 相 關 規 定 以 來, 已 經 將 近 九 十 年 但 過 去 由 於 長 期 戒 嚴 下 工 會 運 動 處 處 受 到 管 控, 強 制 入 會 條 款 充 其 量 只 是 美 化 團 結 權 之 表 徵 而 已, 在 近 百 年

前 言 一 場 交 換 學 生 的 夢, 夢 想 不 只 是 敢 夢, 而 是 也 要 敢 去 實 踐 為 期 一 年 的 交 換 學 生 生 涯, 說 長 不 長, 說 短 不 短 再 長 的 路, 一 步 步 也 能 走 完 ; 再 短 的 路, 不 踏 出 起 步 就 無 法 到 達 這 次

致 谢 本 人 自 2008 年 6 月 从 上 海 外 国 语 大 学 毕 业 之 后, 于 2010 年 3 月 再 次 进 入 上 外, 非 常 有 幸 成 为 汉 语 国 际 教 育 专 业 的 研 究 生 回 顾 三 年 以 来 的 学 习 和 生 活, 顿 时 感 觉 这 段 时 间 也

(Microsoft Word - \256\325\260T doc)

中国人民大学商学院本科学年论文

Microsoft PowerPoint - IAS 21 - IFRS宣導會.pptx

<4D F736F F D20B773B0AAA4A4BFEFACECC2B2A4B628B6B6A7C7AAA D E65772E646F63>

Microsoft Word doc

Microsoft Word - 論文封面 修.doc

BC04 Module_antenna__ doc

168 健 等 木醋对几种小浆果扦插繁殖的影响 第1期 the view of the comprehensive rooting quality, spraying wood vinegar can change rooting situation, and the optimal concent

Microsoft Word - A doc

Microsoft Word - ChiIndexofNHE-03.doc


國立中山大學學位論文典藏

Microsoft Word 谢雯雯.doc


文档 9

Microsoft PowerPoint - Discovering Organizational Structure.pptx

2005 5,,,,,,,,,,,,,,,,, , , 2174, 7014 %, % 4, 1961, ,30, 30,, 4,1976,627,,,,, 3 (1993,12 ),, 2

Microsoft PowerPoint - NCBA_Cattlemens_College_Darrh_B

医学科研方法

10 ( ) ( ) [5] 1978 : [1] (P13) [6] [1] (P217) [7] [1] (P19) : : [1] [4] (P1347) (P18) 1985 : [1] (P343) 1300 : [1] (P12) 1984 :

建國科大 許您一個海闊天空的未來 建國科大本著術德兼修五育並重的教育方針 持續努力的朝向專業教學型大學邁進 期許建國的學生能成為企業所樂用的人才 建國科大多元性發展與延伸觸角 如 教學卓越計畫 產官學合作 國際交流活動等等 讓師生能充實基礎實力 更提升競爭力 不管將來是要升學或是就業 都能一帆風順

南華大學數位論文

Public Projects A Thesis Submitted to Department of Construction Engineering National Kaohsiung First University of Science and Technology In Partial

可 愛 的 動 物 小 五 雷 雅 理 第 一 次 小 六 甲 黃 駿 朗 今 年 暑 假 發 生 了 一 件 令 人 非 常 難 忘 的 事 情, 我 第 一 次 參 加 宿 營, 離 開 父 母, 自 己 照 顧 自 己, 出 發 前, 我 的 心 情 十 分 緊 張 當 到 達 目 的 地 後

廣州舊城區的保護和發展

SVM OA 1 SVM MLP Tab 1 1 Drug feature data quantization table

國家圖書館典藏電子全文

has become a rarity. In other words, the water resources that supply the needs in Taiwan depend crucially on the reservoirs built at least more than t

Introduction to Hamilton-Jacobi Equations and Periodic Homogenization

國立桃園高中96學年度新生始業輔導新生手冊目錄

Microsoft Word - 专论综述1.doc

前 言 香 港 中 文 大 學 優 質 學 校 改 進 計 劃 ( 下 稱 計 劃 ) 團 隊 自 1998 年 起 積 極 於 本 地 推 動 理 論 及 實 踐 並 重 的 學 校 改 進 工 作, 並 逐 步 發 展 成 為 本 地 最 具 規 模 的 校 本 支 援 服 務 品 牌, 曾 支

PowerPoint Presentation

2008 Nankai Business Review 61

% % % % % % % % : 11. 9: 12. 8:

中國文化大學政治學研究所

2 The Abolishment of Family Clans and Family Names Around the May-4 th Campaign Abstract Hsi-mei Hung * The Chinese society is traditionally based on

宜蘭國際童玩藝術節背後的地方問題

Microsoft Word - 刘藤升答辩修改论文.doc

Transcription:

Approximate Frequent Pattern Mining Philip S. Yu, Xifeng Yan, Jiawei Han 2, Hong Cheng 2, Feida Zhu 2 IBM T.J.Watson Research Center 2 University of Illinois at Urbana- Champaign

Frequent Pattern Mining Frequent pattern mining has been studied for over a decade with tons of algorithms developed Apriori (SIGMOD 93, VLDB 94, ) FPgrowth (SIGMOD 00), EClat, LCM, Extended to sequential pattern mining, graph mining, GSP, PrefixSpan, CloSpan, gspan, Applications: Dozens of interesting applications explored Association and correlation analysis Classification (CBA, CMAR,, discrim. feature analysis) Clustering (e.g., micro-array analysis) Indexing (e.g. g-index)

The Problem of Frequent Itemset Mining First proposed by Agrawal et al. in 993 [AIS93]. Transaction-id 0 20 30 40 50 60 70 Items bought A, B, C A A, B, C, D C, D A, B A, C, D B, C, D Table. A sample transaction database D Itemset X = {x,, xk} Given a minimum support s, discover all itemsets X, s.t. sup(x) >= s sup(x) is the percentage of transactions containing X If s=40%, X={A,B} is a frequent itemset since sup(x)=3/7 > 40%

A Binary Matrix Representation We can also use a binary matrix to represent a transaction database. Row: Transactions Column: Items Entry: Presence/absence of an item in a transaction 0 20 30 40 50 60 70 A B C D 0 0 0 0 0 0 0 Table 2. Binary representation of D 0 0 0

A Noisy Data Model A noise free data model Assumption made by all the above algorithms A noisy data model Real world data is subject to random noise and measurement error. For example: Promotions Special events Out-of-stock items or overstocked items Measurement imprecision The true frequent itemsets could be distorted by such noise. The exact itemset mining algorithms will discover multiple fragmented itemsets, but miss the true ones.

Itemsets With and Without Noise Exact mining algorithms get fragmented itemsets! Itemset B Itemset B Transactions Transactions Itemset A Itemset A Items Items Figure(a). Itemset without noise Figure (b). Itemset with noise

Alternative Models Existence of core patterns I.E., even under noise, the original pattern can still appear with high probability Only summary patterns can be derived Summary pattern may not even appear in the database

The Core Pattern Approach Core Pattern Definition An itemset x is a core pattern if its exact support in the noisy database satisfies sup( x) α min sup,0 α If an approximate itemset is interesting, it is with high probability that it is a core pattern in the noisy database. Therefore, we could discover the approximate itemsets from only the core patterns. Besides the core pattern constraint, we use the constraints of minimum support, ε r, and ε c, as in [LPS+06].

Approximate Itemset Example ε c Let ε r =0.25 and =0.25 For <ABCD>, its exact support = ; By allowing a fraction of ε r =0.25 noise in a row, transaction 0, 30, 60, 70 all approximately support <ABCD>; For each item in <ABCD>, in the transaction set {0, 30, 60, 70}, a fraction of 0s is allowed. ε c =0.25 0 20 30 40 50 60 70 A B C D 0 0 0 0 0 0 0 0 0 0

The Approximate Frequent Itemset Mining Approach Intuition Discover approximate itemsets by allowing holes in the matrix representation. Constraints Minimum support s: the percentage of transactions containing an itemset ε r Row error rate : the percentage of 0s (item) allowed in each transaction ε c Column error rate : the percentage of 0s allowed in transaction set for each item

Algorithm Outlines Mine core patterns using min sup' = α min sup,0 α Build a lattice of the core patterns Traverse the lattice to compute the approximate itemsets

A Running Example Let the database be D, εr =0.5, ε c =0. 5, s=3, and α = 3 The Lattice of Core Patterns 0 20 30 40 50 60 70 A B C D 0 0 0 0 0 0 0 0 0 0 Database D

Microarray Co-Expression Network Microarray Coexpression Network Module conditions genes MCM7NASP MCM3 FEN UNG CCNB SNRPG CDC2 Two Issues: noise edges large scale

Mining Poor Quality Data Patterns discovered in multiple graphs are more reliable and significant transform graph mining dense vertexset... Transcriptional Annotation ~9000 genes 05 x ~(9000 x 9000) = 8 billion edges

Summary Graph: Concept. overlap clustering M networks Scale Down ONE graph

Summary Graph: Noise Edges Frequent dense vertexsets? dense subgraphs in summary graph Dense subgraphs are accidentally formed by noise edges They are false frequent dense vertexsets Noise edges will also interfere with true modules

Unsupervised Partition: Find a Subset clustering () seed mining together identify group. (2) (3)

Frequent Approximate Substrinng ATCCGCACAGGTCAGT AGCA

Limitation on Mining Frequent Patterns: Mine Very Small Patterns! Can we mine large (i.e., colossal) patterns? such as just size around 50 to 00? Unfortunately, not! Why not? the curse of downward closure of frequent patterns The downward closure property Any sub-pattern of a frequent pattern is frequent. Example. If (a, a 2,, a 00 ) is frequent, then a, a 2,, a 00, (a, a 2 ), (a, a 3 ),, (a, a 00 ), (a, a 2, a 3 ), are all frequent! There are about 2 00 such frequent itemsets! No matter using breadth-first search (e.g., Apriori) or depth-first search (FPgrowth), we have to examine so many patterns Thus the downward closure property leads to explosion!

Do We Need Mining Colossal Patterns? From frequent patterns to closed patterns and maximal patterns A frequent pattern is closed if and only if there exists no super-pattern that is both frequent and has the same support A frequent pattern is maximal if and only if there exists no frequent super-pattern Closed/maximal patterns may partially alleviate the problem but not really solve it: We often need to mine scattered large patterns! Many real-world mining tasks needs mining colossal patterns Micro-array analysis in bioinformatics (when support is low) Biological sequence patterns Biological/sociological/information graph pattern mining

Colossal Pattern Mining Philosophy No hope for completeness If the mining of mid-sized patterns is explosive in size, there is no hope to find colossal patterns efficiently by insisting complete set mining philosophy Jumping out of the swamp of the mid-sized results What we may develop is a philosophy that may jump out of the swamp of mid-sized results that are explosive in size and jump to reach colossal patterns Striving for mining almost complete colossal patterns The key is to develop a mechanism that may quickly reach colossal patterns and discover most of them

Conclusions Most previous work focused on finding exact frequent patterns There exists a discrepancy between the exact model and some real world phenomenon due to Noise, perturbation, etc Very long pattern mining can be another prohibiting problem Need to develop new methodologies to find approximate frequent patterns