中 華 民 國 第 四 十 六 屆 中 小 學 科 學 展 覽 會 作 品 說 明 書 高 職 組 電 子 電 機 及 資 訊 科 佳 作 091005 越 學 越 能 擋 的 垃 圾 郵 件 守 門 員 學 校 名 稱 : 台 北 市 立 內 湖 高 級 工 業 職 業 學 校 作 者 : 職 二 鄭 博 瑋 職 二 盧 姵 穎 指 導 老 師 : 陳 昭 安 陳 榮 家 關 鍵 詞 : 垃 圾 郵 件 分 類 權 重 演 算 法
ISP ISP 97%~99% 95%~99.5% 2
1.85 3.65 15 48 94 ISP SeedNet Hinet RBL RBL IP address Visual Basic 6.0 TCP/IP POP3 POP3 ISP Visual Basic 6.0 Winsock POP3 3
586 2 Visual Basic 6.0 1 Windows XP 1 7 Bit ASCII Big5 (Unicode) ASCII 128 ~ 255 8 Bit SMTP 8 Bit 7Bit 6Bit ( ) Base 64 1. Base 64 3 8 4 6 (3*8=4*6=24) 4 6 00 8 2. 6 0 ~26-1 0~63 Base64 0~63 3. (8 ) (6 ) ( ) Unicode (1) 1991 IBM DEC Sun Apple Xerox Novell Microsoft The Uniform Consortium) (2) 4
(3) 2 Bytes (16 bits) (4) 65536 (5) 128 ASCII (6) Windows XP Unicode ( ) EBCDIC (1) EBCDIC IBM 8 bits (2) 2^8=256 (3) IBM ( ) BIG-5 (1) 1984 (2) 65536 13053 (3) GB ( ) QP ASCII = 16 = =A9U =A7=A3 =B6l =A5=F3 5
POP3 POP3 TCP/IP 110 Port POP3 +OK POP3 ms1.nihs.tp.edu.tw v2001.78rh server USER s303239 +OK User name accepted, password PWD xxxxxxx +OK Mailbox open, 1 messages OK 1 Retr +OK 743 octets Return-Path: <s303239@ms1.nihs.tp.edu.tw> Delivered-To: s303239@ms1.nihs.tp.edu.tw Received: from ms1.nihs.tp.edu.tw (localhost.nihs.tp.edu.tw [127.0.0.1]) by localhost (Postfix) with ESMTP id 0E8D1237503 for <s303239@ms1.nihs.tp.edu.tw>; Sun, 13 Nov 2005 21:11:26 +0800 (CST) Received: by ms1.nihs.tp.edu.tw (Postfix, from userid 0) id EE5DD237504; Sun, 13 Nov 2005 21:11:25 +0800 (CST) From: "s303239" <s303239@ms1.nihs.tp.edu.tw> To: s303239@ms1.nihs.tp.edu.tw Subject: X-Mailer: NeoMail 1.01 X-IPAddress: MIME-Version: 1.0 Content-Type: text/plain; charset=big5 Message-Id: <20051113131125.EE5DD237504@ms1.nihs.tp.edu.tw> Date: Sun, 13 Nov 2005 21:11:25 +0800 (CST) Status: RO POP3 6
1. 2. BL, Block List BL Block List IP IP Block List BL Block list IP IP 3. HASH HASH HASH HASH HASH ISP HASH 4. Bayesian 95%~99.95% 7
1. 2. 1. (Term Frequency, TF): TF d (t) (W) W(d,t)=TF(d,t) 2. (Inverse Document Frequency, IDF): IDF IDF : IDF(t) = N/df(t) N df(t) t 1 1 2/(1+1)=2( ) 2/(1+1)=1( ) 8
POP3 POP3 Internet POP3 POP3 (TF) A 10 30 0.25 0.75 9
Q Q M f f Q= [ ] 1 2 f 3... f m M=.. w w w w 11 21 31 w w w.. w 12 22 32 m1 m2 Q M M Q f M Q=Q. M= [ ] 1 f 2 f 3... f m. w w w w 11 12 21 22 w31 w32.. ( 1).. wm1 wm 2 MQ D=Max(M Q) ( 2) M ( 1) ( 10
2) 0.3 6 M= 0.1 0.8 0.5 Q= [ 4 2 8] 0.7 0.9 0.2 0.5 M Q =[1.8+0.4+1.6+4.0 4.2+3.6+0.8+4.0] = [7.8 12.6] D=Max([7.8 12.6]) = 12.6 12.6 ( ) 1000 (TF) (Uniform) 1 0 1 1 0 1 100% 0 0~1 0.5 11
(1000 ) 1 A 5 10 A 0.333 0.666 B 3 6 B 0.333 0.666 C 4 9 C 0.307 0.692 D 11 13 D 0.458 0.541 E 6 9 E 0.4 0.6 F 2 8 F 0.2 0.8 G 4 5 G 0.444 0.555 12
D 11 13 11 11+13 D 0.458 0.541 0.5 D F 2 8 2 2+8 F 0.2 0.8 F ( ) 13
( ) ( ) 120 40% 1000 2500 95% 14
( ) A B C D 4 2 15
( ) 1. 1000 2. 1000 16
3. ( ) 1. 5003 2. =97.20% 3. (1) (2) 0.75 0.25 17
( ) 1. A B C D - 2. 3. 2000 X Y 4. 18
( ) 1. A B C D 2. 700 98~99% 900 99% ( ) A B C D ( ) 1. A B C D 2. (A B ) (C D ) 10~20% A B 13.27% C D 7.89% 19
1000 97.20% A 548 83.39% B 540 70.12% C 555 66.67% D 537 58.78%? ( ) 8 ASCII 8 ( )??? 500 1000 20
97.20% 95%~99.95% POP3 ISP 97%~99% 2? 21
( 92) Visual Basic6.0 ( 79) ( 88) ( 88) ( 91) MOCC http://www.cdchen.idv.tw/?p=56 http://www.digitimes.com.tw/n/article.asp?id=90ac874ffaba930a48256f71000dba18 http://mail.sfilc.com/plan/spam/7.htm http://www.jituo.net/wangluo/5/2686.shtml ShareTech http://www.computerdiy.com.tw/modules/news/article.php?storyid=958 http://www.maiciao.com.tw/webmal/%a6%b3%ae%c4%b9w%a8%be%b1`%a8 %A3%A9U%A7%A3%ABH%A4%E2%AAk.htm http://db.kingsoft.com/product/inquiry/315/ 22
評 語 091005 越 學 越 能 擋 的 垃 圾 郵 件 守 門 員 以 分 類 權 重 演 算 法 來 區 分 垃 圾 信 件 及 非 垃 圾 信 件 是 一 個 很 好 的 想 法, 但 一 開 始 必 須 經 過 一 段 時 間 的 學 習 才 可 以 開 始 區 別 信 件 種 類 是 主 要 缺 點 其 他 使 用 者 之 經 驗 法 則 或 共 通 的 垃 圾 信 件 判 別 法 則 應 可 設 為 基 本 法 則
Click below to find more Mipaper at www.lcis.com.tw Mipaper at www.lcis.com.tw