第一章敘述統計學 007 年 月 30 日最後修改. 原始資料. 統計表.3 統計圖.4 統計量值.5 一些經驗法則. 原始資料 下表是測量 34 個體 (tems) 之 7 個變數的原始資料 : 編號 性別 年齡 學歷 年資 職位 城市 月薪 男 36 4 5 台北 44,00 男 3 3 台中 6,600 3 女 30 3 4 3 高雄 30,0 4 女 3 高雄 6,400 5 女 3 台北 0,00 6 女 37 3 6 3 高雄 9,600 7 男 7 7 4 高雄 34,800 8 男 37 4 台北 6,0 9 男 34 4 9 5 台北 43,00 男 3 6 3 台北 3,000 男 34 3 4 台北 3,300 女 7 3 7 3 高雄 9,800 3 男 36 3 5 台北 43,0 4 女 30 3 5 台北 43,600 5 男 3 3 4 3 台中 8,800 6 男 35 7 3 高雄 7,0 7 男 7 3 5 3 台北 9,600 8 男 3 3 台中,500 9 女 8 6 3 台中 8,800 0 女 8 台中,00 男 6 3 7 4 高雄 36,700 女 8 3 7 3 台北 3,0 3 男 5 4 3 3 高雄 30,300 4 男 7 4 4 4 高雄 36,800 5 男 30 4 高雄 34,0 6 男 6 3 3 高雄,800 7 男 34 3 5 3 台北 3,0 8 男 3 3 台北 3,000 9 女 3 3 台北 3,800 30 女 4 3 5 3 高雄 8,00 3 女 3 3 高雄 4,0 3 女 3 9 4 台中 35,0 33 女 33 6 高雄,00 34 女 30 4 台中 3,00 006 陳欣得統計學 敘述統計學第 - 頁
原始資料 (source data) 每欄 ( 行 ) 表示一變數, 每列表示一個測量的個體 測量尺度在原始資料中並不一定看得出來 若只有一個變數, 原始資料會如下表 ( 質性資料 ) 台北 台中 高雄 高雄 台北 高雄 高雄 台北 台北 台北 台北 高雄 台北 台北 台中 高雄 台北 台中 台中 台中 高雄 台北 高雄 高雄 高雄 高雄 台北 台北 台北 高雄 高雄 台中 高雄 台中 或 ( 量化資料 ) 36 3 30 3 3 37 7 37 34 3 34 7 36 30 3 35 7 3 8 8 6 8 5 7 30 6 34 3 3 4 3 3 33 30 分組 (groupg) 原始資料的觀察個數 ( 列數 ) 一般會超過人類可以輕鬆處理的 5~9 項 分組是處理大量資料的典型作法 統計表 (charts) 與統計圖 (graphs) 統計表類似原始資料表, 只是給的是分組後的資料, 而且內容是組出現次數 統計圖是將統計表的訊息 ( 各組出現次數 ) 以圖形來表示 次數 城市 次數 台北 3 台中 7 高雄 4 合計 34 6 4 8 6 4 3 7 4 0 台北台中高雄 統計量 (statstc) 另一種處理大量資料的作法為用一個數值來表示 這個數值稱為統計量 ( 嚴格而言應為統計量值 ) 006 陳欣得統計學 敘述統計學第 - 頁
最常見的統計量為平均數 變異數 極大值 極小值等. 統計表 製作統計表有三個動作 : () 分組 ;() 計數 ;(3) 整理成統計表 其中最重要的是分組 分組分組的原則 : 互斥且周延 組數最好不要超過 9 組, 一般建議 5 至 7 組 組數的決定也與觀測值的個數有關, 觀測個數少則不適合分太多組 質性資料有自然的分組, 但仍須注意是否需合併以免過多組數 量化資料需人工分組 量化資料分組程序 : () 決定全距 (rage), R R= x x max m ( 全距 = 極大值 極小值 ) () 決定組數 (3) 決定組距 (class wdth), w R w = 全距 組距 = 組數 (4) 寫出組限 (class lmts), u m ( ) = xm + w u = x + w ( = x, = u, > ) m + (5) 寫出分組準則 006 陳欣得統計學 敘述統計學第 -3 頁
第一組 : x x u m ( ) 第 組 : < x u 各組組距不一定要相等 順序尺度以上資料之分組應依次序 ( 由大而小 或由小而大 ) 排列 範例. 定組限 就以下 00 個測量值的資料 : 56 56 9 38 59 4 47 5 67 6 60 59 75 34 45 9 56 67 65 38 39 54 4 0 49 77 46 5 74 57 35 54 46 54 33 68 70 37 85 45 50 40 65 47 44 77 58 47 84 60 80 48 6 4 35 35 65 5 5 6 54 44 46 46 58 68 7 39 63 39 38 49 36 58 38 55 53 54 3 54 7 53 8 30 58 49 54 57 59 3 65 55 3 58 43 44 66 69 37 5 47 7 60 68 56 50 33 4 64 43 50 59 70 50 43 4 37 40 59 59 56 6 53 30 65 5 4 63 40 48 34 43 6 4 4 65 46 73 7 4 37 4 63 40 7 46 56 54 4 59 49 38 6 5 59 37 55 59 53 5 48 58 43 70 66 50 77 49 55 43 44 66 38 6 6 59 39 6 34 4 65 4 7 43 30 35 4 5 7 3 4 77 53 46 60 4 59 34 極小值與極大值分別為 x m = x max = 85, 全距為 R = 85 = 74 我們決定分成 = 8 組, 組距應為 R 74 w = = = 9.5 8 為了符合一般習慣, 將組距 第一組的下限作以下調整 : w=, = x m 則各組上下限依次為 006 陳欣得統計學 敘述統計學第 -4 頁
u = = 0, u = = 30, u = 90, 3 8 各組條件寫出如下表 x 0 0 < x 30 80 < x 90 如果取得的是離散資料 ( 整數數值 ), 則第一組以後可以寫成 x 0, x 30, 8 x 90 統計表分類 : () 次數分配表 (frequecy tables) () 相對次數分配表 (relatve frequecy tables) (3) 累計次數分配表 (cumulatve frequecy tables) 累計相對次數分配表 (4) 列聯表 (cotgecy tables 交叉表) 次數分配表 城市 次數 台北 3 台中 7 高雄 4 合計 34 相對次數分配表 累計次數分配表 城市 次數 相對次數 台北 3 3/34 台中 7 7/34 高雄 4 4/34 合計 34 年資 次數 相對次數 累計次數 ( 以下 ) 累計次數 ( 以上 ) ~ 6 6/34 6 34 3~5 3 3/34 9 8 6~9 /34 30 5 以上 4 4/34 34 4 34 只有順序尺度以上資料才可以有累計次數分配表 ( 為什麼?) 006 陳欣得統計學 敘述統計學第 -5 頁
相對次數分配表有助於不同資料間的比較 相對次數分配表是推論統計的基礎, 需多注意 列聯表 列聯表 (cotgecy table, 交叉表 ): 將兩個變數的次數分配列於同一個統計表 列聯表中的邊際次數 (margal frequecy) 即個別變數的次數分配 年資 \ 城市 台北 台中 高雄 邊際次數 ~ 6 3~5 5 3 5 3 6~9 3 6 以上 3 0 4 邊際次數 3 7 4 34.3 統計圖 以原始資料為基礎的統計圖 : () 莖葉圖 分組整理資料並呈現 () 點圖 分組整理資料並呈現 (3) 散佈圖 呈現兩變數的變化關係以統計表為基礎的統計圖 : () 長條圖 直方圖 比較分組間的次數大小 () 圓餅圖 比較分組次數占整體的比例 (3) 折線圖 肩形圖 比較組間次數的變化趨勢 長條圖 直方圖 長條圖 (bar chart): 用於質性資料 直方圖 (hstogram): 用於量化資料 006 陳欣得統計學 敘述統計學第 -6 頁
城市別長條圖 8 4 台北台中高雄 年資直方圖 8 4 ~ 3~5 6~9 以上 圓餅圖 圓餅圖 (pe chart): 用於相對次數分配表 年資 以上 ~ 6~9 3~5 006 陳欣得統計學 敘述統計學第 -7 頁
折線圖 肩形圖折線圖 : 用於順序尺度以上之資料肩形圖 (ogve): 用於累計次數表 ( 累計相對次數表 ) 年資折線圖 8 4 ~ 3~5 6~9 以上 34 年資肩形圖 30 5 0 5 5 ~ 3~5 6~9 以上 莖葉圖 莖葉圖 (stem-ad-leaf dsplay): 保留原始資料 範例. 莖葉圖 例 資料前 5 筆畫入莖葉圖如下 : 006 陳欣得統計學 敘述統計學第 -8 頁
0 9 30 8 40 50 6 6 9 60 70 80 其中第一行稱為莖, 其餘為葉 圖中表示五十幾的有 3 筆, 分別是 56 56 59 前 30 筆填入的結果如下 : 0 9 6 9 0 30 8 4 8 9 40 7 5 9 6 50 6 6 9 9 6 4 60 7 0 7 5 70 5 7 4 80 莖葉圖只適用於小量資料,00 筆太多了 點圖點圖 (dot plot): 適用於觀測數量大的資料 0 30 40 50 60 70 80 散佈圖 散佈圖 (scatter dagram): 瞭解兩量化資料為正相關或負相關 006 陳欣得統計學 敘述統計學第 -9 頁
年齡 年資散佈圖 4 8 6 4 年資0 4 6 8 30 3 34 36 38 年齡.4 統計量值 順序尺度資料的統計量值 : () 中位數 (meda, M e ) 至少有 50% 的數值小於等於 M, 且最少有 50% 的數值小於 M () 眾數 (mode, M o ) e e 出現次數最多的數值, 可能有一個以上的眾數 (3) 四分位數 (quartles, Q Q Q 3 ) 至少有 5% 的數值小於等於 Q, 且最少有 5% 的數值小於 Q Q 稱為第一四分位數, Q 3 稱為第三四分位數 Q = M e (4) 百分位數 (percetles, P P P 90 P 99 ) (5) 極值 至少有 % 的數值小於等於 P5 = Q P 50 = Q = M e P 75 = Q 3 P, 且最少有 % 的數值小於 P 006 陳欣得統計學 敘述統計學第 - 頁
量化資料的統計值 : () 位置測量值 : 平均數 (mea, μ ) x + x + + xn Σx μ = = N N x + x + + x Σx 樣本平均數 : x = = () 離散測量值 : 標準差 (stadard devato,σ ) 變異數(varace, σ ) ( ) x μ x N μ Σ Σ σ = = N N Σ Σ 樣本變異數 : s = = ( ) x x x x (3) 變異係數 (coeffcet of varace,cv) CV = σ 0% 或 CV = s 0% μ x (4) 偏態 (sewess, α 3 ) Σ α = ( x μ ) 3 3 3 σ N α 3 < 0 的情況稱為左偏 (egatvely sewed); α 3 > 0 的情況稱為右偏 (postvely sewed) 偏態係數 (coeffcet of sewess) S = ( μ M ) 3 e σ S < 0 稱為左偏 S > 0 為右偏 (5) 峰態 (urtoss, α 4 ) Σ α = ( x μ ) 4 4 4 σ N α < 稱為低闊峰 (platy-urtoss) α 4 > 3 稱為高狹峰 (lepto-urtoss) 4 3 006 陳欣得統計學 敘述統計學第 - 頁
兩變數間相關性的統計量值 : () 共變數 (covarace, σ xy ) ( )( ) Σ x μx y μy Σxy N μx μ y σ xy = = N N Σ( x x)( y y) Σxy x y Σxy ( ΣxΣy) 樣本共變數 : sxy = = = () 相關係數 (correlato coeffcets, ρ ) ( μx)( μy) σ Σ x y xy Σxy N μx μy ρ = = = σσ Σ Σ Σ μ Σ μ ( x μ ) ( y μ ) x N y N x y x y x y 樣本相關係數 : sxy Σxy x y Σxy ( ΣxΣy) r = = = ss Σx x Σy y Σx Σx Σy Σy ( ) ( ) x y ρ, ρ = 時稱完全負相關 ρ = 時稱完全正相關 第 百分位數 ( P ) 的求解步驟 () 求所在位置的名次 ( 令總觀察值數目為 N) = N % + 0.5 () 找第 名的數值即為 P (a) 未分組資料 (a) 需要報告觀察值 P = x roud () (a) 不需要報告觀察值 xi + xi+ P = 或 P = x 為整數 其中,I 為 之整數部分 (b) 分組資料 ( ) 0.5 N % N N P = + w = + w 006 陳欣得統計學 敘述統計學第 - 頁
其中, N w 為所在組的下限 該組個數 該組前累計個數 組寬 第 百分位數 ( P ) 的求解步驟 ( 課本的作法 ) () 求所在位置的名次 ( 令總觀察值數目為 N) = N % () 找第 名的數值即為 P (a) 未分組資料 (a) 若 為整數 x + x + P = (a) 若 不是整數 P = x I + 其中,I 為 之整數部分 (b) 分組資料 N % N N P = + w = + w 其中, N w 為所在組的下限 該組個數 該組前累計個數 組寬 第 百分位數 ( P ) 的求解步驟 (Excel 內建函數的作法 ) () 求所在位置的名次 ( 令總觀察值數目為 N) ( ) = N % + () 找第 名的數值即為 P (a) 未分組資料 (a) 若 為整數 P = x (a) 若 不是整數 006 陳欣得統計學 敘述統計學第 -3 頁
( ) P = x + R x x I I+ I 其中,I 為 之整數部分,R 為 之小數部分 (b) 分組資料 (Excel 未提供此部分解答 ) 範例.3 未分組資料之 P 就下列資料 : 求 P : 求 Q Q 3 : 0 9 6 9 0 30 8 4 8 9 40 7 5 9 6 50 6 6 9 9 6 4 60 7 0 7 5 70 5 7 4 80 N = 30, = 30 + 0.5 = 3.5, 則 ( 需給觀察值 ) P = x ( 3.5) = x4 = 9 roud x3 + x4 6 + 9 ( 不需觀察值 ) P = = = 7.5 N = 30, = 4 30 + 0.5 = 8 = 4 30 + 0.5 = 5.5 3 3 = 4 30 + 0.5 = 3, 則 x5 + x6 49 + 5 Q = x8 = 38 Me = Q = x5.5 = = = 50 Q 3 = x 3 = 59 IQR = Q3 Q = 59 38 = IQR 稱為四分位數距 ( 課本作法 ) N = 30, = 4 30 = 7.5 = 4 30 = 5 3 3 = 4 30 =.5, 則 x5 + x6 49 + 5 Q = x8 = 38 Me = Q = = = 50 Q 3 = x 3 = 59 IQR = Q3 Q = 59 38 = (Excel 作法 ) N = 30, = 4 9 + = 8.5 = 4 9 + = 5.5 3 3 = 4 9 + =.75, 則 006 陳欣得統計學 敘述統計學第 -4 頁
8 9 8 ( ) ( ) ( ) ( ) ( ) ( ) Q = x + 0.5 x x = 38 + 0.5 39 38 = 38.5 M = Q = x + 0.5 x x = 49 + 0.5 5 49 = 50 e 5 6 5 Q = x + 0.75 x x = 59 + 0.75 59 59 = 59 3 3 IQR = Q3 Q = 59 38.5 = 0.75 範例.4 分組資料之 P 就下列資料 : 求 P : 求 Q Q 3 : 組別 次數 0 X<30 4 30 X<40 6 40 X<50 50 X<60 4 60 X<70 7 70 X 80 7 總和 50 N = 50, = 50 + 0.5 = 5.5, 則 =, = 30, = 6, N = 4, w = 0.5 N 5.5 0.5 4 P = + w = 30 + = 3.67 6 N = 50, = 4 50 + 0.5 = 3 = 4 50 + 0.5 = 5.5 3 3 = 4 50 + 0.5 = 38, 則 0.5 N3 3 0.5 Q = x3 = 3 + w3 = 40 + = 4.08 3 0.5 N4 5.5 0.5 Me = Q = x5.5 = 4 + w4 = 50 + = 5.4 4 4 3 0.5 N5 38 0.5 36 Q3 = x38 = 5 + w5 = 60 + = 6.4 5 7 IQR = Q3 Q = 6.4 40.08 =.06 盒鬚圖 (box chart): 將 m Q Q Q 3 max 化在同一圖上 006 陳欣得統計學 敘述統計學第 -5 頁
m Q Q Q3 max 範例.5 盒鬚圖 就下列資料 : 0 9 6 9 0 30 8 4 8 9 40 7 5 9 6 50 6 6 9 9 6 4 60 7 0 7 5 70 5 7 4 80 x m = 0 x max = 77 x5 + x6 49 + 5 Q = x8 = 38 Me = Q = x5.5 = = = 50 Q 3 = x 3 = 59 其盒鬚圖如下 : 0 38 50 59 77 由盒鬚圖得知這些數值整體而言呈對稱分配, 但有一點左偏 動差 (momets) () 零動差 (zero momets) Σ 級零動差 = N x () 主動差 (prcple momets) 級主動差 M ( x μ ) ( x μ ) Σ Σ = M = = N ( μ ) ( ) Σ x Σx Σx N = = N N N M = 0 006 陳欣得統計學 敘述統計學第 -6 頁
M = σ 3 M = α σ 3 3 4 M = α σ 4 4 範例.6 未分組資料之變異數 就下列資料 : x 4 6 34 6 3 計算工作表如下 x x² 44 4 96 484 6 56 34,56 6 56 3 59 44 58 3,46 ( ) ( Σ ) x x x =Σx ( ) Σx 58 Σx 346 8 34.5 母體變異數 σ X = = = = 4.69 8 8 ( ) Σx 58 Σx 346 8 34.5 樣本變異數 s X = = = = 48.79 7 7 範例.7 分組資料之變異數 就下列資料 : 組別 次數 0 X<30 4 30 X<40 6 40 X<50 50 X<60 4 60 X<70 7 70 X 80 7 總和 50 006 陳欣得統計學 敘述統計學第 -7 頁
計算工作表如下 組別代表數次數累計次數 X X 0 X<30 5 4 4 0,500 30 X<40 35 6 7,350 40 X<50 45 540 4,300 50 X<60 55 4 36 770 4,350 60 X<70 65 7 43 455 9,575 70 X 80 75 7 50 55 39,375 總和 50,600 45,450 x 600 μ = Σ = = 5 N 50 ( ) Σx Σx N 45,450,600 50 σ = = = 05 N 50 σ = 05 = 4.3 CV 4.3 = σ = = 0.754 = 7.54% μ 5 範例.8 分組資料之相關係數 就下列資料 : 計算工作表如下 x 4 6 34 6 3 y 47 5 75 53 90 43 67 64 x y x² y² xy 47 44,09 564 4 5 96,60 74 75 484 5,65,650 6 53 56,809 848 34 90,56 8,0 3,060 6 43 56,849 688 3 67 59 4,489,54 64 44 4,096,344 58 490 3,46 3,778,409 s x ( )( ) Σ X ΣY X X Y Y =ΣXY ( x) Σ 58 58 Σx 3, 46 = = 8 = 48.79 = 6.98 8 006 陳欣得統計學 敘述統計學第 -8 頁
s s y xy ( y) Σ 490 490 Σy 3,778 = = 8 = 5. = 5.88 8 Σ x Σ y 58 490 Σxy,409 8 73.5 = = = = 4.50 8 7 sxy 4.50 r = = = 0.94 ss 6.98 5.88 x y 平均數 中位數 眾數的關係 皮爾森公式 : () 中位數一定介於平均數與眾數之間 () 眾數 中位數 = 平均數 中位數 左偏 μ M e M o 右偏 M o M e μ 範例.9 皮爾森公式 解 已知 μ = 0 M e = 6, 求 M o 由 M e < μ 知此資料為右偏, 且 M < M = 6, 因 M M μ M ( ) = = 0 6 = 8, o e e o e 故 M = M 8= 6 8= 8 o e 006 陳欣得統計學 敘述統計學第 -9 頁
.5 一些經驗法則 z 分數 (z-score) z x μ σ = 或 z = x s x 範例. z 分數 求以下數值的 z 分數 : 解 6 9 8 3 計算平均數與標準差, 工作表如下 : 其中 x x² z-score 6 36-0.46 9 8 0.5.8 8 64 0.0 3 9 -.44 37 3 Σ x= Σ x = = 37, 3, 5 故 ( ) Σx 37 Σx Σx 3 37 5 x = = = s = = = 5 5 s= = x x 6 7.4 z = = = 0.46 s 3.05 x x 9 7.4 z = = = 0.5 s 3.05 7.4, 9.3, 9.3 3.05 Z 分數小於零表示該觀測值小於平均數 ;z 分數之絕對值越大, 表示該觀測值離平均 數越遠 z =.8 表示該觀測值大於平均數有.8 個標準差 006 陳欣得統計學 敘述統計學第 -0 頁
柴比雪夫定理 (Chebyshev s theory) 一組觀察值中, 至少有 比例的觀察值, 落在距離平均數 個標準差之內 ( ) 以機率符號表示則為 ( μ σ) P x 範例. 柴比雪夫定理已知企管系 0 名學生, 統計學的平均分數為 60 分, 變異數為 6; (a) 請估計至少有多少人分數落在 55 分到 65 分之間 ; (b) 請找出至少有 89 個學生在內的區間 ; (c) 請估計至少有多少人分數落在 55 分到 75 分之間 解 (a) 55 60 65 60 5 9 = = = P( 55 X 65) = = 6 6 4 5 ( ) 5 4 9 至少有 0 = 36 位同學 5 (b) (c) 89 機率 = = = 3.05 0 範圍為 { 60 6 X 60 + 6} = { 48 X 7} 55 60 5 75 60 5 = =, = = 6 4 6 4 8+ 09 9 P( 55 X 75) = + = = 5 5 ( ) ( ) 5 45 4 4 經驗法則 (the emprcal rule) 若資料呈鐘形 ( 單峰 對稱 ) 分佈, 則 006 陳欣得統計學 敘述統計學第 - 頁
() 約 68% 的觀察值落在離平均數 個標準差內 ; () 約 95% 的觀察值落在離平均數 個標準差內 ; (3) 約 99.7% 的觀察值落在離平均數 3 個標準差內 ; (4) 約 0. 的觀察值落在離平均 ( 4 ) 個標準差內 範例. 經驗法則已知企管系 0 名學生, 統計學的分數呈常態的鐘形分配, 其平均分數為 60 分, 變異數為 6; (a) 請估計至少有多少人分數落在 56 分到 64 分之間 (b) 請找出至少有 95 個學生在內的區間 解 μ = 60, σ = 6 = 4 (a) 56 60 64 60 z = = = P( 56 X 64) = 68% 6 6 至少有 68% 0 = 68 位同學 (b) 95 機率 = = 95% z = 0 { 60 z 6 X 60 + z 6} = { 5 X 68} 範圍為 離群值 (outler) 離平均數太遠, 以致於被認為不屬於該群資料的數值 離群值的判斷 ()z 分數法 () 盒鬚圖法 若 z > 3, 則 x 可視為離群值 若 Q x >.5 IQR 或 x Q3 >.5 IQR, 則 x 認定為懷疑離群值 ; 006 陳欣得統計學 敘述統計學第 - 頁
若 Q x > 3 IQR 或 x Q3 > 3 IQR, 則 x 認定為確定離群值 外圍 0 38 50 59 77 內圍 範例.3 離群值 就下列資料 : 96 5 85 74 90 3 6 99 請判斷是否有離群資料 解 96 5 85 74 90 3 6 99 平均數 97.0 樣本標準差. max m 74 計算結果 : x = 97.0, s=., max =, m = 74 下界限值 = 97 3. = 63.7, 上界限值 = 97 + 3. = 30.3 沒有任何離群值 範例.4 離群值 解 就下列資料 : 37 9 39 6 4 9 5 33 5 65 4 6 6 7 3 9 5 6 44 (a) 請分別計算懷疑之離群值的上 下界限值 ( 內圍值 ); (b) 請分別計算確定之離群值的上 下界限值 ( 外圍值 ); (c) 請問本組資料有沒有確定之離群值 或懷疑之離群值 006 陳欣得統計學 敘述統計學第 -3 頁
37 9 39 6 4 9 5 33 5 65 4 6 6 7 3 9 5 6 44 Q= 5.0 mea = 3. Q= 6.5 meda = 6.5 Q3= 34.0 mode = 6 IQR= 9.0 MAX= 65.0 MIN=.0 (a) 懷疑離群值之上 下限分別離 Q Q.5 個 IQR : Q +.5 IQR= 34 +.5 9 = 47.5 3 Q.5 IQR= 5.5 9 =.5 3 (b) 確定離群值之上 下限分別離 Q Q 3 個 IQR : Q +3 IQR= 34 + 3 9 = 6 3 Q 3 IQR= 5 3 9= 3 (c) 本組資料有確定離群值 65 006 陳欣得統計學 敘述統計學第 -4 頁