敘述統計方法 : 資料描述二 Chapter 3 第三章 Numerical Descriptive Measures 數值量測及資料描述 3 1
課程目標 1. 數值描述中央集中趨勢 2. 數值描述資料散佈變化情形 3. 數值資料的偏性 4. 資料的相對位置 (Numerical Measures of Relative Standing) 5. 標準差的意義與應用 3 2
Numerical Data Properties 數值資料的性質 3 3
Thinking Challenge 動動腦想一想 $400,000 $70,000 $50,000 $30,000 $20,000... employees cite low pay most workers earn only $20,000. 員工認為 : 薪資太低... President claims average pay is $70,000! 總裁宣稱平均薪水高 3 4
有關平均薪資的計算 薪 資 人 數 薪資 * 人數 400000 1 400000 70000 2 140000 50000 2 100000 30000 1 30000 20000 5 100000 總 計 11 770000 平均每人薪資為 70000 元 3 5
Standard Notation ( 標準符號 ) Measure Sample Population Mean X µ Stand. Dev. S σ Variance S 2 σ 2 Size n N 英文字母希臘字 ( 除資料筆數外 ) 3 6
Numerical Data Properties 數值資料的性質 Central Tendency (Location, 中心位置點 ) Variation (Dispersion, 數據大小變異程度 ) Shape ( 形狀 ) 以下三種性質與統計推論息息相關 ( 尤其一 二項 ) 3 7
Numerical Data Properties & Measures 數值資料的性質與量測 Central Tendency Numerical Data Properties Variation Shape Mean Median Mode Geometric mean 幾何平均數 Range Interquartile Range Variance Standard Deviation Skew Other 其他 3 8
Central Tendency 中心趨勢 3 9
Numerical Data Properties & Measures 數值資料的性質與量測 Central Tendency 中心趨勢 Mean 平均數 Median Mode Geometric mean 幾何平均數 Numerical Data Properties Variation Range Variance Shape Interquartile Range Standard Deviation Skew Other 其他 3 10
Mean 平均數 1. 量測資料的中心代表 2. 求解最方便也最常被使用 3. 資料的平衡點, 如同翹翹板的支點 4. 易受到極端值或離群值的影響 5. 使用的公式 (Sample Mean) X n X i i = 1 1 2 L = = n X + X + + X n n 3 11
Mean 平均數 母體與樣本資料的算術平均數 Sample mean X n X = n = i i= 1 1 + 2 + L + Population mean N X = N = Sample Size X X X i µ + + + i = 1 1 2 L n Population Size X X X N n N 3 12
Mean 平均數的範例 (continued) 資料的平衡點, 如同翹翹板的支點 易受到極值的影響 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14 Mean = 5 Mean = 6 3 13
Mean 平均數範例 原始資料 : 10.3 4.9 8.9 11.7 6.3 7.7 X n X i X + X + X + X + X + X i = 1 1 2 3 4 5 6 = = n = 10. 3 + 4. 9 + 8. 9 + 117. + 6. 3 + 7. 7 = 8.30 6 6 3 14
Numerical Data Properties & Measures 數值資料的性質與量測 Central Tendency Numerical Data Properties Variation Shape Mean Median 中位數 Mode Geometric mean 幾何平均數 Range Interquartile Range Variance Standard Deviation Skew Other 其他 3 15
Median 中位數 1. 中心趨勢的量測 2. 將資料一數值大小排序後出現在最中間的數值 Odd 奇數資料時, 排序後最中間的數值 Even 偶數資料時, 排序後最中間的兩數值平均 3. 數列的中間位置 中間位置的計算 (n n +1) 4. 不受極端值或離群值的影響 2 3 16
Median 中位數範例 不受極端值或離群值的影響 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14 Median = 5 Median = 5 3 17
Median 中位數範例奇數資料時 原始資料 : 24.1 22.6 21.5 23.7 22.6 排序後 : 21.5 22.6 22.6 23.7 24.1 中位數位置 : 1 2 3 4 5 Positioning g Point Median = 22. 6 = n + 1 2 = 5 + 1 2 = 3. 0 3 18
Median 中位數範例偶數資料時 原始資料 : 10.3 4.9 8.9 11.7 6.3 7.7 排序後 : 4.9 6.3 7.7 8.9 10.3 11.7 中位數位置 : 1 2 3 4 5 6 Positioning g Point Median = 7. 7 + 8. 9 2 = n + 1 = 2 = 8. 30 6 + 1 2 = 3. 5 3 19
Numerical Data Properties & Measures 數值資料的性質與量測 Central Tendency Numerical Data Properties Variation Shape Mean Median Mode 眾數 Geometric mean 幾何平均數 Range Interquartile Range Variance Standard Deviation Skew Other 其他 3 20
Mode 眾數 1. 量測資料中心的測量數 2. 資料中出現次數最多的數值 3. 較不受極端值的影響 4. 有可能出現無眾數或多眾數情形 5. 可被使用於數值資料且也被使用於類別資料 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 Mode = 9 No Mode 3 21
Mode 眾數範例 No Mode 無眾數資料 Raw Data: 10.3 4.9 8.9 11.7 6.3 7.7 One Mode 恰有一眾數資料 Raw Data: 6.3 4.9 8.9 6.3 4.9 4.9 More Than 1 Mode 兩個以上眾數資料 Raw Data: 21 28 28 41 43 43 3 22
動動腦想一想 你是銘傳投資顧問公司的投資分析顧問 某日你收集了數家欲投資上市公司的股票收盤價格如下 : 17, 16, 21, 18, 13, 16, 12, 11. 請描述以上資料的 central tendency 中心趨勢. 3 23
Central Tendency 中心趨勢解答 Mean 平均數 X n X i X + X + + X i = 1 1 2 L 8 = = n = = 8 17 + 16 + 21 + 18 + 13 + 16 + 12 + 11 15. 5 8 3 24
Central Tendency 中心趨勢解答 Median 中位數 Raw Data: 17 16 21 18 13 16 12 11 Ordered: 11 12 13 16 16 17 18 21 Position: 1 2 3 4 5 6 7 8 Positioning g Point Median = 16 + 16 2 n + 1 8 + 1 = = = 2 2 = 16 4. 5 3 25
Central Tendency 中心趨勢解答 Mode 眾數 Raw Data: 17 16 21 18 13 16 12 11 Ordered: 11 12 13 16 16 17 18 21 3 26
幾何平均數 Geometric Mean 通常被使用在因時間改變而變動的比率 Useful in the measure of rate of change of a variable over time G ( ) 1/ X = X X L X 1 2 表達增長率 Geometric mean rate of return 表達增長率 ( ) ( ) ( ) 1/ n = + + L + 1 2 n R 1 R 1 R 1 R 1 G 量測投資的平均增長率 Measures the status of an investment over time n n 3 27
幾何平均數使用範例 某投資總金額為 $100,000 元在第一年底時, 衰退至 $50,000 元 ; 而在第二年底時又提升回到 $100,000 試求此投資之平均成長率 X = $100,000 X = $50,000 X = $100,000 1 2 3 A verag e rate o f re tu rn : ( 5 0 % ) + (1 0 0 % ) X = = 2 5 % 2 G eo m e tric rate o f retu rn : R G ( ( )) ( ) ( ) ( ) ( ) 1 / 2 1 / 2 1 / 2 = 1 + 5 0 % 1 + 1 0 0 % 1 = 0.5 0 2 1 = 1 1 = 0 % 3 28
幾何平均數使用範例 民國八十年至八十二年的消費者物價指數年增率 (%) 分別為 3.62 4.47 2.94 ( 資料來源 : 中華民國家統計月報中華民國家統計月報, 民國八十三年五月, 行政院主計處編印 ) 試計算這三年期間消費者物價指數年增率的幾何平均數 ( 1 ) ( 1 ) ( 1 ) 1 / n = + + L + 1 R G R 1 R 2 R 解答 :[(1+0.0362)*(1+0.0447)*(1+0.0294)]: 1/3 =1.03674 1=0.03674=3.674% 1=0.03674=3.674% n 3 29
其他中央趨勢量測 Midrange 最大值與最小值的平均 易受極端值的影響 計算公式 :(X: (1) + X (n) ) / 2 Midquartile Q 1 與 Q 3 兩值的平均 計算較煩瑣, 但不受極值的影響 計算公式 :(Q: 1 + Q 3 ) / 2 3 30
Central Tendency Measures 中心趨勢總結 量測 Mean Median Mode Midrange Midquartile 公式 Σ X i /n (n+1)/2 位置 統計次數最多者 (X (1) + X (n) ) /2 (Q 1 + Q 3 ) /2 描述重點 資料的平衡點 排序後的中間值 出現次數最多者 X (1) (1) 與 X (n) 的平均 Q 1 與 Q 3 的平均 3 31
Variation 資料的變動性 3 32
Numerical Methods for Quantitative Data Central Tendency Numerical Data Properties Variation Shape Mean Median Mode Geometric mean 幾何平均數 全距 Range Interquartile Range Variance Standard Deviation Skew Other 其他 3 33
全距 Range 1. 量測資料的散佈 量測資料的散佈 Measure of dispersion 2. 資料的最大值減去最小值 Difference between largest & smallest observations Range 全距 = 最大值 - 最小值 =X (n) 3. 忽略分配情形 忽略分配情形 Ignores how data are distributed (n) X (1) 7 8 9 10 7 8 9 10 3 34
Numerical Methods for Quantitative Data Central Tendency Numerical Data Properties Variation Shape Mean Median Mode Geometric mean 幾何平均數 Range Skew 內四分位距 Interquartile Range Variance Standard Deviation Other 其他 3 35
變異數 Variance & 標準差 Standard Deviation 標準差 1. 量測資料的散佈情形 量測資料的散佈情形 Measures of dispersion 2. 最常被使用 最常被使用 Most common measures 3. 考慮到分配情形 考慮到分配情形 Consider how data are distributed 4. 展現對平均數的變動 展現對平均數的變動 Show variation about mean ( X( or µ) X = 8.3 4 6 8 10 12 3 36
變異數 Sample Variance 變異數 公式 Sample Variance 公式 S 2 = = n 2 X i X 使用到所有資 i = 1 料 ; 易受到 n 1 極值的影響 L + c c 2 2 2 X 1 X h + c X 2 X h + L + c X n X h n 1 c h 3 37
變異數 Sample Variance 變異數 公式 Sample Variance 公式 S 2 = n c i = 1 X i X n 1 h 2 樣本用 n 1; 母體用 N n 1 in denominator! (Use N if Population Variance) = c 2 X 1 X h + c X 2 X h + L + c X n X h n 1 2 2 3 38
標準差 Sample Standard Deviation 標準差 公式 Sample Standard Deviation 公式 S = S 2 = n i = 1 c X n i 1 X h 2 變異數及標準 差均必為正數 = c X X h 2 + c X X h 1 2 + L + c X n X h n 1 2 2 3 39
母體與樣本變異數 Variance Sample variance: n 2 i = 1 Population variance: S = N 2 i = 1 σ = ( X ) 2 i X n 1 ( X µ ) 2 i N 3 40
母體與樣本標準差 Standard Deviation Sample standard deviation: S = ( X ) 2 i X i = 1 Population standard deviation: n n 1 N i = 1 σ = ( X µ ) 2 i N 3 41
變異數 Variance 範例 S 資料 : 10.3 4.9 8.9 11.7 6.3 7.7 2 = n 2 c X i X h X i i = 1 i = 1 where X = = 8. 3 n 1 n n S 2 = = a f a f a f 10. 3 8. 3 + 4. 9 8. 3 + L + 7. 7 8. 3 6 1 6. 368 2 2 2 3 42
動動腦想一想 你是銘傳資訊公司的投資人. 下列資料為今年各月的股票售價平均價 : 17, 16, 21, 18, 13, 16, 12, 11. 試問 variance( 變異數 ) 和 standard deviation( 標準差 ) 為何? Alone Group Class 3 43
變異數 Variation 解 * 樣本變異數 Sample Variance 資料 : 17 16 21 18 13 16 12 11 S S 2 2 n 2 c X i X h Xi i = 1 i = 1 = where X = = 15. 5 n 1 n a f a f a f 17 15. 5 + 16 15. 5 + L + 11 15. 5 = 8 1 = 1114. 14 2 2 2 n 3 44
變異數 Variation 解 * 樣本標準差 Sample Standard Deviation S 2 = S = n i = 1 c X n i 1 X h 2 = 1114. 14 = 3. 34 3 45
資料的各種變動量測的比 較與總結 Range Measure Equation X largest X smallest Description Total Spread Interquartile Range Q 3 Q 1 Spread of Middle 50% Standard Deviation (Sample) Standard Deviation (Population) Variance (Sample) ( X X ) n i 1 2 Dispersion about Sample Mean Dispersion about ( X µ i ) 2 Dispersion about Population Mean N Σ(X i X ) 2 n 1 Squared Dispersion about Sample Mean 3 46
Shape 分配的形狀 3 47
Numerical Methods for Quantitative Data Central Tendency Numerical Data Properties Variation Shape Mean Median Mode Geometric mean 幾何平均數 Range Interquartile Range Variance Standard Deviation 偏性 Skew Other 其他 3 48
分配形狀 Shape 1. 描述資料的分配情形 描述資料的分配情形 Describes how data are distributed 2. 以偏性描述 以偏性描述 Measured by skew (symmetry) 左偏 Left Skewed Mean Median Mode 對稱 Symmetric Mean= Median= Mode 右偏 Right Skewed Mode Median Mean 3 49
Quartiles & Box Plots 四分位數與箱形圖 3 50
四分位數 Quartiles 1. 量測非中央趨勢 量測非中央趨勢 Measure of noncentral tendency 2. 將資料四等分 將資料四等分 Split ordered data into 4 quarters 3. 四分位數位置 四分位數位置 Position of i th i quartile Positioning g point of Q i = i (n + 1) 4 25% 25% 25% 25% Q 1 Q 2 Q 3 3 51
第一四分位數 Quartile (Q 1 ) 範例 資料 : 10.3 4.9 8.9 11.7 6.3 7.7 排序後 : 4.9 6.3 7.7 8.9 10.3 11.7 找位置 : 1 2 3 4 5 6 Q 1 Position = Q 1 = 6. 3 a f a f n 1 6 + 1 1 + 1 4 = 4 = 175. 2 3 52
第二四分位數 Quartile (Q 2 ) 範例 資料 : 10.3 4.9 8.9 11.7 6.3 7.7 排序後 : 4.9 6.3 7.7 8.9 10.3 11.7 位置 : 1 2 3 4 5 6 2 n + 1 Q 2 Position = 4 7. 7 + 8. 9 Q 2 = = 8. 3 2 a f a f. = 2 6 + 1 4 = 3 5 3 53
第三四分位數 Quartile (Q 3 ) 範例 資料 : 10.3 4.9 8.9 11.7 6.3 7.7 排序後 : 4.9 6.3 7.7 8.9 10.3 11.7 位置 : 1 2 3 4 5 6 Q 3 Position = Q 3 = 10. 3 a f a f. 3 n + 1 4 = 3 6 + 1 4 = 5 25 5 3 54
Numerical Methods for Quantitative Data Central Tendency Numerical Data Properties Variation Shape Mean Median Mode Geometric mean 幾何平均數 Range Interquartile Range Variance Standard Deviation Skew Other 其他 3 55
內四分位距 Interquartile Range 1. 量測資料的散佈情形 量測資料的散佈情形 Measure of dispersion 2. 也稱為中央散佈 也稱為中央散佈 Also called midspread 3. 第三與第一四分位的差 第三與第一四分位的差 Difference between third & first quartiles IQR 內四分位距 =Q 3 -Q 1 4. 資料最中央的百分之五十的散佈 Spread in middle 50% 5. 較不受極值的影響 較不受極值的影響 Not affected by extreme values 3 56
動動腦想一想 你是銘傳資訊公司的投資人. 下列資料為今年各月的股票售價平均價 : 17, 16, 21, 18, 13, 16, 12, 11. 試問 quartiles( 四分位數 ), Q 1, Q 3, 以及 interquartile range( 內四分位距 )? 3 57
Quartile 四分位數 ( 距 ) 解 * Q 1 原始資料 : 17 16 21 18 13 16 12 11 排序後 : 11 12 13 16 16 17 18 21 位置 : 1 2 3 4 5 6 7 8 Q 1 Position = Q 1 = 12 a f a f n 1 8 + 1 1 + 1 4 = 4 = 2.25 3 58
Quartile 四分位數 ( 距 ) 解 * Q 3 原始資料 : 17 16 21 18 13 16 12 11 排序後 : 11 12 13 16 16 17 18 21 位置 : 1 2 3 4 5 6 7 8 Q 3 Position = Q 3 = 18 a f a f 3 n + 1 3 8 + 1 = = 6. 75 7 4 4 3 59
Quartile 四分位數 ( 距 ) 解 * Interquartile Range 內四分位距 原始資料 : 17 16 21 18 13 16 12 11 排序後 : 11 12 13 16 16 17 18 21 位置 : 1 2 3 4 5 6 7 8 Interquartile Range = Q Q = 18 0 12 = 3 1 18. 6 3 60
Box Plot 箱型圖 1. 利用 5 number summary( 五點資料總結 ) 將資料以圖形表達 最小值 X smallest Q 1 第一四分位數 中位數 Median Q 3 第三四分位數 極大值 X largest 4 6 8 10 12 資料標於箱形圖的位置也可用於了解其相對位置, 尤其用於標示 Outlier 離群值 3 61
箱形圖的範例繪製準備 莖葉圖 Stem and Leaf of C1 N=50 Leaf Unit =1 9 6 3 3 3 6 6 7 7 8 8 24 (17) 9 7 8 9 0 1 1 1 1 1 4 4 5 6 7 8 8 8 9 0 0 1 2 2 3 4 4 4 4 6 7 8 9 9 9 9 0 1 1 2 2 4 4 5 6 Min=63, Q1=71, median=80, Q3=89, max=96 3 62
箱形圖繪製的範例 最小值 中位數 極大值 第一四分位數 第三四分位數 3 63
Shape & Box Plot 資料分配與箱型圖 左偏 Left Skewed 對稱 Symmetric 右偏 Right Skewed Q 1 Median Q 3 Q 1 Median Q 3 Q 1 Median Q 3 3 64
線性相關係數 Coefficient of Correlation 量測兩數值變數間線性相關的程度 Measures the strength of the linear relationship between two quantitative variables r = n n ( X X )( Y Y ) i i i= 1 n 2 2 ( X X ) ( Y Y ) i i i= 1 i = 1 3 65
雙數值變數的散佈圖形表達 正相關例題一 X Y 1 0 2 2 3 3 4 5 5 8 6 9 7 9 8 10 9 7 10 11 15 10 5 0 1 2 3 4 5 Y 6 7 8 9 10 0 5 10 15 3 66
線性相關係數 r 的計算一 X Y X µx (X µx) 2 Y µy (Y µy) 2 (X µx)(y µy) 1 0-4.5 20.25-5.9 34.81 26.55 2 2-3.5 12.25-3.9 15.21 13.65 3 3-2.5 6.25-2.9 8.41 7.25 4 5-1.5 2.25-0.9 0.81 1.35 5 8-0.5 0.25 2.1 4.41-1.05 6 9 0.5 0.25 3.1 9.61 1.55 7 9 1.5 2.25 3.1 9.61 4.65 8 10 2.5 6.25 4.1 16.81 10.25 9 7 3.5 12.25 1.1 1.21 3.85 10 11 4.5 20.25 5.1 26.01 22.95 µx µy 總和 82.5 126.9 91 5.5 5.9 γ= 0.889 3 67
雙數值變數的散佈圖形表達 負相關例題二 X Y XY 散佈圖 1 10 2 7 3 11 4 5 5 8 6 9 7 9 8 0 9 2 10 3 12 10 8 6 4 2 0 3 1 6 7 5 2 4 10 9 8 0 5 10 15 Y 3 68
線性相關係數 r 的計算二 X Y X µx (X µx) 2 Y µy (Y µy) 2 (X µx)(y µy) 1 10-4.5 20.25 4.1 16.81-18.45 2 7-3.5 12.25 1.1 1.21-3.85 3 11-2.5 6.25 5.1 26.01-12.75 4 5-1.5 2.25-0.9 0.81 1.35 5 8-0.5 0.25 2.1 4.41-1.05 6 9 0.5 0.25 3.1 9.61 1.55 7 9 1.5 2.25 3.1 9.61 4.65 8 0 2.5 6.25-5.9 34.81-14.75 9 2 3.5 12.25-3.9 15.21-13.65 10 3 4.5 20.25-2.9 8.41-13.05 µx µy 總和 82.5 126.9-70 5.5 3.6 γ= -0.684 3 69
線性相關係數的性質 Features of Correlation Coefficient 無單位 Unit free 值在 1 與 1 之間 Ranges between 11 and 1 越靠近 1 時表示負線性相關越強烈 The closer to 1, the stronger the negative linear relationship 越靠近 1 時表示正線性相關越強烈 The closer to 1, the stronger the positive linear relationship 數值靠近 0 時表示線性相關微弱 The closer to 0, the weaker any positive linear relationship 3 70
各種線性相關所繪得的散佈圖 Y Y Y r = 1 X X r =.6 r = 0 X Y Y X r =.6 r = 1 X 3 71
Empirical rule( 經驗規則 ) 對於近似鐘形分配 ( 單峰對稱 ) 資料 其 [µ σ, µ+σ] 的區間內大約包含 68% 的資料 ; 而 [µ 2σ, µ+2 +2σ] 的 區間內大約包含 95% 的資料 ; 而 [µ 3σ, µ+3 +3σ] 的區間內大約包 含 99.7% 的資料 3 72
Chebyshev's theorem: 不論何種分配資料其 [µ kσ, µ+kσ] 的區間內至少包含 (1 1/ 1/k 2 )100% 的資料 例如 : 在 [µ 2σ, µ+2σ] 的區間內至少包含了 75% 的資料在 [µ 1.5σ, µ+1.5σ] 的區間內至少包含了 (1 1/1.5 1/1.5 2 )100% 即 55.56% 的資料 3 73
Empirical rule 和 Chebyshev s theorem 的比較 資料分佈範圍 Chebyshev's Empirical [µ σ, µ+σ] 至少 0% 大約 68% [µ 2σ, µ+2σ] 至少 75% 大約 95% [µ 3σ, µ+3σ] 至少 88.89% 大約 99.7% [µ 1.5σ, µ+1.5σ] 至少 55.56% 大約 86.6% 86.6% 查常態分配表 3 74
Empirical rule 和 Chebyshev s theorem 的範例與比較 Stem and Leaf of C1 N=50 Leaf Unit =1 9 6 3 3 3 6 6 7 7 8 8 24 7 0 1 1 1 1 1 4 4 5 6 7 8 8 8 9 (17) 9 8 9 0 0 1 2 2 3 4 4 4 4 6 7 8 9 9 9 9 0 1 1 2 2 4 4 5 6 平均數為 79.64 標準差為 9.70 µ-kσ µ+kσ k=1 69.94 89.34 k=1.5 65.09 94.19 k=2 60.24 99.04 k=3 50.54 108.74 3 75
Empirical rule 和 Chebyshev s theorem 的範例與比較 資料分佈範圍 [µ kσ, µ+kσ] K 值 實際範圍 Chebyshev s 理論至少發生百分比 Empirical 理論上大約百分比 實際上發生的百分比 1 1.5 2 [69.94, 89.34] [65.09, 94.19] [60.24, 99.04] 0.00 55.56 75.00 68.0 86.6 95.0 64 90 100 3 [50.54, 108.74] 88.89 99.7 100 平均數為 79.64 標準差為 9.70 3 76
資料的相對位置 (Numerical 資料的相對位置 Measures of Relative Standing) 定義 : 某單筆資料對整體資料的相對比較關 係, 以數值量化來表達 例如 : 百分位數 ( 中位數 四分位數 十分位數 ) 排序及 Quantile z score 3 77
資料的相對位置的應用 了解資料 ( 自己 ) 在組內的狀況 大學聯考的序號 班上同學的名次 不同組資料與資料間的比較 小明和小華不同班成績如何比較? 可用於了解稀少事件 (Rare event) z score >3 的機率? 3 78
相對位置的應用範例一 小明高中聯考成績序號為 9015,, 總考生人數為 35542 人 而大學聯考成績序號為 39876,, 總考生人數為 90142 人 小明的大學聯考相較於高中聯考是否有進步 小明在甲班就讀成績為班上第十名, 班上總人數為 70 人, 而小華在 A 班就讀成績為班上的第五名, 全班人數為 60 人 小明與小華何人較為優異? 3 79
相對位置的應用範例二 某次考試全班共有 70 人參加 小明考 45 分 ; 小芳考 87 分, 已知此次考試班上的平均成績為 71 分 標準差為 8 分 能否得知小明與小芳此次考試在班上的排序情形?( 假設此次考試班上成績是單峰分配 ) Z 1 =(45 71) /8 = 3.25 ( 最後一名 ) Z 2 = (87 71) /8 = 2 2( 前百分之三 即前三名內名 ) 3 80
百分位數 (Percentile) 序位數 (Quantile Quantile) 定義 :P k ( 即 k 百分位數 ) ; 表示在一組資 料中至少有 k% 的資料小於或等於 P k ; 且至少有 (100 k)% 的資料大於或 等於 P k 定義 :X (i) ( 即第 i 序位數 ) ; 表示在一組資料中恰有 i 1 個資料小於或等於 X (i) ; 且恰有 n i 個資料大於或等於 X (i) 3 81
序位數 (Quantile Quantile) 範例 資料 : 10.3 4.9 8.9 11.7 6.3 7.7 表示法 : x 1 X 2 X 3 X 4 X 5 X 6 排序後 : 4.9 6.3 7.7 8.9 10.3 11.7 表示法 : x X X X X X (1) (2) (3) (4) (5) (6) 最小值為 X (1) ; 最大值為 X (n) 3 82
18 百分位數 (Percentile) 範例 資料 : 10.3 4.9 8.9 11.7 6.3 7.7 排序後 : 4.9 6.3 7.7 8.9 10.3 11.7 找位置 : 1 2 3 4 5 6 公式 : P 18 Position = P 18 = 4. 9 a f a f n 18 6 + 1 k + 1 100 = 100 = 126. 1 3 83
50 百分位數 (Percentile) 範例 資料 : 10.3 4.9 8.9 11.7 6.3 7.7 排序後 : 4.9 6.3 7.7 8.9 10.3 11.7 找位置 : 1 2 3 4 5 6 公式 : k n + 1 P 50 Position = 100 P 50 = (7.7+8.9)/2=8.3 a f a f = 50 6 + 1 100 = 3.5 3 84
z score (Ζ 值 ) 定義 : 某單筆資料相對於整體資料平均數幾倍標準差的位置 ( 數值為 + 時資料在平均數右邊 ; 數值為 時資料在平均數左邊 ) 公式 : Z score = 母體時 x a f a f µ x x σ 或 樣本時 s 3 85
z score 範例 資料 : 10.3 4.9 8.9 11.7 6.3 7.7 平均數 x =8.3 公式 : 標準差 s = 2.5235 Z score = (4.9 8.3) = 1.3473 2.5235 3 86
全距 R 介於 3S 至 6s 之間 Stem and Leaf of C1 N=50 Leaf Unit =1 9 24 (17) 9 6 7 8 9 3 3 3 6 6 7 7 8 8 0 1 1 1 1 1 4 4 5 6 7 8 8 8 9 0 0 1 2 2 3 4 4 4 4 6 7 8 9 9 9 9 0 1 1 2 2 4 4 5 6 全距為 33,, 標準差為 9.70;R ;R/SS = 3.4 當資料為 30 80 筆之間 s 約為 0.25R; 原因為考慮常態分配 3 87
變異係數範例 公式 : 變異係數 c.v.(coefficient coefficient of variation) 為 (standard deviation/mean)*100% 資料 : 10.3 4.9 8.9 11.7 6.3 7.7 平均數 x =8.3 標準差 s =2.5235 變異係數 CV=2.5235/8.3 *100% =30.4% 3 88
綜合練習 某保險公司招收業務員, 第五梯次有五十名應徵者參加性向測驗, 其分數如下 : 70 78 94 80 96 92 71 75 84 74 84 66 71 82 78 77 91 76 67 68 89 92 90 89 83 66 71 96 67 84 89 94 74 63 63 86 81 71 71 68 63 91 89 78 88 84 80 82 87 79 試根據上述資料, 計算各項統計數值, 並建立箱形圖 3 89
莖葉圖 Stem and Leaf display Stem and Leaf of C1 N=50 Leaf Unit =1 9 24 (17) 9 6 7 8 9 3 3 3 6 6 7 7 8 8 0 1 1 1 1 1 4 4 5 6 7 8 8 8 9 0 0 1 2 2 3 4 4 4 4 6 7 8 9 9 9 9 0 1 1 2 2 4 4 5 6 3 90
綜合練習 ( 續 ) 分數由小到大排列如下 : 63 63 63 66 66 67 67 68 68 70 71 71 71 71 71 74 74 75 76 77 78 78 78 79 80 80 81 82 82 83 84 84 84 84 86 87 88 89 89 89 89 90 91 91 92 92 94 94 96 96 最高分為 :96: 最低分為 :63: 全距 : 33 3 91
資料的各項統計數值描述 Min: 63.00 1st Qu.: 71.00 Mean: 79.64 Median: 80.00 3rd Qu.: 89.00 Max: 96.00 IQR: 17.75 Mode: 71 Midrange: 79.5 Midquartile: : 79.875 Variance: 94.03 Std Dev.: 9.6970 Sum: 3982 SE Mean: 1.371 Skewness: 0.077 Kurtosis: 1.137 3 92
箱形圖的繪製 最小值 中位數 最大值 第一四分位數 第三四分位數 3 93
綜合練習 某次統計學考試共 60 人參加, 經由套裝軟體計算後得到下列結果 : Variable Score St dev 7 Q1 60 N 60 Mode 64 Q3 75 Mean? Max 88 Sum 4080 Median 66 Min 50 Range 57 3 94
綜合練習 最多的同學得到何種分數? 甲 大約有多少人及格 ( 高於 60 分 )? 乙 班上同學的平均分數為何? 丙 班上同學成績的內四分位距為何 (Inter Inter Quartile Range)? 丁 假設分數是單峰分配的, 則資料的偏性 skewness 應為戊 64 45 人 68 15 右偏 3 95
兩組資料的相互比較 某次考試相同的考題給兩班同學同時作答,A 班共計 71 人 B 班共計 66 人 排序後的資料以莖葉圖表達 試以各種統計方法比較此次考試兩班的成績情況 3 96
A 班的莖葉圖 7 16 35 (21) 15 7 2 3 4 5 6 7 8 9 1223457 233578999 011445666677777899914456666777778999 011112334445666778999 05667899 00289 00 µ-kσ µ+kσ k=1 45.67 74.69 k=1.5 38.42 81.95 k=2 31.16 89.20 k=3 16.65 103.71 µ=60.18 σ=14.51 3 97
B 班的莖葉圖 7 5 2356669 26 6 234444446 44444466667788999667788999 (23) 7 11122233 33445555677777889 17 1 8 9 0022223345666678 4 µ-kσ µ+kσ k=1 63.06 82.16 k=1.5 58.29 86.94 k=2 53.51 91.71 k=3 43.96 101.26 µ=72.61 σ=9.55 3 98
兩組資料統計的相互比較 統計 min A 班 31.00 B 班 52.00 A. 全距 / 標準差 Q1 mean 51.00 60.18 66.00 72.61 =59/14.51=4.066 median mode 60.00 57.00 73.00 64.00 B. 全距 / 標準差 Q3 max s 69.00 90.00 14.51 80.00 94.00 9.55 =42/ 9.55=4.398 range IQR 59.00 17.50 42.00 13.75 當資料為 30 80 筆之間 s 約為 0.25R 3 99
Empirical rule 和 Chebyshev s theorem 的範例與比較 資料分佈範圍 [µ kσ, µ+kσ] K 值 1 1.5 2 實際範圍 [µ 1σ, µ+1σ] [µ 1.5σ, µ+1.5 1.5σ] [µ 2σ, µ+2σ] Cheby shev s 理論至少發生百分比 0.00 55.56 75.00 Empirical 理論上大約百分比 68.0 86.6 95.0 A 班實際上發生的百分比 63.4 83.1 95.8 B 班實際上發生的百分比 69.7 86.4 95.5 3 [µ 3σ, µ+3σ] 88.89 99.7 100.0 100.0 平均數為 79.64 標準差為 9.70 3 100
3 101 兩組資料變異係數變異係數的相互比較 A 變異係數 CV=14.51/60.18 *100% =24.11% B 變異係數 CV=9.55/72.61 *100% =13.15%
3 102 兩組資料箱形圖的相互比較
兩組資料直方圖直方圖的相互比較 0. 0 4 A 班的直方圖 0. 0 3 0. 0 2 0. 0 1 0. 0 0 5 2 5 9 6 6 7 3 8 0 8 7 9 4 0. 0 4 1 B 班的直方圖 0. 0 3 0. 0 2 0. 0 1 0. 0 0 5 0 6 0 7 0 8 0 9 0 1 0 0 1 3 103
3 104 結論 1. 數值描述中央集中趨勢 2. 數值描述資料散佈變化情形 3. 數值資料的偏性 4. 資料的相對位置 (Numerical Measures of Relative Standing) 5. 標準差的意義與應用
3 105 關於本課程... 請你靜下來想一想 : 1. 你此堂課學到的最重要的關念為何? 2. 是否還有相關問題與疑問? 3. 如何改善今後的學習?