第 4 章資料的整理與表現 - 統計測量數 1
1-1 統計學方法與應用 學習目的 1. 了解資料中央趨勢的各種衡量指標如算術平均數 中位數 眾數 加權平均數與幾何平均數等的衡量方法. 熟習各個中央趨勢衡量方法的特性 使用時機與優缺點 3. 了解資料分散程度的各種衡量指標如全距 四分位距 變異數 標準差 變異係數的衡量方法 4. 熟習各個分散程度衡量方法的特性 使用時機與優缺點 5. 認識資料相對位置的的各種衡量方法如四分位數 十分位數百分位數等的計算 認識與計算資料的偏度 峰度 6. 熟習使用 EXCEL 計算中央趨勢與分散度指標及其他位置之指 標
本章結構 資料的整理與表現 統計測量數 未分組資料中央趨勢的衡量 未分組資料分散度的衡量 未分組資料偏度與峰度的衡量 分組資料中央趨勢的衡量 分組資料位置的衡量 ( 其他測量數 3 平均數 中位數 眾數 中央趨勢各統計測量數之比較與選擇 未分組資料位置的衡量 ( 其他測量數 ) 四分位數 十分位數 百分位數 全距與四分位距 平均絕對離差 變異數 標準差 相對分散度 柴比氏定理與經驗法則 未分組資料偏度的衡量 未分組資料峰度的衡量 盒鬚圖分析法 算術平均數 中位數 眾數 分組資料分散度的衡量 變異數 標準差 四分位數 十分位數 百分位數 分組資料偏度與峰度的衡量 分組資料偏度的衡量 分組資料峰度的衡量
4.1 未分組資料中央趨勢的衡量 目的 : 用來描述資料的中心位置或中央趨勢 測量數 : 平均數 (mean), 中位數 (medan), 眾數 (mode) 4.1.1 平均數代表一組資料的平均水準指標 : 算術平均數 (arthmetc mean) 幾何平均數 (geometrc mean) 調和平均數 (harmonc mean) 4
未分組資料中央趨勢的衡量 平均數 算術平均數的意義 所有觀察值的總和除以觀察值的個數即為算術平 均數 算術平均數在數線上代表資料的平衡點 母體平均數 N x 1 N 5 樣本平均數 X n x 1 n
例 4.1 北投好還是板橋強 ( 以平均數做代表 ) 某汽車公司現有北投與板橋二個營業處, 003 年 8 月板橋營業處與北投營業處業務員的業績依序為 ( 單位 : 萬元 ) 試問 : 板橋及北投的業務員其平均業績各為何? 板橋營業處的業績好還是北投營業處的業績強 板橋營業處 3 5 64 64 70 76 8 80 北投營業處 61 7 81 81 95 97 101 14 6
板橋 3 5... 80 8 90 北投 61 7... 14 8 89 從平均業績來看, 板橋與北投的業績差不多 7
算術平均數的特質 ( 六點 ) 資料的平衡點 各觀察值與平均數間的差的總和最小 各觀察值與平均數之差的平方和最小 優點為考慮到每一個觀察值, 缺點為易受極端值的影響 可進行代數演算 可對觀察值予以加權 8
1. 算術平均數是資料的平衡點所謂的資料坪衡點, 是指平均數左邊的觀察值與平均數的距離的總和, 等於平均數右邊的觀察值與平均數的距離的總和 圖 4.1 板橋的平均業績 圖 4. 北投的平均業績 眾數 64 眾數 81 0 50 100 150 00 50 300 0 100 00 300 平均數 90 平均數 89 9
. 各觀察值與平均數間的差的總和等於零 N x 0 or x X 0 1 1 3. 各觀察值與平均數之差的平方和最小 N 1 N N x 在 x A 0 為最小 1 or N x X 在 x A 0 為最小 1 N 1 在一群觀察值中, 若欲尋找一個代表值, 使觀察值與代表值誤差平方和為最小, 則該代表值即為平均數 10
4. 優點是使用到每一個觀察值, 缺點是易受極端值影響 ex: 板橋營業處拿掉超級營業員 (80), 平均數由 90 降為 6.86 5. 可進行代數的演算 若 X 的線性函數為 Y=a+bX 則 a b Y X Y a b X Ex: 設有兩組資料, X 與 Y. 已知 X 之母體平均數為 μ X, Y 之母體平均數為 μ Y, 則 X 與 Y 總平均 μ 為 N X N N X X N Y Y Y 11
6. 可對觀察值予以加權 ( 加權平均數 ) 概念 : 算術平均數視每一個觀察值為一樣重要 當觀察值有不同的重要性時 對每一個觀察值給予一個權數 (weght), 用以代表其重要性, 然後再計算其平均數 加權的算術平均數 (weghted arthmetc mean) 母體 W N 1 N 1 W x W 樣本 X W n 1 n 1 W x W 1
Ex4.4 某學生大一上學期的成績如表 4.1, 求其學其平均成績 13
幾何平均數 若資料為等比數列, 如國民生產毛額成長率, 物價上漲率, 則應以幾何平均數來代表該等資料的中心位置 母體的幾何平均數 G N x 樣本的幾何平均數 1 N N 1x x N x 1 g n x n 1 n 1 x x n ( x ) 1 14
表 4. 台灣塑膠公司的股票價格 年度台塑變動率 87 46.5 88 6.5 1.344 89 46.3 0.741 90 3.1 0.693 91 44.6 1.41 9 56 1.8 資料來源 : 台灣証券交易所 註 : 價格的變動率為 P t / P t 1 試求台灣塑膠公司股價變動的幾何平均數及算術平均數, 再求幾何 15 平均數報酬率
Solutons 台塑股價變動率的幾何平均為 g 台塑 1.344 0.741 0.693 1.41 1.8 5 1. 038 台塑股票的幾何投資報酬率為 R 台塑 1.038 1 0.038 台塑股票的算術平均數的投資報酬率為 X 台塑 以算術平均數來看為高估 1 1.344 0.741 0.693 1.41 1.8 5 1 0. 085 16
幾何平均數的性質 1. n n 1 x y n n n 1 n 1 1 x y. 適合衡量等比數列的中央位置, 但不易進行統計推論 17
幾何平均數的應用 幾何平均數投資報酬率 G 1 1 R n (1 R )(1 R ) (1 ) n 1 式中 R 為第 期的投資報酬率 18
第 4 章資料的整理與表現 Measure of Central Tendency For The Rate Of Change 統計測量數 Of A Varable Over Tme: The Geometrc Mean & The Geometrc Rate of Return R Geometrc mean X Used to measure the rate of change of a varable over tme G (X X X ) Geometrc mean rate of return G 1 n 1/ n Measures the status of an nvestment over tme [(1 R 1 ) (1 R ) (1 R n )] 1/ n 1 Where R s the rate of return n tme perod 19 Basc Busness Statstcs, 11e 009 Prentce-Hall, Inc.. Chap 3-19
The Geometrc Mean Rate of Return: Example An nvestment of $100,000 declned to $50,000 at the end of year one and rebounded to $100,000 at end of year two: X $100,000 X $50,000 X3 1 $100,000 50% decrease 100% ncrease 0 The overall two-year return s zero, snce t started and ended at the same level. Basc Busness Statstcs, 11e 009 Prentce-Hall, Inc.. Chap 3-0
The Geometrc Mean Rate of Return: Example (contnued) Use the 1-year returns to compute the arthmetc mean and the geometrc mean: Arthmetc mean rate of return: X (.5) (1).5 5% Msleadng result RG [(1 R 1 ) (1 R ) (1 R n 1/ )] Geometrc mean rate of [(1 (.5)) (1 (1))] 1/ 1 return: [(.50) ()] 1/ 1 1 1/ 1 0 % n 1 More representatve result 1 Basc Busness Statstcs, 11e 009 Prentce-Hall, Inc.. Chap 3-1
修正的平均數 1. 剪尾平均數 將兩尾 α% 的觀察值去掉, 只利用 100%-α% 的觀察值求取平均數. 截尾平均數以 P α ( 第 α 的百分位數 ) 值代替 P α 以下的觀察值, 且以 P 100 - α 值代替 P 100 - α 右尾 α 的觀察值, 再求其平均數
4.1. 中位數 定義 : 中位數是位於依數值大小順序排列的觀察值中央的那一個數值 算法 : 設 X 為變數, 其母體觀察值由小到大排列為 x x,n 為觀察值個數 1 x N a) 若 N 為奇數, 則中位數 m e 為數列中第 (N+1)/ 個的那一個數值 b) 若 N 為偶數, 則取數列中第 (N+1)/ 前後兩個數之平均數為中位數 3
性質 e 為 x m x e 1. x m x A 中之最小, 亦即 A (A 為任意數值 ). 指一組觀察值中, 若欲尋找一個代表值使觀察值與代表值的距離和最小, 則該代表值即為中位數. 不受極端值影響 ( 對觀察值的變化不敏感 ) 3. 不易進行代數演算, 亦不易進行統計推論 4
例 4.7 Q: 在例 4.1 中已知板橋及北投業務員的業績, 現問板橋及北投業務員業績的中位數各為何? Soluton: n=8, 中位數應位於第 (n+1)/ = (8+1)/ =4.5 個前後各一個之平均數 故取第 4 及第 5 個觀察值的平均數 板橋 北投 m e = (64+70)/ = 67 m e = (81+95)/ = 88 北投因無極端值存在, 平均數 89 與中位數 88 較為接近 5
圖 4.3 板橋的平均業績 圖 4.4 北投的平均業績 中位數 67 中位數 88 0 100 00 300 0 100 00 300 平均數 90 平均數 89 6
4.1.3 眾數 定義 : 眾數是觀察值中出現次數最多的那一個數值獲類別 以 m o 表示 性質 1. 不受極端值的影響. 可能有多個或一個也沒有 3. 對觀察值的個數或數值變化的感應不靈敏 4. 眾數因可能有多個或沒有, 因此眾數比中位數及平均數較少使用 7
表 4.3 肺癌患者的存活時間 患者人數存活天數 3 3 天 3 1 年 3 年 1 10 年 1 0 年 資料來源 : 虛擬 8
例 4.9 看法維持現狀以後再決定 永遠維持現狀 維持現狀以後統一 維持現狀以後獨立 儘快宣布獨立 儘快統一 人數 358 31 111 108 63 45 百分 6.88% 比 39.05% 4.% 1.1% 11.79% 4.91 資料來源 : 行政院陸委會 91 年 1 月委託 e 社會資訊管理公司調查 9
表 4.4 中央趨勢統計測量數之比較 統計測量數 優 點 缺 點 算算術平均數 1. 資料的重心 資料無極端值或 1. 若有極端值存在時則不具代表性 偏態時, 具代表性. 適合代數演算. 資料如為偏態, 則代表性較差 3. 考慮所有觀察值, 敏感度高 4. 觀察值與平均數差平方和最小 5. 適合統計推論的工作 幾何平均數 1. 適合等比資料 1. 不適合一般資料. 敏感度高. 不適合作統計推論 中位數 1. 適用於有極端值的資料 1. 不適合代數演算. 適用於偏態資料. 對觀察值敏感性低 3. 觀察值與中位數絕對差和最小 3. 不易進行母數統計推論 4. 可做無母數統計推論 眾數 1. 適用於有極端值的資料 1. 可能不止一個或不存在. 適用於偏態資料. 敏感性低 3. 適用於質的資料 3. 不能做統計推論 30
表 4.5 板橋與北投業績的平均數 中位數與眾數 1. 開啟 Excel 工作表, 將資料輸入. 選取 工具, 資料分析, 敘述統計 即可得 31
4. 未分組資料位置的衡量 ( 其他測量數 ) 四分位數 四分位數是將順序資料分成四等分數值的分位數 十分位數 十分位數是將資料均分為十等份數值的分割數 百分位數 百分位數是將順序資料均分為一百等分數值的分割 數 3
4..1 四分位數 定義 : 四分位數是將順序資料的觀察值分成四等分數值的分位數, 亦即, 四分位數有第 1, 第, 第 3 三個四分位數 求算 : a) 第 1 四分位數 (Q 1 ) 先計算 K=n/4, 若 K 為整數, 則取第 K 個與第 K+1 個兩個數值的平均數 為第 1 四分位數. 若 K 不是整數, 則取小數進位為整數的那一個 b) 第 四分位數 (Q ). 第 四分位數就是中位數 c) 第 3 四分位數 (Q 3 ) 先計算 K=3n/4, 若 K 為整數, 則取第 K 個與第 K+1 個兩個數值的平均 數為第 3 四分位數. 若 K 不是整數, 則取小數進位為整數的那一個 33
4.. 十分位數 定義 : 十分位數是將觀察值均分為十等分數值的分割數, 亦即, 十分位數有 9 個, 第 個表示為 D (=1,,9) 求算 : n 先將觀察值由小而大排列, 並求算 K 10, =1, 9, n 為觀察值的個數, 此後再依下面兩個情況來決定十分位數 a) 若 K 為整數,, 則取第 K 個與第 K+1 個兩個數值的平均數為第 個十分 位數 D b) 若 K 不是整數, 則取小數進位為整數的那一個數值為第 個十位數 D 34
例 4.1 下面為台灣本國壽險公司 000 年的保費收入 ( 已順序排列 ), 試求第 5 個和第 7 個十分位數的保費收入為多少? 1,847,665,835 4,539 4,865 6,168 11,763 14,930 18,730 18,851 31,594 100,81 107,610 04,840 Soluton K 14 5 n 10 10 5 故第 5 個十分位數為 (11763+14930)/=13346.5 故第 7 個十分位數為 18851 百萬元 7 K 14 7 n 10 10 7 9.8 35
4..3 百分位數 定義 : 百分位數是將順序資料的觀察值均分為一佰等份數值的分割數, 亦即, 十分位數有 99 個, 第 個表示為 P (=1,,99) 求算 : 百分位數的求算方法與十分位數相同, 不同的是百分位數 n P n 公式為 100 =1,,99. 而十分位數為 K =1,.,9 10 36
4.3 未分組資料分散度的衡量 概念 平均數, 中位數與眾數僅表示資料的中心位置 ( 集中或聚集情形 ), 未能呈現資料的分散情形. 但有時分散程度的重要性不亞於中央趨勢. EX: 一個中心廠有底下二個配合的衛星工廠, 選哪一個較佳? 雖然二工廠的交貨期均為 15 天, 但乙工廠的交貨期較為分散, 對中心廠而言, 生產流程的安排會造成某些問題 測量數 全距 (Range, R), 四分位距, 平均絕對離差 (average absolute devaton), 變異數 (varance), 標準差 變異係數 (coeffcent of varance, CV, 衡量相對分散度 ) 37
圖 4.5 甲廠商交貨期的分配 圖 4.6 乙廠商交貨期的分配 次數 1 10 次數 1 10 8 8 6 6 4 4 0 9 10 11 1 13 14 15 16 17 18 19 0 0 9 10 11 1 13 14 15 16 17 18 19 0 交貨天數 交貨天數 38
4.3.1 全距與四分位距 全距 (Range, R) 觀察值中的最大值減去最小值後的數值 R= 最大值 最小值 (R 越大, 表分散程度越大 ) 四分位距 第 3 四分位數減去第 1 四分位, IQR = Q 3 Q 1 全距的缺點 ( 四分位距亦同 ) 1. 資料的單位不同, 不能比較. 當資料單位相同, 且全距相同時, 我們也不能下結論說兩個資料的分散程度相同 ( 如下圖 4.7) 3. 全距只考慮最大值與最小兩個觀察值, 未考慮所有觀察值, 故不能精確的反應全體觀察值的分散情形, 會受極端值影響 39
圖 4.7 全距相同時資料的分散情形 f (x ) 全距 x 40
4.3. 平均絕對離差 定義 : 每一個觀察值與平均數之間的差距, 稱為平均數的離差 (devaton about the mean), x X x X,..., x X 平均絕對離差 N 1 母體 : MAD x N 樣本 : 1 性質 1, MAD 1 N 1 mad x X N 平均絕對離差值越大表示分散程度越高 1 n 41
例 4.14 走哪一條路好北部地區 15 歲以上通勤通學民眾平日通勤時間平均為 1.15 小時. 洪小姐由新莊到台北市上班有二條路 : 一是經三重到台北, 一是經泰山走中山高到台北, 她紀錄 個星期的行車時間如 下 ( 分鐘 ), 問洪小姐走哪條路較好? 縱貫路 40 4 43 44 46 中山高 1 36 4 55 61 Soluton: 可得走二條路的平均時間均為 43 分鐘省道之全距為 46-40=6 平均絕對離差為 1.6 分鐘中山高全距為 61-1=40, 平均絕對離差為 1 分鐘 省道差異程度小 4
表 4.6 縱貫路開車時間的平均絕對離差 開車時間 X X X X ( X X ) 40-3 3 9 4-11 1 1 43 0 0 0 44 1 1 1 46 3 3 9 合計 0 8 0 43
4.3.3 變異數 母體變異數 1 ( x ) N 式中 : : 母體平均數, N : 母體個數 樣本變異數 S 1 n 1 ( x X ) 式中 : X : 樣本平均數, n : 樣本數 44
變異數的性質 1. 變異數的值大於等於 0, 若變異數為 0 時, 其意義是所有觀察值均相同, 沒有變異 ( 分散 ). 若同一組資料單位不同, 其變異數亦不相同 3. 單位相同可做比較 4. 考慮每一個觀察數值 5. 適合代數運算 ( 見下頁 ) 6. 適合利用樣本變異數對母體變異數做統計推論 7. 具有複名數 ( 如元 ), 不易解釋 45
代數運算 X a) Y=a+bX, X 的母體變異數為, 標準差為 σ X 則 Y 的母體變異數與標準差分別為 b, b Y X Y Y 與 σ Y b) 兩組資料 X 與 Y, X 母體變異數與標準差分別為 μ X 與 則兩組資料之全體變異數為 其中 X Y 母體變異數與標準差分別為 μ Y 與 N ( ) ( NX X X Y Y Y ) N X N N X X N Y Y N Y X N Y N 為個數 X Y 46
4.3.4 標準差 概念 : 變異數具複名數, 不易解釋, 未去除此缺點而將變異數開根號所得的數值稱為標準差 母體標準差 樣本標準差 S S 47
例 4.15 省道與中山高開車時間的變異數與標準差 依上述公式 省道變異數 ( x X ) n1 中山高變異數 0 5 51 省道標準差 1 S S S 5. 36 ( x ) n1 X 100 50.5 51 中山高標準差 S 1 S S 50.5 15. 87 洪小姐選哪一條? 必須看他的時間和個性來決定. 若他個性溫和不急躁, 且為了避免遲到的麻煩, 她應選省道並早點出門 48
4.3.5 相對分散度 概念 : 若有兩組資料而欲比較其相對分散程度時, 如何去除單位的不同來進行比較?? 變異係數變異係數 (CV ) 標準差 平均數 母體資料 : CV S 樣本資料 : CV X 49
表 4.7 兩種基金的平均數與標準差請分析下面兩種股票型基金的投資風險, 並問哪種基金的投資風險較大? 基金類別平均數 (%) 標準差 (%) 基金個數 跨國投資全球型 10.8 6.03 0 開放式價值類 5.09 3.71 5 資料來源 : 台灣經濟新報 50
Soluton: 跨國投資全球型平均報酬率 10.8%, 標準差 6.03% 開放式價值類基金平均報酬率 5.06%, 標準差 3.71% 跨國投資全球型 CV=6.03/10.8 = 0.59 開放式價值類基金 CV=3.71/5.09 = 0.73 比較兩個變異數可知, 低投資報酬率基金 ( 開放式價值類基金 ) 的變異細數大於高投資報酬率基金 ( 跨國投資全球型 ) 的變異係數, 這個結果與高報酬高風險的現象不一致 51
4.4 柴比氏定理與經驗法則 柴比氏定理 (Chebyshev s Theorem) 不論資料為何種分配, 至少有 (1 1/ k ) 的資料落在距離平均數 k 個標準差的範圍內 k 為大於 1 的任意數, 即 1 經驗法則 (emprcal rule) 若資料為鐘形分配 (bell-shaped dstrbuton), 則有 68% 的觀 察值落在 X S 內, 有 95% 的觀察值落在 的觀察值落在 X S 內, 有 99% X 3S 內 ( S 為標準差 ) k 5
How the standard devaton provdes a measure of varablty of a data set? How many observatons ft wthn + n s of the mean? Chebyshev s Rule Emprcal Rule 1s or 1 No useful nfo Approxmately 68% s or At least 75% Approxmately 95% 3s 3 or At least 8/9 Approxmately 99.7% 53
圖 4.8 經驗法則 f (x ) 99.70% 95% 68% x 3 S x S x S x x S x S x 3 S x 54
4.5 未分組資料偏度與峰度的衡量 概念 : 資料的分布可能為不對稱 ( 左偏或右偏 ) 4.5.1 未分組資料偏態的衡量 偏態的方向可分為對稱, 左偏或右偏三種 f (x ) 55 中位數 = 平均數 = 眾數 x 林惠玲 陳正倉著雙葉書廊發行 004
圖 4.10 左偏分配 f(x) 平均數中位數眾數 x 56
圖 4.11 右偏分配 f(x) 眾數中位數 平均數 x 57
如何衡量偏態? 皮爾生偏態係數 (Pearson skewness coeffcent) 母體 : SK p M o 3( M e ) 樣本 : SK p X m o 3 ( X m e ) S S SK p =0 對稱分配 SK p >0 右偏分配 SK p <0 左偏分配 X m o X m o X m o 58
例 4.17 板橋營業處的銷售額是否為偏態 Soluton: 已知 X 90, m 64, S 78 o SK P 3( X m S o ) 90 64 78 0.33 由此知, 板橋營業處的銷售額為略微右偏 59
動差法的偏態係數 動差法的母體偏態係數 M 3 3 3 M 3 M 3 動差法的樣本偏態係數 性質 m3 3 ( m ) 1.α 3 =0 為對稱分配 α 3 >0 為右偏分配, α 3 <0 為左偏分配. 越大表示越偏態 3 0 0.5 趨於對稱分配 0.5 3 1 3 3 稍微偏態 3 1 極為偏態 60
母體平均數的動差 M 1 N r x N 1 r 1 M1 ( x ) 0 N 1 M ( x ) N 1 3 M 3 ( x ) N 1 4 M 4 ( x ) N 1. 一級動差 r=1, 則母體平均離均差. 二級動差 r=, 則母體變異數 3. 三級動差 r=3, 則衡量偏態 4. 四級動差 r=4 則衡量峰態 61
例 4.18 信用卡刷卡金額是否為偏態 10 位中大經濟系學生的台新銀行信用卡刷卡金額如下 ( 元 ) 4,798,19,085 1,11 3,570 1,548 875 50 158 Soluton: 樣本平均數 X 1,781. 7 m 1 ( x ) X,034,441 N 1 3 m3 ( x X ),618,6,08 N m3,618,6,08 3 0.903 3 ( m ),901,801,177 右偏分配, 表示少數的刷卡金額很大 6
4.5 未分組資料峰度的衡量 圖 4.1 三種峰度的圖形 f (X ) 高峽峰 常態峰 平闊峰 X 63
如何衡量峰度 峰度係數 母體 : M M 4 4 4 M 4 M 4 為母體四級動差 樣本 性質 m 4 m 4 m 4 為母體四級動差 1. 峰度一定為正數. 根據峰度係數的值可區分為 a. α 4 =3 為常態峰, α 4 >3 為高狹峰, α 4 <3 為平闊峰 64
4.6 盒鬚圖分析法 (Box-and-whsker plot) 利用 5 個重要的測量數 Q 1, Me, Q 3, 最小值 (mn) 和最大值 (max) 來完整的描述資料的性質 Ex 板橋及北投營業處的業績板橋 3 5 64 64 70 76 8 80 北投 61 7 81 81 95 97 101 14 以板橋為例 mn=3 Q 1 =58 Me=67 Q 3 =79 max=80 65
大值投營業處極大值板橋營業處0 10 0 30 40 50 60 70 80 90 100 110 10 130 80 統計學方法與應用 北中位數極Q 1 Q 小值3 極中位數極Q 1 Q3 小值66
說明 : 1. 畫出盒子. 盒鬚圖係以第 1 及第 3 四分位數為盒子的邊界, 亦即 50% 的資料散佈在第一四分位數 Q1=58 與第三四分位數 Q3=79 之間. 在盒子中的中位數 (Me=67) 劃一垂直線, 該垂直線將此盒子中的資料分為相等的兩部份 ( 各 5%), 這是資料的中心位置 3. 從盒子左邊界線劃一虛線到最小值 mn=3, 及從盒子的右邊界劃一虛線到最大值 max=80, 虛線就是所謂的鬍鬚 (whsker), 這代表資料的分散情形. 右邊的鬍鬚很長, 表示有一超高的業績 4. 由盒子的寬窄可知居中 50% 資料的分散或集中情形. 若盒子很寬表示 50% 資料分散度很大 67
4.7 分組資料中央趨勢的衡量 4.1 算術平均數母體平均數 : k 1 k f 1 f x 樣本平均數 X k 1 k 1 f x f f 為組次數 x 為組中點 k 為組數 若有開放組距, 則取前一組兩倍之組距為組距, 在求組中點 68
求 84 檔股票型基金的平均投資報酬率表 4.8 股票型基金近三年報酬率的次數分配表 組別組限 (%) 組距 (%) 組中點 (%) 次數 f 1 45 x 30 15-37.5 1 30 x 15 15 -.5 5 3 15 x 0 15-7.5 18 4 0 x 15 15 7.5 1 5 15 x 30 15.5 19 6 30 x 45 15 37.5 1 7 45 x 60 15 5.5 4 8 60 x 75 15 67.5 4 84 f 69
表 4.9 股票型基金近三年報酬率的次數分配表 70
由公式可得 X k f x 130 84 1 k f 1 14.6 71
4.1. 中位數 m e L m e W m e n F f me 式中 Lm e : m e 所在組的組下界 Wm e : m e 所在組的組距 fm e : m e 所在組的組次數 L F L : m e 前一組的累加次數 7
例 4.1 股票型基金近三年報酬率的中位數 Soluton: 中位數為 n/=84/=4 個, 位於第 4 組 m e L m e W m e n 84 FL 4 0 15 0 1.86 1.86 f m 1 e 73
圖 4.14 股票基金近三年報酬率中位數的圖解 次數 90 80 70 60 50 40 30 0 10 0 1.86 0 15 中位數 報酬率 74
4.7.3 眾數 四種 : 粗略法 (crude method), 皮爾生法 (Pearson s method) 金氏法 (Kng s method), 克魯伯法 (Czuber s method) 1. 粗略法 ( 直接取組中點當眾數 ) m 0 ( 組上界 + 組下界 ). 皮爾生眾數 m X 3( X m 0 e ) 75
例 4. 股票型基金近三年造酬率最多的是什麼 粗略法 (0+15)/ =7.5 (7.5%) 皮爾生法 m X 3( X m 0 e ) =14.6-3(14.6-1.86) =14.6-5. =9.38% 76
4.8 分組資料分散度的衡量 變異數與標準差母體變異數與標準差 1 N k 1 ( x ) f 式中 :x : 組中點,f : 組次數,N: 母體個數,k: 組數 樣本變異數與標準差 S 1 n 1 k 1 ( x X ) f S S 式中 :x : 組中點,f : 組次數,n: 母體個數,k: 組數 77
例 4.3 股票型基金近三年報酬率的變異 表 4.10 一般股票型基金近三年報酬率的變異數與標準差 78
Soluton: 由表 4.10 知 ( x X ) f 43864.44 故樣本變異數與標準差為 S 1 8 ( x n1 1 X ) 4393.96 f 58.487 (84 1) S S 58.487.99 79
例 4.4 求出級市場與次級市場相對利率的變化 表 4.11 30 天期商業本票的利率 組號 利率 (%) 次數初級市場次級市場 1 0 X. 0 16 0.0 X 4. 0 16 13 3 4.0 X 6. 0 43 51 4 6.0 X 8. 0 36 34 5 8.0 X 10. 0 9 資料來源 :EPS 台灣金融統計月報 80
解 : 初級市場的平均利率 μ 1 =5.1% 次級市場的平均利率 μ =4.75% 變異數 16(1 5.1) 16(3 5.1)... 9(9 5.1) 5. 057 1 1 10 1 10 變異係數為 0(1 4.75) 13(3 4.75)... (9 4.75) 4. 438 1 CV 5.057 5.1 1 0.4409 CV 故次級市場的利率相對不穩定 4.438 4.75 0.4435 81
4.9 分組資料位置的衡量 ( 其他測量數 ) 四分位數第 1 四分位數 Q L 1 n F 4 f 1 Q1 Q Q 1 Q 1 W 1 式中 : L Q 1 : Q 1 所在組的組下界, f Q 1 : Q 1 所在組的組次數, W Q 1 : Q 1 所在組的組距, F Q 1 : Q 1 前一組的累加次數 第 3 四分位數 Q L 3 n F 4 f 3 Q3 Q Q 3 Q 3 W 3 8 式中 : L Q 3 : Q 3 所在組的組下界, f Q 3 : Q 3 所在組的組次數, W : Q 3 所在組的組距, F Q 3 : Q 3 前一組的累加次數
例 4.5 試求學生英文成績的四分位數 表 4.1 學生英文考試成績次數分配表 組號 組限 次數 累加次數 1 30~40 40~50 1 3 3 50~60 1 15 4 60~70 14 9 5 70~80 38 67 6 80~90 33 100 7 90~100 6 106 83
解 : 第一四分位數 (1/4)*106=6.5 落在第四組 1 nf Q1 4 6.5 15 Q L Q W 60 10 1 Q1 fq 14 1 第 3 四分位數 (3/4)*106=79.5 落在第 6 組 1 68.1 3 3 n F Q 106 67 3 Q 4 80 4 3 L Q W 10 83.79 3 Q3 f 33 Q 3 84
圖 4.15 分組資料時,Q 1 Q 3 的解法 次數 10 100 3n 80 /4 60 40 n /4 0 0 // 30 30-40 40-50 50-60 68.1 60-70 70-80 83.7980-90 90-100 Q 1 Q 3 英文成績 85
4.9. 十分位數 分組資料的十分位數 D L 式中 : D n F 10 f D D W D D : 第 個十分位數, W : 在組的組次數, 數 D L D : D 所在組的組距, D 所在組的組下界, F D : f D : D 所 D 前一組的累加次 86
4.9.3 百分位數 分組資料的百分位數 P n F L P 100 f P P W P 式中 :P: 第 個百分位數, f P W P :P 所在組的組次數, F P L P : P 所在組的組距 : P 前一組的累加次數 :P 所在組的組下界 87
例 4.6 and 4.7 Q: 已知大一英文成績如表 4.1, a. 求算第 6 個十分位數. b. 某生想要成績在前 5%, 問應考幾分? Soluton: a. 因 (6/10)*106=63.6, 第 6 個十分位數落在第 10 組 n6 1066 F D 9 6 D 10 10 6 L D W 70 10 79.1 6 D6 f 38 D 6 b. 第 95 百分位, 因 (95/100)*106=100.7, 落在第 7 組 P L P n 10695 10 F P 100 W 90 10 10 90 1.167 91.167 6 P f P 88
4.10.1 分組資料偏態的衡量動差法的母體偏態係數 3 3 3 3 3 ( ) N f x M 9.10 未分組資料的衡量 - 偏態與峰度 89 3 3 3 ) ( N f x M 動差法的樣本偏態係數 3 3 3 3 3 ) ( ) ( n f X x n f X x m m
例 4.8 30 天期商業本票利率分佈的偏度 如表 4.11, 計算出級市場與次級市場利率的偏度 Soluton: 1. Pearson 係數 1 M o 5, M 5 以粗略法求眾數 o, 由例 4,4, μ 1 =5.1, μ =4.75, 標準差分別為 因此可得 Pearson 偏態係數 1 5.057.48, 4.438.107 5.15 4.75 5 SK P 1 0.0445, SK P 0.1187.48.107 初級市場為右偏, 次級市場為左偏, 次級市場呈現偏低 90
. 動差法 初級市場與次級市場的三級動差分別為 M M 1 1 3 3 10 10 3 (1 5.1) 16... (9 5.1) 9 3. 918 3 (1 4.75) 0... (9 4.75) 4. 856 1 3 3 初級市場與次級市場的二級動差分別為 所以偏態係數為 1 3.918 0.3446 3 3 5.0567 4.4375 3 初級與次級市場均有左偏, 然而偏態並不顯著動差法較精確 1 M 5.0567, M 4.4375 4.856 3 0.5195 91
4.10. 分組資料峰度的衡量 峰度係數母體樣本 4 4 4 4 ( ) N f x M 4 4 ) ( n f X x m 9 4 4 ) ( N f x 4 4 ) ( n f X x n m
例 4.9 30 天期商業本票利率分佈的峰度 Soluton: 初級市場與次級市場的四級動差分別為 M M 1 1 4 4 10 4 (1 5.1) 6... (9 5.1) 9 61. 53 1 4 4 10 4 (1 4.75) 0... (9 4.75) 46. 676 初級市場與次級市場的二級動差分別為 因此可得出級市場與次級市場的峰度細數分別為 1 M 5.0567, M 4.4375 1 61.53 46.676 4.405 3 4.368 3.49.107 平闊峰 93
4.11 Excel 的使用 Steps: 工具, 資料分析, 敘述統計 Note: 該表的結果與分組資料的結果有些差異 94