<B2C43035B3B92E646F63>

Similar documents
<B2C43035B3B92E646F63>

Microsoft PowerPoint - 第4章 資料的整理與表現-統計測量數.ppt [相容模式]

0 0 = 1 0 = 0 1 = = 1 1 = 0 0 = 1

Microsoft Word - ACI chapter00-1ed.docx

Microsoft Word - ACL chapter02-5ed.docx

2013年香港高級程度會考成績統計

表二 105 年國中教育會考英語科閱讀與聽力答對題數對應整體能力等級加標示對照表 閱讀答 對題數 聽力答對題數 待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強

目次 CONTENTS 2 1 乘法公式與多項式 二次方根與畢氏定理 因式分解 一元二次方程式

Microsoft Word - 95_1_stat_handout_01敘述統計學.doc

ACI pdf

Microsoft Word - lecture 2_鐘惠民ch2_.doc


lt99ok241一維數據分析

基本數學核心能力測驗_行為觀察記錄紙_G2版本

( ) (1) (2) (3) (4) 2

基本對稱多項式的 選取重組還原公式 陳建燁 臺北市立第一女子高級中學數學教師 壹 動機 : 設有 5 個變數 abcde,,,,, 每次從中選取出 3 個變數來作 2 次的基本對稱多 項式, 再將這 C 個基本對稱多項式相加, 亦即 : 5 3 e( abc,, ) + e( abd,, ) + e

香港聯合交易所有限公司 ( 聯交所 )GEM 的特色 GEM 的定位, 乃為中小型公司提供一個上市的市場, 此等公司相比起其他在主板上市的公司帶有較高投資風險 有意投資的人士應了解投資於該等公司的潛在風險, 並應經過審慎周詳的考慮後方作出投資決定 由於 GEM 上市公司普遍為中小型公司, 在 GEM

目次 3 ONTNTS 1 相似形 上 國民中學數學第五冊習作 表示為仿會考或特招題 1-1 比例線段 3 1- 相似多邊形 相似三角形的應用 圓形 -1 點 線 圓 4 - 圓心角 圓周角與弦切角 外心 內心與重心 3-1 推理證明 三角形與多

總複習教材

統計分析入門與應用 說明 : a. 獨立樣本 : 兩個來自於獨立, 沒有相關的樣本 b. 成對樣本 : 兩個平均數來自於同一個樣本, 有關係的樣本 7-2 Means 平均數分析 Means 平均數分析是用在不同類別變數組合下, 連續變數在各組的統計量, 例如 : 平均數 中位數 標準差 總合 最小

連續機率分配

Microsoft Word - _m30.doc

1 500 表 1: 各國平均分數

常用的統計檢定方法 依變項 DV 類別變數 自變項 IV 連續變數 連續變數 Type A: t 檢定 變異數分析 Type B: 相關 迴歸分析 類別變數 Type C: 卡方檢定 Type D: 判別分析 羅吉斯迴歸

行政院金融監督管理委員會全球資訊網-行政院金融監督管理委員會

840 提示 Excel - Excel -- Excel (=) Excel ch0.xlsx H5 =D5+E5+F5+G5 (=) = - Excel 00

55202-er-ch04.doc

中期 12 中期 % 報告期 報告 44 中期 報 年中期報告 中國鋁業股份有限公司

圖 01-1 PROC UNIVARIATE 的輸出結果 ( 腹膜透析 白蛋白 ) 第 1-1 節重要指令說明 : 1. NORMAL: 在報表中呈現常態檢定的結果 2. CLASS 變項名稱 ( 類別 ): 依照 class 所宣告的類別變項分組呈現資料分析結果 在這個例子中我們將資料分為腹膜透析

01.dvi

Microsoft PowerPoint - 第9章 簡單隨機抽樣與抽樣分配.ppt [相容模式]

100 年華僑經濟年鑑 2011 華僑經濟年鑑 IT % % % % % WEF

Random Variables

現在人類獲取地球內部訊息的方法, 是從可能影響我們身家性命安全的地震, 用數學模型把地震資料轉換成地震波速度, 進而獲得地底物質密度與深度的關係 地下世界知多少 km/s g/cm 3 P Gpa km S P S 3,000 3,000 ak K 透視地底 Percy Bridgma

1

PowerPoint 簡報

第五章 機率分配

戒菸實務個案自助手冊105年Ver.2

臺南一中 / 程美鐘老師國文考科 壹前 言 貳選擇題命題趨勢分析 101 年 ~104 年學測題型統計表 測驗目標 年度 基礎形音義 字音 字形 字 詞義 成語 文法與修辭 理解與

業績 簡明綜合收益表 截至六月三十日止六個月 人民幣千元 ( 未經審核 ) 3 11,202,006 9,515,092 (7,445,829) (6,223,056) 3,756,177 3,292, , ,160 (2,995,823) (2,591,057) (391,


章節

untitled

縣 94 學年度 上 學期 區 國民中學 Q 年級 R 領域教學計畫表 設計者:

( 又稱為盒鬚圖或箱形圖, box plot / 第一章五數綜合可用一個框線圖 數據處理 21 box-and-whisker diagram) 來表達 框線圖並不顯示所有觀察值而只 顯示五數綜合, 它可以用作檢驗資料的離群值及分佈型態 如圖 1.13 所示, 它是例 的框線圖, 此圖可

翁秉仁教授 本著作除另有註明, 所有內容取材自作者翁秉仁教授所著作的微積分講義, 採用創用 CC 姓名標示 - 非商業使用 - 相同方式分享 3.0 台灣授權條款釋出

6-1-1極限的概念

Microsoft Word - 94_2_stat_handout08_線性迴歸(考古題).doc


Microsoft Word - 專題

投影片 1

注入新能量明確新方向


實踐大學八十九年度第一學期教學計畫表

老年性生理學和老年的性生活 老 和 第四年齡 概念 有不一致, 讀者可自參考, 本書不再多引

14052_公開用.pdf

# 7 % % % < % +!,! %!!


男人的大腦 女人的大腦

數量與決策分析 Spring 2009

目次 CONTENTS 1 數列與級數 幾何圖形 三角形的基本性質 平行與四邊形

Microsoft PowerPoint - 第11章 統計估計-區間估計.ppt [相容模式]

7. 下列何者敘述錯誤? (A) 抽樣分佈 (sampling distribution) 的抽樣樣本數越大, 其分佈之集中趨勢 (central tendency) 越小 (B) 樣本 (sample) 可以告訴我們關於母群體 (population) 的資訊 (C) 參數 (parameter)

When the rejection rule for a test at every level α can be re-written as then xxx is the p-value of the test. xxx < α, If p-value < α, then the test c

t14phip

Zytiga... Zytiga... Zytiga Zytiga Zytiga

Microsoft Word - CS-981.doc


02 2 成立 Facebook 粉絲專頁 Facebook Facebook Facebook 1, Facebook Facebook 1 Facebook 2-21

SOP Waiting Time

入 学 考 试 重 点 考 查 学 生 的 基 础 专 业 知 识 基 本 实 验 操 作 技 能 独 立 思 考 和 动 手 能 力 笔 试 和 面 试 的 试 题 都 有 足 够 的 难 度, 以 利 择 优 录 取 新 录 取 的 研 究 生 第 一 次 见 面, 池 先 生 会 作 一 次

Microsoft Word - 94_4_stat_handout_07變異數分析.doc

0622_富邦投信_VIX教戰手冊


Microsoft PowerPoint - 第3章 資料的整理與表現.ppt [相容模式]

* B0335H J (1) 7 (2) 42 (3) 63 (4) 67 (5) 75 (6)

PowerPoint Presentation

概要 % 945, , % 852, , % 308, , % 102,638 69, % * 60,589 36, % EBITDA 127,262 71, % ** 138,7


:

Microsoft Word - CoordinatesTransform.doc

(1) 14 (2) 47 (3) 70 (4) 74 (5) 83 (6)

Microsoft PowerPoint - 03描述性統計.ppt [相容模式]

臺北醫學大學生物統計研究中心 enews 第 6 期 2015/04 R-web 資料分析應用 : 分析方法 變異數 ( 標準差 ) 檢定 吳佩真副統計分析師 回顧前五期的生統 enews 雲端資料分析暨導引系統 ( R-web, 介紹圖表繪製 平均

1

Microsoft Word - 文件1

Transcription:

第 5 章 分析資料 以統計測量數來呈現 統計表 統計圖雖可用來顯示及描述統計資料的一般型態或分散的情形, 但所提供的資訊只是簡潔的摘要性描述, 不能提供精確的描述 精確具體的資料描述 : 用數字來描述資料的特性 尤其是當我們在比較兩組資料的性質時, 僅依賴統計圖表所做出來的比較會過於粗略, 最好可以有精確的數字作為比較的基礎 例子 :9 學年度大學指考國文科與英文科成績的比較 由統計圖可以看出, 國文科成績分布較對稱 ( 雖稍有左偏 ), 接近常態分配, 英文科成績則有嚴重的右偏情況, 顯示分數集中在較低分 整體看來, 英文科的平均成績較國文科來的低 但這樣的比較過於粗略 如果有統計測量數, 我們就可做一些較精確的描述 () 平均數 : 國文科平均成績 5., 高於英文科的平均.9 () 變異數 ( 標準差 ): 英文成績的變異程度較大 ( 變異數為.9, 標準差為.5) () 眾數 : 英文考.5 分的最多, 國文考 57.5 分的最多 () 中位數 : 國文科有一半的學生分數低於 5.8 分, 英文科有一半的學生分數低於.89 分 本章將資料區分成 分組資料 : 已經被分類或分組的資料 未分組資料 : 未經分類或分組的資料 未分組資料中心位置的衡量 統計圖可觀察資料的中心位置 ( 資料的共同趨勢 ), 但這只是粗略的描述, 使用數字來描述會比較具體且精確 人 數 8 國文科成績的次數多邊圖 5 5 5 5 5 5 55 5 7 75 8 85 9 95 分數 人數 國文科與英文科成績的統計測量數 國文科 英文科 平均數 5..97 變異數..95 標準差.57.58 眾數 57.5.5 中位數 5.75.79 8 英文科成績的次數多邊圖 5 5 5 5 5 5 55 5 7 75 8 85 9 95 分數 平均數 (ma) 平均數是衡量資料中心位置最重要的測量數 (masur) 平均數除了代表一組資料的平均水準外, 亦可用來比較兩組或兩組以上資料的平均水準 依平均方式的不同, 可將平均數區分為 算術平均數 (arthmtc ma) 幾何平均數 (gomtrc ma) 調和平均數 (harmoc ma) [ 少用, 不介紹 ] 算術平均數 : 所有觀察值的總和除以觀察值的個數 母體平均數 : 假設 是我們所關心的變數,,..., 等 個觀察值是變數 的母體資料, 則母體平均數 ( μ ) 定義為 μ + + +

樣本平均數 : 若,..., 等 個觀察值是變數 的樣本資料, 則樣本平均數 ( ) 定義為 + + + 例子 : 銀行業與證券業的薪資哪個高? 抽樣調查兩個行業各 7 個初任員工的薪資資料如下 ( ay + b) ( ay+ b) + ( ay + b) + + ( ay + b) ay ( + y+ + y) + b ( + + + ) a y + b 算數平均數的特質 資料的平衡點 : 平均數左邊的觀察值與平均數之距離的總和, 等於平均數右邊的觀察值與平均數之距離的總和 這些是樣本資料 證券業 7 個初任員工的平均薪資為 ( + + + 5 + + 9 + ) / 7 銀行業 7 個初任員工的平均薪資為 ( + 7 + 7 + 8+ + + ) / 7 9 從平均薪資看來, 證券業的薪資比銀行業高 眾數 中位數 5 平均數 證券業的平均月薪之點圖 眾數 7 中位數 8 平均數 9 銀行業的平均月薪之點圖 5 7 補充 : 加總 (summato) 符號 若,..., 代表變數 的 個觀察值 [ 個不同數字 ], 則 表示這 個觀察值的總和 以證券業 7 個初任員工的薪資為例, 7, 令 5 5 9 7, 則 7 代表這 7 個數字的總和 若,..., 代表變數 的 個觀察值, y,..., y 代表變數 Y 的 個觀察值, 且 a 與 b 是固定常數 ( 不會因觀察值下標 變動而改變 ), 我們可得到底下幾個加總的性質 a a + + a a 個 ay ay + ay + + ay a( y + y + + y ) a y 各觀察值與平均數間的差的總和等於零, 亦即 ( ) μ 或 ( ) [ 證明 ] 因 μ, 所以 μ, 故 ( μ) μ μ 又因, 所以, 故 ( ) 各觀察值與平均數之差的平方和最小 : 若 A 代表任意實 數, 則使得 ( ) A 最小的 A 為 亦即 ( ) ( ) μ A ( ) ( A) 最小的 A 為 μ, 使得 ( ) A 8

[ 證明 ] [( ) ( ) ( )( )] μ μ A μ A μ μ μ A A A ( ) ( ) A ( ) ( ) ( ) A μ+ μ A + + ( ) ( ) ( ) ( ) μ μ A μ A μ + + ( ) + ( ) + ( ) μ ( ) ( ) A + A [( ) + ( ) + ( )( )] ( ) + ( A) + ( A) ( ) + + 9 在計算學生成績 物價指數 股價指數時, 採取加權的方式, 以學分 商品數量 股票市值為權重來計算平均成績或指數 亦即當觀察值重要性不一樣時, 可給予每個觀察值一個權數, 用來代表其重要性, 然後再計算其平均數 以 W 代表各觀察值的加權數, 則加權算術平均數之計算為 W W 母體 : μ w 樣本 : w W W 我們通常令 w W W ( 或 w W W ), 而將加權算術平均數改寫為 母體 : μ w w 樣本 : w w 此時的 w 可解釋為每一觀察值之權數比例 ( 重要性比例 ) w W W 且 w W W 平均數的優點是考慮到每一個觀察值 [ 因平均數是所有觀察值的總和除以觀察值個數, 故用到所有觀察值, 且每一觀察值的重要性相同 ], 缺點是易受極端值 ( 離群值 ) 的影響 [ 如證券業薪資的例子中, 有一個 ( 千元 ) 的極端值, 若去除掉該極端值, 則證券業平均月薪僅有.( 千元 ), 可見極端值對平均數有極大影響 ] 平均數可進行代數 ( 加減乘除 ) 演算 [ 習題 5.] 可對觀察值予以加權 [ 加權平均數 ] 加權算術平均數 (wghtd arthmtc ma) 在現實世界中, 觀察值的重要性不見得相同 例如 : 學生成績 物價指數 股價指數的計算中, 因為學科的成績與分數 商品的產量與價格 股票之發行量與股價均不相同, 故不能等同看待每一學科 商品 股票, 每個觀察值對個人或整個經濟的影響亦不相同 例子 : 學期總成績 某個學生的學期成績單如下 其學期平均成績 ( 加權算術平均數 ) 可計算如下 μ w W W ( 8 + 87 + + 9) / 87.7 或是以 等學分比例為權重, 計算為 w w 8 + 87 + + 9 87.7 μ

樣本的幾何平均數 : 若資料為等比數列, 如國民生產毛額成長率 物價上漲率 投資報酬率等, 應以幾何平均數來代表該等資料的中心位置 若,,..., 為變數 的 個樣本觀察值, 且均為正數, 則樣本幾何平均數為 ( ) 幾何平均數的性質 : g ( / ) y y 例如 : 為國民所得,Y 為人口數, 則 /Y 為平均每人所得, 要求算其平均成長率可以計算 /Y 的幾何平均數, 或分別計算 與 Y 的幾何平均數, 再將兩個幾何平均數相除 幾何平均數適合衡量等比數列的中央位置, 但不易進行統計推論 幾何平均數的投資報酬率 由於我們在討論投資報酬率時, 會考慮複利 ( 再投資 ) 的效果, 因此用幾何平均數來計算平均投資報酬率較恰當 假設有一項投資持續了 期, 其每一期的投資報酬率分別為 R, R,..., R, 則幾何平均數的投資報酬率為 G R R R [( + )( + ) ( + )] 例子 : 假設某人將 萬投資在股票上, 在接下來的兩年 年年底, 其財富變化如下表所示, 表中我們亦計算出每年 的離散報酬率 [( 期末金額 - 期初金額 )/ 期初金額 ] 時間點 財富總額 每年報酬率 第 年年底 萬 第 年年底 5 萬 -5% [(5-)/] 第 年年底 75 萬 5% [(75-5)/5] 5 例子 : 下表的資料是台積電 9~9 年年底的股票收盤價 年度 台積電股價 變動比 ( P / P t t ) 9 77.7 9 7..87 9 5..87 9 5..98 9 5.8. 95.. 9 5.5.8 則台積電股價變動率的幾何平均數為 g 台積電 (.87.87.98...8).979 幾何平均投資報酬率為 R 台積電.979.8.8% 台積電股價變動率的算術平均數為 台積電 (.87 +.87+.98 +. +. +.8)/.9778 算術平均投資報酬率為.9778..%, 低 估了真正的平均投資報酬率.8% 若運用算術平均數來計算每年的平均投資報酬率, 會得到 ( 5% + 5%) / % [ 沒有虧損 沒有獲利 ] 但是很明顯地, 這筆投資是虧損的 ( 兩年累積虧損 5%) 若考慮複利的狀況, 計算每年平均投資報酬率 ( g ) 的正確方法應為 ( + g)( + g) ( + R)( + R) g [( + R )( + R)] g [( 5%)( + 5%)]..% 亦即, 平均而言, 每年的投資報酬率是.%, 兩年累計虧損了 5% 一般化 ( + g)( + g) ( + g) ( + R)( + R) ( + R ) 個 g [( + R )( + R ) ( + R )]

中位數 (mda) 中位數 : 將觀察值依數值大小順序排列後, 居於中央的那一個數值稱為中位數 [ 僅適用於具有順序的資料, 不適用於類別資料 ] 所有的觀察值至少有一半 (/) 大於等於中位數, 而且至少有一半 (/) 小於等於中位數 換句話說, 大於等於中位數的觀察值 與 小於等於中位數的觀察值 都至少有一半 當資料中有極端值存在時, 算術平均數不是一個良好的指標, 此時可用中位數來代表資料的中心位置 符號 : 以 m 來代表中位數 中位數的求算 : 若變數 的 個觀察值, 可將其由小到大排序為 < < < [ 不管是母體資料或樣本資料, 計算方法相同 ] + 若 為奇數, 則中位數 m 為第 個觀察值的數值 若 為偶數, 則中位數 m 為第 個與第 + 個觀察值的平均數 7 眾數 (mod) 眾數 : 眾數是指觀察值中出現次數最多的那一個數值或類別 眾數的性質 不受極端值的影響 對觀察值的個數或數值變化的反應不靈敏 眾數可能有很多個, 也可能一個也沒有, 因此眾數比中位數及平均數較少使用 例子 : 在銀行業與證券業的薪資的例子中, 證券業薪資的眾數為. 萬, 銀行業薪資的眾數為.7 萬 類別資料的眾數其實就是佔全部比率最多的類別 若為計量尺度資料, 通常以分組資料次數最多的那一組的組中點作為眾數 例如 : 指考國文科的眾數為 57.5, 英文科的眾數為.5 9 例子 : 銀行業與證券業的薪資哪個高?( 以中位數比較 ) 稍早我們提過, 證券業的薪資中有一個極端值. 萬, 因此證券業的平均薪資會受此極端值影響, 因而失去了代表性 + 7+ 中位數 : 由於樣本個數 7, 所以中位數應位於第 個觀察值 ; 將銀行業與證券業的薪資資料由小至大排序證券業 5 9 銀行業 7 7 8 所以證券業薪資的中位數為 5( 千元 ), 銀行業薪資的中位數為 8( 千元 ) 若根據中位數來比較, 銀行業的薪資比證券業高 由於證券業的薪資資料中存在極端值, 故其平均數 ( 萬 ) 與中位數 (.5 萬 ) 差異較大, 去除該極端值後所計算的平均值 (. 萬 ) 與中位數較接近 銀行業薪資資料並無極端值存在, 故其平均數 ( 萬 ) 與中位數 (.5 萬 ) 較接近 8 中心位置各統計測量數的比較與選擇 統計測量數 優點 缺點 算術平均數. 資料的重心 資料無極端值或偏態時, 具代表性. 適合代數演算. 考慮所有觀察值, 敏感度高. 觀察值與平均數差平方和最小 5. 適合統計推論的工作. 若有極端值存在時則不具代表性. 資料如為偏態, 則代表性較差 幾何平均數 中位數 眾數. 適合等比資料. 敏感度高. 適用於有極端值的資料. 適用於偏態資料. 觀察值與中位數絕對差和最小. 可做無母數統計推論. 適用於有極端值的資料. 適用於偏態資料. 適用於質的資料. 不適合一般資料. 不適合作統計推論. 不適合代數演算. 對觀察值敏感性低. 不易進行母數統計推論. 可能不止一個或不存在. 敏感性低. 不能做統計推論

未分組資料等分位置的衡量四分位數 (quartls) 四分位數是將順序資料分成四等分數值的分位數 四分位數有第 第 第 三個四分位數 四分位數的基本想法 : 將觀察值從最小值到最大值分成四等分, 每一等分各佔 5% 的分位數 ( 分割點 ) 若以 Q (,,) 來表示第 個四分位數, 則至少有 的觀察值小於等於 Q, 而且至少有 的觀察值大於等於 Q 四分位數的求算 : 假設觀察值個數有 個, 且已經由小至大排序 第 四分位數 : 計算 K, 若 K 為整數, 則 Q 為第 K 個與第 K + 個觀察值的平均數 ; 若 K 不是整數, 則將 K 無條件進位 ( 設其為整數 M), 則 Q 為第 M 個觀察值的數值 第 四分位數 : Q 就是中位數 十分位數 (dcls) 十分位數是將順序資料的觀察值均分為十等份數值的分割數 十分位數有 9 個, 將第 個十分位數記為 D (,,...,9 ), 則至少有 的觀察值小於等於 D, 而且至少有 的觀察 值大於等於 D 十分位數的求算 : 假設觀察值個數有 個, 且已經由小至大排序 計算 K (,,...,9 ) 若 K 為整數, 則取第 K 個與第 K + 個觀察值的平均數為第 個十分位數 D 若 K 不是整數, 則將 K 無條件進位 ( 設其為整數 M), 取第 M 個觀察值為第 個十分位數 D 例子 : 某班級 8 個學生的學期成績如下 ( 已依大小排序過 ) 78 79 8 8 8 8 8 8 8 85 8 87 88 89 9 9 9 95 第 四分位數 : 計算 K, 若 K 為整數, 則 Q 為第 K 個與第 K + 個觀察值的平均數 ; 若 K 不是整數, 則將 K 無條件進位 ( 設其為整數 M), 則 Q 為第 M 個觀察值的數值 例子 : 假設有 9 個高中男生的體重 ( 單位 : 公斤 ) 如下 [ 已經排序過 ] 55 57 7 7 75 8 四分位數分別為 9 Q : K.5, 無條件進位為, 故第 個觀察值為 Q, 亦即 Q [ 有 9 的觀察值 ( 已超過 5%) 小於等於 7 Q, 有 9 的觀察值 ( 已超過 75%) 大於等於 Q ] + 9+ Q : 因觀察值個數為奇數, 故中位數為第 5 個觀察值, 因此 Q 9 Q : K.75, 無條件進位為 7, 故第 7 個觀察值 Q, 亦即 Q 7 為 8 5 D 5 : K 9, 故取第 9 個與第 個觀察值的平均 8+ 85 數為第 5 個十分位數, 即 D 5 8.5 8 8 D 8: K., 無條件進位為 5, 故第 5 個觀察值為第 8 個十分位數, 即 D 8 9 其餘分位數分別為 : D 79 D 8 D 8 D 8 D 8 D 7 88 D 9 9, 請自行練習 百分位數 (prctls) 百分位數是將順序資料的觀察值均分為一百等分數值的分割數 百分位數有 99 個, 第 個百分位數記為 P (,,...,99 ), 至少有 的觀察值小於等於 P, 而且至少有 的觀察值大於等於 P 百分位數可讓我們立即得知, 比某個觀察值大或小的資料之約略比率

例如 : 若某個觀察值介於第 85 個百分位數與第 8 個百分位數間, 即可知 比該觀察值小的資料佔了 85%, 比該觀察值大的資料佔了 5% 當資料個數太少時, 求算百分位數是一件不切實際的事, 因為會大部分的百分位數都是重複的 此時若依然想知道某觀察值在資料當中的相對位置, 可利用百分位比公式 百分位比公式 : 欲計算某個特定的觀察值在一群資料中的相對位置, 可依底下公式計算小於該觀察值的資料比率小於該觀察值的資料個數 +.5 百分位比 % 觀察值的總個數 例子 : 個大學男生鞋子的尺寸 ( 單位 : 英吋 ) 為 8 9 9 8 9 若我們想知道 英吋的百分位比為何, 可先將資料排序為 8 8 9 9 9 5 五數綜合 - 盒鬚圖分析法 從平均數 中位數 分位數, 可知道資料的中心位置及資料等分位置的情形, 但無法知道整個資料的分布情形 若想迅速得知資料的分布情形, 可利用第 四分位數 ( Q ) 中位數 ( m ) 第 四分位數 ( Q ) 最小值(m) 最大值(ma) 來表示資料的分布, 稱為五數綜合 (fv umbr summary), 並可畫成盒鬚圖 (bo-ad-whsr plot), 以更清楚得知資料的分布 例子 : 兩個證券營業員最近 8 個星期的股票交易手續費收入 ( 單位 : 萬元 ) 如下 鍾樂水 78 8 9 7 朱碧霞 8 88 9 9 8 8 鍾樂水業績的五個數字 : m Q.5 m 8 Q ma 7 7 比 英吋小的觀察值個數有 9 個, 因此其百分位比為 9+.5 % 79.7% 根據 英吋的百分位比 79%, 我們可以說 有 79% 的大學男生鞋子尺寸小於 英吋, 有 % 的大學男生鞋子尺寸小於 英吋 百分位數的求算 : 假設觀察值個數有 個, 且已經由小至大排序 計算 K (,,...,99 ) 若 K 為整數, 則取第 K 個與第 K + 個觀察值的平均數為第 個百分位數 P 若 K 不是整數, 則將 K 無條件進位 ( 設其為整數 M), 取第 M 個觀察值為第 個百分位數 P 中位數 三種分位數間之關係 m Q D5 P5 Q P 5 Q P 75 D P 鍾樂水業績的盒鬚圖 : () 畫出盒子 : 以 Q 及 Q 為盒子的邊界 ; 該盒子顯示了包含的 5% 資料的範圍, 該範圍稱為四分位距 (IQR) () 在盒子中畫一條垂直線代表中位數 : 中位數將盒子中的資料分成兩等分 ( 各 5%), 中位數是資料的中心位置 () 從盒子的左邊畫一條虛線到最小值, 右邊畫一條虛線到最大值 ; 虛線就是所謂的鬍鬚, 代表資料的分散情形 朱碧霞 鍾樂水 極小值 極小值 中位 Q 數 中 位 Q 數 Q Q 極大值 極大值 8 8 8 8

盒鬚圖的意義 : () 盒子的寬窄可知居中 5% 資料的分散或集中情形 : 盒子很寬表示居中 5% 資料分散度大, 反之, 則小 () 盒子的位置顯示資料的偏態 : 居中表示對稱 ( 左右鬍鬚長度相當 ), 居左表示右偏 ( 右邊鬍鬚較長 ), 居右表示左偏 ( 左邊鬍鬚較長 ) 鍾樂水業績盒鬚圖的解釋 : 盒子的寬度不大, 資料分散程度不大 ; 由盒子位置 ( 鬍鬚相對長短 ) 可知是一個右偏分配 根據朱碧霞業績的五個數字亦可畫出其盒鬚圖 : m Q 85 m 9 Q 8 ma 兩盒鬚圖比較 : 朱碧霞業績的盒子較窄, 表示其業績較集中 ; 朱碧霞業績的盒子位於鍾樂水的右邊, 顯示整體業績狀況較佳 ; 朱碧霞業績的鬍鬚都比鍾樂水短, 表示其業績分散程度較小 ; 而且朱碧霞的業績分布也較為對稱 總結 : 朱碧霞的業績比鐘樂水好, 且較穩定 9 在比較兩組資料時, 不能僅依靠中心位置測量數, 亦應考慮資料的分散程度 例如 :A( 左圖 ) B( 右圖 ) 兩檔股票價格的次數分配圖 ; 假設 A B 兩檔股票的平均價格相同 ( 都是 5 元 ), 但 A 股票的價格分布較集中 ( 集中於 5 元附近 ),B 股票價格的變異程度則較大 ( 最高可能上漲至 58 元, 最低可能下跌至 元 ) B 股票的價格較有可能劇烈漲跌, 雖然其平均價格跟 A 股票相同, 因此對投資人而言,B 股票的投資風險相對較高 ( 大跌的機率較高 ) 次數 8 7 8 9 5 5 5 5 5 55 股票價格 次數 8 5 7 8 9 5 55 5 5 55 5 57 58 股票價格 未分組資料分散度的衡量 直方圖與盒鬚圖 ( 五數綜合 ) 可看出資料的分散程度, 但畢竟只能給我們一個粗略的印象, 最好還是用精確的統計測量數來衡量 為何討論資料的分散程度 ( 變異性 ) 是一個重要的問題 當分散程度很小時, 資料大多集中於平均數附近 ( 如銀行業的月薪 ), 則平均數是一個良好的中心位置代表性指標 ; 相反地, 若資料的分散度很高 ( 如證券業的月薪 ), 則平均數就不是一個良好的代表性指標 眾數 中位數 5 平均數 證券業的平均月薪之點圖 眾數 7 中位數 8 平均數 9 銀行業的平均月薪之點圖 分散程度 (dsprso) 或變異性 (varablty) 的測量數有 : 全距 (rag) 四分位距(trquartl rag; IQR) 平均絕對離差(ma absolut dvato; MAD) 變異數(varac) 標準差(stadard dvato) 變異係數(coffct of varac) 全距 (Rag; R) 觀察值中最大值 (ma) 與最小值 (m) 的距離, 以符號 R 表示 R 最大值 最小值 ma m 全距 (R) 越大, 表示分散程度越大 例子 : 銀行業薪資資料的 m ma, 因此其全距 R 7 證券業薪資的 m ma, 全距 R 由此可知, 證券業薪資的差異較大 以全距衡量分散程度的缺點 資料單位不同時不能比較 例如台北市一月的氣溫 ( 度 ) 與七月的降雨量 ( 公厘 ), 無法根據全距的大小比較其分散程度

就算兩筆資料的單位相同 且全距也相同, 也不代表兩筆資料的分散程度一定相同 例如 : 假設底下兩筆資料的分配具有相同的全距, 但其分散程度卻是明顯地不相同 f( ) 全距 全距只考慮最大與最小兩個觀察值, 並未考慮所有的觀察值, 故不能精確地反應全體觀察值的分散情形 易受極端值影響 離均差 (dvato about th ma) 平均數的離差 離差: 每一觀察值與平均數間的差距 若,..., 等 個觀察值是變數 的樣本資料, 則該樣本的離均差即為 [ 母體資料有類似的定義 ] 小於平均數的觀察值其離均差為負值, 大於平均數的觀察值其離均差則為正值 離均差的絕對值越大, 表示該觀察值距離平均數越遠 若要考慮整體資料的離散情形, 應將所有的離均差納入考量, 但若使用離均差的平均值並無意義, 因為離均差的總 和為零 ( ), 所以離均差的平均值為零 較好的方法是僅計算離均差的大小, 不考慮正負號, 將所有, 計算所有離均差絕對值的平均值, 即平均絕對離差 5 四分位距 (trquartl rag; IQR) 針對全距易受極端值影響的缺點加以改進 四分位距 (IQR) 是第 四分位數與第 四分位數的距離 IQR 第 四分位數 第 四分位數 Q Q 以中間 5% 資料的全距 ( 頭尾值的差距 ) 來衡量分散程度 IQR 越大, 分散程度越大 例子 : 在高中男生體重的例子中, Q Q 7, 因此 IQR Q Q 7 平均絕對離差 (ma absolut dvato; MAD) 我們偏好以平均數衡量資料的中心位置, 主要是因為它使用了所有的觀察值 在衡量分散度時, 最好也將所有觀察值納入考量 平均絕對離差 變異數 標準差衡量分散度的指標, 就使用了所有的觀察值 平均絕對離差 : 所有觀察值與平均數之離均差絕對值的平均數, 平均絕對離差越大代表資料的分散程度越大 母體平均絕對離差 : 若,..., 等 個觀察值是變數 的母體資料, 則母體平均絕對離差為 [ μ 為母體平均數 ] MAD μ 樣本平均絕對離差 : 若,..., 等 個觀察值是變數 的樣本資料, 則樣本平均絕對離差為 [ 為樣本平均數 ] mad 例子 : 從台北縣新莊市到台北市上班有兩條路可走 : 一條經三重到台北 ( 縱貫路 ), 一條經泰山走中山高速公路 ( 中山高 ) 到台北 我們想知道哪條路較好走, 分別記錄兩條路線 5 天的行車時間 ( 單位 : 分鐘 )

兩條路的行車時間平均都是 8 分鐘, 這表示走哪條路都一 樣嗎? 那可不一定, 我們從行車時間分散程度的角度來看 縱貫路的全距為 8 分鐘, 平均絕對離差為 5 分鐘 ; 中山高的全距為 55 分 鐘, 平均絕對離差為 5 9. 中山高行車 時間的差異程度較大 ; 為了準時上班, 請問你選哪條路? 縱貫路 中山高 開車時間 開車時間 7 - - -5 5 9 7-8 -7 7 55 7 7 合計 合計 7 樣本變異數 : 若,..., 等 個觀察值是變數 的樣本資料, 則樣本變異數為 [ 為樣本平均數 ] S ( ) 由於 ( ) ( + ) + + 故樣本變異數又可表達為 : S 註 : 樣本變異數公式中, 分母是除以, 而不是除以 ; 這是因為要計算變異數, 必須先計算平均數, 因此樣本觀察值喪失了一個自由度 (dgr of frdom) 變異數的性質 變異數的值大於等於, 若變異數為 時, 其意義是所有觀察值均相同, 沒有變異 ( 分散程度 ) 9 變異數 (varac) 雖然離差的絕對值是衡量觀察值與平均數距離的最佳方法, 但由於絕對值的代數運算較為複雜, 因此較難進行統計推論 另一個衡量觀察值與平均數距離的方法, 是將離差取平方 ( 同樣可將負離差變成正數 ), 分散程度則以離差平方的平均數來衡量, 這就是平均平方離差 (ma squard dvato) 或變異數 變異數 : 觀察值與平均數之離差的平方的平均數 母體變異數 : 若,..., 等 個觀察值是變數 的母體資料, 則母體變異數為 [ μ 為母體平均數 ] σ ( μ) 由於 ( ) ( ) μ μ μ + μ + μ μ + μ μ 故母體變異數又可表達為 : σ μ 8 若同一組資料單位不同, 其變異數亦不相同 若資料單位相同時, 變異數可作比較 變異數考慮了每一個觀察數值 適合代數運算 適合利用樣本變異數對母體變異數做統計推論 具有複名數 ( 如 : 元 ), 不易解釋 如電腦價格的變異數的 單位為平方元 ( 元 ), 不具意義 標準差 (stadard dvato) 變異數具有複名數, 因此不易解釋 若將變異數開根號, 所得到的數字之單位與原始資料單位相同, 解決了變異數複名數的缺點 變異數開根號所得到的數字稱為標準差 變異數為 觀察值與平均數的平均平方距離 標準差可解釋成 觀察值與平均數的平均距離 變異數具有的性質 ( 除了複名數 ), 標準差均有

標準差之定義 : 母體標準差 : σ σ 樣本標準差 : S S 例子 : 縱貫路與中山高行車時間的變異數與標準差 兩條路行車時間樣本觀察值的離均差 離均差平方 離均 差平方總和計算如下表 : 縱貫路 中山高 開車時間 ( ) 開車時間 ( ) 7 - - -5 5 9 7-8 -7 9 55 7 89 合計 合計 全距 四分位距 平均絕對離差 變異數 標準差, 衡量的都是資料的 絕對分散程度 若有兩組資料, 想要比較這兩組資料的 相對分散程度 時, 變異數 ( 標準差 ) 會受到平均數的大小以及衡量單位不同的影響, 不能直接用變異數 ( 標準差 ) 來比較兩組資料的分散程度 此時應以變異係數為之 變異係數 (coffct of varato;cv):carl Parso 所提出 變異係數 : 標準差除以平均數, 衡量每單位平均數的分散程度標準差變異係數 ( CV ) 平均數 母體變異係數 :CV σ μ S 樣本變異係數 : CV 縱貫路行車時間的變異數為 S ( ) 5 8.5 標準差為 S S 8.5.9 中山高行車時間的變異數為 S ( ) 5 5 標準差 S S 5.5 由標準差的數值可知, 中山高行車時間的分散程度大於縱貫路 ; 亦即行車時間的變異程度較大 Rmar: 標準差是以平均數為中心的分散度, 當我們以平均數來描述資料的中心位置時, 才能以標準差來衡量資料的分散程度 例如 : 當資料存在離群值時, 平均數不具中心位置的代表性, 此時以標準差 ( 變異數 ) 衡量分散程度已不可靠 例子 : 兩基金投資報酬率的差異 假設有兩檔基金過去一段時間報酬率的平均數與標準差如下 : 基金類別平均數 (%) 標準差 (%) 甲基金.. 乙基金 7..87 財務金融領域通常用標準差來代表風險程度 投資人通常喜歡高報酬率, 但不喜歡風險 甲基金的平均報酬率較高, 但乙基金的風險則較低 ; 此時哪個基金才是較佳的投資標的呢? 我們可比較兩基金的變異係數 甲基金 CV.% /.%.59 乙基金 CV.87% / 7.%.8 此例中, 變異係數可解釋成 平均每一單位報酬率所承擔的風險程度 甲基金每單位報酬率所承擔的風險較低, 故甲基金是較佳的投資標的

柴比氏定理與經驗法則 若我們知道某個變數之資料的平均數與標準差, 透過柴比氏定理與經驗法則, 我們即可得知該變數資料的約略分布情形 柴比氏定理 (Chbyshv Thorm): 設 為一隨機變數, 其平均數為 μ, 變異數為 σ, 則對任何正數 > 而言 P( μ < σ) 或 P( μ σ) [ 證明 ] 留待上到第七章後再證明 不論資料為何種分配, 至少有 ( / ) 的資料落在距離平均數 個標準差的範圍內 為大於 的任意數, 即 > 5 經驗法則 (mprcal rul): 日常生活中經常會發現許多資料的分布型態為鐘形 (bllshapd dstrbuto), 此時可用經驗法則判斷資料落於某一範圍內的機率 若資料為鐘形分配 [ 亦即常態分配 ], 則有 8% 的觀察值落在 ± S 內, 有 95% 的觀察值落在 ± S 內, 有 99.7% 的觀察值落在 ± S 內 [ 與柴比氏定理不同, 經驗法則指定分配 ] f ( ) S S S 99.7% 95% 8% + S + S + S 7 不管資料的分配型態為何, 只要知道資料的平均數與變異數, 柴比氏定理即可推測資料位於某一範圍內的比率 ( 下限 ) 若, 則至少有 75% [ / / /] 的觀察值落在距離平均數兩個標準差之內, 即 ± S內 [ μ± σ ], 或表為 ( S, + S) [( μ σ, μ+ σ) ] 若, 則至 少有 89% [ / / 8/9] 的觀察值落在 ± S內 [ μ± σ ] 若, 則至少有 9% [ / / 5/] 的觀察值落在 ± S內 [ μ± σ ] 例子 : 某班 個學生統計學的平均成績為 75 分, 標準差為 5 分 則根據柴比氏定理, 統計學成績在 ± S 75± 5 5 ~ 85 分的同學至少有 75 個 ; 成績在 ± S 75± 5 ~ 9 分的同學至少有 89 個 ; 成績在 ± S 75± 5 55 ~ 95 分的同學至少有 9 個 Z 值 (Z scor) 若資料的型態為鐘形時, 為瞭解某觀察值在資料中的相對位置, 可計算該觀察值的 Z 值 [ 將觀察值與平均數的差距表達成標準差的倍數 ] Z 值 : 觀察值減去平均數再除以標準差 ( 或稱標準化 ) 樣本觀察值 值的 Z 值 : S 母體觀察值 值的 Z 值 : μ σ 例子 :A 班學生的平均成績為 75 分, 標準差為 分,A 班的甲學生成績為 7 分, 則甲學生的 Z 值為 (7 75) /.5; 甲學生的分數低於平均數.5 個標準差 B 班學生的平均成績為 5 分, 標準差為 分,B 班的乙學生成績為 7 分, 則乙學生的 Z 值為 (7 5) /.5; 乙學生的分數高於平均數.5 個標準差 兩學生的分數同為 7 分, 但其分數在班上的地位不同 8

未分組資料偏度與峰度的衡量 偏態的方向可分為對稱 右偏 左偏三種 ( 對稱分配 ) ( 左偏分配 ) ( 右偏分配 ) f() 中位數 平均數 眾數 f() 平均數中位數眾數 f() 眾數中位數平均數 對稱 : 平均數 中位數 眾數 左偏 : 平均數 < 中位數 < 眾數 右偏 : 平均數 > 中位數 > 眾數 皮爾生 (Karl Parso) 偏態 (swss) 係數 : 以平均數與眾數的差距跟標準差的比值來衡量偏態情形 9 動差法的偏態係數 : 階中央動差與 階中央動差 次方的比值 母體 r 階中央動差 (rth ctral momt): 若,..., 等 個觀察值是變數 的母體資料, 則母體 r 階中央動差為 r Mr ( ) μ [μ 為母體平均數 ] () 當 r, M ( μ), 為母體平均離差 () 當 r, M ( μ) σ, 為母體變異數 () 當 r, M ( μ), 可用來衡量偏態 () 當 r, M ( ) μ, 可用來衡量峰度 樣本 r 階中央動差 : 若,..., 等 個觀察值是變數 的樣本資料, 則樣本 r 階中央動差為 r mr ( ) [ 為樣本平均數 ] 5 母體 : 若取得母體資料, 而母體資料的平均數為 μ, 標準差為 σ 眾數為 M, 則皮爾生偏態係數定義為 μ M SK p σ 樣本 : 若取得樣本資料, 而樣本資料的平均數為, 標準差為 S 眾數為 m, 則皮爾生偏態係數定義為 SK p m S 偏態情況與皮爾生偏態係數 ( SK p ) 的對應關係 () 對稱 : 平均數 眾數, 所以 SK p () 左偏 : 平均數 < 眾數, 所以 SK < p () 右偏 : 平均數 > 眾數, 所以 SK > p SK p 越大, 表示資料的分布越具偏態 皮爾生偏態係數最大的缺點 : 若資料的眾數有很多個 或不存在時, 無法計算偏態係數 5 偏態係數 : M 母體 : α / ( M ) m 樣本 : α / ( m ) () 當 α 時, 為對稱分配 () 當 α > 時, 為右偏分配 ( 正偏分配 ) () 當 α < 時, 為左偏分配 ( 負偏分配 ) () 若 α.5, 則為趨於對稱的分配 ; 若.5 < α, 則為稍具偏態的分配 ; α > 則是極為偏態的分配 峰度 (urtoss): 當資料的分配有集中趨勢時, 就會有峰的出現 峰的形態視次數分配集中於平均數 眾數附近的程度, 或分散於兩端的情形而定 5

f ( ) 常態峰 高峽峰 平闊峰 常態峰 (mso urtoss): 資料的分配呈現一般 ( 正常 ) 形態 [ 峰度與鐘形分配或常態分配一樣 ] 高狹峰 (lpto urtoss): 資料的分布集中於平均數或眾數附近 [ 峰度比鐘形分配或常態分配還大 ] 平闊峰 (platy urtoss): 資料的分布較平均分散於兩端 [ 峰度比鐘形分配或常態分配小 ] 5 分組資料中心位置的衡量 假設已將原始資料經過分組, 分組後之資訊如下 [ 令 f ] 組號 組限 組中點 ( ) 次數 ( f ) 累加次數 ( F ) L < L F L < L f F L < L + f F 算術平均數 : 計算算術平均數必須知道所有觀察值的總和, 但分 組資料並無法得知每個觀察值的實際數值, 因此以每組的組中點 取代觀察值, 各組總和為組中點與該組次數之乘積 故平均數為 f f 55 峰度係數 : 階中央動差與 階中央動差平方的比值 M m 母體 : α 樣本 : α ( M ) ( m ) () 峰度係數一定為正數 () α 為常態峰 ; α > 為高狹峰 ; α < 為低闊峰 如何檢查極端值 (outlrs): 所謂極端值是指與其他大部分的數值比較起來為極小或極大的數值, 利用下列步驟可檢查資料是否有極端值 步驟 : 將觀察值由小而大排列步驟 : 計算出第 四分位數 Q 與第 四分位數 Q 步驟 : 計算四分位距 IQR Q Q 步驟 : 計算 Q. 5 IQR 及 Q +. 5 IQR 步驟 5: 若觀察值 小於 Q. 5 IQR 或大於 Q +. 5 IQR 則為極端值 5 + 中位數 : 先計算 或 [ 中位數位置 ], 確認中位數位於哪一組 假設 L m 為中位數 ( m ) 所在組的組下限, W m 為 m 所在組的組距, f m 為 m 所在組的組次數, F L 為 m 前一組的累加次數, 則 F L m Lm + W m f m 眾數 ( 粗略法 ): 找出次數最多的那一組, 以該組的組中點為眾數 ( 組上界 + 組下界 ) m 例子 : 海之濱營業收入的中心位置 平均數 : 根據下表的資料及平均數的公式可知 f 95 5. f 5

+ + 中位數 : 因 [ 為奇數 ], 故中位數位於第 組 (5 < ) 因此 L m 5 W m f m 8 F L, 故中位數為 F L m Lm + W 5 5.7 m + f m 8 眾數 : 次數最多的是第 組 ( 5 < ), 因此粗略法眾數 5+ 為 m 55 57 十分位數 : 找出 位於哪一組 ( D 的位置 ); 假設 L D 為 D 所在組的組下限, W D 為 D 所在組的組距, f D 為 D 所在組的組次數, F D 為 D 前一組的累加次數, 則第 個十分位數 D 為 FD D LD + W D fd 百分位數 : 找出 位於哪一組 ( P 的位置 ); 假設 L P 為 P 所在組的組下限, W P 為 P 所在組的組距, f P 為 P 所在組的組次數, F P 為 P 前一組的累加次數, 則第 個百分位數 P 為 FP P LP + W P fp 例子 : 某學校大一英文成績的次數分配如下表所示, 第 四分位數 ( Q ):.5, Q 位於第 組 (~7), 故 L Q W Q f Q F Q 5, 因此 Q 為 59 分組資料等分位置的衡量 四分位數 第 四分位數 ( Q ): 找出 位於哪一組 ; 假設 L Q 為 Q 所在組的組下限, W Q 為 Q 所在組的組距, f Q 為 Q 所在組的組次數, F Q 為 Q 前一組的累加次數, 則 FQ Q LQ + W Q fq 第 四分位數 ( Q ): 與中位數相同 第 四分位數 ( Q ): 找出 位於哪一組 ; 假設 L Q 為 Q 所在組的組下限, W Q 為 Q 所在組的組距, f Q 為 Q 所在組的組次數, F Q 為 Q 前一組的累加次數, 則 FQ Q LQ + W Q f Q 58 FQ 5 Q LQ + W 8. Q + fq 第 十分位數 ( D ):. 位於第 5 組 (7~8), 故 L D 7 W D f D 8 F D 9, 因此 D 為 F D 9 D LD + W 7 79. D + f 8 D 組號 組限 次數 累加次數 ~ ~5 5~ 5 ~7 9 5 7~8 8 7 8~9 7 9~

分組資料分散程度的衡量 - 變異數與標準差 與算術平均數的計算一樣, 由於無法得知每個觀察值的實際數值, 因此以每組的組中點與平均數的差距取代個別觀察值的離均 差, 所以每組的離差平方和為 ( μ) f或 ( ) f 母體變異數與標準差 [ 令 f ] σ ( μ) f σ σ 樣本變異數與標準差 [ 令 f ] S ( ) f S S 例子 : 海之濱營業額的變異數與標準差 稍早已算出 5., 據此可算出每組組中點的離均差 ; 根據下表中的每組離差平方 和, 可知 ( ) f 7.98, 故海之濱營業額的變異數為 另一種分組資訊 假設已知每組的次數 平均數 變異數 :[ 假設為樣本資料 ] 組號變數符號 ( ) 觀察值個數 ( ) 平均數 ( ) 變異數 ( S ) S S S 則整體資料的算術平均數 變異數為何 ( 數之資料的整體算術平均數 變異數為何 )? 算術平均數 :[ 若為母體資料結果相同 ] 等變 S ( ) 7.98 9. f 標準差為 S S 9. 5. [ 證明 ] 令 j 代表變數 的第 j 個觀察值,,, j,,, 則變數 的觀察值總和為 j j [ ] 因此, j + + j j j + j j j j + + + [ 簡單證明 ] 每一組的觀察值總和為, 故整體資料的總和為, 由於全部觀察值個數為, 因此整體的平均數為

特例 : 若有兩組母體資料, 其分別以 表示, 其觀察值個數分別為 與, 平均數分別為 μ μ, 則 與 兩組資料之總平均 μ 為 : μ + μ μ + 變異數 : ( ) ( ) S + S [ 證明 ] 令 j 代表變數 的第 j 個觀察值, 為整體平均數, 則根據 ( 樣本 ) 變異數之定義 S ( j ) [( j ) ( )] j + j σ σ + ( μ μ) [ σ + ( μ μ) ] 式中 為各組之觀察值個數, σ 為各組之母體變異數, μ 為各組之母體平均數, μ 為整體之母體平均數 特例 : 設 與 為兩母體, 其平均數與變異數分別為 μ μ 及 σ σ, 則兩母體的全體變異數為 : [ ( ) σ + μ μ σ { [ σ + ( μ μ) ] + + μ + μ 式中 : μ ( 兩母體之全體平均數 ) + ]} 5 7 [( j ) ( j )( ) ( ) ] j + + + + ( j ) ( j )( ) ( ) j j j ( j ) ( ) + j j ( ) S ( ) + 式中用到 ( ) j ( j ) ( ) 因 ( ) j j 為第 組離均差之和, 故 ( ) j j 若為母體資料, 則整體變異數僅需將 ( ) 取代成, 將 ( ) 取代成 即可, 亦即