蔡佳泓 國立政治大學東亞所 蔡佳泓
描述統計 以最有效率的方式描述量化或類別變數的重要特徵 例如 : 都市化 經濟成長率 競爭力 例如 : 性別 教育程度 蔡佳泓
次數分配表 次數 村代會 村委會 黨支部 聯席會議 其他 總數 蔡佳泓
長條圖 適用於類別變數, 可表示各類別的次數 百分比等 可找出相對多數的類別 蔡佳泓
蔡佳泓
蔡佳泓
直方圖 適用於連續變數 ( 如果太過離散則需要適當地分組 ) 可表示變數中各個值的次數 百分比 密度等 若用於百分比, 直方的高度累加 ( 類似百分比的長條圖 ) 用於密度, 可加上平滑曲線, 曲線下的面積, 而直方的總面積 蔡佳泓
蔡佳泓
莖葉圖 用於量化變數, 可表示次數的分佈情形 莖代表至少 位數, 葉代表觀察值最末一位 葉有可能自動四捨五入進位莖可能因為尺度一致而進位 蔡佳泓
某大學的各班修課人數的調查結果如下 : 蔡佳泓
某鄉鎮的五月新生兒人數的調查結果如下 : 蔡佳泓
蔡佳泓
中央趨勢 用一個統計值描述資料的分佈眾數中位數百分位數平均數 蔡佳泓
眾數 適用於質化及量化變數 定義為發生最多次的那一個值 有可能超過一個 蔡佳泓
蔡佳泓
平均數 用在量化變數或是二元變數 可以想成是觀察值的平衡點 : 比平均值大的數的總和等於比平均值小的數的總和的絕對值 會受到極端值的影響 可以考慮去掉頭尾的極端值再求平均數 數學上又稱為變數的第一個矩 因為變數的矩定義為: µ = ( ) () 1 第二個矩是變異數, 也就是 ( ) 2 或者是 ( 2 ) () 2 蔡佳泓
平均數計算方式 1 = 6, 7, 8, 8, 9, 10, 13, 15, 16, 45 1 = (6+7+,+45) 10 2 = 1, 6, 7, 8, 8, 9, 10, 13, 15, 16, 51 1 2 假設觀察值分為 = 1 個組, 每一組有 1, 2, 人, 每一組平均數為 1 2, 則全體的平均數為 : 蔡佳泓
百分位數及中位數 第 個分位數表示 的數比它大, 的數比它小 可以是實際存在的數, 也可以是計算所得 蔡佳泓
及 百分位 將數值由小到大排序後, 將資料分成四等份, 產生三個四分位數, 每等份有 的資料, 為第一四分位數, 相當於第 百分位數, 有 的資料小於或等於它 為第二四分位數即中位數, 為第三四分位數, 相當於第 百分位數, 有 的資料大於或等於它 原則上在小於中位數的一半觀察值以及大於中位數的另一半觀察值之中, 分別找出其中位數 前者稱為 分位數, 後者則是 分位數 例 : = 1, 1001, 1002, 1003 百分位 = 4 50 100 = 2.5 因為 落在 及 中間, 所以 0.5 1001 + 0.5 1002 = 1001.5 百分位 = 4 25 100 = 1.5 因為落在 及 中間, 所以 0.5 1 + 0.5 1001 = 751 百分位 = 4 75 100 + 0.5 = 3.5 0.5 1002 + 0.5 1003 = 1002.5 蔡佳泓
實例 例 : = 2, 3, 4, 7, 9, 10, 12, 12 中位數 2 +1 4 = 4.5 因為落在 中間所以 : 7 + 0.5 (9 7)8 分位數 = 1 8+1 4 = 2.25 因為位於 及 之間故 : 3 + 0.25 (4 3) = 3.25 分位數 = 0.75 (8 + 1) = 6.75 10 + 0.75 (12 10) = 11.5 蔡佳泓
百分位數計算方法 假設有 個數, = 1,,, 第 個數的百分位數為 : = 100 0.5 反過來說, 如果要求出 百分位數是第幾個數, 則可用以下方式 : = 100 + 0.5 例如 : = 1, 2,, 11. 百分位數 75 11 100 + 0.5 = 8.75 R 的 quantile() 指令的第五種 (type=5) 蔡佳泓
比較各種計算方法 根據 的第 頁的 資料, 根據 種公式可求出 如下 : 蔡佳泓
計算的結果 第 種是 SPSS 採用的, 第 種是 R 內定的 SPSS 先算 = ( + 1), 然後算 + ( )( +1 ) 代表整個數列, 為無條件捨去小數點後的數字 rate 統計量 個數有效的遺漏值百分位數 25 50 75 50 0 3.875 6.700 10.325 蔡佳泓
分組資料的中位數 假設有 個組, 按各組的性質加以排序之後, 計算中位數, 視該中位數落在那一組 見 蔡佳泓
偏態值 測量資料是否分佈對稱 正偏 : 右邊的尾巴較左邊長, 眾數偏左左 負偏 : 左邊的尾巴較右邊長, 眾數偏右 常態分佈的偏態值 = 樣本偏態值 = ( 1)( 2) ( ) 3 有偏態時須注意平均值是否會誤導 3 蔡佳泓
蔡佳泓
峰度 測量資料的分佈是高聳或是平坦 越平坦則兩邊尾部越長, 越高聳則是靠近平均值的部份越集中 偏態是第三個矩, 峰度是第四個矩計算峰度的公式 : 2 = 1 1 ( ) 2 4 = 1 ( ) 4 4 2 2 3 ( 1) 不同統計軟體計算峰度的公式略有不同, 如果用 R, 可以用 e1071 這個包裹裡面的 kurtosis, 用 type 指令選擇 可得到跟 一樣的答案 樣本數目越大, 理論上各種計算方式的結果越接近 蔡佳泓
蔡佳泓
蔡佳泓
離散 全距 : 最大值及最小值的差距 若是常態分佈, 全距約等於六個標準差 不同樣本的平均數相同, 全距可能不同 平均值不同, 全距可能相同 全距不受到特殊觀察值的影響 蔡佳泓
變異數 樣本變異數 : 母體變異數的無偏估計 2 = 1 1 ( ) 2 代表觀察值與平均數之間的差距 樣本標準差為變異數的平方根 如果樣本來自二元分佈, 即, 則樣本標準差為 : (1 ) 1 蔡佳泓
標準差 大於或等於 因為是樣本標準差, 故用 當分母 如果樣本成常態分配, 利用微積分可求出平均數的 ± 個標準差包含約 的樣本 ± 個標準差包含約 的樣本 ± 個標準差包含約 的樣本 例如我們有一筆 位員工薪資的資料, 畫成長條圖近似常態分配 經過調整成平均值, 標準差 之後, 一個標準差大約佔 的面積, 兩個標準差佔 的面積 標準化常態分佈 :ϕ() = (0, 1) = 1 2π ( 2 2 ) 蔡佳泓
長條圖 蔡佳泓
常態分佈圖 蔡佳泓
標準化常態分佈 蔡佳泓
標準化常態分佈 蔡佳泓
實例 年的中國 春運, 據估計有 億的旅客運量 假設把所有轉車都算成一次, 各大車站估計旅客人數 ( 單位 : 萬 ) 為 50, 52, 55, 28, 30, 35, 40, 49, 32, 19, 15, 61, 43, 47, 44, 70, 83, 66, 88, 85, 36, 3 等 計算平均值以及標準差 由此可知 的車站的估計旅客人數落在 萬及 萬之間, 也就是在 萬與 萬之間 蔡佳泓
蔡佳泓
標準差的另一種求法 由於平均數的 ± 三個標準差包含 的樣本, 如果知道樣本的平均數跟最大值及最小值, 而且樣本成常態分佈, 便可以估計標準差, 也就是 6 例如, 據說愛因斯坦 莫扎特智商, 一般人智商分佈在 以 145 55 及 之間, 平均智商為, 標準差為 6 = 15, 所以智商 到 的人約有 蔡佳泓
標準差的特性 改變樣本的單位, 標準差也會改變 例 : σ = σ = 加減樣本的值會改變平均值, 但是不會改變標準差 如果 =1 ( ) 變成 (( + ) + ), 那麼 ( + ) = + = ( ) 蔡佳泓
變異數的特性 () = () = () = 2 ( []) 2 () 2 ( []) 2 () ( []) 2 () () = 2 () ( + ) = () + () ( 2 ) = ( 2 ) (( )) 2 蔡佳泓
實例 () = 4. = 1 2 ( 1) () = ( 1 ( 1)) 2 = ( 1 2 1 2 ) = ( 1 2 )2 () = 1 4 4 = 1 蔡佳泓
四分位差 分位距與 分位之間的差距, 表示中位數附近的數的範圍 不受到極端值的影響 如果數值大於 百分位 個, 或小於 百分位 個, 稱為界外值 如果數值大於 百分位 個, 或小於 百分位 個, 稱為極端界外值 例如有四個保險的資料, 畫成盒形圖 以意外險為例, : 蔡佳泓
蔡佳泓
總結 瞭解不同的變數所使用的描述統計或圖形瞭解各種描述統計的意義瞭解中央趨勢如眾數 中位數 平均數求法瞭解四分位數 標準差的求法 蔡佳泓