Descriptive Statistics: Central Tendency

蔡佳泓國立政治大學東亞所蔡佳泓

描述統計以最有效率的方式描述量化或類別變數的重要特徵例如 : 都市化經濟成長率競爭力例如 : 性別教育程度蔡佳泓

次數分配表次數村代會村委會黨支部聯席會議其他總數蔡佳泓

長條圖適用於類別變數, 可表示各類別的次數百分比等可找出相對多數的類別蔡佳泓

蔡佳泓

直方圖適用於連續變數 ( 如果太過離散則需要適當地分組 ) 可表示變數中各個值的次數百分比密度等若用於百分比, 直方的高度累加 ( 類似百分比的長條圖 ) 用於密度, 可加上平滑曲線, 曲線下的面積, 而直方的總面積蔡佳泓

蔡佳泓

莖葉圖用於量化變數, 可表示次數的分佈情形莖代表至少位數, 葉代表觀察值最末一位葉有可能自動四捨五入進位莖可能因為尺度一致而進位蔡佳泓

某大學的各班修課人數的調查結果如下 : 蔡佳泓

某鄉鎮的五月新生兒人數的調查結果如下 : 蔡佳泓

蔡佳泓

中央趨勢用一個統計值描述資料的分佈眾數中位數百分位數平均數蔡佳泓

眾數適用於質化及量化變數定義為發生最多次的那一個值有可能超過一個蔡佳泓

蔡佳泓

平均數用在量化變數或是二元變數可以想成是觀察值的平衡點 : 比平均值大的數的總和等於比平均值小的數的總和的絕對值會受到極端值的影響可以考慮去掉頭尾的極端值再求平均數數學上又稱為變數的第一個矩因為變數的矩定義為: µ = ( ) () 1 第二個矩是變異數, 也就是 ( ) 2 或者是 ( 2 ) () 2 蔡佳泓

平均數計算方式 1 = 6, 7, 8, 8, 9, 10, 13, 15, 16, 45 1 = (6+7+,+45) 10 2 = 1, 6, 7, 8, 8, 9, 10, 13, 15, 16, 51 1 2 假設觀察值分為 = 1 個組, 每一組有 1, 2, 人, 每一組平均數為 1 2, 則全體的平均數為 : 蔡佳泓

百分位數及中位數第個分位數表示的數比它大, 的數比它小可以是實際存在的數, 也可以是計算所得蔡佳泓

及百分位將數值由小到大排序後, 將資料分成四等份, 產生三個四分位數, 每等份有的資料, 為第一四分位數, 相當於第百分位數, 有的資料小於或等於它為第二四分位數即中位數, 為第三四分位數, 相當於第百分位數, 有的資料大於或等於它原則上在小於中位數的一半觀察值以及大於中位數的另一半觀察值之中, 分別找出其中位數前者稱為分位數, 後者則是分位數例 : = 1, 1001, 1002, 1003 百分位 = 4 50 100 = 2.5 因為落在及中間, 所以 0.5 1001 + 0.5 1002 = 1001.5 百分位 = 4 25 100 = 1.5 因為落在及中間, 所以 0.5 1 + 0.5 1001 = 751 百分位 = 4 75 100 + 0.5 = 3.5 0.5 1002 + 0.5 1003 = 1002.5 蔡佳泓

實例例 : = 2, 3, 4, 7, 9, 10, 12, 12 中位數 2 +1 4 = 4.5 因為落在中間所以 : 7 + 0.5 (9 7)8 分位數 = 1 8+1 4 = 2.25 因為位於及之間故 : 3 + 0.25 (4 3) = 3.25 分位數 = 0.75 (8 + 1) = 6.75 10 + 0.75 (12 10) = 11.5 蔡佳泓

百分位數計算方法假設有個數, = 1,,, 第個數的百分位數為 : = 100 0.5 反過來說, 如果要求出百分位數是第幾個數, 則可用以下方式 : = 100 + 0.5 例如 : = 1, 2,, 11. 百分位數 75 11 100 + 0.5 = 8.75 R 的 quantile() 指令的第五種 (type=5) 蔡佳泓

比較各種計算方法根據的第頁的資料, 根據種公式可求出如下 : 蔡佳泓

計算的結果第種是 SPSS 採用的, 第種是 R 內定的 SPSS 先算 = ( + 1), 然後算 + ( )( +1 ) 代表整個數列, 為無條件捨去小數點後的數字 rate 統計量個數有效的遺漏值百分位數 25 50 75 50 0 3.875 6.700 10.325 蔡佳泓

分組資料的中位數假設有個組, 按各組的性質加以排序之後, 計算中位數, 視該中位數落在那一組見蔡佳泓

偏態值測量資料是否分佈對稱正偏 : 右邊的尾巴較左邊長, 眾數偏左左負偏 : 左邊的尾巴較右邊長, 眾數偏右常態分佈的偏態值 = 樣本偏態值 = ( 1)( 2) ( ) 3 有偏態時須注意平均值是否會誤導 3 蔡佳泓

蔡佳泓

峰度測量資料的分佈是高聳或是平坦越平坦則兩邊尾部越長, 越高聳則是靠近平均值的部份越集中偏態是第三個矩, 峰度是第四個矩計算峰度的公式 : 2 = 1 1 ( ) 2 4 = 1 ( ) 4 4 2 2 3 ( 1) 不同統計軟體計算峰度的公式略有不同, 如果用 R, 可以用 e1071 這個包裹裡面的 kurtosis, 用 type 指令選擇可得到跟一樣的答案樣本數目越大, 理論上各種計算方式的結果越接近蔡佳泓

蔡佳泓

離散全距 : 最大值及最小值的差距若是常態分佈, 全距約等於六個標準差不同樣本的平均數相同, 全距可能不同平均值不同, 全距可能相同全距不受到特殊觀察值的影響蔡佳泓

變異數樣本變異數 : 母體變異數的無偏估計 2 = 1 1 ( ) 2 代表觀察值與平均數之間的差距樣本標準差為變異數的平方根如果樣本來自二元分佈, 即, 則樣本標準差為 : (1 ) 1 蔡佳泓

標準差大於或等於因為是樣本標準差, 故用當分母如果樣本成常態分配, 利用微積分可求出平均數的 ± 個標準差包含約的樣本 ± 個標準差包含約的樣本 ± 個標準差包含約的樣本例如我們有一筆位員工薪資的資料, 畫成長條圖近似常態分配經過調整成平均值, 標準差之後, 一個標準差大約佔的面積, 兩個標準差佔的面積標準化常態分佈 :ϕ() = (0, 1) = 1 2π ( 2 2 ) 蔡佳泓

長條圖蔡佳泓

常態分佈圖蔡佳泓

標準化常態分佈蔡佳泓

實例年的中國春運, 據估計有億的旅客運量假設把所有轉車都算成一次, 各大車站估計旅客人數 ( 單位 : 萬 ) 為 50, 52, 55, 28, 30, 35, 40, 49, 32, 19, 15, 61, 43, 47, 44, 70, 83, 66, 88, 85, 36, 3 等計算平均值以及標準差由此可知的車站的估計旅客人數落在萬及萬之間, 也就是在萬與萬之間蔡佳泓

蔡佳泓

標準差的另一種求法由於平均數的 ± 三個標準差包含的樣本, 如果知道樣本的平均數跟最大值及最小值, 而且樣本成常態分佈, 便可以估計標準差, 也就是 6 例如, 據說愛因斯坦莫扎特智商, 一般人智商分佈在以 145 55 及之間, 平均智商為, 標準差為 6 = 15, 所以智商到的人約有蔡佳泓

標準差的特性改變樣本的單位, 標準差也會改變例 : σ = σ = 加減樣本的值會改變平均值, 但是不會改變標準差如果 =1 ( ) 變成 (( + ) + ), 那麼 ( + ) = + = ( ) 蔡佳泓

變異數的特性 () = () = () = 2 ( []) 2 () 2 ( []) 2 () ( []) 2 () () = 2 () ( + ) = () + () ( 2 ) = ( 2 ) (( )) 2 蔡佳泓

實例 () = 4. = 1 2 ( 1) () = ( 1 ( 1)) 2 = ( 1 2 1 2 ) = ( 1 2 )2 () = 1 4 4 = 1 蔡佳泓

四分位差分位距與分位之間的差距, 表示中位數附近的數的範圍不受到極端值的影響如果數值大於百分位個, 或小於百分位個, 稱為界外值如果數值大於百分位個, 或小於百分位個, 稱為極端界外值例如有四個保險的資料, 畫成盒形圖以意外險為例, : 蔡佳泓

蔡佳泓

總結瞭解不同的變數所使用的描述統計或圖形瞭解各種描述統計的意義瞭解中央趨勢如眾數中位數平均數求法瞭解四分位數標準差的求法蔡佳泓