這種包括統計程序中的資料蒐集 描述及彙整資料的結果, 乃為敘述統計 (Descriptive Statistics) 的基本要件 第二章 統計資料之描述 陳示及探討.1 The Frequency Distribution 我們知道統計學主要的目的 : 母體或樣本的特性經由調查 實驗或研究中所獲得的資訊, 以文字或數據表示出來便成了資料 (Data( Data) 未經分類與整理的資料稱為原始資料 (Raw Data) 將原始資料依類別而分成若干組, 將連續性資料劃分為若干的區段, 稱之為組距 (Class( Intervals) ) 1 將每一個觀測值計入所屬的組距內, 再計算各組的次 數, 稱為組次數 (Class( Frequency) 而將資料依數 量大小或類別而分成若干組並計算各組資料的個數 ( 發生次數 ), 以顯示資料分佈的過程, 稱為樣本次數 分配 (Sample( Frequency Distribution) 表 -1 試驗裝置校正的所需時間 ( 秒 ) 1.8 15.6 13.5 15.7 15.3 15. 0.1 14. 1.9 14.0 16.9 14.3 15.5 14.6 13.0 14.7 19.0 13.0 11.3 14. 14.5 14.8 14. 13.0 13.1 1.5 16.1 19.1 16.7 13. 15.0 1.7 13.6 13.3 13. 14.7 1.9 13.1 17.3 15.4 17.9 13.0 14.3 14. 15.7 15.6 13.0 13.9 14. 16.0 1.9 13.1 13.3 1.3 13.1 13.6 13. 18.5 13. 13.7 1.6 14.4 14.5 13.9 17.0 13.7 1.7 16.8 13.3 14.7 14. 13.0 14.6 14.0 1.9 14.7 1.8 1.0 14. 1.8 13.7 15. 14.8 13.0 11.7 1. 13.3 13.8 14. 14.3 14.7 1.6 18.9 14.3 14.4 15.5 16.8 17.0 13. 1.9 3 4
表 - 檢查時間之樣本次數分配 時間 ( 秒 ) 記錄 檢查次數 11.0 小於 1.0 // 1.0 小於 13.0 //// //// //// / 16 13.0 小於 14.0 //// //// //// //// //// //// 9 14.0 小於 15.0 //// //// //// //// //// // 7 15.0 小於 16.0 //// //// / 11 16.0 小於 17.0 //// / 6 17.0 小於 18.0 //// / 4 18.0 小於 19.0 // 19.0 小於 0.0 // 0.0 小於 1.0 / 1 總次數.1.1 直方圖與次數曲線 (Histogram and Frequency Curve) 次數分配 (Frequency Distribution) 若以圖形表示, 則可使樣本資料更易於分析與結論 圖 -1 所示為直方圖 (Histogram) 其中縱軸為檢查次數之矩形圖, 橫軸為檢查時間的調查資料 5 6 另外一種資料的圖形顯示的方式係為次數多邊形圖 (Frequency Polygon), 如圖 - 係將直方圖資料以次數多邊形圖表示 由於多邊形圖為一折線圖而不易判定其次數分佈函數的型式, 若將其繪修成一平滑曲線, 稱為次數曲線 (Frequency Curve) 如圖 -3 7 8
.1. 相對次數與累積次數分配 (Relative and cumulative Frequency Distribution) 由原始的次數分配中, 每一組的次數除以其樣本數 ( 或所有觀測值的個數 ) 或稱為相對次數分配 (Relative( Frequency Distribution) 表 -4 樣本檢驗時間之相對次數分配 時間 ( 秒 ) 出現次數相對次數時間 ( 秒 ) 出現次數相對次數 11.0 小於 1.0 1.0 小於 13.0 16 13.0 小於 14.0 9 14.0 小於 15.0 7 15.0 小於 16.0 11 9 10 16 9 7 = 00. 16.0 小於 17.0 6 = 016. 17.0 小於 18.0 4 = 09. 18.0 小於 19.0 = 07. 19.0 小於 0.0 6 = 006. 4 1 = 004. = 00. = 001. 11 = 011. 0.0 小於 1.0 1 Total 1.00 在許多情形下, 我們所感興趣的可能不是落在某一組內的觀測個數, 而是落在某一特定值之上或之下觀測值之個數, 此時可使用累積次數分配 (Cumulative( Frequency Distribution) 來加以分析 查驗時間 ( 秒 ) 表 -5 檢驗時間的累積次數分配 次數 累積次數 累積的相對次數 11.0 小於 1.0 0.0 1.0 小於 13.0 16 + 16 = 18 0.18 13.0 小於 14.0 9 18 + 9 = 47 0.47 14.0 小於 15.0 7 47 + 7 = 74 0.74 15.0 小於 16.0 11 74 + 11 = 85 0.85 16.0 小於 17.0 6 85 + 6 = 91 0.91 17.0 小於 18.0 4 91+ 4 = 95 0.95 18.0 小於 19.0 95 + = 97 0.97 19.0 小於 0.0 97 + = 99 0.99 0.0 小於 1.0 1 99 + 1 = 1.00 11 1
.1.3 次數分配的形狀 (Common Forms of the Frequency Distribution) 計量樣本或母體之相對或累積次數分佈, 可依不同的形狀而加以分類 圖 -10 所示為次數分配圖的一些基本型式, 由圖最左側之樣本直方圖的形狀及分佈, 可用以作為推知其母體次數分佈型式之參考 1. 圖 -10(a) 表為鋼棒直徑之觀測資料, 直方圖近似於鐘行分配曲線, 而鐘行分配曲線屬於常態分配 (Normal Distribution). 常態分配為一對稱而無偏斜的曲線, 然而許多資料呈現的是非對稱之偏斜曲線 非對稱而偏斜的次數分配圖的特徵是在圖形的右邊特別細長或左邊特別細長, 前者稱為正偏分佈 (Positive Skewed Distribution), 而後者稱負偏分佈 (Negative Skewed Distribution) 13 14 15 16
母體次數分配具有特定的數學函數型式 ( 如常態分配與指數分配等 ) 與參數值 ( 如平均數與變異數等 ), 故由樣本直方圖找出配適的母體分配型態後, 則可據此分析樣本的特性. Summary Statistical Measures:Location( 位置的測度 ) 舉例來說, 某位工業工程師欲在兩種不同生產方 式中選擇其一生產較快速者, 利用次數分配表或 直方圖並無法清楚及容易地用以評量何種生產方 式較快 但若改以比較兩者生產完成時間平均值的差異, 則能清楚地指出何種生產方法較快 但若改以比 較兩者生產完成時間平均值的差異, 則能清楚地 指出何種生產方法較快 17 18 1. 為何需要統計量數? 期望由次數分配中找出幾個容易表現一個次數分配的統計. 統計量數有哪些? (1) 資料的位置 (Location( Location) ) 量度資料的位置 (Location) 有兩種常用的方式 : 第一種是以集中趨勢集中趨勢或稱中央趨勢中央趨勢 (Central Tendency) 來代表資料的中心位置 ( 即中心點 ) 的數值, 此乃基於大部份的資料組, 均會對其中心呈現出一明顯的趨勢的特性 另一種則是以資料發生之次數分配的位置來量測各資料之相對不同位置 (Positions) () 評量各資料與其中心位置的差異程度來量測, 即資料的變異性 (Variability( Variability) 或離散程度 (Dispersion( Dispersion) 上述為兩種最主要之統計量 19 0
..1 統計量與參數 (Statistics and Parameters) 用以衡量母體的量數或特徵值, 稱為母體參數, (Population Parameter):μ,σ 分析樣本資料的特徵 ( 量數 ), 此稱為樣本統計量 (Sample Statistic): 1.. 算數平均數 (Arithmetic Mean) X i 若代表一筆原始資料中的第 i 個觀察值, 樣本大小 (Sample Size) 為 n, 即共包含 n 個數值 :X 1,X... X n, 則此樣本平均數樣本平均數為 n X i i = 1 X = n 若以 f k 代表第 k 組的組次數,X k 為第 k 組的組中點 ( Midpoint), 則分組資料之平均數的計算公式如下 : 其中 n 為各組次數之和, 即 n f X = f X k n K = k 表 -6 分組資料之平均數的計算表列 組界 ( 時間 ) 次數 ( f k ) 組中點 ( X k ) f X 11.0 小於 1.0 11.5 3.0 1.0 小於 13.0 16 1.5 00.0 13.0 小於 14.0 9 13.5 391.5 14.0 小於 15.0 7 14.5 391.5 15.0 小於 16.0 11 15.5 170.5 16.0 小於 17.0 6 16.5 99.0 17.0 小於 18.0 4 17.5 70.0 18.0 小於 19.0 18.5 37.0 19.0 小於 0.0 19.5 39.0 0.0 小於 1.0 1 0.5 0.5 總和 1,44.0 fkxk 1, 44. 0 X = = = 14. 4( 秒 ) n k k..3 中位數 (Median) 集中趨勢的第二種量度方式為中位數 (Median) 當一組 資料次數分配曲線呈偏斜時 ( 此時資料可能存有非常大或 非常小的極端值 ), 則平均數的代表性將受質疑, 此時採 用中位數乃是最佳的量度 由於母體通常很大, 故 一般所求得的中位數為樣本中位數 (Sample( Median), 以符號 m 表示 中位數係將資料按大小順序 ( 一般是由小依序排至大 ) 後, 位於最中間的數的數值稱之 3 4
當資料個數為奇數時, 最中間數為其中位數 ; 當資料個數為偶數時, 則取最中間兩數的平均數為其中位數 例如 : 584 613 6 693 755 則樣本中位數 m = 6 由於中位數係資料中央位置中央位置 (Position( Position) 的平均數, 並不受極大或極小之極端值的影響 平均值與中位數應用時機? 1. 當資料個數 n 很大時, 用平均數. 資料有極大或極小之極端值時用中位數 政府引用家庭所得資料通常是以使用中位數為準, 而不使用平均數..4 眾數 (The Mode) 第三種衡量集中趨勢的方法為眾數 (Mode) 眾數為資料中出現次數最多的數值然而眾數亦可能不只一個或不存在 當資料為分組資料時, 眾數乃為次數分配最多的那一組之組中點值 5 6 例如 : 以下分組資料中眾數位於第 組組中央, 即 (.0+105.0) / = 10.5 組界 95.0 小於.0.0 小於 105.0 105.0 小於 110.0 110.0 小於 115.0 115.0 小於 10.0 次數 7 3 17 4 n =73 眾數使用時機 : 當資料是以相對次數分配曲線表示時, 以眾數來量度資料的集中趨勢, 將較其他的量數更為有用 7..5 次數分配的型式與總結量數 (Frequency Distribution forms and Summary Measures) 1. 圖 (a) 為對稱 (Symmetrical( Symmetrical) 的分配曲線, 代表平均數, 中位數及眾數三者之值及位置皆為相同. 呈現偏態 (Skewed( Skewed) 分配, 則此三者衡量所在的位置將不同 3. 在圖 (b) 為左偏分配 ; 在圖 (c) 為右偏分配 8
4. 當母體的次數分配出現 個峰狀, 稱為雙眾數分配 (Bimodal Distribution) 此時可利用眾數的觀念對母體的特性加以描述 如圖 -13(a) 代表男女學生身高出現之雙眾數分配的情形 此時最好將男性與女性學生的身高資料, 加以區分其性別並單獨分析 通常雙眾數分配的發生, 是因為原始資料具有異質性 如圖 -13(b) 顯示了某校兼職學生與全職學生其平均成績的雙峰分配, 同樣地, 我們應將兼職學生與全職學生的資料作個別的衡量 9 30..6 百分位數 分位數與四分位數 1. 百分位數 (Percentile( Percentile) 是另一種測度位的量數, 係表示小於某特定百分點以下的量測值 百分位數的意義乃將資料由小至大排列後, 分割成相同的 等分, 而每一等分點皆百分位數. 分位數 (Fractile( Fractile), 表示小於某分位點之量測值 3. 若將資料分隔成相等的 4 等分, 則各分隔點稱為四分位數 (Quartile( Quartile) 第 1 個四分位數 (First( Quartile), 相當於第 5 個百分位數或第 0.5 個分位數 ; 第 個四分位數 (Second Quartile), 相當於第 50 個百分位數或第 0.5 個分位數 ; 第 3 個四分位數 (Third( Quartile), 則相於第 75 個百分位數或第 0.75 個分位數 31 3
.3 差異性的量度 ( 變異量數 ) 為什麼需要差異性量度 : 由於我們所蒐集到的資料或多或少都有差異時存在, 故除了資料之位置外, 資料的變異量數 (Measures of Variability) 為另一種極為重要的敘述性的彙總 主要是用於衡量一組資料中, 各個觀測值之間的差異或離散的程度, 並用以反映平均數代表性的強弱 33 34.3.1 變異度的重要性 變異度 (Variability( Variability) 與離散度 (Dispersion( Dispersion) 為同 義字, 係用於描述各個觀測值間的差異或離散的 程度 當各觀測值之變異度愈大, 表示其離散的 程度愈大 35 討論 : 這個例子顯示出當以集中趨勢的量數無法充分地提供決策的參考時, 變異度為另一種比較資料差異性的有用的統計分析方法 36
.3. 全距 (Range) 結合全距與四分位距可繪製成箱形圖 (Box( Plot) 一組資料中, 數值最大者與最小者之差稱為全距全距 一般以 R 表示 全距最主要之缺點為易受極端值極端值或稱界外值 (Outlier( Outlier) 的影響, 而且無法得知除最大值與最小值外之資料的差異情形.3.3 四分位距與箱形圖 四分位距 (Interquartile( Range) 可改善以全距測度異度或離散度之缺點, 改用資料的第 3 個四分位數 (Q 0.75 ) 與第 1 個四分位數 (Q 0.5 ) 之差, 來代表資料中間一半的觀測值之全距 則四分位距為 Q 0.75 - Q 0.5 37 38.3.4 變異數與標準差 資料變異性最重要的測度乃基於各觀察值與其集 中量數之差異, 而此差異稱之為離差 (Deviation( Deviation) 資料中各個觀測值與其平均數之離差有正亦有負, 然而各個離差的總和必為 0 39 40
母體變異數 (Population Variance), 以希臘字母 σ 表示 σ = 其中 X i 表示為第 i 個觀測值, 分母 N 為母體大小 (SAT 例子中,N=5) 樣本變異數 (Sample Variance), 以 s 表示 S = N ( X μ) i= 1 N i N n 1 由於母體平均數 μ 通常為未知, 而以樣本的 X 來推估, 因此上式中分母以 n-1 來除 ( 考慮失去一個自由度 ) ( X X ) i= 1 i 41 組界 ( 秒 ) 表 -7 檢驗時間分組資料之變異數的計算表列 出現次數 f k 組中點 X k X k f k X k f k X k 11.0 小於 1.0 11.5 13.5 3.0 64.50 1.0 小於 13.0 16 1.5 156.5 00.0,500.00 13.0 小於 14.0 9 13.5 18.5 391.5 5,85.5 14.0 小於 15.0 7 14.5 10.5 391.5 5,676.75 15.0 小於 16.0 11 15.5 40.5 170.5,64.75 16.0 小於 17.0 6 16.5 7.5 99.0 1,633.50 17.0 小於 18.0 4 17.5 306.5 70.0 1,5.00 18.0 小於 19.0 18.5 34.5 37.0 684.50 19.0 小於 0.0 19.5 380.5 39.0 760.50 0.0 小於 1.0 1 0.5 40.5 0.5 40.5 總和 1,44.0 1,093.00 fkxk X = 1440,. = = 14. 4 秒 n fkxk nx 1 093 00 14 4 s =,. ( )(. ) = = 3. 038 秒 n 1 1 4 任務項目 平均數 (0.01 分鐘 ) X 表 -8 變異係數與偏態係數之計算表列 中位數 (0.01 分鐘 ) m 標準差 (0.01 分鐘 ) s 變異係數 v 偏斜係數 1 11.139 9.833 3.338 0.346 1.174 5.604 4.613.354 0.40 1.63 3.540 1.908 0.588 0.3 3.4 4 4.9 3.133 1.068 0.53 3.079 5 9.957 9.081.141 0.15 1.7 6.913.068 1.665 0.57 1.53 7.576 1.858 1.451 0.563 1.484 8 5.990 5.070.01 0.337 1.366 9 4.467 3.95.435 0.545 1.444 10.969.43 0.881 0.97 1.89 11 3.53.790 1.039 0.94.14 1 4.465 3.698 1.446 0.34 1.591 13 5.903 4.736 1.83 0.310 1.908 14 3.305 3.197 1.087 0.39 0.98 15 3.10.50 1.446 0.45 1.43 16 5.984 5.36 1.789 0.99 1.043 17 4.16 3.378 1.678 0.19 1.337 18 7.70 6.461.034 0.63 1.193 19.770.133 1.063 0.384 1.797 0 6.673 5.914 1.968 0.95 1.157 1 8.530 7.833 1.845 0.16 1.05 3.98 3.35 1.688 0.430 1.07 3 5.47 4.604 1.469 0.80 1.313 4 5.094 4.40 1.34 0.4 1.68 5 5.45 4.750.079 0.381 1.013 6 3.653.958 0.98 0.69.13 SK 43.1Histograms( 長條圖 ) 一組觀測或實驗數據, 可用 histogram 或 frequency diagram 表示製作程序 : 1. 收集觀測或實驗數據 Table 1-1. 最大值 (67.7) 至最少值 (39.91), 取整數 70~38) 與適當間距 (4 in) 間距數目 k 之取得決定於樣本數 n, Iman and Conover(1983) 建議 : 從 k >n k 為最小整數 3. 計算每一個間距發生次數, 並計算其發生頻率如表 1-4. 將變量劃於橫軸, 發生次數劃於縱軸即為 Fig 1-1a Fig 1-1b: 發生次數之百分比 ( 發生次數除於總次數 ) Fig 1-1c:frequency diagram 水利工程之應用範例 44
45 46. Quantile plots 1. Quantile plot portray the quartiles, or percentiles of the distribution of sample data. Quartile plots have following advantages : (1) All of the data are displayed () Every point has a district position. Construction To construct a quartile plot (1) The data are ranked from smallest to largest ()The smallest data value is assigned a rank i=1, while the largest receives a rank n (3) Each data is given a plotting position 47 48
Commonly-used formulas are: Weibull Hazen Gringorten i n + 1 i 0.5 n i 0.44 + 0.1 n (4) The data values themselves are plotted along horizontal axis. The plotting position of data is plotted on the other axis Q(m 3 /sec) 60.00 40.00 No. 0905 實測曲線 (5) example:flow duration curve ( 流量延時曲線 ) 0.00 1. 定義 : 為一累積機率曲線, 表示在某一特定期間內, 高於或大於某一流量之百分比時間 ( 提供河川全年流量變化工具 ) 0.00 0 10 0 30 40 50 60 70 80 90 時間百分比 (%) 49 50. 製作 : (a) the calendar-year method ( 範例 ) Rank Qyear1(cms) Qyear(cms) Qyear10(cms) Qave(cms) P(%) 1 36.38 453.75 81.44 66.05 1 / 365 % = 0.8% 39.58 79.78 54.17 181.55 / 365 % = 0.56% 365 1.75 1.59 3.07 1.67 365 / 365 % = % (b) the total-period method( 範例 ) R a n k Q ( c m s ) P ( % ) 1 453.75 1 / 3650 % = 0. 08 % 385.00 / 3650 % = 0. 056 % 3650 1.17 3650 / 3650 % = % 500 0 Calendar-year Total-period 400 Q(m 3 /sec) 300 Q(m 3 /sec) 10 00 1 0 0 0 10 0 30 40 50 60 70 80 90 時間百分比 (%) 51 0 10 0 30 40 50 60 70 80 90 時間百分比 (%) 5
(a)(b) 兩者差別為 calendar-year method 在高流量部分會偏低, 但在低流量部分會偏高 53