樣本選擇的方法 樣本選擇的方法 * 許文凌 一般執行研究時, 對母群體內的每一個個體都進行調查的研究稱之為普查, 但因 為母群體數量較大, 在執行上需要花費較多的人力 物力與時間, 尤其是如果母群體 的數量太過龐大或是分佈極為零散時, 研究上有其困難度, 較難達成且不經濟 故研究者就從母群體中抽取部份元素, 稱之為樣本 (sample), 以作為母群體 (population) 的代表 因此, 抽樣 (sampling) 就是指基於研究的需要, 從整個研究的母群體中, 選取許多 人的歷程, 抽取的樣本如果適當, 據之獲得的研究結果, 即可推論至其所屬的母群 體, 樣本代表母群體的程度, 即是該樣本獲致的研究結果可應用於其他群體的程度, 由此可見樣本的代表性相當重要 而抽樣的類型大致可分成隨機抽樣 非隨機抽樣兩 種, 在抽樣的過程中, 如果能做到各個樣本都是獨立的且被抽取的機會均等, 即稱為 隨機抽樣, 反之則為非隨機抽樣 以下將簡介常用的抽樣方法 樣本數大小的選擇與抽樣誤差的防範 壹 機率抽樣的方法 機率抽樣的方法包括隨機抽樣 ( random sampling) 與系統抽樣 ( systematic sampling ), 在隨機抽樣中又可分成 (1) 簡單隨機抽樣 (simple random sampling) (2) 分層隨機抽 樣 ( stratified random sampling ) (3) 叢集隨機抽樣 (area or cluster sampling) (4) 多階段叢集 抽樣 (multistage cluster sampling) 一 簡單隨機抽樣 隨機抽樣是指不依個人主觀的取樣或判斷, 母群體內每一基本單位個體均具有相 同地位, 有同等且獨立之機會, 被選為樣本的取樣過程, 事前各樣本被抽中的機率完 全相等, 而且每一個個體被選取為樣本並不影響其他個體被選取為樣本的機會 由於 可利用機率理論計算各樣本中選的機率, 所以隨機抽樣法又稱為機率抽樣法 * 許文凌嘉義大同國小教師國立嘉義大學教育系博士班研究生 88
家庭教育雙月刊第 38 期 101 年 7 月號 (Probability Sampling) 隨機抽樣常用在母群不大且同質的時候, 可利用抽籤或電腦亂數的方式抽取, 此方式最為簡單且樣本最具代表性, 但若樣本數過大時, 因需一個一個編碼, 相當費時費力, 即不宜採用 二 分層隨機抽樣分層隨機抽樣的優點為可以改進代表性的問題且能使研究者能夠研究可能存在於母群體中的各次級團體間的差異 這種抽樣方法可採取兩種形式, 一是從每個次級團體中選取相等樣本數 ( equal-size samples), 以做各次級團體間的比較 ; 另一是依母群體的各次級團體的大小, 按比例選取樣本, 謂之比例分層抽樣 ( proportional stratified sampling)( 王文科 王智弘,2008) 本法最適用於母群較大且異質時, 或所感興趣的層級佔母群的比率很小時 ( 李茂能,2002) 抽樣步驟為 (1) 先界定母群體 (2) 決定所需樣本數大小 (3) 將資料按其類型 ( 如性別 年齡 教育程度 職業等 ) 分成好幾類, 分層時需為次級團體間異質, 團體內同質, 再從各類別抽出具代表性的樣本, 這裡所指的具代表性的樣本須為符合相等的人數或是各個次級團體在母群中所佔的比率 例如可以將 2000 名學生按年級分組, 每年級抽取一班或是按各年級佔母群體的比率抽取班級 或是將班級內學生按身高分組, 每組身高按比例抽取樣本數 三 叢集隨機抽樣 當母群體相當龐大, 不可能列出所有母群體內的所有成員時, 可以使用叢集隨機抽樣, 叢集隨機抽樣是以團體為抽樣單位, 而不以個人為隨機選取樣本的方法, 被選取的團體或組群的全部成員具有類似的特徵 ; 即叢集抽樣是從整個母群體中, 隨機選取子群, 被選中的子群中的所有成員, 皆為樣本 其方式將母群依共同特質 ( 如班級 學校 縣市等 ) 分割成叢集單位, 再從這些叢集單位中隨機抽取叢集, 被抽中的叢集內所有個體均列為抽取樣本 抽樣單位是一群元素所構成的集合, 而不是各元素, 如從十個班級中抽三個班級, 或從十個縣中抽兩個 89
樣本選擇的方法 縣市, 因為並不是母群內所有元素都有均等概率被選為樣本, 因此當各叢集單位間的特質差異很大時, 抽樣誤差也會變大 四 多階段叢集抽樣多階段叢集抽樣是叢集抽樣的延伸, 當樣本數很大時可以使用這個方式, 以節省人力 物力 它是分階段選取樣本, 將列舉的名單和抽樣分成兩個以上的循環或階段進行, 即從樣本中抽取樣本 可分成多階段叢集抽樣或是結合叢集抽樣與個別隨機抽樣而成二階段隨機抽樣 (two-stage random sampling) 例如先從全台灣隨機抽取 10 個縣市, 再從 10 個縣市中, 各縣市隨機抽取 5 個學校, 這 5 個學校的學生即為全部的研究樣本 但因為使用這個方式所抽取的樣本數仍相當龐大, 此時可以結合個別隨機抽樣方式, 如再從這五個學校中, 每個學校隨機抽取 50 人, 這就成為二階段隨機抽樣, 也就是先叢集抽樣再簡單隨機抽樣 五 系統抽樣 ( 混合型 ) 當母群體很大, 也可以使用系統抽樣, 系統抽樣需將母群體的每一單位編號, 計算樣本區間 ( 母群體大小 (N)/ 樣本大小 (n))(ex:1000/100=10), 然後從 1~N/n 號中隨機選出一個號碼, 接著將前一個號碼加上樣本區間, 取得下一個號碼, 以此類推 故此法之最大優點便是僅需抽出一個隨機起點, 以後只需累加, 應用上較方便 系統抽樣具隨機抽樣與非隨機抽樣的特質, 因為第一個樣本為隨機抽樣, 之後的 樣本為自動固定的, 也就是隨機起始, 等距抽樣 只要列在母群體名單中的所有成員 是按隨機順序排列, 系統抽樣而抽出的樣本仍可視為隨機樣本, 但在使用上須避免抽樣名單的順序出現系統性之秩序, 以減少抽樣偏差 ( 郭生玉, 民 70) 貳 非機率抽樣的方法 非機率抽樣無法估計樣本中的各個成員被抽取的機率, 可能導致樣本不足以代表母群體, 以致無法準確反映母群體的特徵, 這類樣本會造成不完全的解釋, 因此除非隨機抽樣不可行時, 才使用方便且經濟的非機率抽樣 非機率抽樣的方法包括便利抽樣 ( convenience sampling) 立意抽樣( purposive sampling) 配額抽樣( quota sampling) 90
家庭教育雙月刊第 38 期 101 年 7 月號 滾雪球式抽樣 ( snowball sampling) 等 一 便利抽樣亦稱為臨時抽樣 ( accidental sampling) 或機會抽樣 (opportunity sampling), 由研究者選取身邊週遭所及的個人作為受試者, 並且持續此一過程直到達到所需的樣本規模 樣本的選擇只考慮接近或衡量的便利性與容易取得性, 因此無法代表任何除它自己之外的任何一個團體, 所以它並不企圖對廣大母體加以推論 例如 : 台北市調查人員想了解台北市民對於規劃信義商圈的停車位是否滿意, 所以到信義區附近商店去訪問在商圈逛街的市民 此種方法稱為便利抽樣法, 所得的樣本稱為便利樣本 此方法最常用於新聞報導之街頭訪問與市場調查等, 因便利抽樣易導致偏差的結論, 最好避免使用 二 立意抽樣根據抽樣者先前的經驗或對於母群體的認知, 訂出選擇樣本之標準, 抽樣是否具代表性須視研究者的主觀判斷是否正確 由於此種抽樣方法是依研究者本身判斷進行, 如果研究者對母體不是很了解, 很容易發生抽樣偏差 且因不依隨機原則抽出樣本, 而由母體中選取部份具有典型代表的樣本 故適用於母體的構成單位極不相似而樣本數又較少的情形, 常用於意見調查或典型 特殊的群體 ( 李茂能,2002), 如從全國優良志工的表揚大會中, 利用參與表揚大會的志工調查志工的特質 在美國, 立意抽 樣常被用來預測全國的選舉, 選取某些州的前幾次選舉報告, 作為整個州的代表 立意抽樣可以滿足研究者蒐集這類型樣本的需要, 但是它並不能代表廣大的母體, 但由於使用立意抽樣較為節省經費, 而且方便可行, 在態度及意見調查方面, 頗為適用, 但研究者需了解其限制, 小心運用 ( Ary, Jacobs, & Razavieh, 2006) 三 配額抽樣為立意抽樣的一種, 研究者依據已知的母群分層特徵及其所佔比率, 主觀的選出具有代表性的樣本, 又稱分層配額抽樣 是種類似分層隨機抽樣的非隨機抽樣, 不同的地方在於層內抽樣時並非採用機率抽樣設計 常用於大規模的研究中且無法清楚列 91
樣本選擇的方法 出母群的所有抽樣單位時 可以使用配額抽樣來改善樣本的代表性, 藉由選擇樣本, 使樣本中的某種特質比率與母群體中的某種特質比率一樣, 例如某一母群體的男女比率是 40% 比 60%, 那所選取的樣本也男女比例也必需是 40% 比 60% 此法包括下列幾個步驟 : 1. 選擇 控制特徵 (control characteristics), 例如性別 年齡 地區等, 將母群體細分為幾個子體 2. 決定子體的樣本大小 ( 通常依照子母體佔母體的比例分配 ) 3. 隨意選取樣本, 但須滿足第 2 點所規定的條件 配額抽樣在市場研究中經常被使用 訪員有極大的自由去選擇子母體中的樣本個體, 只要能完成配額即可 因此配額抽樣常因研究者個人的偏好及方便性而使樣本喪失代表性並降低調查的推論準確度 此法因為並不需要太多的事前準備工作便可快速地進行, 且若受訪者拒答時, 可隨意另外找人遞補, 不會影響抽樣設計 ; 所以在需要快速得到調查結果或母體無法造冊的時候, 可以選擇配額抽樣 四 滾雪球式抽樣在滾雪球式抽樣中, 研究者利用隨機方法或社會調查名義選出一小部分具有研究者感興趣特質的個人, 這些人成為研究者的消息提供者, 介紹或幫助研究者與其他具此類特質的人聯繫, 而那些符合條件的人又協助研究者尋找並介紹合適的人 ( 徐振邦等 譯,2004), 依此類推, 如同滾雪球般, 雪球越滾越大, 樣本愈抽愈大 研究者若想讓雪球式抽樣具有機率性特徵, 在每階段的樣本宜隨機選出 若只要非機率樣本, 在每個階段, 可採用如配額抽樣的方法 ( 王文科等,2008) 雪球抽樣在特定的母體成員難以找到時, 是最適合採用的方式, 此法對找出遊民 外勞 家暴婦女等樣本頗為適用, 因此雪球抽樣常用在質化的田野調查或觀察研究上 參 樣本數大小的選擇 確立的抽樣方式後, 需考量樣本數的大小 一般而言, 樣本數越多, 研究結果的準確性會提高, 但其實並不是比較大的一組樣本就一定比較具有代表性, 因為根據不 92
家庭教育雙月刊第 38 期 101 年 7 月號 適當的方式所抽取的樣本即使數量大, 也不會比用適當方式抽取的小樣本更具代表性, 樣本要具有代表性, 不僅僅只在於樣本的大小, 還在於選用適當的抽樣方法 不過在顧及適當的抽樣方法後, 樣本的大小也是是否能適當呈現結果的重要因素, 究竟要選擇多大的樣本, 並無絕對的標準可循, 取決於研究的形式 研究假設 經費的限制 研究結果的重要性 研究變項的數目 蒐集資料的方法 需要的準確度 母群體的大小而定 ( McMillan & Schumacher, 2006 ) 另外也會受限於時間 行政資源 研究者的人數及資源等主客觀因素 Neuman 也認為研究者的最佳樣本數的決定應該根據三個指標 ( 一 ) 需要達到的精確程度, 要求的結果越精確, 就需要越多的樣本數 ;( 二 ) 母群體的變異性與多樣性, 母群體變異性或多樣性越大, 也就需要越多的樣本 ;( 三 ) 變項個數, 變項的個數越多, 樣本就要越大 (Neuman,1997/2000) 樣本來源的母群體若同質性高時, 只要小樣本便具有足夠的代表性, 反之, 母群體異質性大時, 便需要較大的樣本數, 方可減少誤差 而若資料蒐集的過程中未具有高度的準確性或一致性時, 就需有較大的樣本數以抵消在資料蒐集中所造成的誤差 研究變項多時也會需要較多的樣本數 但樣本規模過大不易操作, 樣本規模過小則可能不具代表性, 那究竟要多少的樣本才足以代表母群體呢? 樣本的規模大小可由以下方式決定, 第一種方式為由研究者審慎的確保最小數量的樣本能夠反映廣大的母體, 像是 Borg and Gall (1989) 認為, 相關研究需要的樣本規模不得少於三十個 ; 因果比較與實驗研究的樣本規模則不可少於十五個 ; 而調查研究為了便於分析樣本需加細分, 故每一個主要子團體的樣本規模至少需一百個, 每一個次要的子團體樣本則至少需有二十到五十個 如果考量到需達到高的統計顯著性或統計力時, 因為此種分析和統計考驗的顯著水準 假設的方向性 效應大小和樣本數密切相關, 因此也有許多學者藉由數學公式的計算而建立表格供研究者使用 像是 Cohen(1992) 為應用上的方便提供了一個表格可供查詢, 研究者只要知道所需使用的統計方法 α 值與預估效果值的大小即可查到雙尾檢定的所需樣本數 ( 李茂能,2002) 第三種則可以使用許多統計軟體如 SPSS 的 Sample Power SAS 的 Sample Size 以 93
樣本選擇的方法 及 G Power 所提供的程式, 輸入相關資訊如即可獲得樣本大小的建議 ( 李茂能, 2002) 肆 抽樣誤差的防範 選擇了適當的方式抽取樣本, 也確定了樣本數的大小, 未必就能確保這些樣本有足夠的代表性能夠代表母群體, 因為有可能會產生非研究者所能控制的抽樣誤差 (sampling error), 抽樣誤差通常指在抽樣過程中發生錯誤的結果, 即發生的原因是因為選取不同個體的機率造成的, 有時候因為機率的因素, 會使得樣本與母群體在主要的變項上會有顯著差異, 此時可以將變項做分層處理 而抽樣偏差 (sampling bias) 則不是屬於樣本與母群之間隨機差異的結果, 而是因為研究者樣本處理上的偏差 並非樣本數越大越有代表性, 而是要看抽樣的方式與對象而定, 如 1936 年美國文學文摘社 (Literary Digest) 為了預測美國總統大選結果, 從電話號碼簿和汽車擁有人名冊隨機抽樣, 調查結果顯示蘭敦會勝過羅斯福, 但選舉結果卻與預測不符, 原因即是在當時, 並非所有人都擁有電話與汽車, 僅從電話號碼簿和汽車擁有人名冊隨機抽樣, 所抽取的樣本偏向中產階級, 而忽略了一般社會大眾階級, 此錯誤即導源於偏差樣本 避免的方式為選擇樣本時務必要將所有因素考慮進去 偏差的一個重要來源為使用志願者, 因為母群體涵括了志願與非志願者, 志願者通常有較強的動機, 對研究結果較感興趣等, 因此從志願者研究所得的結果無法推論 至母群體 另一種偏差來源為使用可用的團體 (available groups), 因為經由此方式選擇的樣本並非選自較大的群體, 無法推論到其他任何班級 ; 研究者了解抽樣偏差的可能來源後, 務必竭盡所能的避免, 以維持研究抽樣與推論的正確性 伍 結論 在研究中, 每一個步驟與方式都相當重要, 每一個因素都應該經過審慎的考慮而非隨心所欲的選擇, 在考慮抽樣方式與樣本大小時, 需考慮研究的形式 研究假設 經費的限制 母群體的大小 研究結果的重要性 蒐集資料的方法 研究變項的數目 需要的準確度而定, 竭盡可能的排除整個研究過程中所可能產生的誤差, 若誤差 94
家庭教育雙月刊第 38 期 101 年 7 月號 無法避免, 或是所使用的抽樣方式有所限制, 研究者也應詳加了解, 並將其詳細敘述於所得的結果中, 以求研究結果的推論性能夠公正客觀 參考資料 王文科 王智弘 (2008) 教育研究法 台北: 五南 楊國賜 李茂能 吳明清 李奉儒 周立勳 蔡榮貴 何宣甫等 (2002) 新世紀的教育學概論 台北 : 學富 郭生玉 (1981) 心理及教育研究法 台北: 大世紀 Ary, D.L,, Jacobs, C., Razavieh, A., & Sorensen, C.K. (2006). Introduction to research in education (7th ed.). Belmont, CA: Wadsworth/Thomson Learning. Borg, W. R. & Gall, M.D. (1989). Educational research: An Introduction (5th ed.). New York: Longman. Cohen, L., Manion, L., & Morrison, K. (2004) 教育研究法 ( 徐振邦 梁文蓁 吳曉青 陳儒晰譯 ) 台北: 韋伯 McMillan, J. H. & Schumacher, S. (2006). Research in Education: Evidence based inquiry (6th ed.). Boston: Allyn & Bacon. Neuman, W. L. (2000) 社會研究方法 : 質化與量化取向 ( 朱柔若譯 ) 台北: 揚智 ( 原著出版於 1997) 95