第 13 章 抽樣
次級資料的主要來源
初級資料收集模式 主要模式 個人訪談 電話訪談 網路訪談 自行填答問卷 收集初級資料需要抽樣, 決定具有代表性的樣本
實質抽樣 基於保密性的考量, 公眾名單的資料通常很難收集, 但是專家和其他傑出人口名冊經常可以從各國 當地政府, 或者從非營利組織得到 大部分的國家設有特許或證明專業的正規機構 ( 例如護士 律師 EMTs 調解委員等 ), 因此能購買到最新且有用的名冊 國家或當地可能也有企業或雇主的名單, 大多數國家的專業暨貿易協會可能有供銷售的郵寄名單, 以及有用的選民登記名單可購買
抽樣的本質 普查 (Census): 選出母體中所有元素以推論整個母體的過程 抽樣 (Sampling): 從母體中選出一些元素以推論整個母體的過程 母體 (Population): 要推論的所有元素集合 母體元素 (Population Element): 研究的單位 ; 要測量的個別受測者 抽樣清冊 (Sampling frame): 將要抽樣的所有母體元素列表 ( 如 list)
為什麼要抽樣? 抽樣的益處是可以節省時間和成本, 然而樣本的大小也關係到抽樣結果的代表性和正確性 如不必進行所有汽車碰撞測試 母體元素的可用性資料蒐集更快速 抽樣提供 成本較低 結果更準確
抽樣 抽樣調查最重要的問題是所選取的樣本是否和我們感興趣的母體一樣 樣本是母體的代表, 當選擇任一模式時, 樣本資料形式儘可能和母體相似 但要達成這樣的成果是很困難並花費很高的成本, 而且很難達到盡善盡美 幸運的是, 可以利用機率法則來協助完成此一缺憾 機率抽樣 樣本大小 抽樣 實質抽樣 非機率抽樣
誤差種類 系統偏誤 (systematic variance) : 由於一些可知或不可知的因素, 造成估計值偏向一端的測量變異 ( 偏大或偏小 ), 而抽樣清冊有誤, 增加樣本也無法降低系統偏誤 抽樣誤差 (sampling error) : 抽樣過程中的隨機變動, 使得樣本數值不同於母體值, 如有人拒絕參與 有人不易找到, 樣本數增加可以降低抽樣誤差
怎樣才是一個好的樣本? 準確度 沒有偏誤的程度 精確度 精確性受三個因素影響 : 1. 樣本的大小 ( 非常重要 ) 2. 母體的變異性 ( 重要 ) 3. 樣本占母體的部份 ( 通常不重要 )
研究程序中的抽樣設計
抽樣程序 定義我們有興趣探討的目標母體 母體參數及抽樣清冊 抽誰 好的操作型定義是為關鍵 決定樣本是否能代表整個母體 通常, 我們會盡量利用隨機抽樣的方法 如何抽 ( 抽樣方法 ) 抽樣計畫 衡量誤差 抽樣誤差 抽多少 無反應誤差 架構誤差 隨機誤差 到底要抽多少樣本才夠 通常, 這牽涉到研究的有效性與成本之間的權衡
樣本設計的類型 元素選擇機率非機率 不受限制的 受限制的 簡單隨機抽樣 (Simple random) 複雜隨機抽樣 (Complex random) 系統抽樣 (Systematic) 集群抽樣 (Cluster) 分層抽樣 (Stratified) 雙重抽樣 (Double) 便利抽樣 (Convenience) 立意抽樣 (Purposive) 判斷抽樣 (Judgment) 配額抽樣 (Quota) 雪球抽樣 (Snowball)
機率抽樣 Probability sampling 透過一套控制程序, 確保母體中的每項元素被抽中的機率不為零 最大的優點是可以計算樣本正確的估計值, 由抽樣所得結果來說明母體真實的範圍 不用機率抽樣, 我們無從得知樣本是否相似於母體之程度 探索性研究不一定需要, 但描述性 解釋性與因果性研究需要機率抽樣
機率抽樣 -1 也就是能容忍多少的不確定性 這個決定會影響實際抽樣時樣本的大小以及如何抽取 例如決定母體是 美國一般大眾, 包括沒有電話的人嗎?( 如果是的話, 你的問卷不能包含電話問卷 ) 母體清單有時並不易得到, 或是清單出現嚴重的問題 舉例 : 電話簿, 它會漏失沒有列在電話簿的人, 或出現兩次的人或出現在電話簿但不屬於母體範圍內的人
隨機 ( 機率 ) 抽樣
簡單隨機抽樣 一個方法要求一個編好號碼的名單, 接著透過電腦程式或是亂數表隨機抽出樣本 這個方式近似樂透或是從帽子中抽出號碼或是名字一樣 實際上, 當所獲取的名單非常龐大的時候, 簡單隨機抽樣使用起來是非常複雜麻煩的 優點 隨機撥號易於執行 缺點 需有母體元素清冊 耗時 使用較大的樣本規模 產生較大的誤差 高成本
系統抽樣 一個比較常見的方法, 他是抽取抽樣架構中第 N 個元素樣本 例如, 抽樣架構中有 1000 個元素, 而研究者需要 100 個樣本時, 首先在 1 到 10 之間先隨機抽取一個元素 (k= skip interval= 母體大小 / 樣本大小 ), 之後就從這個號碼每隔 100 號抽出下一個樣本 優點 設計簡便 比簡單隨機抽樣更易於執行 容易訂出抽樣分配的平均數或比率 缺點 母體本身的週期性, 可能導致抽樣及結果的偏誤 ( 抽樣前先將母體隨機化 ; 改變幾次隨機起點 ) 若母體呈現單調上升或下降趨勢, 可能導致結果偏誤 ( 用不同樣本, 重複試驗 ) 成本適中
分層隨機抽樣 樣本依照研究者所要的特性去分層, 形成數個互斥的次母體 樣本名單包含母體資訊, 可幫助研究者提升抽樣的精確性, 因為它消除了母體與樣本間的變異性步驟 : 1. 決定分層所用的變數 ( 班級 主修等 ) 2. 決定該分層變數在母體所佔的比例 3. 決定比例或非比例分層 4. 劃分抽樣清單, 成為各分層的清冊 5. 隨機化各分層抽樣清冊的元素 6. 以隨機或系統程序, 抽出各分層樣本
比例分層與否 比例分層抽樣 = 分層 i 樣本 / 總樣本 母體 % 當各分層之間確有差異時, 才採用非比例分層抽樣 各分層的抽樣大小, 要達適當的信賴區間與誤差估計範圍
分層隨機抽樣 優點 可控制各分層的樣本規模 增加統計效率 可提供代表及分析各子群體的資料 各分層可使用不同的方法 缺點 若以不同的比例選出子群體, 會提高結果的錯誤率 若將母體分層, 特別昂貴 高成本
集群抽樣 Cluster sampling 將母體先分為幾群元素, 再隨機選出幾群, 進行研究 優點 若執行恰當, 能提供母體參數的不偏估計值 比簡單隨機抽樣更經濟 有效率 缺點 由於子群體具有同質性而非異質性, 通常統計效率較低 成本適中 每個樣本的平均成本最低 沒有母體清冊也容易執行
區域機率抽樣 是集群抽樣中最重要的形式 是一種運用在當沒有樣本名單或是電話名單時的一種面對面調查方式 但必須應用在已經發展非常完善的國家裡面, 否則連最基本的要與住戶以電話聯繫都會非常困難 雖然採用此方式會產生很高的交通費用, 但是低成本的人工成本會使得訪談更容易完成 面對面的訪談是比較容易完成訪談的, 因為產生字面上的誤解機率相對其他方法是很低的
雙重抽樣 (double sampling) 透過樣本蒐集資訊, 再以該資訊做為選取子樣本的基礎, 進行深入研究 優點 若第一階段結果有足夠的資料, 將母體分層或集群化, 則可降低成本 缺點 若隨意濫用, 則成本上升
多階段抽樣 是一種當沒有名單範圍或是很難利用某一群體來代替母體時所常用的一種方式 在第一階段, 挑選出符合抽樣類型的母體 ; 在第二階段, 就可以比較容易的建立出研究者要的名單, 或可利用系統抽樣的一些方式來進行 ; 選舉後的選民調查就是屬於一種多階段抽樣
進行集群抽樣的考慮 各集群的同質性如何? 各集群的大小是否應該相同? 各集群應該多大? 一階或多階集群? 需多大樣本?
分層與集群抽樣的比較表
非機率抽樣 Non-probability sampling 隨意 隨性且主觀的抽樣無一般化的必要性 可行性 研究目的受限 時間 成本
非隨機抽樣
非機率抽樣 一般而言, 探索性研究也許是一個適當的非機率抽樣, 若想從較少量的案例中收集廣泛資料, 而且在某種程度上可以推斷並通則化至母體, 則不需要費力去考慮更多母體的數據估計和抽樣誤差 大部份系統性研究也都採用非機率抽樣, 如研究消費者行為很多是使用配額抽樣 (quota sampling), 在購物中心訪問消費者 調查者或多或少會透過隨機方式攔下經過購物中心特定地點的購物者, 並請他們參與調查
非機率抽樣的方式 便利抽樣 : 研究者自行選擇受測者 判斷抽樣 : 研究者按照一些準則, 選出樣本 配額抽樣 : 樣本配額達到母體比例 雪球抽樣 : 可應用於難以辦認與接觸的受測者, 如毒品使用者 幫派份子
何時使用較大的樣本規模? 母體變異大 子群體多 精確度高 信賴水準高 誤差範圍小
多少資訊才足夠? 關鍵議題 研究降低風險 成本 vs. 研究的價值 何時使用普查法? 可行性 必要性人口普查工商普查
Q & A The End