第一章 : 緒論 周子敬 1
社會科學家執行調查 (survey survey) 來蒐 集 樣本, 自然科學家作實驗 (experiments experiments) 以驗證事實學理 周子敬 2
現代統計學的目標在於推論 (inference inference) 周子敬 3
抽樣方法的焦點 (focus( focus): 抽樣方法焦點大致可以歸納如下 4 點, 而以下 4 點也可 以作為抽樣方法計算的依據, 一般在初階的 敘述統計 學 未含括如此詳細, 但實際上, 如果研究者想要精確 的算出所要抽取的樣本, 大體上應考慮到以下 4 點 : 確認抽樣程序 (sampling procedure) 母體參數 (population parameters) 估計值 (estimators estimators) 估計誤差 (errors of estimation) 周子敬 4
社會科學家經常選擇數百人或 數千人來研究, 由研究結果推論數百 萬人的情形, 而不需直接去研究數百 萬人, 這就是抽樣的精隨 周子敬 5
有 22% 的美國人懷疑大屠殺 (the Holocaust) 從來沒有發生過 德國納粹黨大屠殺猶太人的事件對您來說可能或是不可能? 周子敬 6
結果 : 有可能發生 不知道 不可能從未發生過 22 % 12 % 65 % 周子敬 7
檢討起來, 以上的問題最大的缺陷在於雙 重否定 (double negative) 用語模糊了回答者應 該回答的選擇 周子敬 8
所以之後 Roper 組織對於以上的問題再 做出了適當的問題修正 : 大屠殺通常是指在第二次世界大戰時, 在納粹死亡營中被殺的幾百萬猶太人 ; 依您的觀念, 大屠殺 確實發生 或許發生 或許發生 或許沒有發生 或 確實沒有發生? 周子敬 9
結果 : 大屠殺確實發生大屠殺或許發生大屠殺確實沒有發生 83 % 13 % 1 % 周子敬 10
兩種問法的結果大相逕庭! 周子敬 11
民意及調查逐漸地增加政治 研究及商業決策的 引導, 但它們的應用可能非常危險或易變的, 而且顯為 人知 在 Cynthia Crossen 所著一本有關於現行資料蒐集 及使用趨勢非常好的 敗壞事實 (Tainted( Truth) 一 書中指出 : 我們是會懷疑統計及真實的資訊, 但卻不是我們想像的那樣懷疑 周子敬 12
她繼續說到 : 我們尊重數字而且我們不得不相信它們, 然而, 我們過往所相 信 選擇 忠告及治療的資訊已被創造成不是擴展我們的知識, 而是販售產品或促銷貨物 周子敬 13
我們依賴資料來作出明智之舉, 然而, 我們 時常看到資料被曲解 誠如美國諺語 : : 垃圾進 垃 圾出 (garbage in garbage out),, 但進入數字遊 戲範疇時, 常常有許多人落入另一美國諺語 : : 垃圾 進 福音出 (garbage in gospel out) 的圈套中 消費者及製造者對於一系列不偏依真實資料的認知 需要有所瞭解, 諸如 : 調查是如何進行的? 一個好 的調查是如何設計的? 以及調查資料是如何經過合 適的分析? 周子敬 14
抽樣調查網站 ( 以美國為例 ) 網站名稱 美國國家環境衛生科學研究院 (National Institute of Environmental Health Sciences) 蓋洛普調查 當前人口調查 尼爾森媒體研究 全面社會調查 網址 www.niehs.nih.gov/emfrapid ( 可找到對於暴露於高壓電線, 對健康造成的可能影響報告 ) www.gallup.com/poll ( 民意調查 ) www.bls.gov( 當前人口調查 ) www.nielsenmedia.com ( 收視率調查 ) www.norc.uchicago.edu( 全面社會調查 ) 周子敬 15
x 母群體 population 抽樣 (sampling) 樣本 samples 推論 (inference) 周子敬 16
抽樣程序步驟 : 選定母群體 選擇抽樣架構 選擇抽樣方法 選擇抽樣單位 界定誤差範圍 決定樣本大小 周子敬 17
x 決策常面臨不確定性, 機率便是對不確定性量 測的指標, 而表達機率的方法則以隨機變數最佳, 不 論是離散型或連續型的隨機變數都是提供決策不可或 缺的工具 由抽樣的少數樣本資訊對整個母體 ( 或參 數 ) 作決策, 這種方式在統計領域尚稱之為統計推統計推 論 同學們對於抽樣分配的基本動作應該會由一組樣 本的資料算出一統計量 ( 如樣本平均數或樣本標準差 s), 對感興趣的母體參數 ( 如母體平均數 μ 或標準差 σ) 作估計或決策 周子敬 18
x 由看到樣本資料 x 1, x 2, x 3,. x n 推估母體參數 μ 或 σ, 此種由抽樣資料推估母體的長相, 統計上稱為統計 推論 一般統計推論分為估計估計與檢定檢定兩大領域, 而點估 計又分成點估計點估計與信賴區間信賴區間兩種, 點估計是探討要用何 種估計量估計參數的問題, 例如估計母體平均數 μ 時, 到底要用樣本平均數, 或是樣本中位數 Me, 或是眾 數, 那一個統計量較好 周子敬 19
例 1 南極海域藍鯨存量的估計 : 南極海域藍鯨捕獲量越來越少, 捕鯨協會想研究南極的藍鯨存量有多少? 方法 1 : 將南極海域的水抽光後, 數一數有多少尾藍鯨, 就能得到藍鯨存量的答案, 此為 普查 的想法, 但實際上不可行 方法 2 : 捕獲量比較法,, 如第一次捕捉到 270 尾, 第二次捕捉到 243 尾, 少了 10 % 則估計為原有 270 / 0.1 = 2700 尾, 但現在則有 2187 尾 方法 3 : 記號法,, 設第一次捕捉到鯨魚 150 尾, 作記號後放回 第二次再捕 100 尾, 其中有 6 尾有記號, 則估計鯨魚存量為 : 2500 尾 100 150 = 6 資料來源 : 陳順宇教授 周子敬 20
估計與誤差 1 我們常為某種目的作統計調查, 例如在例 1 中由於 生態學家認為南極海域的藍鯨存量瀕臨絕種邊緣, 因 此, 想知道現在的藍鯨存量有多少? 在這個問題中, 藍鯨存量就是我們感興趣的參數 ( 如果我們感興趣的 雄藍鯨在此海域中所佔的比例, 那麼參數就是雄藍 鯨之比例 ) 周子敬 21
估計與誤差 2 要得到母體參數 ( 藍鯨存量 ) 是多少, 也許想到的方法有很多 (3( 種方法 ), 較可行的方式是透過統計的手法獲的資料在作推估, 但資料的獲得有時會因使用的蒐集方法 ( 抽樣調查 ) 不正確, 造成方法偏差 ( 實驗方法不好, 造成的估計差異 ), 有時雖然抽樣方法沒有偏差, 但因樣本太少或運氣不好, 抽到的資料不具代表性, 這種由於抽樣資料算出的估計與母體參數之間的誤差, 稱為抽樣誤差 所以, 一般估計值有下面的關係式 周子敬 22
估計與誤差 3 估計值 = 參數 + 方法偏差 + 抽樣誤差 樣本資料所推估 母體真正的特性 不當抽樣方法所造成 抽樣對象不同所造成 資料來源 : 陳順宇教授 (remodel) 周子敬 23
抽樣方法 常用隨機方法 採行方式 ( 步驟 ) 簡單隨機抽樣 (simple random sampling) 分層隨機抽樣 (stratified( random sampling) 系統 ( 間隔 ) 抽樣 (systematic sampling) 集群抽樣 (cluster sampling) (1) 採用摸彩法 (2) 利用亂數表 (random( number tables) (3) 僅限於構成群體的個數均屬同質時使用較佳 (1) 取樣前, 根據研究目的有關已有的標準, 將群體中之個體分為若干類, 每類稱為一層 (2) 在各層隨機抽取若干個體作為樣本 (3) 層與層間主要變數平均數差異最大, 層內變異數最小 (1) 從母體中第 1 至 k 個值之中隨機抽取一個元素, 以後每隔 k 個元素抽取一個 (2) 抽樣區間 (sampling( interval) 兩個樣本間的標準距離 (3) 週期性 抽樣區間與樣本區間相同, 容易產生誤差 (1) 以團 ( 集 ) 體為單位, 而不以個人為單位 (2) 將群體按某種標準 ( 如班級 地區 ) 分為若干類, 稱為團體, 對各團體隨機抽取若干小團體 (3) 對小團體之各團體, 全部加以訪問周子敬 24 資料來源 : 古永嘉教授
抽樣方法 圖解說明 分層抽樣 Δ Δ Δ Δ Δ Δ 抽樣 Δ Δ 集群抽樣 群別 1 2 3 單位 x 1, x 2, x 3,, x 6 x 7, x 8, x 9,, x 12 x 13, x 14, x 15,, x 18 周子敬 25 資料來源 : 古永嘉教授
常用非隨機方法及採取方式 抽樣方法 簡便抽樣 (convenience( sampling) 判斷抽樣 (judgment( sampling) 配額抽樣 (quota( sampling) 滾雪球抽樣 (snowball( sampling) 街頭訪問 ( 街訪 ) 主觀認定 (1) 選擇 控制特徵 (control( characteristics) (2) 母體按控制特徵加以細分成幾個子母體 (3) 決定各子母體的樣本大小 (4) 選擇樣本單位 採行方式 ( 步驟 ) 向滾雪球一樣, 越滾越多 周子敬 26 資料來源 : 古永嘉教授
有代表性嗎 ( 樣本對於整體研究重要嗎 )? 抉擇點 有 沒有 選擇隨機抽樣設計 選擇非隨機抽樣設計 如果研究目的主要是下列各項 : 如果研究目的主要是下列各項 : 通則化 評估母群體中次組別不同的參數 在地方區域中蒐集資訊 在樣本中的次組別中蒐集資訊 獲得較快, 即使是不可靠的資訊 獲得某些類別上的相關資訊 簡單隨機抽樣 系統抽樣 集群抽樣 ( 如果成本不夠的話 ) 區域抽樣 雙重抽樣 便利抽樣 所有次組有相同元素數 只有少數專家可以提供 需要特別少數民族的回應 有 比例分層隨機 沒有 非比例分層隨機 判斷抽樣配額抽樣 周子敬 27 資料來源 :Sekaran: Sekaran,, 2003