PowerPoint Presentation

Similar documents
Microsoft Word - 95_1_stat_handout_04抽樣與抽樣分配.doc

第9章 估計

Microsoft PowerPoint - 第9章 簡單隨機抽樣與抽樣分配.ppt [相容模式]

第9章抽樣與抽樣分配

Microsoft Word - 94_4_stat_handout_06假設檢定_考古題.doc

連續機率分配

連續機率分配

Microsoft PowerPoint - 第11章 統計估計-區間估計.ppt [相容模式]

0 0 = 1 0 = 0 1 = = 1 1 = 0 0 = 1

Microsoft Word - 94_2_stat_handout08_線性迴歸(考古題).doc

Microsoft PowerPoint - Ch05

第八章 審計抽樣 本章學習重點 stratified random sampling systematic sampling PPS PPS MUS 8-3 壹抽樣與審計抽樣 audit sampling 100%

<4D F736F F D20B0AAA4A4B14DC3442DAB48BFE0B0CFB6A1BB50AB48A4DFA4F4B7C72E646F63>

投影片 1

(Microsoft Word - 11\244T\246\342\277\337\260l\302\334.doc)

統計分析入門與應用 說明 : a. 獨立樣本 : 兩個來自於獨立, 沒有相關的樣本 b. 成對樣本 : 兩個平均數來自於同一個樣本, 有關係的樣本 7-2 Means 平均數分析 Means 平均數分析是用在不同類別變數組合下, 連續變數在各組的統計量, 例如 : 平均數 中位數 標準差 總合 最小

戒菸實務個案自助手冊105年Ver.2

Microsoft Word - CS-981.doc

Microsoft PowerPoint - Ch 09.ppt

第 13 章

第八章 抽樣

Microsoft Word - 94_4_stat_handout_07變異數分析.doc

抽樣調查是觀測研究當中很重要的一種

C19 (1)

PowerPoint 簡報

<4D F736F F D20AC4FBDBDA4FBB67DA96CAABA2DA743A67EAFC5AAA95FA7B9BD5A5F2E646F63>

ex

Microsoft Word - ACL chapter02-5ed.docx

現在人類獲取地球內部訊息的方法, 是從可能影響我們身家性命安全的地震, 用數學模型把地震資料轉換成地震波速度, 進而獲得地底物質密度與深度的關係 地下世界知多少 km/s g/cm 3 P Gpa km S P S 3,000 3,000 ak K 透視地底 Percy Bridgma

Ps22Pdf

Chapter 1 統計學與資料分析簡介

Microsoft PowerPoint - Excel統計2.ppt

<4D F736F F D20B2C43535B3E6A4B8A9E2BCCBBB50B2CEAD70B1C0BDD72E646F63>

Microsoft Word - 94_4_stat_handout_10順序資料之假設檢定.doc

第三單元 平面座標與直線的斜率

When the rejection rule for a test at every level α can be re-written as then xxx is the p-value of the test. xxx < α, If p-value < α, then the test c

Microsoft PowerPoint - CH11決定樣本的大小.ppt

Microsoft Word - 95_1_stat_handout_03機率分配.doc

Introduction to Statistics

Microsoft Word _2nd資料分析

1.3

家庭教育雙月刊第 38 期 101 年 7 月號 (Probability Sampling) 隨機抽樣常用在母群不大且同質的時候, 可利用抽籤或電腦亂數的方式抽取, 此方式最為簡單且樣本最具代表性, 但若樣本數過大時, 因需一個一個編碼, 相當費時費力, 即不宜採用 二 分層隨機抽樣分層隨機抽樣的

14052_公開用.pdf

# 7 % % % < % +!,! %!!

Microsoft Word - 2AF63內文.doc

<4D F736F F D20A4BDA640BDC3A5CDAED6A4DFBDD2B57BAFE0A44FB4FAC5E72DA5CDAAABB2CEAD70B8D5C344A4BDA FA7B9BD5AAAA9>

建築工程品質管理案例研討

基礎統計

常用的統計檢定方法 依變項 DV 類別變數 自變項 IV 連續變數 連續變數 Type A: t 檢定 變異數分析 Type B: 相關 迴歸分析 類別變數 Type C: 卡方檢定 Type D: 判別分析 羅吉斯迴歸

<4D F736F F D20312D332D34AB48BFE0B0CFB6A1BB50AB48A4DFA4F4B7C7AABAB8D1C5AA2E646F6378>

Microsoft Word - 96_3_stat_講義.doc

假設檢定問題解決的步驟 Hypothesis Testing Steps 9 2

95年特種考試地方政府公務人員考試試題解答

sktl00007_read.pdf

理性真的普遍嗎 注意力的爭奪戰 科學發展 2012 年 12 月,480 期 13

CU0594.pdf

Microsoft PowerPoint - 03描述性統計.ppt [相容模式]

社會科學家執行調查 (survey survey) 來蒐 集 樣本, 自然科學家作實驗 (experiments experiments) 以驗證事實學理 周子敬 2

Microsoft PowerPoint - spss2-1.ppt

Microsoft PowerPoint _Discrete Distribution (S5)

Microsoft PowerPoint - 主題四 計量(數)值管制圖

:

品質觀念的介紹 2007/3/1 Quality Management 2

六、抽樣設計

<B2C43035B3B92E646F63>

Microsoft Word - 94_4_stat_handout_06假設檢定.doc

5B_sasaki.pdf

<4D F736F F D20B2C43337B3E6A4B8B3E6C5DCB671BCC6BEDAA4C0AA522E646F63>

第一章合成.ppt

ACI pdf

分層隨機抽樣

7. 下列何者敘述錯誤? (A) 抽樣分佈 (sampling distribution) 的抽樣樣本數越大, 其分佈之集中趨勢 (central tendency) 越小 (B) 樣本 (sample) 可以告訴我們關於母群體 (population) 的資訊 (C) 參數 (parameter)

Microsoft Word - ACI chapter00-1ed.docx

DIY香草植物乾燥

二次曲線 人們對於曲線的使用及欣賞 比曲線被視為一種數學題材來探討要早 得多 各種曲線中 在日常生活常接觸的 當然比較容易引起人們的興趣 比如 投擲籃球的路徑是拋物線 盤子的形狀有圓形或橢圓形 雙曲線 是較不常見的 然而根據科學家的研究 彗星的運行軌道是雙曲線的一部 分 我們將拋物線 圓與橢圓 雙曲


Microsoft Word - 2CA13內文.doc

PowerPoint Presentation

( )... 5 ( ) ( )

選擇學校午膳供應商手冊適用於中、小學 (2014年9月版)

<4D F736F F D B14DA7DEB0AAA6D2AAC0A475AE76312DAAC0B77CA475A740ACE3A873A4E8AA6B>

Transcription:

抽樣方法與統計估計 Statistics, Autumn 2010, C. J. Chang

抽樣的原因 調查整個母體會花費太多時間 研究母體中所有資訊需要龐大的成本 在實際情況下, 無法對母體中的所有項目進行調查 某些特定的實驗俱有摧毀的本質 樣本結果的適當性 2

常見的抽樣方法 隨機抽樣 簡單隨機抽樣 (simple random sample) 系統隨機抽樣 (systematic random sampling) 分層隨機抽樣 (stratified random sampling) 群落抽樣 (cluster sampling) 非隨機抽樣 便利抽樣 (convenience sampling) 判斷抽樣 (judgment sampling) 3

簡單隨機抽樣 簡單隨機抽樣是一種母體中的每一個項目被選中的機率都相同的抽樣方法 其做法是將待選取的項目編號, 之後利用亂數表決定選取的項目 4

系統隨機抽樣 系統抽樣就是任意選擇一起始點, 之後每隔一固定間隔就選取一個樣本 將母體中所有元素編號 (1~N) 計算 N/n, 並取小於或等於 N/n 的最大整數 K, 其中 n 為所須的樣本數 從母體中, 每隔 K 個選出一個樣本, 共選出 n 個樣本 實務上因為常有現成的資料可用, 例如 : 電話簿 戶口名冊 學籍資料等, 因此使用系統抽樣會較為便利性 我們可以用母體的總數除以需求的樣本數做為我們選取間隔的決策準則 若實體的順序與母體的特徵有關聯時, 就不可以使用系統抽樣 5

分層隨機抽樣 分層隨機抽樣的做法是先將母體依特質分為數個層級, 然後每個層級所佔母體的比例自各層級中隨機抽取樣本 分層隨機抽樣能確保佔母體比例較小的層級能一定被抽取到, 在某些情況下, 分層隨機抽樣更能反應母體特徵 6

分層隨機抽樣 (Ex.) 將預抽的樣本數 50* 各層的比例決定各層樣本的抽取數 預計抽取 50 個樣本 7

群落抽樣 群落抽樣是先將母體分成幾個群體, 之後隨機選取幾個群體, 再由這些群體之間進行抽樣 群落抽樣的優點是可以避免母體規模過於龐大的困擾, 讓調查的範為可以縮小, 以節省時間與成本, 進而提昇調查品質 群落內的差異性較高, 而群落間的差異性較小時, 群落抽樣只要抽樣幾個群落, 將能掌握母體的狀況 8

群落抽樣 (Ex.) 群落 群落 第群 第群 群落 第群 樣本 Ex. 將某一州分成 12 個區塊, 隨機抽取四個區域進行調查 9

非隨機抽樣 便利抽樣以資料取得便利性為主要考量, 選擇較不花費成本的資料蒐集工具 網路問卷 電視台的意見調查 修課同學所填寫的問卷 判斷抽樣的樣本取得是依據研究者的主觀判斷選擇適合的研究對象進行調查, 其代表性較差, 但適合用於初期或先期研究 政治評論節目 產品的購買經驗 10

抽樣誤差 透過抽樣, 我們可以利用樣本來估計母體的特徵, 但是樣本只是母體的一部份, 所以樣本平均數與標準差不可能剛好等於母體的平均數與標準差, 因此樣本統計量與母體參數間存在差距, 這就是所謂的抽樣誤差 平均數的抽樣誤差 X 11

抽樣誤差 (Ex.) 已知某旅館 2007 年 6 月每天出租房間數量的母體平均數為 3.13 現隨機抽取兩組樣本 (4, 7, 4, 3, 1; 3, 1, 2, 3, 6), 試計算每組的樣本平均數, 與抽樣誤差 x 47431 X1 3.8 n 5 x 31236 X 2 3 n 5 第一組樣本的抽樣誤差為 X1 3.8 3.13 0.67 第二組樣本的抽樣誤差為 X 3 3.13 0.13 2 抽樣誤差為正數, 表示樣本平均數高估母體平均數 ; 抽樣誤差為負數, 表示樣本平均數低估母體平均數 12

樣本平均數的抽樣分配 因為以樣本來估計母體參數會產生誤差, 所以特定樣本數的不同樣本, 其樣本平均數也會隨著改變, 如果我們將某個特定樣本數的所有組合找出, 求出所有樣本平均數, 並將其整理成機率分配, 這就是所謂樣本平均數的抽樣分配 樣本平均數抽樣分配與母體分配的關係 樣本平均數抽樣分配的平均數剛好等於母體平均數 樣本平均數抽樣分配的離散程度會比母體分配的離散程度小 樣本平均數抽樣分配會趨近於常態機率分配 13

樣本平均數抽樣分配的標準差 因為樣本平均數的資料範圍比母體的資料範圍還小, 但樣本平均數抽樣分配的平均數卻很接近母體平均數, 因此樣本平均數抽樣分配的離散程度比母體分配的離散程度要小, 而樣本平均數抽樣分配的標準差 ( 簡稱平均數的標準誤 ) 計算公式如下 平均數的標準誤 X n 14

中樣極限極定理 (central limit theorem) 當樣本數趨近於無限大時, 樣本平均數的抽樣分配會趨近於常態分配 如果母體的平均數為, 標準差為, 則 : 抽樣分配的平均數為抽樣分配的變異數為 2 n 抽樣分配的標準誤為 n z X n N(0,1) 15

樣本平均數與常態分配 當母體分配為常態分配時, 不論樣本數為多少, 樣本平均數的抽樣分配都會服從常態分配 當母體的分配未知, 或是不為常態分配時, 只要樣本數個數至少為 30, 則由中央極限值定理得知, 樣本平均數的抽樣分配會近似於常態分配 母體標準差已知, 計算 X相對應的 z值 z X n 16

樣本平均數 (Ex.) 已知可樂的容量為常態分配, 每瓶的平均容量是 31.2 盎司, 母體標準差 0.4 盎司 現在由生產線隨機抽取 16 瓶可樂為樣本, 這組樣本平均容量是 31.38 盎司, 試計算其 z 值為何? 樣本平均數大於 31.38 盎司的機率為何? X 31.38 31.2 z 1.8 n 0.4 16 P(31.38 X) P(1.8 z) P(0 z) P(0 z 1.8) 0.5 0.4641 0.0359 17

樣本平均數 (Ex.) 在南加州單人套房的每月租金服從常態分配, 平均數是 $2200, 標準差為 $250 請計算隨機選取 50 間單人房為樣本, 每月平均租金至少是 $1950 的機率是多少 1950 2200 P(900 X) P( z) P( 7.07 z) 1 250 50 機率接近為 1 18

樣本平均數 (Ex.) 某零售店顧客的消費金額服從常態分配, 其平均數是 $23.5, 標準差為 $5 現有一組 50 位顧客的樣本, 請問樣本平均數至少是 $25 的機率? 樣本平均數介於 $22.5 與 $25 之間的機率? 25 23.5 P(25 X) P( z) P(2.12 z) P(0 z) P(0 z 2.12) 5 50 0.5 0.483 0.017 22.5 23.5 25 23.5 P(22.5 X 25) P( z ) P( 1.41 z 2.12) 5 50 5 50 P( 1.41 z 0) P(0 z 2.12) 0.4207 0.483 0.9037 19

點估計與信賴區間 點估計 (point estimate) 利用樣本資料計算統計量, 用來估計母體參數 區間估計 (interval estimate) 當我們欲利用點估計找出母體參數, 通常樣本估計值不一定會正好等於母體參數, 而會略大或略小, 因此我們會利用區間的方式表示估計結果 信賴區間 (confidence interval) 在特定機率下, 估計母體參數可能落在的數值範圍 此特定的機率值可以稱為信賴水準 信賴水準 (confidence level) 上述的特定機率即稱為信賴水準 20

點估計 樣本平均數 X 是母體平均數的點估計 樣本比例 p 是母體比例的點估計 s 樣本標準差是母體標準差的點估計 21

z 分配與 t 分配的選擇標準 我們在求解信賴區間時, 會因為樣本數的不同與是否知道母體標準差 σ, 而會選擇不同的分配 22

母體標準差 σ 已知的信賴區間 母體平均數信賴區間 X z n 信賴區間的取值是左右延伸, 所以我們在取 z 值時, 要用雙尾的概念 Ex. 95% 信賴區間, 因為誤差分佈在兩邊, 所以我們找出機率值為 0.475 相對應的 z 值 23

大樣本的信賴區間 母體平均數信賴區間 ( 我們使用樣本標準差取代母體標 s 差 σ) X z n 信賴區間的取值是左右延伸, 所以我們在取 z 值時, 要用雙尾的概念 Ex.95% 信賴區間, 因為誤差分佈在兩邊, 所以我們找出機率值為 0.475 相對應的 z 值 24

常用 z 值的對照表 信賴區間 單尾的顯著雙尾的顯著水準 α 水準 α z 值 80% 0.1 0.2 1.282 90% 0.05 0.1 1.645 95% 0.025 0.05 1.96 98% 0.01 0.02 2.326 99% 0.005 0.01 2.576 25

母體標準差已知的信賴區間 (Ex.) 針對某速食店進行每日銷售調查, 假設該速食店每日銷售量呈常態分配, 且母體標準差為 $3000, 現抽選出 40 天為樣本, 其樣本平均數為 $20000, 試求平均銷售量的 99% 信賴區間 查表得知, 99% 信賴區間下 z X 2.576 信賴區間為 3000 z 20000 2.576 20000 1221.904 n 40 26

母體標準差已知的信賴區間 (Ex.) 某銀行想要知到一般顧客的平均定期存款金額, 於是隨機抽取 49 位定期存款客戶, 得知這 49 位客戶的平均定期存款金額為 30 萬, 假設已知母體標準差為 8 萬, 試求平均定期存款金額的 90% 信賴區間 查表得知, 90% 信賴區間下 z X 1.645 信賴區間為 8 z 30 1.645 30 1.88 n 49 27

大樣本的信賴區間 (Ex.) 美國管理協會希望瞭解在零售產業中, 中階主管的平均收入, 現在隨機抽取 256 個中階主管, 其平均數為 $45420, 標準差為 $2050, 試求平均收入的 95% 信賴區間 查表得知, 95% 信賴區間下 z X 1.96 信賴區間為 s 2050 z 45420 1.96 45420 251.125 n 256 28

大樣本的信賴區間 (Ex.) 某問卷公司想調查有菸癮的吸菸者在一週內購買香菸平均, 現在隨機抽選 64 位吸菸者為樣本, 其平均數為 $20, 標準差為 $5, 試求平均金額的 95% 信賴區間 查表得知, 95% 信賴區間下 z X 1.96 信賴區間為 s 5 z 20 1.96 20 1.225 n 64 29

小樣本的信賴區間 母體平均數信賴區間 ( 樣本小時, 用 t 分配取代 z 分配 ) X t s n t 值與自由度有關, 自由度為 n-1 自由度 =5-1=4 30

t 分配與 z 分配的比較 與 z 分配相同,t 分配也是連續型的機率分配 與 z 分配相同,t 分配的圖形也是鐘型與對稱分配 t 分配的標準差會依樣本數而改變, 樣本數越大, 標準差越小, 當樣本數趨近於無限大時,t 分配與 z 分配就會相同 t 分配的圖形比 z 分配更平坦 31

自由度的概念 自由度 (degrees of freedom) 我們一般用 df 代表自由度, 是指我們使用樣本統計量時, 能自由變動的變量數量, 所以自由度就是將樣本數減 1 ( 因為樣本平均數已知 ) 32

小樣本的信賴區間 (Ex.) 某輪胎製造商想要研究公司所生產的輪胎品質, 現在隨機選取了 10 個行駛 50000 英里的輪胎做樣本, 發現輪胎的剩餘厚度的平均數為 0.32 英吋, 標準差為 0.09 英吋, 請建構母體平均數的 95% 信賴區間 查表得知, 95% 信賴區間下, n10( df 9) t X 2.262 信賴區間為 s 0.09 t 0.32 2.262 0.32 0.064 n 10 33

小樣本的信賴區間 (Ex.) 台南市政府教育局想要估計台南市小學生每天收看電視所花的時間, 因此隨機抽取 26 位小學生, 得知這 26 位小學生平均收看 80 分鐘電視, 標準差則為 30 分鐘, 試求台南市小學生每天花在電視時間平均數的 95% 信賴區間 查表得知, 95% 信賴區間下, n 26( df 25) t X 2.060 信賴區間為 s 30 t 80 2.060 80 12.12 n 26 34

比例的信賴區間 前面所提的內容都是針對比例尺度的資料, 如果我們的資料是名目測量尺度, 我們就會資料轉換成比例進行分析 比例針對特定的主題, 使用分數 以例或百分比表示出部份的樣本 樣本比例 p X n X 為母體中某種屬性的次數 n 為樣本數 一般樣本的比例我們會用英文字 p 表示 ; 若是母體比例, 則是用希臘字母 π 35

母體比例的信賴區間 為建構比例的信賴區間, 樣本資料必須滿足 二項分配的條件 樣本數要夠大 可以用 nπ 與 n(1-π) 是否同時大於 5 來判斷 母體比例的信賴區間 p z p(1 p) n 36

母體比例的信賴區間 (Ex.) 衛生署想要調查全國大專院校學生抽煙人口比例, 於是隨機抽取 100 位大專生, 發現有 46 位同學有吸煙, 試求抽煙人口比例的 95% 信賴區間 計算樣本比例 46 p 0.46 100 查表得知, 95% 信賴區間下 z 1.96 信賴區間為 p(1 p) 0.46(1 0.46) pz 0.46 1.96 0.46 0.097 n 100 37

母體比例的信賴區間 (Ex.) 某候選人欲參加台南市長選舉, 在正式參選前, 他先進行了一次民意調查, 隨機抽取了 400 位選民, 其中有 300 位表示會支持他, 試求他選民支持率的 99% 信賴區間 計算樣本比例 300 p 0.75 400 查表得知, 99% 信賴區間下 z 2.576 信賴區間為 p(1 p) 0.75(1 0.75) pz 0.75 2.576 0.75 0.056 n 400 38

大樣本的信賴區間 (Ex.) 美國餐廳協會對年輕夫妻每週外出用餐次數進行調查, 根據 60 對夫妻為樣本的調查結果指出, 平均數為每週 2.76 次, 標準差為 0.75 次, 請建立母體平均數 98% 的信賴區間 查表得知, 98% 信賴區間下 z X 2.326 信賴區間為 s 0.75 z 2.76 2.326 2.76 0.2252 n 60 39

小樣本的信賴區間 (Ex.) 一份美國銀行協會抽選 25 位大學畢業生的研究指出, 每一位學生的平均助學貸款是 $14381, 樣本標準差為 $1892, 請建構母體平均數 90% 的信賴區間 查表得知, 90% 信賴區間下, n 25( df 24) t 1.711 信賴區間為 s 1892 X t 143811.711 14381647.4424 n 25 40

母體比例的信賴區間 (Ex.) 某公司對於新進員工都會進行藥物檢測, 在過去的 220 新進員工中, 有 14 位沒有通過檢測, 請建構新進員工沒有通過檢測比例的 99% 信賴區間 計算樣本比例 14 p 0.064 220 查表得知, 99% 信賴區間下 z 2.576 信賴區間為 p(1 p) 0.064(1 0.064) pz 0.064 2.576 0.064 0.0425 n 220 41

有限母體矯正因子 有限母體當母體元素的個數有上限時, 我們稱之為 有限母體 針對一個有限母體, 我們須將信賴區間的公式的公式做調整, 這個調整就稱為 有限母體矯正因子 N n FPC N 1 經調整後的信賴區間為 s N n p(1 p) N n X t pz n N 1 n N 1 42

樣本數的選擇因素 決定樣本數選擇的因素 信賴水準 最大容許誤差 E 母體的變異程度 σ X z n X X z n z n 43

樣本數的選擇公式 估計母體平均數所需的樣本數 z z E z n n n E E 估計母體比例所需的樣本數量 2 2 2 2 z z p(1 p) z n p(1 p) E E E 若計算所得 n 為小數, 必須無條件進位 44

估計母體標準差的方式 因為確認樣本數的工作是在進行抽樣之前, 所以我們還沒樣有樣本標準差可以來替代母體標準差, 可是因為確認樣本數的需要, 我們常用下列的方式估計母體標準差 使用之前類似研究的數據 利用全距估算, 母體標準差可以用六分之一的全距估計 進行實驗性研究, 也就是先進行少量的實驗, 以求得樣本標準差 若是估計母體比例的樣本數, 我們在不知道比例的情況下, 可以用 p=0.5 來估計 45

樣本數的選擇 (Ex.) 某學生想要計算議員的平均薪資為何, 他能接受的最大誤差為 $100, 使用 95% 的信賴水準, 若之前相同研究所得到的標準差為 $1000, 那麼這次研究最少需要多少樣本數 2 2 z 1.961000 n E 100 最小的樣本數為 385 2 (19.6) 384.16 46

樣本數的選擇 (Ex.) 某學生想要研究擁有垃圾掩埋場的城市比例有多少, 其能接受的最大誤差為 0.1, 使用 90% 的信賴水準, 若無法得知母體比例, 那麼這次研究最少需要多少樣本數 2 2 z 1.645 n p(1 p) 0.5(10.5) 67.65 E 0.1 最小的樣本數為 68 47

樣本數的選擇 (Ex.) 隨機挑選 25 位員工, 發現他們每小時的平均薪資為 $65, 標準差為 $6.25 母體平均數的最佳估計值是多少 建構母體平均薪資的 99% 信賴區間 使用 95% 信賴水準, 能容忍的誤差是 $1, 則樣本應該為多少 母體平均數的最佳估計值為 65 查表得知, 99% 信賴區間下, n25 t 2.797 信賴區間為 X s 6.25 t 65 2.797 65 3.496 n 25 2 2 z 1.966.25 n 150.0625 最小的樣本數為 151 E 1 48

The end of this chapter. Thank You!