第四十八單元信賴區間與信心水準的解讀 ( 甲 常態分布 林信安老師編寫 許多量測的結果, 像是葡萄酒的評鑑 基測作文分數的評定 天文資料的觀測等等, 都會有誤差, 這些誤差可能來自個人的偏見 儀器的誤差, 但是更關鍵的是, 即使一切流程都很完美, 但是數據本身依然會有誤差, 數據本身就會因隨機誤差而變動, 這是重要的關鍵 1738 年棣美弗 (Abraham De Moivre 在他的 << 機會論 >> (The Doctrie of Chace 再版時, 揭示了數據誤差的分布曲線 鐘形曲線之重要性 這個鐘形曲線通常稱為常態分布, 有時候也稱為高斯分布 高斯在研究行星運動時, 認識到常態分布描述了量測誤差的分布情形 誤差定律, 他當年將 誤差定律 這條法則, 塞在 << 天體依圓錐曲線繞日運動之理論 >> 這本書, 幸好拉普拉斯 (Laplace 在 1810 年偶而讀到這本書, 利用這本書中誤差定律的結果, 他馬上知道可以用來改進他自己正在研究的 中央極限定理, 中央極限定理是說 : 大量的獨立隨機因素之和, 可以是任何數值, 其出現的機率呈常態分布 這個結果比高斯的發現更能說明常態分布就是誤差定律 (1 常態分布 : 很多資料畫出直方圖後, 將直方圖中各長方形頂邊的中點用平滑曲線相連, 會呈現中間高而往左右兩邊下降近似鐘型 當資料的次數分配曲線圖呈現如鐘型一樣, 由中間往兩邊對稱下降的情形時, 就說此組資料的分布是近似常態分布 ( 或稱常態分配, 常態分布是高斯 (Carl F.Gauss 所創, 他發現許多資料的測量誤差經常是依據常態分布, 常態分布是統計最有用的一種分布, 很多社會科學自然科學的資料都近似常態分布 對於常態分布的資料, 我們由次數分配呈鐘形知道中間部分佔的比例較大, 愈往兩旁 所佔的比例愈小, 但比例大約是多少呢? ~48 1~
當一組資料的直方圖呈常態分布, 而且也知道此組資料的平均數 µ, 標準差 σ, 就能利用數學方法估算出大約有 68% 的資料落在區間 [µ σ, µ+σ] 內, 有 95% 的資料落在區間 [µ 2σ, µ+2σ] 內, 有 99.7% 的資料落在區間 [µ 3σ, µ+3σ] 內 (2 標準計分 : 標準分數 (stadard score= 觀測值 算術平均數標準差 標準分數為 1 的意義是說 : 觀測值在算數平均數之上 1 個標準差的位置 ; 標準分數為 2 的意義是說 : 觀測值在算數平均數之下 2 個標準差的位置 標準分數可以用來比較 不同分布中的值 在使用時, 分布必須至少是大致對稱的, 標準分數才適用 [ 例題 1] 從實驗室的數據證實, 人的睡眠時數呈現常態分布, 其平均數為 7.5 小時, 標準差 1 小時, 根據此睡眠分布, 試估計下列各項所佔的人數比例 (1 睡眠時數超過 7.5 小時者 (2 睡眠時數介於 6.5 到 8.5 小時者 (3 睡眠時間不到 8.5 小時者 As:(150% (2 約 68% (3 約 84% [ 例題 2] 某校有學生 1000 人, 段考成績呈常態分配, 數學平均成績 70 分, 標準差 10 分, 英文平均成績 60 分, 標準差 8 分, 某生數學成績 78 分, 英文成績 68 分, 則以全校排名預估他哪一科考得較好? ( 練習 1 某校有學生 1000 位, 數學段考成績呈常態分布, 平均成績 70 分, 標準差 10 分, 請概估 : (1 此次數學段考不及格的學生約有幾位? (2 成績超過 90 分的有幾位? (3 某生成績 80 分, 他在全校大約排第幾名? As:(1160 位 (225 位 (3 第 160 名 ( 練習 2 某校有學生 1000 人, 數學段考成績呈常態分配, 平均成績 60 分, ~48 2~
標準差 10 分, 請概估數學成績 40~ 70 之間的人數大約有多少人? As: 815 人 ( 練習 3 Jae 在 SAT 的語言部份得了 600 分, 她的朋友 Joy 則是參加 ACT 測驗, 在語言部份拿了 24 分 根據測驗單位的統計結果,SAT 與 ACT 大致上呈常態分布, 且它們的算術平均數與標準差分別為 500,110;18,6, 請問誰的標準計分比較高 As:Joy ( 練習 4 丟硬幣的試驗中, 硬幣出現正面的比例呈常態分布 ( 平均數 p 時, 標準 p ( 1 p 差為 今丟一個公正的硬幣 100 次, 其中出現正面的比例為 pˆ, 依常態分布的規則, 求 pˆ 0.6 的機率 As:2.5% ( 乙 信賴區間與信心水準 從一個例子談起 : (1 請 100 個同學用隨機號碼表模擬 投擲一個質量均勻銅板二十次 的試驗, 以擲出正面的比率為橫座標 學生人數為縱座標製作次數分配表 (2 請 1000 個同學用隨機號碼表模擬 投擲一個質量均勻銅板 100 次 的試驗, 以擲出正面的比率為橫座標 學生人數為縱座標製作次數分配表 [ 解答 ]: (1 利用隨機號碼表中以 0 2 4 6 8 代表出現正面, 而 1 3 5 7 9 代表出現反面, 舉例 : 以第 5k-4 列 ~ 第 5k 列及第 4 l -3 行 ~ 第 4 l 行的 小區塊 當成一次模擬, 那麼這種選取隨機號碼表的方式, 可以當成 100 個同學同時作 投擲銅板二十次 的試驗, 因此得到 100 個同學擲出正面的比率值 比如右框中即第 1~5 列及第 1~4 行的 小區塊, 其中有 7 個偶數, 所以模擬第 1 個同學擲出正面的比率是 0.35 下表是以此方法得到的 100 個模擬正面數 : 再以橫坐標是擲出正面比率, 縱坐標是學生人數作直方圖 : ~48 3~
這個隨機模擬的結果有些令人失望,100 個同學投擲ㄧ個公正的銅板 ( 因為你假設偶數是正面 奇數是反面, 出現次數最高的並不是期望值 0.5, 而且也沒有出現左右完全對稱的情形 同學可以用不同選取號碼的方式做不同的模擬, 情況也不盡相同, 不過有些結果會類似, 我們可以算出這個隨機試驗的期望 0.5 0.5 值是 0.5, 標準差是 0.11, 而我們從前頁的圖表知道, 擲出正面比率在 20 0.5 0.11 與 0.5 + 0. 11之間的人數佔全部的 71%, 在 0.5 2 0. 11與 0.5 + 2 0.11之間的人數佔全部的 95%, 在 0.5 3 0.11與 0.5 + 3 0. 11之間的人數佔全部的 100% 如果以 100 個同學投擲ㄧ個公正銅板的模擬看來, 即使並非每個同學擲出正面的比率值都是 0.5( 這種情形太困難了吧, 但比率值在期望值前後 1 個 2 個 3 個標準差範圍內的人數約略是佔全部的 68% 95% 99.7% (2100 個學生的模擬試驗的結果或許與理論值有些誤差, 解決方法是提高投擲次數 ( 如每人投擲 100 次 及增加參與學生人數 ( 如 1000 個學生參與, 但隨機試驗仍存在不確定性, 下圖是以 1000 人進行 投擲一個質量均勻銅板 100 次 試驗的結果 : 以橫坐標是擲出正面比率, 縱坐標是學生人數作直方圖 : ~48 4~
當我們用 1000 個學生進行 投擲一個質量均勻銅板 100 次 試驗, 其直方圖就會比 較接近常態分布 在沒有計算機的年代裡, 我們連續投擲一個質量均勻銅板 10000 次, 計算出現正面 4000~6000 次的機率值 6000 10000 C k k = 4000 (0.5 10000 就不是件容易的事, 數學家想尋找一種模型 能夠描繪二項分配或甚至是適用其他的機率分佈, 於是常態分布就廣泛地被大家使用了, 只要上述投擲銅板的試驗次數夠多, 它就能夠用常態分佈來近似其機率分布的狀況 (1 中央極限定理 : 統計學上常假設資料是常態分布, 例如常態分班 常模 ; 常態曲線等等都是常聽到的名詞 而這些假設的依據是什麼呢? 設某母體平均數是 µ 變異數是 σ 2, 但一般來說 µ σ 2 都是未知的, 若從母體中抽出 個樣本 x 1 x 2 x, 我們以樣本平均數 x = x 1+x 2 + +x 來估計 µ, 因為每次抽出 的 個樣本都不相同, 因此算出的樣本平均數 x 會不相同, 我們稱 x 為 隨機變數, 既然每次抽樣算出的 x 不同, 因此有必要了解隨機變數 x 的抽樣分布的 長相 是如何? 統計學理有個基本定理 中央極限定理, 中央極限定理告訴我們當樣本數 很大時, 不管母體資料是什麼分布, 也不管母體的資料是連續或離散 對稱或不對稱 右偏或是左偏, 甚至單峰或是多峰都無所謂, 只要樣本數 足夠大 ( 這裡的足夠大並沒有一定的標準, 如果母體的分布愈對稱, 則所需的樣本數愈少, 通常要求 30, 則 ~48 5~
(1 隨機變數 x 的分配會接近鐘形的常態分布 (2 隨機變數 x 的平均數與原母體平均數相同都是 µ (3 隨機變數 x 的標準差 ( 稱為標準誤 與原母體的標準差不同, 變成只有 σ (2 一份民調的解讀 : 大眾媒體經常報導民調的結果, 而民調的問題多半為是非題 : 對某位候選人支持或不支持, 對某位行政首長滿意或不滿意, 要不要投票給某位候選人等等 下面的文字是某民調公司對行政院長施政的滿意度調查 :.. 滿意度 4 成 4 本次調查是以台灣地區住宅電話簿為抽樣清冊, 並以電話的後 四碼進行隨機抽樣 共成功訪問 1056 位台灣地區 20 歲以上民眾 在 95% 的信心水準 下, 抽樣誤差為正負 3.0 百分點 上面的文字除了說明某民調公司的抽樣的母體與抽樣的方法外, 對於行政院長施政滿意度結果的呈現應該如何來解讀呢? 我們提出以下兩問題 : 問題一 : 95% 的信心水準 和 抽樣誤差正負幾個百分點 這兩句話總是與民調的結論並陳, 它們代表什麼意義呢? 問題二 : 電話只訪問了 1000 多人, 相對台灣地區一千六百萬的成年民眾, 這 1000 多人具有代表性嗎? 首先我們先解讀文字中的各項涵義 : (a 滿意度 4 成 4 在本次調查中, 母體是台灣地區 20 歲以上的民眾, 樣本則是成功訪問的 1056 人, 滿意度 4 成 4 表示在 1056 位受訪者中, 約有 44% 的人表示滿意 ( 即約有 456 人回答滿意 (b 抽樣誤差正負 3.0 百分點 將 44% 分別加減 3.0%, 就可得到一個區間 [0.44 0.03,0.44+0.03]=[0.41,0.47], 假設全台成年民眾經過普查, 真正的滿意度是 p( 也就是真正的滿意度為 p, 那麼這次的調查估計 p 的值可能會落在 0.41 到 0.47 的範圍內 而這裡我們樣本中滿意的比例 44% 來推估母體滿意比例 p 可能落在那個區間 統計上把這個區間稱為信賴區間 信賴區間 :[ 估計值 最大誤差, 估計值 + 最大誤差 ] (c 95% 的信心水準 在這次調查中, 母體真正的滿意比例 p 是不可知的, 而抽樣都會有誤差, 我們並不能 保證真正的比例 p 一定會在我們所推估的區間內, 而 95% 的信心水準的意思是指 : 如 果我們抽樣很多次, 每次都會得到一個信賴區間, 那麼這麼多的信賴區間中, 約有 95% 的區間會涵蓋真正的 p 值 ~48 6~
因此根據 (a(b(c 的解讀, 對於這份民調的結果我們有了比較完整的概念 : 民調中的滿意度是被抽樣訪問者的滿意度, 將它加上正負誤差, 就可以得到一個信賴區間, 而我們有 95% 的信心說, 真正的滿意度會落在我們所得出的區間中 通常估計真正的 p 值落在那個範圍是以區間來表示, 稱為信賴區間, 而落在此區間的 機率稱為信心水準 結論 : (1 信賴區間 :[ 估計值 最大誤差, 估計值 + 最大誤差 ] (2 95% 的信心水準的意思是指 : 如果我們抽樣很多次, 每次都會得到一個 信賴區間, 那麼這麼多的信賴區間中, 約有 95% 的區間會涵蓋真正的 p 值 [ 例題 3] 某報對於台北市市長施政滿意程度進行民調, 民調結果如下 : 滿意度為六成三, 本次民調共成功訪問 900 位台北市 20 歲以上的成年民眾, 在 95% 的信心水準下, 抽樣誤差為正負 3.2 百分點 (1 這項民調的母體是什麼? 樣本數為多少? (2 受訪民眾中對市長施政滿意約有多少人? (3 算出這次調查的信賴區間? (3 如何計算出 95% 的信賴區間 : 我們已經回答了問題一字面上的意義, 對於問題二與 95% 的信心水準的誤差界間是如何算出來的, 接下來我們用中央極限定理來解釋 : 以前面行政院長的施政滿意度為例, 抽樣的 個人中, 用 pˆ 表示樣本中的滿意比例, 樣本中滿意的人數即 pˆ =, 假設全台成年民眾經過普查, 真正的滿意度是 p, 那麼 pˆ 樣本數 會剛好是 p 嗎? 可能不會那麼準, 但是只要抽出的樣本數 夠大, 這個 pˆ 會與 p 相當接近, 有多接近呢? 我們先觀察 pˆ 可能出現的情形 : 因為抽樣結果 pˆ 隨著樣本而改變, 用同樣的方法抽樣得到的 pˆ 也許是 0.43 或是 0.55, 如果真的從同樣的母體中重複抽取很多次, 並將許多的 pˆ 值以直方圖統計, 根據中央極限定理, 當樣本數足夠大, pˆ 的分布近似於 常態分布 下圖是以電腦模擬母體滿意比例 p=0.4, 隨機抽樣 1000 人, 所得的 pˆ 的分布 : ~48 7~
上面的直方圖呈現出常態分布的型態, 由常態分布的經驗法則, 隨機變數 pˆ 離 p 在 2 σ 個標準差內的機率有 95%, 可表成 P( pˆ p 2 σ 0.95 不過一般母體的標準差 σ 也是未知的, 所以改成樣本的標準差 s 來代替 σ, 因此 P( pˆ p 2 s 0.95, 而 pˆ p 2 s 正的滿意度 p 落在區間 [ pˆ 2 s, pˆ +2 s ] 的機率約為 0.95 因此我們將區間 [ pˆ 2 s, pˆ +2 s ] 稱為 95% 的信賴區間 pˆ 2 s p pˆ +2 s 所以我們可以說真 對某位候選人支持或不支持, 對某位行政首長滿意或不滿意, 要不要投票給某位候選 人等等, 這些都是二分類的資料, 對於每次試驗只有兩種結果 ( 成功以 x i =1 表示, 失敗 以 x i =0 表示 的資料, 樣本標準差為 pˆ(1 ( 參閱例題 4, 當 足夠大時, 樣本 1 標準差 pˆ(1 1 區間為 [ pˆ 2 pˆ (1, 因此當我們面對二分類的資料時,95% 的信賴, pˆ +2 ] ~48 8~
這個結果的意思是 : 我們每次抽一次樣本 ( 由 個人組成, 就會得到樣本比例 pˆ, 據此就可以算出一個信賴區間 假設我們持續的抽樣很多次, 每次得到新的 pˆ 值與信賴區間, 那麼在這些區間中, 大約有 95% 的區間會包含真正的 p 值 上圖中共有 21 條線段, 每條線段代表一個抽樣所得的信賴區間, 圓點代表樣本比例 pˆ, 有的線段會並不包含真正的 p 值, 這樣偏差的抽樣結果也許會發生, 但機率不大 不過實際的抽樣調查只會進行一次, 也就是只能得出一個信賴區間, 這個信賴區間可能會也可能不會包含真正的 p 值, 但是基於 重複抽樣下大約有 95% 的區間會包含真正的 p 值 這個特性, 我們遂以 對此區間, 我們有 95% 的信心認為它將包含真正的 p 值 結論 : 在一個大母體中, 其成員具有某種特質的比例為 p, 若從母體中隨機抽取 個樣本 ( 必須夠大, 令 pˆ 代表該樣本中擁有此特質的比例, 則區間 其中 2 [pˆ 2, pˆ +2 稱為最大誤差 ( 亦稱誤差界限 ], 稱為 p 的一個 95% 的信賴區間, 或 在 95% 的信心水準下的信賴區間 根據同樣的想法, 我們也可以得到 68% 99.7% 的信賴區間, 此時最大誤差分別為 與 3, 因此我們可以得到以下的結果 : 在一個大母體中, 其成員具有某種特質的比例為 p, 若從母體中隨機抽取 個樣本 ( 必須夠大, 令 pˆ 代表該樣本中擁有此特質的比例, 則 p 的信賴區間為 [ pˆ e, pˆ +e], 信心水準 68% 95% 99.7% 所對應的最大誤差 e 分別為 2 3 [ 例題 4] 從母體中抽出 個樣本 :x 1, x 2, x 3,, x, 成功用 x i =1, 失敗用 x i =0 表示, 設 pˆ 樣本中的成功數為 個樣本中, 成功的比例, 即 pˆ = 證明 : 樣本變異數為 pˆ (1 1 [ 解法 ]: 樣本的平均數 = x 1+x 2 + +x = pˆ ~48 9~
樣本變異數 = 樣本標準差 = 1 1.[ 2 x i i= 1 pˆ(1, 1. x 2 ]= 1 1 當 很大時, 樣本標準差 = pˆ(1 1.[ pˆ ( pˆ 2 ] = pˆ (1 林信安老師編寫 1. pˆ (1 [ 例題 5] 某次選舉候選人兩名應選 1 名, 民調公司做支持度調查成功訪問了 1070 個合格選民, 其中 642 人表示支持甲候選人, (1 此次民調支持甲候選人的比例為多少? (2 在 95% 的信心水準下, 此次民調的誤差約為多少? (3 請寫出此次民調 95% 的信賴區間 [ 解法 ]: 642 (1 = 0. 6 1070 0.6 (1 0.6 (2 2 0.02995, 誤差約為 3% 1070 (3 此次民調 95% 的信賴區間約為 [0.6-0.03, 0.6+0.03] 即在 95% 的信心水準下, 甲候選人的支持度約在 [0.57, 0.63] 區間內 [ 例題 6] 32 位學生丟硬幣出現正面 反面的結果如下 : 1101 1100 1011 1001 0010 0111 0101 0111, 其中 1 代表正面,0 代表反面, 試求此硬幣出現正面的比例 p 的 (195% 信賴區間 (2 68% 信賴區間 (3 99.7% 信賴區間 [ 解法 ]: 32 次試驗中, 出現正面的次數為 19 次, 故比例 pˆ = 19 32 0.59375 (1 95% 信賴區間 : 最大誤差 e=2 pˆ (1 0.49113 2 32 32 0.17364 故 95% 信賴區間為 [pˆ e, pˆ +e]=[0.59375 0.17364, 0.59375+0.17364]=[0.42011, 0.76739] (2 68% 信賴區間 : 最大誤差 e= pˆ (1 0.49113 32 32 0.08682 故 68% 信賴區間為 [pˆ e, pˆ +e]=[0.59375 0.08682, 0.59375+0.08682]=[0.50693, 0.68057] (3 99.7% 信賴區間 : 最大誤差 e=3 pˆ (1 3 0.49113 32 32 0.26046 故 99.7% 信賴區間為 [pˆ e, pˆ +e]=[0.59375 0.26046, 0.59375+0.26046]=[0.33329, 0.85421] ~48 10~
本節討論常態分配 68-95-99.7 的規律值是一近似值, 下表提供了在平均值前後 k 個 標準差內所佔全體的比例值 :( 較精確的近似值 k 1 1.65 1.96 2 2.58 3 比例 0.682 0.9 0.95 0.954 0.99 0.997 p (1 p 表中看出, 若是 95% 的信心水準下的信賴區間的最大誤差應改為 1.96 ˆ ˆ, 但為了計算方便本節都是用 2 替代 1.96 [ 例題 7] 不透明的袋中有 4 顆紅球 6 顆白球, 小明從袋中每次取出一球做紀錄後放回, 連續取 20 次得到取出紅球的次數為 10, (1 小明此次試驗取出紅球的比例為多少? (2 寫出此次試驗信心水準為 90% 的信賴區間 (3 寫出此次試驗信心水準為 99% 的信賴區間 (4 若小華將取球次數提高到 50 次, 且知取出紅球的次數為 25, 那麼請幫小華在以 99% 的信心水準下對此試驗作一報告 [ 解法 ]: 10 (1 = 0. 5 20 0.5 (1 0.5 (2 區間半徑為 1.65 0.1845,90% 的信賴區間為 20 ] [0.5 1.65 0.5 (1 0.5,0.5+1.65 20 0.5 (1 0.5 ] 約是 [0.316, 0.685 20 0.5 (1 0.5 (3 區間半徑為 2.58 0.2885,99% 的信賴區間為 20 0.5 (1 0.5 0.5 (1 0.5 [0.5 2.58,0.5+2.58 ] 約是 [0.212, 0.789 20 20 ] (4 小華的試驗取出紅球比例也是 0.5, 但取球次數提高到 50 次且要求信心 0.5 (1 0.5 水準 99% 的誤差為 2.58 0.1824, 誤差約為 18%, 亦即 50 小華試驗 99% 的信賴區間為 [0.318, 0.682] 所以小華可以公佈: 袋中紅球的比例是 50%, 本次試驗成功隨機抽樣 50 次, 在 99% 的信心水準下, 抽樣誤差為正負 18 個百分點 一般而言, 提高信心水準會使信賴區間變寬 ( 比較例題 6 的 (1(2(3, 如此會模糊 對於真實 p 值的判讀 ( 試想長度為 1 的區間會有什麼意義呢?; 但此時若增加抽樣 的樣本數則可彌補此缺點 ( 比較例題 7 的 (3(4 ~48 11~
( 練習 5 某次選舉候選人兩名應選 1 名, 民調公司做支持度調查成功訪問 100 個合格選民, 其中 60 人表示支持甲候選人, (1 此次民調支持甲候選人的比例為多少? (2 在 95% 的信心水準下, 此次民調的誤差約為多少? (3 請寫出此次民調 95% 的信賴區間 As:(1 0.6(2 誤差約為 9.8% (3 此次民調 95% 的信賴區間約為 [0.502, 0.698] 區間 ( 練習 6 袋中有紅球 藍球各若干個, 小安每次從袋中拿一球看完顏色後又放入袋中, 共拿 50 次, 結果有 20 次拿出紅球, 求袋中紅球所佔比例 p 的 95% 信賴區間 As:[0.26144, 0.53856] ( 練習 7 由生產線隨機抽樣 400 個產品, 得到樣本不良率為 8%, 求 (1 不良率 p 的 95% 信賴區間 (2 不良率 p 的 99.7% 信賴區間 (3 不良率 p 的 68% 信賴區間 As:(1[0.0529,0.1071] (2[0.03932,0.12068] (3[0.06644,0.09356] ( 丙 樣本數的決定 一般而言, 調查人數愈多, 成本愈高, 估計也愈準確, 調查人數多寡要考慮到成本與估計的準確性 像是選舉期間候選人做民意調查, 想知道自己與對手的得票率約為多少, 不過在考慮成本與民調準確性下, 候選人希望能在開票前就可以預估自己的得票率, 以便調整選舉策略, 那麼得票率的民意調查要調查多少人才合適呢? 從前面信賴區間的意義中, 可以得知某次民調如果有效樣本有 位, 可以由這 位樣本可以求出得票率 p 的誤差界限及信賴區間 反之, 如果要控制得票率 p 的估計誤差在 e 內 ( 即最大誤差為 e 時, 需要調查多少樣本呢? 這樣的問題稱為樣本數的決定 當樣本數愈多時, 則資料愈有代表性, 抽樣誤差愈小 ; 但是樣本數愈多, 成本愈高, 因此必須在精確與成本之間曲得平衡 在 95% 信心水準之下, 如何控制估計誤差在 e 內時, 需要調查書少樣本呢? 4 pˆ (1 (1 如果得到 pˆ 的估計, 則由 e=2, 可求得 = e 2 (2 但是如果沒得到 pˆ 的資訊時, 可以用較保守的方式來估計 : Q pˆ (1 0.5, e=2 2 0.5 也就是說當最大誤差為 e 時, 則樣本數約需要 ( 1 e 2 補充說明 : = 1, 得總數 ( 1 e 2 (a 事實上根據常態分配表, 較精確的說法 95% 的資料落在區間 [ x 1.96s, x +1.96s] ~48 12~
內, 所以 95% 的信心水準的最大誤差有 e 1.96 0.5, 所需的樣本數 ( 1.96 0.5 e 2 例如 :e=0.03, 則由上式可得樣本數約需 ( 1.96 0.5 0.03 2 1068 1.96 0.9 0.1 (b 如果 p 離 0.5 很遠, 則抽樣樣本數可以改為 ( 2 e [ 例題 8] 一項調查想了解大台北地區高中生家中擁有 Wii 的學生比例, 民調公司想在 95% 的信心水準下, 公佈誤差為 ± 3 %, 試問這次民調至少需要多少成功的樣本?As:1112 個 [ 解法 ]: 因為 pˆ (1 0.5, e=2 2 0.5 = 1 (1 e 2 1112 [ 例題 9] 為了驗證一枚古代硬幣是否為勻稱的硬幣, 某人做了多次的投擲試驗, 並發表推論的結果如下 : 我們有 95% 的信心認為此硬幣出現正面的機率是 36% 到 42% 之間 試求此實驗中, 共投擲了幾次硬幣? 其中幾次出現正面? [ 解法 ]: 設共投擲了 次因為 95% 信賴區間為 [0.37, 0.43], 所以樣本出現正面的機率 pˆ =0.4, 正負誤 差 3%, 因此 2 0.4(1 0.4 =0.03 =1067 ( 練習 8 某銀行於中秋節發行賞月樂透彩, 並宣稱中獎率為 36%( 發行 100 萬張, 計有 36 萬個獎項 若想推論這個數據是否屬實, 在 95% 的信心水準及抽樣誤差正負 4 個百分點的條件下, 應隨機採樣多少張樣本? As:576 ( 練習 9 某研究調查發現 : 有 95% 的信心認為中學生近視比例在 55% 到 65% 之間, 試求 : (1 此研究約調查了個樣本 (2 樣本中大約有人近視 As:(1384 (2230 綜合練習 (1 某校學生有 1000 人, 數學段考成績為常態分配, 平均成績為 65.24 分, 標準差 5.24 分, 試問全校約有多少人數學成績低於 60 分? (A80 (B160 (C240 (D320 (E400 人 (2002 學科 (2 下圖是根據 100 名婦女的體重所作出的直方圖 ( 圖中百分比數字代表各體重區間的相對次數, 其中各區間不包含左端點而包含右端點 該 100 名婦女體重的平均數為 55 公斤, 標準差為 12.5 公斤 曲線 N 代表一常態分佈, 其平均數與標準差與樣本值相同 在此樣本中, 若定義 體重過重 的標準為體 ~48 13~
重超過樣本平均數 2 個標準差以上 ( 即體重超過 80 公斤以上, 則下列敘述哪些正確? (1 曲線 N( 常態分佈 中, 在 55 公斤以上所佔的比例約為 50% (2 曲線 N( 常態分佈 中, 在 80 公斤以上所佔的比例約為 2.5% (3 該樣本中, 體重的中位數大於 55 公斤 (4 該樣本中, 體重的第一四分位數大於 45 公斤 (5 該樣本中, 體重過重 ( 體重超過 80 公斤以上 的比例大於或等於 5% (2006 學科能力測驗 (3 某廠商委託民調機構在甲 乙兩地調查聽過某項產品的居民佔當地居民之百分比 ( 以下簡稱為 知名度 結果如下: 在 95 % 信心水準之下, 該產品在甲 乙兩地的知名度之信賴區間分別為 [ 0.50, 0.58 ] [ 0.08, 0.16 ] 試問下列哪些選項是正確的? (1 甲地本次的參訪者中, 54 % 的人聽過該產品 (2 此次民調在乙地的參訪人數少於在甲地的參訪人數 (3 此次調查結果可解讀為 : 甲地全體居民中有一半以上的人聽過該產品的機率大於 95 % (4 若在乙地以同樣方式進行多次民調, 所得知名度有 95 % 的機會落在區間 [ 0.08, 0.16 ] (5 經密集廣告宣傳後, 在乙地再次進行民調, 並增加參訪人數達原人數的四倍, 則在 95 % 信心水準之下該產品的知名度之信賴區間寬度會減半 ( 即 0.04 (2009 學科能力測驗 (4 下列那些是常態分布曲線的特性? (A 曲線呈對稱的鐘形 ~48 14~
(B 平均數與中位數相等 (C 約有 50% 的數值落在平均數左右各 1 個標準差的範圍內 (D 約有 95% 的數值落在平均數左右各 2 個標準差的範圍內 (E 全部的數值都落在平均數左右各 3 個標準差的範圍內 林信安老師編寫 (5 假設某品牌家電用品的使用壽命呈現常態分配, 平均值是 4.5 年, 標準差是 1 年 若其保證期間為 2 年, 試問退貨比例為多少?( 附註 常態分佈的資料對稱於平均數 M 且當標準差為 S 時, 該資料大約有 x % 落在區間 ( M ks, M ks 內 ( 見下表 : (6 人類從受孕到分娩的懷孕期長短不一, 大致呈現平均數 266 天, 標準差 16 天的常態分布 (a 約有多少比例的人會在 266 天以內分娩? (b 根據常態分布的規則, 求中間 95% 的人其懷孕天數的範圍 (7 擲一枚公正的硬幣試驗中, 已知硬幣出現正面的比例呈常態分布 現在如果擲一枚公正硬幣 100 次, 其中出現正面的比例為 pˆ, 則 pˆ 0.55 的機率為 (8 某校有學生 1000 位, 數學段考成績為常態分布, 平均成績為 70 分, 標準差為 10 分, 則下列敘述何者正確? (A 數學不及格人數大約有 160 位 (B 超過 90 分的人數大約有 25 位 (C 某生成績為 80 分, 其全校排名約 160 名 (D 將每位學生成績減 70 分, 再除以 10 分, 則此新成績的平均數為 0 分 (E 將每位學生成績減 70 分, 再除以 10 分, 則此新成績的標準差為 1 分 (9 根據數學 SAT 考試規定, 該測驗的總分如果超過 800 分, 一律以 800 分紀錄 已知今年 SAT 考試呈常態分布, 其平均 560 分, 標準 120 分 試求 : 約有多少比例的考生會收到 800 分的成績單? (10 班聯會以問卷調查全校學生對 可以不穿制服 議題的支持程度, 回收有效問卷 520 張, 其中贊成有 416 張 (a 求贊成的比例 (b 在 95% 的信心水準下, 這次調查的正負誤差是多少百分點? (c 計算 95% 的信賴區間 (11 某次選舉候選人兩名應選 1 名, 民調公司做支持度調查成功訪問了 1070 個合格選民, 其中 642 人表示支持甲候選人, (a 此次民調支持甲候選人的比例為多少? (b 在 95% 的信心水準下, 此次民調的誤差約為多少? (c 請寫出此次民調 95% 的信賴區間 ~48 15~
(12 某市場調查想了解女性消費者對於某品牌化妝品的滿意度, 於是隨機抽樣 300 位使用過此化妝品的女性消費者做調查, 發現對於某品牌化妝品覺得滿意的人有 75 位, 試求 (a95% 信賴區間的最大誤差 (b 使用過此化妝品的女性消費者滿意比例 p 的 95% 信賴區間 (13 若抽樣樣本數 =100, 母體比例 p 的 95% 信賴區間之最大誤差 e=0.02, 假設抽樣樣本數 =400 時, 樣本比例不變 pˆ, 則母體比例 p 的 95% 信賴區間之最大誤差 e 是多少? (14 針對台灣地區的詐騙電話做調查發現 : 有 95% 的信心認為 70% 到 76% 的人曾接到詐騙電話 (a 此次調查約調查多少人? (b 樣本中曾接過詐騙電話的約有多少人? (15 甲民調公司被委託做意見調查, 成功訪問了 1000 個民眾後, 公司宣稱 : 本次民調 XX 的支持度是 42%, 成功隨機抽樣訪問 1000 個民眾後, 在 95% 的信心水準下, 抽樣誤差為正負 3 個百分點 若乙民調公司同時作此議題調查, 且成功訪問了 4000 個民眾, 做出相同的支持度, 則在 95% 的信心水準下, 乙公司可宣稱抽樣誤差為正負幾個百分點? (1 (B (2 (E (3 (1(2 (4 (A(B(D (5 0.6 % (6 (a50% (b234 天 ~298 天 (7 0.16 [ 提示 :Q 標準差 = 綜合練習解答 0.5 (1 0.5 100 (8 (A(B(C(D(E (9 2.5% (10 (a0.8 (b 正負 4 個百分點 (c[0.76, 0.84] = 0.05, 故所求的機率 = 1 0.68 2 ] (11 (a0.6 (b 2 0.6 (1 0.6 0.02995 (c [0.57, 0.63] 1070 (12 (a0.05 (b[0.2, 0.3] (13 0.01 (14 (a876 (b639 ~48 16~
(15 約 1.5 個百分點 林信安老師編寫 ~48 17~