<4D F736F F D20B2C43535B3E6A4B8A9E2BCCBBB50B2CEAD70B1C0BDD72E646F63>

Similar documents
二次曲線 人們對於曲線的使用及欣賞 比曲線被視為一種數學題材來探討要早 得多 各種曲線中 在日常生活常接觸的 當然比較容易引起人們的興趣 比如 投擲籃球的路徑是拋物線 盤子的形狀有圓形或橢圓形 雙曲線 是較不常見的 然而根據科學家的研究 彗星的運行軌道是雙曲線的一部 分 我們將拋物線 圓與橢圓 雙曲

Microsoft Word - 94_4_stat_handout_06假設檢定_考古題.doc


DIY香草植物乾燥

CU0594.pdf

<4D F736F F D20A4BDA640BDC3A5CDAED6A4DFBDD2B57BAFE0A44FB4FAC5E72DA5CDAAABB2CEAD70B8D5C344A4BDA FA7B9BD5AAAA9>

Microsoft Word - ok翁志文、張佳音...doc

第一章  緒論

第五章 機率分配

Microsoft Word - _m30.doc

男人的大腦 女人的大腦

Microsoft Word _1-2.doc

高中國文科期末考            年班號姓名:

CO 2 以鄰為壑的台灣建築產業

愛滋實務與治理的政治 - 綜合論壇 以及面對這一連串以 責任 為架構衍生出來的愛滋政策如何造就了台灣現在的愛滋處境

66 67 圓夢素人頭家 67 9 專長互補 資源共享, 為彼此加油打氣!

表二 105 年國中教育會考英語科閱讀與聽力答對題數對應整體能力等級加標示對照表 閱讀答 對題數 聽力答對題數 待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強

95年特種考試地方政府公務人員考試試題解答

_BK07.ps, page Preflight ( _BK07.indd )


Ps22Pdf

Microsoft Word - 2CA13內文.doc


3. ( 41 ) 1 ( ) ( ) ( ) 2 (a) (b) ( ) 1 2 負責人是指負責處理保險代理人的保險代理業務的人士 業務代表是指代表保險代理人銷售保險產品的人士 如保險代理人聘用上述人士 ( 例如該保險代理人是法人團體 ), 則其負責人及業務代表須向保險代理登記委員會登記 保險代理

,400, ,400, %2.0% ,200, / / , / /

避孕篇

Ex:( 龍 - 例 1- 類 ) 擲一個公正的骰子若擲出 x 點可得 x 元則擲骰子 1 次所得金額的期望值為多 解 : 少? 故期望值 E( X ) ( 元 ) Ex:( 龍 - 例 ) 袋中裝有相同大小的 10 元

縣 94 學年度 上 學期 區 國民中學 Q 年級 R 領域教學計畫表 設計者:

untitled

攜手拼出圓滿的幸福 2


佛化家庭手冊 佛化家庭 一 淨化人間, 必定要淨化社會 二 淨化人間的著力點, 是從淨化家庭開始

1.3

9-2

十 二 月 佳 作 第 一 次 當 哥 哥 3A 麥 展 衡 媽 媽 懷 孕 了, 我 很 興 奮 不 過, 自 從 媽 媽 生 下 妹 妹 後, 我 漸 漸 難 過, 因 為 以 前 爸 媽 總 是 以 我 為 先, 但 現 在 卻 以 妹 妹 為 中 心 為 什 麼 大 家 都 喜 歡 妹 妹?

Middle East Respiratory Syndrome Coronavirus, MERS-CoV WHO Qatar 2013 MERS MERS 耗費巨大的社會成本 MERS V


untitled

1 10


Microsoft PowerPoint - 101教師升等說明會

PowerPoint Presentation

ACI pdf

Microsoft PowerPoint - 遊戲企劃

Book1

Microsoft Word - 文件1

龍騰100-B5-習作-CH3.doc

D 江 苏 汉 邦 建 设 集 团 有 限 公 司 江 苏 邦 实 建 设 工 程 有 限 公 司

55202-er-ch03.doc


untitled

第5章 隨機變數與機率分配

1-2 二元一次聯立方程式 21 例 1 代入法判斷二元一次聯立方程式的 { x3y5 2xy3 x1y2 x3y3 x2y1 xy 二元一次式 x y x+3y x-y x2y1 x2y1 { x3y5 2xy3 { 2x3y1 xy3 x2y1

範本檔

Microsoft Word - 3-2機率.doc

contents K 0.9K 05 () 0.9K 3.2K K 9.8K K 20.6K K 28.9K K 41K

時間問題

Microsoft Word - statistics04-1_doc.docx


中期 12 中期 % 報告期 報告 44 中期 報 年中期報告 中國鋁業股份有限公司

婴幼儿护理(二).doc

Hz 1 k ,186 Hz k 4 k 8 k 2 k

高雄市光華國民中學九十二學年度第一學期一年級

推理問題

Microsoft PowerPoint - SAGE 2010

<4D F736F F D203937B6AFA4A4B2C4A454A6B8BCD2A6D2C344A5D82E646F63>


說 明, 成 個 體 統 才 是! 你 痰 迷 了 心, 脂 油 蒙 了 竅, 國 孝 家 孝 兩 重 在 身, 就 把 個 人 送 來 了 這 會 子 被 人 家 告 我 們, 我 又 是 個 沒 腳 蟹, 連 官 場 中 都 知 道 我 利 害 吃 醋, 如 今 指 名 提 我, 要 休 我,

X 傳統育種技術 分子育種技術 基因改良育種


1 小 學 中 年 級 卷 參 解 答 9 圖 形 (A) 有 一 條 對 稱 軸 其 餘 的 圖 形 都 沒 有 對 稱 軸, 這 是 因 為 對 於 每 一 個 圖 形, 其 反 射 過 後 的 圖 形 為 都 無 法 與 原 圖 形 重 合 答 : (A) 6 小 貝 在 計 算 器 上 鍵

42Contents


Microsoft Word - 香港數學盃2016比賽模擬試題P3.docx

J18196_HKSFS 40th SP Edition_All.pdf

六、抽樣設計

Microsoft Word - 選修1_機率與統計_2_04_ doc

Microsoft Word - 統計學題庫-柏婉貞.doc

Microsoft Word 養生與保健_中山大學_講義


萬里社區老人健康照護手冊

Microsoft Word - 強制汽車責任保險承保及理賠作業處理辦法 doc

Microsoft Word - 06.Understanding of Pregnancy and Birth.doc

附 件 一 : 办 理 集 中 式 银 期 转 账 业 务 网 点 名 单 序 号 地 区 网 点 名 称 地 址 联 系 人 电 话 23 工 商 银 行 安 徽 省 铜 陵 百 大 支 行 铜 陵 市 长 江 东 路 50 号 鲁 桂 珍 工 商 银 行 安 徽

2. 二 年 級 吳 毓 秀 老 師 : 感 謝 午 餐 公 司 平 時 均 能 準 時 送 餐, 但 希 望 能 不 要 使 用 加 工 品, 且 學 生 反 映 希 望 能 多 加 蛋 品 的 食 物 3. 三 年 級 柯 阿 青 老 師 : 雞 肉 有 血 水 味, 請 午 餐 公 司 能 調

(➂)11. 炎 炎 夏 日, 即 使 下 起 滂 沱 大 雨, 都 消 除 不 了 令 人 心 煩 的 暑 氣 這 句 話 主 要 想 表 達 什 麼? ➀ 夏 日 裡 經 常 下 著 滂 沱 大 雨, 令 人 心 煩 ➁ 下 著 滂 沱 大 雨 的 日 子, 可 以 消 除 暑 氣 ➂ 夏 日

範本檔

Transcription:

第五十五單元抽樣與統計推論 ( 甲 ) 抽樣方法 統計是一種經由資料蒐集整理分析, 以便用於估計和推論母體某種特性的科學方法 在一般的生活中 科學研究和市場調查中, 統計都有普遍的應用 母體研究對象中所有個體所成的集合稱為母體 ; 母體內的個體稱為受測者 ( 或稱為受測單位 ) 量測( 或收集 ) 母體中每個個體所得資料稱為母體資料 例如 : 調查大華電子公司某批產品的不良率, 若大華公司生產此批產品兩千萬件, 則這兩千萬件產品所成的集合即為母體, 每個產品為受測者, 測量這兩千萬件產品是良品或不良品所得資料為母體資料 樣本與抽樣將母體的每一個體都檢查或測量, 就稱為普查, 普查就可得到母體資料 臺灣地區曾做過的普查有工商普查 戶口普查與農業普查等 如果母體太龐大, 要由普查得到所有個體的資料是很困難的, 因此只能選取部分個體, 這部分個體所成的集合稱為樣本, 檢查或測量樣本中每個個體所得的資料稱為樣本資料 樣本是母體的子集合, 我們希望由樣本資料得到母體的訊息, 因此樣本要能代表母體 例如 : 我們想了解大華電子公司某批產品的不良率, 如果將所有產品一一檢查是良品或不良品 ( 普查 ) 非常耗時且不經濟, 通常我們並不需要完全無誤的知道不良率是多少, 而只是 概估 " 即可 如果從所有兩千萬件產品中抽出 1000 個, 則這 1000 個產品所成的集合即為樣本, 記錄這 1000 個產品每個產品是否為良品 ( 例如 :1 表良品, 0 表不良品 ), 即為樣本資料 普查除了不經濟 費時費力外, 有時是無法進行 例如 : 燈泡 電池等產品的壽命檢驗, 它們完成檢驗就毀壞, 便無法利用普查 要由一母體做抽樣很容易, 但要取得有代表性 沒有偏差, 且能被公認具有統計抽樣精神的抽樣方法, 就要好好思考了 統計上所謂抽樣, 是指如何由母體抽出具有代表性樣本的一種 程序 " 或 方法 " 抽樣方法基本上分成兩類 : (1 ) 非機率抽樣法 ( 如便利抽樣 ) 母體內每一個體被抽到的機率不一定都相同, 最常見的非機率抽樣法是便利抽樣, 便利抽樣的數據可能沒有代表性 例如 : 在臺北市市長選舉前, 候選人張三想估計其得票率, 如果調查員在候選人張三的政見發表會上訪問選民, 在臺北市市長選舉時會投給哪一位候選人, 因為這些來聽候選人 ~55 1~

張三發表政見的人基本上對候選人張三較有好感, 所以支持候選人張三的比例較一般選民要高, 如以這些來參加政見發表會的選民當樣本, 來估計候選人張三選舉時的得票率, 會有 高估 的危險 例如 : 在火車站前訪問過往人們, 是常看到的便利抽樣, 這種方式的調查對那些很少到火車站甚至不到火車站的人是很難或不會被訪問到, 反之, 經常坐火車通勤的人, 相對的被訪問到的機會就偏高了, 所以它會造成被訪問者機會的不均等 又如電視上 叩應 ( Call i ) 的資料, 它是電視觀眾一種自發性回應, 也是方便的數據, 也沒有代表性 一般而言, 便利抽樣的資料取得方便, 但較沒有代表性, 因此如何選取一種好的抽樣方法是很重要的工作 (2 ) 機率抽樣法 ( 簡單隨機抽樣法或分層隨機抽樣法 ) 所謂機率抽樣法是每次抽樣時, 母體內每一個體被抽到的機會均等, 常用的有簡單隨機抽樣法與分層隨機抽樣法 簡單隨機抽樣法有兩種不同的方式, 一種是每次取出樣本點後放回, 一種是每次取出樣本點後不放回, 放回表示樣本點可能會重複取到, 不放回則取到的樣本點是不同的 設母體個數為 N, 從中抽取 個樣本點, 放回時, 共有 N 種取法 不放回時, 如考慮樣本點的先後次序, 共有 P N 種取法, 如不考慮樣本點的先後次序, 共有 C N 種取法 在做民調時, 通常是以不放回的簡單隨機抽樣法進行抽樣 另外一種是將母體依某種特性 ( 如性別或年齡 ) 分成幾群, 再依每群在母體內所占比例做配額, 然後對每一群再做簡單隨機抽樣 ( 即同一群內每一個體被抽到的機會均等 ), 此種抽樣法稱為分層隨機抽樣法 (i) 簡單隨機抽樣法要做簡單隨機抽樣法通常需要先做母體清冊, 即將母體內每個個體給予編號, 然後再進行抽樣, 簡單隨機抽樣法被認為是一種較公平的抽樣方法, 也就是抽樣時不摻入人為因素, 而且母群體中每一個體被抽中的機會均等 例如 : 要在全班同學中抽出 6 位同學做代表, 以抽籤的方式決定, 每人被抽中的機會均等, 這就是簡單隨機抽樣 簡單隨機抽樣, 用抽籤決定樣本點的方法, 一般而言公平且方便, 但有時也會發生偏差 如果抽到的樣本點資料偏於某一方, 會造成資料代表性不足, 而有高估或低估的現象 例如 : 某校高一有 2000 位男生,1000 位女生, 衛生組長想知道全校高一的平均身高是多少? 如隨機抽樣 30 位同學, 大部分的情形會抽到男生比女生多, 但也有可能抽到女生比男生多的情形, 如果抽到 15 位男生,15 位女生, 就是抽樣偏差, 以此 30 位學生的平均身高作全校平均身高的估計就可能低估了 ; 反之, 如果抽到的 30 位都是男生, 也是抽樣偏差, 那就可能會有高估的現象 ( 因為一般男生平均身高比女生高 ) 如何抽樣才能避免這種抽到男生太多或是抽到女生太多的現象呢? 利用分層隨機抽樣法可以降低因抽樣方式不佳造成的偏差現象 ~55 2~

(ii) 分層隨機抽樣法分層隨機抽樣法的程序如下 : (a) 分層 : 分層是將母體依某一標準分成數個不重疊的子群體, 稱為層 ( 也稱群或組 ) (b) 樣本點配額 : 各層樣本點的配額依照各層在母體中所占比例來作分配 (c) 各層分別作簡單隨機抽樣 : 各層依照配額數作簡單隨機抽樣 分層隨機抽樣法的最大問題是如何找到某種 特性 做為分層的依據, 可能是依性別 教育程度 年齡, 也可能是依其他特性來做分層, 但基本上同層 ( 或同群 ) 內我們想要估計的性質要相近, 不同層間差異性要大 例如 : 某校高一有 2000 位男生,1000 位女生, 衛生組長想知道全校高一的平均身高是多少? 全校學生身高的調查中, 如依分層隨機抽樣法, 程序如下 : (a) 依性別, 分成男生 女生兩層 因為性別與身高關係密切, 故如此分層是有意義的 (b) 因全校男女生人數比例為 2:1, 故 30 個樣本中, 男生配額 20 個, 女生配額 10 個 (c) 在 2000 位男生中利用簡單隨機抽樣法, 抽樣 20 個, 在 1000 位女生中利用簡單隨機抽樣法, 抽樣 10 個, 形成 30 個樣本 [ 例題 1] 某校共有甲乙丙丁四個班, 各班的學生人數如下表所示 : 欲從中抽選 8 名學生接受數學能力檢測, 在下列各種抽樣法中, 求丙班的小安被抽中的機率 (1) 以班級為單位, 每班抽出 2 名 (2) 先隨機抽一個班級, 再從此班級的學生中抽取 8 名學生 (3) 先將 180 名學生編號, 再從中隨機抽取抽取 8 名學生 As:(1) 2 50 (2) 2 50 (3) 2 45 ( 練習 1) 某高中共有 20 個班級, 每班各有 40 位學生, 其中男生 25 人, 女生 15 人 若從全校 800 人中以簡單隨機抽樣抽出 80 人, 試問下列哪些選項是正確的? (1) 每班至少會有一人被抽中 (2) 抽出來的男生人數一定比女生人數多 (3) 已知小文是男生, 小美是女生, 則小文被抽中的機率大於小美被抽中的機率 (4) 若學生甲和學生乙在同一班, 學生丙在另外一班, 則甲 乙兩人同時 ~55 3~

被抽中的機率跟甲 丙兩人同時被抽中的機率一樣 1 (5) 學生 A 和學生 B 是兄弟, 他們同時被抽中的機率小於 100 (2008 學科 ) As:(4)(5) 亂數表常用的隨機抽樣方式有抽籤 查亂數表或利用電腦製造亂數等方法做為取樣依據 亂數表的編製原則是每一個號碼出現的機率相等, 應用時先將母體內的個體編號, 再由亂數表選取號碼組成樣本 例如 : 想了解某校高二學生的法律常識, 全校高二有 20 班共 900 位同學, 如果全體高二學生都參加測驗, 在人力 物力上都所費不貲, 因此只想抽樣 60 位同學參加測驗, 可以學生學號為抽樣依據 假設該校高二學生的學號前兩碼都是 99 ( 民國 99 年入學 ), 而後 3 碼不同, 就可以此後 3 碼當做學生的編號, 即編號由 001 到 900 接著選亂數表的範圍 ( 參照本書附表一 ), 例如由第 3 行第 11 列的亂數開始到第 3 行第 70 列為止, 每行有 4 碼, 第 1 個亂數為 2546, 取前 3 碼為 254, 接著下一個亂數為 1745, 取前 3 碼為 174, 如此進行到第 3 行第 70 列的亂數為 9604, 取前 3 碼為 960, 這 60 個編號列出如下 : 254 174 800 267 096 083 482 103 698 579 075 081 388 267 996 743 512 752 052 747 404 773 438 710 840 349 055 625 487 760 131 119 370 187 183 304 795 909 074 591 174 449 840 563 853 915 666 982 766 160 545 530 611 818 604 826 078 959 000 960 在這 60 個號碼中, 有兩個 267,174 編號重複, 而 996,909,915,982,959,000, 960 不在編號內, 可將此第 2 個 267,174 與 996,909,915,982,959,000,960 刪除, 再從亂數表往下遞補, 取第 3 行第 71,72,,79 列九個亂數, 分別為 3282, 3772,,9054, 即增加編號 328,377,,905; 但 905 也不在編號內, 故將 905 刪除, 再從亂數表往下遞補, 取第 3 行第 80 列為 5961, 即增加編號 596 所以抽到 60 位學生的學號為 99254,99174,,99596, 由這 60 位學生代表本校參加法律常識測驗, 他們即為以亂數表隨機抽樣的樣本 ( 乙 ) 常態分布許多量測的結果, 像是葡萄酒的評鑑 基測作文分數的評定 天文資料的觀測等等, 都會有誤差, 這些誤差可能來自個人的偏見 儀器的誤差, 但是更關鍵的是, 即使一切流程都很完美, 但是數據本身依然會有誤差, 數據本身就會因隨機誤差而變動, 這是重要的關鍵 1738 年棣美弗 (Abraham De Moivre) 在他的 << 機會論 >> (The Doctrie of Chace) 再版時, 揭示了數據誤差的分布曲線 鐘形曲線之重要性 這個鐘形曲線通常稱為常態分布, 有時候也稱為高斯分布 高斯在研究行星運動時, 認識到常態分布描述了量測誤差的分布情形 誤差定律, 他當年將 誤差定律 這條 ~55 4~

法則, 塞在 << 天體依圓錐曲線繞日運動之理論 >> 這本書, 幸好拉普拉斯 (Laplace) 在 1810 年偶而讀到這本書, 利用這本書中誤差定律的結果, 他馬上知道可以用來改進他自己正在研究的 中央極限定理, 中央極限定理是說 : 大量的獨立隨機因素之和, 可以是任何數值, 其出現的機率呈常態分布 這個結果比高斯的發現更能說明常態分布就是誤差定律 常態分布 (1) 常態分布的資料 : 很多資料畫出直方圖後, 將直方圖中各長方形頂邊的中點用平滑曲線相連, 會呈現中間高而往左右兩邊下降近似鐘型 例如 : 某公司生產手機電池, 調查所生產的 100,000 個電池, 在待機狀況下的使用時間, 簡稱待機時間 ( 單位 : 小時 ), 得到母體資料為待機時間平均 40.01, 標準差 5.01, 最小值 15.00, 最大值 64.71 分成 100 組, 每組區間長度為 0.5, 其相對次數直方圖如下 : (2) 常態分布的意義 : 設隨機變數 X 為手機的待機時間, 觀察上圖中的紅色平滑曲線, 用函數 f(x) 的圖形表徵此曲線, 我們稱 f (x) 為隨機變數 X 的機率密度函數 上圖有中間高兩邊低且往兩端急速下降的現象, 長相近似於鐘形 由於其形狀像鐘形, 所以也稱常態分布為鐘形分布 若隨機變數 X 是平均數為 µ 標準差為 σ 的常態分布, 以 X~N ( µ,σ 2 ) 表示, 其機率密度函數 f(x) 表示如下 : f ( x )= 1 ( x-µ ) 2 2π σ e- 2 σ 2 其中 π 為圓周率 e 為自然對數底,π,e 都為無理數 (π~3.1416,e~2.7183 ) 例如 : 上述手機電池待機時間的隨機變數 X, 其分布是常態分布, 平均數 µ=40.01, 標準差 =5.06, 故 X ~ N ( 40.01,5.062 ) 其機率密度函數可表成 ( x-40.01 ) 1 2 f ( x )= 2π 5.06 e- 2 5.06 2 ( 練習 2) 若 X 為一常態分布, 平均數 µ, 標準差 σ, 令 Z= X-µ σ 數與標準差 As:Z 的平均數與標準差分別為 0 與 1 ( 練習 3) 若 X 是標準常態分布, 其機率密度函數為 ~55 5~, 試問 Z 的平均

f ( x )= 1 x 2 e - 2, 則 f ( x ) 是否具有下列性質 : 2π (1) 函數 f 的圖形對稱於 y 軸 ( 即 f (-x )=f ( x ) ) (2) 函數 f 在 x=0 時有最大值 (3) 常態分布的特性 : (a) 常態分布曲線的對稱軸為 x=µ( 平均數 ), 資料都以 µ 為中心對稱分布, 資料的離散程度可以用標準差 σ 表示, 標準差較小的分布, 其散布的範圍較小, 尖峰也比較陡 特別地, 當 µ=0,σ=1 時, 此常態分布稱為標準常態分布, 記做 N(0,1) (b) 常態分布的經驗法則 : 對於常態分布的資料, 我們由次數分布圖呈鐘形, 知道中間部分所占的比例較大, 愈往兩旁所占的比例愈小 如果也知道此組資料的母體平均數 µ 與標準差 σ, 就能估算出母體資料中大約有 68% 的資料落在區間 [µ-σ,µ+σ] 內, 大約有 95% 的資料落在區間 [µ-2σ,µ+2σ] 內, 大約有 99.7% 的資料落在區間 [µ-3σ,µ+3σ] 內, 即大約有 68%,95%,99.7% 的資料分別落在離中心點一個標準差 兩個標準差 三個標準差的區間內 圖示如下 : 此種結果稱為經驗法則 ( 或稱 68%,95%,99.7% 規律 ) ~55 6~

經驗法則亦可以表示成 : 若 X ~ N ( µ,σ 2 ), 則 P ( X-µ σ )~0.68, P ( X-µ 2σ )~0.95, P ( X-µ 3σ )~0.997 但上面所談的是母體的資料, 即母體平均數與標準差已知, 如果是抽樣資料, 母體的平均數 µ 與標準差 σ 未知, 則以樣本平均數 x 與樣本標準差 s 分別代替母體的平均數 µ 與標準差 σ [ 例題 2] 從實驗室的數據證實, 人的睡眠時數呈現常態分布, 其平均數為 7.5 小時, 標準差 1 小時, 根據此睡眠分布, 試估計下列各項所佔的人數比例 (1) 睡眠時數超過 7.5 小時者 (2) 睡眠時數介於 6.5 到 8.5 小時者 (3) 睡眠時間不到 8.5 小時者 As:(1)50% (2) 約 68% (3) 約 84% [ 例題 3] 某公司過去幾十年來每天營業額 X 的分布接近常態分布, 平均每天營業額是 80 ( 單位 : 萬元 ), 標準差為 15 ( 萬元 ), 隨機抽樣此公司某一天營業額, 請問 (1) 這一天的營業額介於 65 萬元與 95 萬元之間的機率是多少? (2) 這一天的營業額少於 65 萬元的機率與這一天的營業額大於 95 萬元的機率何者較大? (3) 這一天的營業額少於 65 萬元的機率是多少? (4) 這一天的營業額高於 110 萬元的機率是多少? [ 分析 ]: 根據給定的數據畫經驗法則圖如下 [ 解法 ]: (1) P ( 65 X 95 )=P ( X-80 15 )~0.68 (2) 由常態分布對稱性, 因 65 與 95 距離平均數 80 一樣, 所以這一天營業額少於 65 萬元的機率與營業額大於 95 萬元的機率相同, 即 P ( X<65 )=P ( X>95 ) (3) 因 P ( X<65 )+P ( 65 X 95 )+P ( X>95 )=1, 所以 P ( X<65 )=1-[P ( 65 X 95 )+P ( X>95 )] ~55 7~

再由 (2),P ( X<65 )=P ( X>95 ), 故 2 P ( X<65 )=1-P ( 65 X 95 ), P ( X<65 )= 1 1 2 [1-P ( 65 X 95 )] ~ 2 ( 1-0.68 )=0.16 因此這一天的營業額少於 65 萬元的機率為 0.16 (4) 仿照 (3), 這一天的營業額高於 110 萬元的機率是 P ( X>110 )= 1 1 2 [1-P ( X-80 30 )]~ 2 ( 1-0.95 )=0.025 ( 練習 4) 甲 乙兩家公司生產手機電池, 兩家公司手機電池待機時間分布分別都是常態分布, 平均數分別為 µ 1 =40 小時與 µ 2 =39 小時, 標準差分別為 σ 1 =5 小時與 σ 2 =4 小時, 請問 : (1) 甲 乙兩家公司電池待機時間小於 35 小時的機率分別是多少? As:(1) 甲 :0.16, 乙 :0.16 ( 練習 5) 某校有學生 1000 位, 數學段考成績呈常態分布, 平均成績 70 分, 標準差 10 分, 請概估 : (1) 此次數學段考不及格的學生約有幾位? (2) 成績超過 90 分的有幾位? (3) 某生成績 80 分, 他在全校大約排第幾名? As:(1)160 位 (2)25 位 (3) 第 160 名 ( 練習 6) 某校有學生 1000 人, 數學段考成績呈常態分配, 平均成績 60 分, 標準差 10 分, 請概估數學成績 40~ 70 之間的人數大約有多少人? As: 815 人 ( 練習 7) 數學 SAT 的考試規定, 該項測驗的總分如果超過 800 分, 一律以 800 分紀錄, 已知今年 SAT 考試呈現常態分布, 其平均數為 560 分, 標準差 120 分, 試求約有多少比例的學生會收到 800 分的成績單?As:2.5% ( 練習 8) 丟硬幣的試驗中, 硬幣出現正面的比例呈常態分布 ( 平均數 p 時, 標準差 為 ) 今丟一個公正的硬幣 100 次, 其中出現正面的比例為 pˆ, 依常態分布的規則, 求 pˆ 0.6 的機率 As:2.5% ( 練習 9) 設某飲料公司每瓶飲料容量的規格定為 300±20 ( 單位 :cc ), 而此公司實際生產每瓶容量的分布是 X~N ( 300,100 ), 請問 : (1) 此公司生產的產品中容量超過 310 cc 的機率是多少? (2) 此公司產品中不合規格比例是多少?As:(1)0.16 92)0.05 ~55 8~

( 丙 ) 中央極限定理 中央極限定理如果我們從一母體不斷地抽出一組樣本, 每次抽出一組樣本所得的樣本統計量 ( 如平均數 中位數 標準差等 ) 會隨抽到的樣本不同而變, 所以樣本統計量是隨機變數 在高中我們最重視的樣本統計量是樣本平均數 下面讓我們談談樣本平均數的抽樣分布 若一母體有 N 個數據, 我們由此母體隨機抽樣 個樣本點, 得到樣本 x 1,,x, 我 們會以樣本平均數 x = x 1+x 2 + +x 來估計母體平均數 µ, 但每次抽出的 個樣本 點會不同, 因此算出的樣本平均數 x 會不一樣, 這些樣本平均數為一 隨機變數 " 以 X 表示 既然每次抽樣算出的 x 不同, 如果我們想了解樣本平均數 X 等於某數值或 是落在某範圍的機率有多高, 有必要了解隨機變數 X 的抽樣分布長相是如何, 這樣才 能知道下決策時, 犯錯的機會有多大, 而誤差又有多少? [ 例題 4] 設一袋中有 5 個號碼球, 其號碼分別為 3,6,9,12,15, 由袋中抽出 3 球, 每次取球後, 再將球放回袋中, 求 3 個球號碼樣本平均數 X 的機率分布 [ 解法 ]: 令 X 表由母體抽出一個球的號碼,X 的可能值為 3,6,9,12,15 等 5 種 ; 故 X 為離散型隨機變數,5 種號碼機率均等, 即 X 的機率分布為 P ( X=k )= 1 5,k=3,6,9,12,15, 母體平均數為 µ=e ( X )= 1 5 ( 3+6+9+12+15 )=9, 母體變異數為 σ 2 =Var ( X ) = 1 5 [( 3-9 )2 +( 6-9 ) 2 +( 9-9 ) 2 +( 12-9 ) 2 +( 15-9 ) 2 ]=18 由 3,6,9,12,15 中取三次, 每次取球後再將球放回袋中, 故為重複排列, 共有 5 3 1 =125 ( 種 ) 排列次序, 每一種排列次序機率都是 125, 所以 X 的抽樣分布 ( 即機率分布 ) 如下表 : X 的機率圖如下 : ~55 9~

而 X 的期望值 E( X )=3 X 的變異數 Var( X ) 1 125 +4 3 125 + +15 1 125 =9=µ =( 3-9 ) 2. 1 125 +( 4-9 )2. 3 125 + +( 15-9 )2. 1 125 =6= 1 3 ( 18 )= σ2 上面介紹的例子是母體資料少時, 可以將 X 的所有可能結果一一列出, 並算 出 X 分布 但實務上, 母體資料樣本數 N 很大, 而抽樣樣本數 也不小時, 要一一列出各種可能的 x 很困難, 因此, 需要有方法知道 X 抽樣分布 下面以全國成年男生身高為例, 說明樣本平均數 X 的抽樣分布 假設這 600 萬成年男生身高畫其相對次數直方圖如下 :( 其中藍色曲線是以平均數為 169.5, 標準差為 6.5 的常態分布圖形 ) 由這 600 萬人可以算出母體平均數 µ=169.5 公分與標準差 σ=6.5 公分 : 且身高直方圖的長相接近鐘形的常態分布, 因此有 68% 的人 ( 約 408 萬 ) 身高在 169.5-6.5=163 ( 公分 ) 到 169.5+6.5=176 ( 公分 ) 之間 有 95% ( 即 570 萬 ) 人的身高在 156.5 公分到 182.5 公分之間 現在由此母體 (600 萬成年男生 ) 抽樣 100 位身高的平均數以隨機變數 X 表示 要將所有抽樣 100 位之各個可能組合的身高平均數一一列出, 不是件簡單的事 全部 由 6000000 成年人抽樣 100 位的組合共有 C 6000000 100 種, 由此就能得到 X 的抽樣分布, 但 此數目太大無法一一列出 下面假設做 1000 次重複抽樣, 每次抽 100 位, 例如 : 隨 ~55 10~

機抽 100 位成年男生的身高, 得到資料如下 : 算出第一次抽樣這 100 位成年男生身高的樣本平均數 x =168.8, 標準差 s=6.3 算出第二次成年男生身高的樣本平均數 x =171.3, 標準差 s=6.8 由上面的例子知, 兩次抽樣所得的樣本平均數不同, 估計的平均身高也不一樣, 有時 樣本平均數 x 比母體平均數大, 有時小, 如果你想知道 x 與 µ 的關係, 那就需要知道 X 的抽樣分布了 ( 也就是做很多次抽樣, 每次都抽同樣樣本數, 如上述每次抽 100 位, 抽出樣本後算出樣本平均數 x ) 假設一共做了 1000 次得到 1000 個 x 如下 : 這 1000 個 x 的平均數是 169.52, 標準差是 0.653, 將這 1000 個平均數 x 再畫其相對 次數直方圖如下 : 觀察上面的直方圖, 可以得到以下幾個要點 : ~55 11~

(1 ) 此 X 的相對次數直方圖長相非常接近鐘形 (2 ) 此直方圖的中心點 ( 也就是直方圖最高的部分 ) 仍然是在 169.5 附近, 即 X 的平均數為 µ (3 ) 此直方圖比原先 6000000 位身高所畫直方圖更集中在中心點附近, 即這 1000 個平均身高的標準差較原先 6000000 個人身高的標準差小 這也可由全距看出, 在 原先個別資料 ( 即母體 ) 最高的是 223 公分, 最低的是 135 公分, 現在最大的 x 是 172.3 公分, 最小是 166.8 公分 (4 ) 這 1000 個平均數 x 的標準差是 0.65, 比原先的母體 ( 600 萬人的身高 ) 的標準 1 差 6.5 小很多, 大約是原來的 10 上述的現象就是中央極限定理的結果 : 中央極限定理 : 從一個母體中, 以簡單隨機抽樣法抽出 個樣本, 當 很大時, 其樣本平均數 X 經標準化 X µ 得, 它的抽樣分布, 會趨近標準常態分布 N(0,1) σ ( 其中 µ,σ 2 分別為母體平均數與變異數 ) 中央極限定理是統計學的基本定理, 它告訴我們, 當樣本數 很大時, 不管原母體資料是什麼分布, 也不管母體資料是連續型或離散型 是對稱或不對稱 是右偏或 左偏, 甚至是單峰或多峰都無所謂, 樣本平均數 X 經標準化後, 它的抽樣分布都會 趨近標準常態分布 N(0,1) 由中央極限定理知, X 有下列性質 : (1 ) 隨機變數 X = i= 1 xi 的分布會接近鐘形的常態分布 (2) 隨機變數 X 的平均數與原母體平均數相同都是 µ (3) 但 X 的標準差 ( 稱為標準誤 ) 為 二項分布與常態分布 σ 與原母體的標準差 σ 不同 若隨機變數 X 標示成功的次數, 且 X 的分布為參數是 (, 的二項分布, 則 X 的期望值 E(X)=p,X 的標準差 σ X = p(1 ~55 12~

現在考慮成功的比率 Y= X,Y 亦為隨機變數, Y 的期望值 E(Y)=E( X )= 1 E(X)= 1 (= p Y 的變異數 Var(Y)=Var( X )= 1 2Var(X)= 1 p(1 2(p(1 )= 故 Y 的標準差 σ Y = 結論 : 設隨機變數 X B(,, 以隨機變數 Y 表示成功的比率 (Y= X ), 則 (1)Y 的期望值 E(Y)=p (2)Y 的標準差 σ Y = 根據上面的結論, 可以得知 :Y 的標準差會隨著 的增加而便得愈來愈小, 其機率分布圖就愈集中, 下圖為 p=0.5,=10,30,100 的機率分布圖 當 夠大時,Y 接近母體平均數的機率很大, 這就是大數法則 再將 Y 標準化, 即令 Z= Y p p( 1 = ( Y, 得到底下的圖形 : p(1 上圖中的曲線是標準常態分布曲線 N(0,1), 我們可以得到, 當 愈大時,Y 的標準化 Z 的分布和標準常態分布愈接近 這是中央極限定理的特例 ~55 13~

有了這個特性, 就可以利用常態分布的經驗法則來估計隨機試驗中成功比率所在區間 例如 : 擲一均勻銅板 400 次, 設隨機變數 Y 表示出現正面的比率, 欲估計約 95% 的正面的比率 Y 所在的區間 因為 E(Y)=p=0.5, 標準差 σ Y = = 0.5(1 0.5) =0.025, 400 將 Y 標準化之後, 得 Z= Y 0.5 0.025,Z 的機率分布會近似 N(0,1), 約有 95% 的數據落在據 平均數 2 個標準差的區間內, 即 P( Y 0.5 0.025 2) 0.95, Y 0.5 0.025 2 0.45 Y 0.55 故約有 95% 正面的比率 Y 會落在區間 [0.45,0.55] 之間 一般而言, 若 足夠大時, 成功比率 Y 經標準化之後的分布會近似 N(0,1), 利用常態分布的經驗法則, 約有 95% 的數據落在據平均數 2 個標準差的區間內, 即 P( ( Y 2) 0.95, p(1 ( Y 2 Y p 2 p(1 p 2 Y p+2 換句話說, 約有 95% 的數據 Y 會落在區間 [p 2 另一方面, 我們也可以說 約有 68% 的數據落在據平均數 1 個標準差的區間內 有 99.7% 的數據落在據平均數 3 個標準差的區間內 同理可得 約有 68% 的數據 Y 會落在區間 [p, p+, p+2 ] 內 ] 內 約有 99.7% 的數據 Y 會落在區間 [p 3, p+3 ] 內 結論 : 參數為 (, 的二項分布中, 以隨機變數 Y 表示成功的比率, 則當試驗的次數足夠大時, 約有 95% 的成功比率 Y 會落在區間 [p 2, p+2 ] 內 ~55 14~

[ 例題 5] 已知箱子中有 5 顆球, 其中 2 顆是紅球, 從箱中每次取一球, 取完後放回, 連續取 24 次 設隨機變數 Y 表示取出紅球的比率, (1) 試求 Y 的期望值與標準差 (2) 重複試驗多次之後, 估計 95% 的紅球比率 Y 大約會落在哪個區間? As:(1)E(Y)=0.4,σ Y =0.1 (2)[0.2,0.6] ( 練習 10) 擲一公正的骰子 180 次, 以隨機變數 Y 表示出現點數 1 的比率, (1) 求 Y 的期望值與標準差 (2) 估計 95% 的紅球比率 Y 大約會落在哪個區間? As:(1) 1 6, 1 36 (2)[ 1 9, 2 9 ] ( 丁 ) 信賴區間與信心水準的解讀 民調的解讀大眾媒體經常報導民調的結果, 而民調的問題多半為是非題 : 對某位候選人支持或不支持, 對某位行政首長滿意或不滿意, 要不要投票給某位候選人等等 下面的文字是某民調公司對行政院長施政的滿意度調查 :.. 滿意度 3 成 9 本次調查是以台灣地區住宅電話簿為抽樣清冊, 並以電話的後四碼進行隨機抽樣 共成功訪問 1068 位台灣地區 20 歲以上民眾 在 95% 的信心水準下, 抽樣誤差為正負 3.0 百分點 上面的文字除了說明某民調公司的抽樣的母體與抽樣的方法外, 對於行政院長施政滿意度結果的呈現應該如何來解讀呢? 我們提出以下兩問題 : 問題一 : 95% 的信心水準 和 抽樣誤差正負幾個百分點 這兩句話總是與民調的結論並陳, 它們代表什麼意義呢? 問題二 : 電話只訪問了 1068 人, 相對台灣地區一千六百萬的成年民眾, 這 1068 人具有代表性嗎? 首先我們先解讀文字中的各項涵義 : (a) 滿意度 3 成 9 在本次調查中, 母體是台灣地區 20 歲以上的民眾, 樣本則是成功訪問的 1068 人, 滿意度 3 成 9 表示在 1068 位受訪者中, 約有 39% 的人表示滿意 ( 即約有 423 人回答滿意 ) (b) 抽樣誤差正負 3.0 百分點 ~55 15~

將 39% 分別加減 3.0%, 可得到區間 [0.39 0.03,0.39+0.03]=[0.36,0.42], 假設全台成年民眾經過普查, 真正的滿意度是 p( 也就是真正的滿意度為, 那麼這次的調查估計 p 的值可能會落在 0.36 到 0.42 的範圍內 而這裡我們樣本中滿意的比例 39% 來推估母體滿意比例 p 可能落在那個區間 統計上把這個區間稱為信賴區間 信賴區間 :[ 估計值 最大誤差, 估計值 + 最大誤差 ] (c) 95% 的信心水準 在這次調查中, 母體真正的滿意比例 p 是不可知的, 而抽樣都會有誤差, 我們並不能保證真正的比例 p 一定會在我們所推估的區間內, 而 95% 的信心水準的意思是指 : 如果我們重複抽樣很多次, 每次都會得到一個信賴區間, 那麼這麼多的信賴區間中, 約有 95% 的區間會涵蓋真正的 p 值 因此根據 (a)(b)(c) 的解讀, 對於這份民調的結果我們有了初略的了解 : 民調中的滿意度是被抽樣訪問者的滿意度, 將它加上正負誤差, 就可以得到一個信賴區間, 而我們有 95% 的信心說, 真正的滿意度會落在我們所得出的區間中 結論 : (1 ) 信賴區間 :[ 估計值 最大誤差, 估計值 + 最大誤差 ] (2 ) 95% 的信心水準的意思是指 : 如果我們重複抽樣很多次, 每次都會得到一個信賴區間, 那麼這麼多的信賴區間中, 約有 95% 的區間會涵蓋真正的 p 值 [ 例題 6] 某報對於台北市市長施政滿意程度進行民調, 民調結果如下 : 滿意度為六成三, 本次民調共成功訪問 900 位台北市 20 歲以上的成年民眾, 在 95% 的信心水準下, 抽樣誤差為正負 3.2 百分點 (1) 這項民調的母體是什麼? 樣本數為多少? (2) 受訪民眾中對市長施政滿意約有多少人? (3) 算出這次調查的信賴區間? 計算信賴區間 : (1) 以前面行政院長的施政滿意度為例, 抽樣的 個人中, 用 pˆ 表示樣本中滿意的比 樣本中滿意的人數例, 即 pˆ =, 假設全台成年民眾經過普查, 真正的滿意度是 p, 那樣本數 麼 pˆ 會剛好是 p 嗎? 可能不會那麼準, 因為抽樣結果 pˆ 隨著樣本而改變, 用同樣的方法抽樣得到的 pˆ 也許是 0.43 或是 0.35, 如果真的從同樣的母體中重複抽取很多次, 並將許多的 pˆ 值以直方圖統計, 根據中央極限定理, 當樣本數足夠大, pˆ 的分布近似於 常態分布 ~55 16~

下圖是以電腦模擬母體滿意比例 p=0.4, 隨機抽樣 1000 人, 所得的 pˆ 的分布 : 對於每次試驗只有兩種結果 ( 成功以 x i =1 表示, 失敗以 x i =0 表示 ) 的資料, 若母體成功比率為 p, 一組 個 0,1 的數據, 平均數 =p, 標準差 = p( 1, 再由中央極 pˆ p 限定理, 當樣本數 很大時, 隨機變數樣本比率 p^ 經標準化後, 由經驗法則 p(1 pˆ p 知 P( 2) 0.95 即 P (p^-2 <p<p^+2 )~0.95, p(1 事實上, 母體真正的滿意度 p 是未知的, 但是當 夠大時, pˆ 與 p 相當接近, 可以用 pˆ 取代中的 p, 所得的區間 p ˆ(1 ) p ˆ(1 ) [ pˆ 2, pˆ +2 ] 稱為 95% 信賴區間, 其中 p^ 為樣本比率, 同樣由經驗法則也可得到 68%,99.7% 的區間 區間 [ pˆ 區間 [ pˆ 3 p ˆ(1 ), pˆ + p ˆ(1 ) ] 稱為 68% 的信賴區間 p ˆ(1 ) p ˆ(1 ), pˆ +3 ] 稱為 99.7% 的信賴區間 結論 : 在一個大母體中, 其成員具有某種特質的比例為 p, 若從母體中隨機抽取 個樣本 ( 必須夠大 ), 令 pˆ 代表該樣本中擁有此特質的比例, 則區間 p ˆ(1 ) p ˆ(1 ) [ pˆ 2, pˆ +2 ] 稱為 p 的一個 95% 的信賴區間 或 在 95% 信心水準下的信賴區間 而 2 p ˆ(1 ) 稱為 95% 信心水準之下的抽樣誤差 ~55 17~

p ˆ(1 ) p ˆ(1 ) p ˆ(1 ) 同理, 區間 [ pˆ, pˆ + ] [ pˆ 3 亦可稱為 68% 的信賴區間 與 99.7% 的信賴區間, pˆ +3 p ˆ(1 ) ] [ 例題 7] 某次選舉候選人兩名應選 1 名, 民調公司做支持度調查成功訪問了 1070 個合格選民, 其中 642 人表示支持甲候選人, (1) 此次民調支持甲候選人的比例為多少? (2) 在 95% 的信心水準下, 此次民調的誤差約為多少? (3) 請寫出此次民調 95% 的信賴區間 [ 解法 ]: 642 (1) = 0. 6 1070 0.6 (1 0.6) (2) 2 0.02995, 誤差約為 3% 1070 (3) 此次民調 95% 的信賴區間約為 [0.6-0.03, 0.6+0.03] 即在 95% 的信心水準下, 甲候選人的支持度約在 [0.57, 0.63] 區間內 [ 例題 8] 一個試驗想估計一枚銅板出現正面的比率 p 落在哪個範圍? 丟銅板 32 次, 用本書亂數表的第一列來模擬 : 亂數表第一列號碼分別為 5646 9713 5457 6316 2470 1589 3537 4856 上面每一個數字 k 代表丟一枚銅板出現正面或反面, 其規則如下 : 號碼 0 ~ 4 表丟出反面, 即 x i =0;5 ~ 9 表丟出正面, 即 x i =1 試求此銅板出現正面比率 p 的 : (1) 95% 信賴區間 (2) 99.7% 信賴區間 (3) 68% 信賴區間 [ 解法 ]: 32 次試驗中有 19 個正面,13 個反面, 所以此銅板出現正面的比率 p 估計為 p^= 19 32 ~0.5938 標準差估計為 p^ ( 1-p^ ) = 0.5938 ( 1-0.5938 ) ~0.4911 p^ ( 1-p^ ) (1) 95% 信心水準的抽樣誤差為 e=2 因此, 此銅板出現正面比率 p 的 95% 信賴區間為 ~2 0.4911 32 ~0.1736 [p^-e,p^+e]=[0.5938-0.1736,0.5938+0.1736] =[0.4202,0.7674] p^ ( 1-p^ ) (2) 99.7% 信心水準的抽樣誤差為 e=3 0.2605 因此, 此銅板出現正面比率 p 的 99.7% 信賴區間是 =3 0.4911 32 [p^-e,p^+e]=[0.5938-0.2605,0.5938+0.2605]=[0.3333,0.8543] (3) 68% 信心水準的抽樣誤差為 e= p^ ( 1-p^ ) = 0.4911 32 ~ ~0.0868 ~55 18~

因此, 此銅板出現正面比率 p 的 68% 信賴區間為 林信安老師編寫 [p^-e,p^+e]=[0.5938-0.0868,0.5938+0.0868]=[0.5070,0.6806] 對於上例中丟銅板的試驗, 如果重複做 100 次丟銅板試驗, 每回試驗都是丟銅板 32 次, 得到 100 個樣本正面比率 p^, 算出 100 個母體比率 p 的 95% 信賴區間 所謂 母體比率 p 的 95% 信心水準 粗略的說就是在這算出的 100 個信賴區間中, 大約有 95 個區間會包含母體比率 p, 大約有 5 個不包含 p 丟 32 次銅板 100 回所得 95% 信賴區間 19 如例題 8 我們只做一次試驗, 丟銅板 32 次得到 p^= 32 ~0.5938, 算出 95% 信賴區間 [0.4202,0.7674], 此區間確實涵蓋母體比率 p=0.5, 上圖中共有 93 個區間涵蓋母體比率 0.5, 此涵蓋率 93% 與理論的信心水準 95% 很接近 [ 例題 9] 某廠商委託民調機構在甲 乙兩地調查聽過某項產品的居民佔當地居民之百分比 ( 以下簡稱為 知名度 ) 結果如下 : 在 95% 信心水準之下, 該產品在甲 乙兩地的知名度之信賴區間分別為 [ 0.50, 0.58 ] [ 0.08, 0.16 ] 試問下列哪些選項是正確的? (1) 甲地本次的參訪者中, 54% 的人聽過該產品 (2) 此次民調在乙地的參訪人數少於在甲地的參訪人數 (3) 此次調查結果可解讀為 : 甲地全體居民中有一半以上的人聽過該產品的機率大於 95% (4) 若在乙地以同樣方式進行多次民調, 所得知名度有 95% 的機會落在區間 [ 0.08, 0.16 ] (5) 經密集廣告宣傳後, 在乙地再次進行民調, 並增加參訪人數達原人數的四倍, 則在 95% 信心水準之下該產品的知名度之信賴區間寬度會減半 ( 即 0.04) (2009 學科能力測驗 ) ~55 19~

[ 解法 ]: (1) 信賴區間為 [ p ˆ e, pˆ + e], 故 pˆ 為 0.50 及 0.58 的中點, 即 1 p ˆ = (0.50 + 0.58) = 0.54 2 這表示有 54% 的參訪者聽過該產品 (1) 真 0.54 0.46 (2) 在 95% 信心水準之下, 兩地參訪者人數的估計值分別為 甲 2 (0.02) 0.12 0.88 乙, 顯然前者大於後者 (2) 真 2 (0.02) (3) 95% 的信心水準是指同樣做了多次的調查, 每次調查都會得到一個信賴區間, 大約有 95% 的信賴區間會蓋住真正的知名度 (4) 所謂 95% 的信心水準是指同樣做了多次的調查, 每次調查都會得到一個信賴區間, 大約有 95% 的信賴區間會蓋住真正的知名度 p 而非 p 有 95% 的機率在區間 [ 0.08, 0.16] 中 (4) 不真 pˆ (1 ) (5) 在重作民調時, 固然以最大抽象誤差公式可得 e, 讓我們覺 1.96 pˆ (1 ) 得最大誤差為 e 的一半 但是, 再次抽樣時, 改變了, pˆ 也會不同, 所以新的信賴區間未必會縮為原有信賴區間的一半 ( 可能變大, 也可能縮小 ) (5) 不真 ( 練習 11) 某次選舉候選人兩名應選 1 名, 民調公司做支持度調查成功訪問 100 個合格選民, 其中 60 人表示支持甲候選人, (1) 此次民調支持甲候選人的比例為多少? (2) 在 95% 的信心水準下, 此次民調的誤差約為多少? (3) 請寫出此次民調 95% 的信賴區間 As:(1) 0.6(2) 誤差約為 9.8% (3) 此次民調 95% 的信賴區間約為 [0.502, 0.698] 區間 ( 練習 12) 袋中有紅球 藍球各若干個, 小安每次從袋中拿一球看完顏色後又放入袋中, 共拿 50 次, 結果有 20 次拿出紅球, 求袋中紅球所佔比例 p 的 95% 信賴區間 As:[0.26144, 0.53856] ( 練習 13) 由生產線隨機抽樣 400 個產品, 得到樣本不良率為 8%, 求 (1) 不良率 p 的 95% 信賴區間 (2) 不良率 p 的 99.7% 信賴區間 (3) 不良率 p 的 68% 信賴區間 As:(1)[0.0529,0.1071] (2)[0.03932,0.12068] (3)[0.06644,0.09356] ( 練習 14) 某廠商委託民調機構在甲地調查聽過該品牌洗面乳的居民占當地居民之百分比 ( 以下簡稱為 知名度 ) 結果在 95% 信心水準下, 該品牌洗面乳在甲地的知名度之信賴區間為 [0.608,0.672] 試問此次民調中 (1) 該品牌的洗面乳在甲地的知名度為多少? ~55 20~

(2) 抽樣誤差為多少? (3) 共成功訪問了多少位甲地民眾, 其中有多少人聽過該產品? As:(1)0.64 (2)0.032 (3)900 人,576 人 林信安老師編寫 ( 練習 15) 某名調公司做食品接受度的抽樣調查, 在 95% 的信心水準下, 樣本中對該食品的接受度為 60%, (1) 若抽樣誤差為 4%, 則共抽樣多少人? (2) 若抽樣誤差為 2%, 則共抽樣多少人? As:(1)600 人 (2)2400 人 ( 練習 16) 消保官抽測市售泡麵 576 包, 公布有 36% 的泡麵每包含鈉量超過成人每日建議量 試問此項調查的信心水準為多少時, 其抽樣誤差為 2 個百分點 As:68% 樣本數的決定一般而言, 調查人數愈多, 成本愈高, 估計也愈準確, 調查人數多寡要考慮到成本與估計的準確性 像是選舉期間候選人做民意調查, 想知道自己與對手的得票率約為多少, 不過在考慮成本與民調準確性下, 候選人希望能在開票前就可以預估自己的得票率, 以便調整選舉策略, 那麼得票率的民意調查要調查多少人才合適呢? 從前面信賴區間的意義中, 可以得知某次民調如果有效樣本有 位, 可以由這 位樣本可以求出得票率 p 的抽樣誤差及信賴區間 反之, 如果要控制得票率 p 的估計誤差在 e 內 ( 即最大誤差為 e) 時, 需要調查多少樣本呢? 這樣的問題稱為樣本數的決定 當樣本數愈多時, 則資料愈有代表性, 抽樣誤差愈小 ; 但是樣本數愈多, 成本愈高, 因此必須在精確與成本之間曲得平衡 在 95% 信心水準之下, 如何控制估計誤差在 e 內時, 需要調查多少樣本呢? p ˆ(1 ) 4 pˆ (1 ) (1 ) 如果得到 pˆ 的估計, 則由 e=2, 可求得 = e 2 (2 ) 但是如果沒得到 pˆ 的資訊時, 可以用較保守的方式來估計 : Q pˆ (1 ) 0.5, e=2 p ˆ(1 ) 2 0.5 也就是說當最大誤差為 e 時, 則樣本數約需要 ( 1 e )2 ~55 21~ = 1, 得總數 ( 1 e )2 補充說明 : (a) 事實上根據常態分配表, 較精確的說法 95% 的資料落在區間 [ x 1.96s, x +1.96s] 內, 所以 95% 的信心水準的最大誤差有 e 1.96 0.5, 所需的樣本數 ( 1.96 0.5 e ) 2 例如 :e=0.03, 則由上式可得樣本數約需 ( 1.96 0.5 0.03 )2 1068

1.96 0.9 0.1 (b) 如果 p 離 0.5 很遠, 則抽樣樣本數可以改為 ( e ) 2 [ 例題 10] 一項調查想了解大台北地區高中生家中擁有 Wii 的學生比例, 民調公司想在 95% 的信心水準下, 公佈誤差為 ± 3 %, 試問這次民調至少需要多少成功的樣本?As:1112 個 [ 解法 ]: 因為 pˆ (1 ) 0.5, e=2 p ˆ(1 ) 2 0.5 = 1 (1 e )2 1112 [ 例題 11] 為了驗證一枚古代硬幣是否為勻稱的硬幣, 某人做了多次的投擲試驗, 並發表推論的結果如下 : 我們有 95% 的信心認為此硬幣出現正面的機率是 37% 到 43% 之間 試求此實驗中, 共投擲了幾次硬幣? 其中幾次出現正面? [ 解法 ]: 設共投擲了 次因為 95% 信賴區間為 [0.37, 0.43], 所以樣本出現正面的機率 pˆ =0.4, 正負誤 0.4(1 0.4) 差 3%, 因此 2 =0.03 =1067 ( 練習 17) 某銀行於中秋節發行賞月樂透彩, 並宣稱中獎率為 36%( 發行 100 萬張, 計有 36 萬個獎項 ) 若想推論這個數據是否屬實, 在 95% 的信心水準及抽樣誤差正負 4 個百分點的條件下, 應隨機採樣多少張樣本? As:576 ( 練習 18) 某研究調查發現 : 有 95% 的信心認為中學生近視比例在 55% 到 65% 之間, 試求 : (1) 此研究約調查了個樣本 (2) 樣本中大約有人近視 As:(1)384 (2)230 ~55 22~

綜合練習 (1) 下列有關 隨機號碼表 的敘述, 哪些是正確的? (1) 任兩個隨機號碼表都相同 (2) 每列 40 個數字, 恰好有 4 個 0 1 (3) 每三個一組的數字, 出現 000 的機率約為 1000 (4) 表中不可能出現像 0000 這樣 4 個連續的數字 (5) 從任一列開始的簡單隨機抽樣, 都會有相同的結果 (2) 某訓練班招收 100 名學員, 以報到先後順序賦予 1 到 100 的學號 開訓一個月之後, 班主任計畫從 100 位學員中抽出 50 位來參加時事測驗 他擬定了四個抽籤方案 : 方案一 : 在 1 到 50 號中, 隨機抽出 25 位學員 ; 同時在 51 到 100 號中, 也隨機抽出 25 位學員, 共 50 位學員參加測驗方案二 : 在 1 到 60 號中, 隨機抽出 32 位學員 ; 同時在 61 到 100 號中, 也隨機抽出 18 位學員, 共 50 位學員參加測驗方案三 : 將 100 位學員平均分成 50 組 ; 在每組 2 人中, 隨機抽出 1 人, 共 50 位學員參加測驗方案四 : 擲一粒公正的骰子 : 如果出現的點數是偶數, 則由學號是偶數的學員參加測驗 ; 反之, 則由學號是奇數的學員參加測驗, 請選出正確的選項 (1) 方案一中, 每位學員被抽中的機率相等 (2) 方案二中, 每位學員被抽中的機率相等 (3) 方案三中, 每位學員被抽中的機率相等 (4) 方案四中, 每位學員被抽中的機率相等 (2011 指定乙 ) (3) 下圖是根據 100 名婦女的體重所作出的直方圖 ( 圖中百分比數字代表各體重區間的相對次數, 其中各區間不包含左端點而包含右端點 ) 該 100 名婦女體重的平均數為 55 公斤, 標準差為 12.5 公斤 曲線 N 代表一常態分佈, 其平均數與標準差與樣本值相同 在此樣本中, 若定義 體重過重 的標準為體重超過樣本平均數 2 個標準差以上 ( 即體重超過 80 公斤以上 ), 則下列敘述哪些正確? ~55 23~

~55 24~ 林信安老師編寫 (1) 曲線 N( 常態分佈 ) 中, 在 55 公斤以上所佔的比例約為 50% (2) 曲線 N( 常態分佈 ) 中, 在 80 公斤以上所佔的比例約為 2.5% (3) 該樣本中, 體重的中位數大於 55 公斤 (4) 該樣本中, 體重的第一四分位數大於 45 公斤 (5) 該樣本中, 體重過重 ( 體重超過 80 公斤以上 ) 的比例大於或等於 5% (2006 學科能力測驗 ) (4) 某校學生有 1000 人, 數學段考成績為常態分配, 平均成績為 65.24 分, 標準差 5.24 分, 試問全校約有多少人數學成績低於 60 分? (A)80 (B)160 (C)240 (D)320 (E)400 人 (2002 學科能力測驗 ) (5) 下列那些是常態分布曲線的特性? (A) 曲線呈對稱的鐘形 (B) 平均數與中位數相等 (C) 約有 50% 的數值落在平均數左右各 1 個標準差的範圍內 (D) 約有 95% 的數值落在平均數左右各 2 個標準差的範圍內 (E) 全部的數值都落在平均數左右各 3 個標準差的範圍內 (6) 某校有學生 1000 位, 數學段考成績為常態分布, 平均成績為 70 分, 標準差為 10 分, 則下列敘述何者正確? (A) 數學不及格人數大約有 160 位 (B) 超過 90 分的人數大約有 25 位 (C) 某生成績為 80 分, 其全校排名約 160 名 (D) 將每位學生成績減 70 分, 再除以 10 分, 則此新成績的平均數為 0 分 (E) 將每位學生成績減 70 分, 再除以 10 分, 則此新成績的標準差為 1 分 (7) 根據數學 SAT 考試規定, 該測驗的總分如果超過 800 分, 一律以 800 分紀錄 已知今年 SAT 考試呈常態分布, 其平均 560 分, 標準 120 分 試求 : 約有多少比例的考生會收到 800 分的成績單? (8) 某校高三學生在一次考試中, 成績呈常態分配, 且已知其分數之平均數為 70 分, 標準差為 10 分 若從這次考試的學生中, 隨機抽出一位學生, 則這位學生的成績低於 60 分的機率最接近以下哪一選項? (1) 0.16 (2) 0.32 (3) 0.34 (4) 0.68 (5) 0.84 (2010 指定乙 ) (9) 魏式成人智力量表式一個普遍使用的 IQ 測驗,16 歲以上的人, 其 IQ 分布約為平均數 100, 標準差 15 的常態分布 試利用經驗法則回答下列問題 : (a) 隨機選取一個 16 歲以上的人, 他的 IQ 分數在 130 人以上的機率是多少? (b)1000 個 16 歲以上的人中, 約有多少人的 IQ 分數在 85 分以上? (10) 某廠商委託民調機構在甲 乙兩地調查聽過某項產品的居民佔當地居民之百分比 ( 以下簡稱為 知名度 ) 結果如下 : 在 95% 信心水準之下, 該產品在甲 乙兩地的知名度之信賴區間分別為 [ 0.50, 0.58 ] [ 0.08, 0.16 ] 試問下列哪些選項是正確的? (1) 甲地本次的參訪者中, 54% 的人聽過該產品 (2) 此次民調在乙地的參訪人數少於在甲地的參訪人數 (3) 此次調查結果可解讀為 :

甲地全體居民中有一半以上的人聽過該產品的機率大於 95% (4) 若在乙地以同樣方式進行多次民調, 所得知名度有 95% 的機會落在區間 [ 0.08, 0.16 ] (5) 經密集廣告宣傳後, 在乙地再次進行民調, 並增加參訪人數達原人數的四倍, 則在 95% 信心水準之下該產品的知名度之信賴區間寬度會減半 ( 即 0.04) (2009 學科能力測驗 ) (11) 想要了解台灣的公民對某議題支持的程度所作的抽樣調查, 依性別區分, 所得結果如下表 : 請問從此次抽樣結果可以得到下列哪些推論? (1) 全台灣男性公民贊成此議題的比例大於女性公民贊成此議題的比例 (2) 在 95% 的信心水準之下, 全台灣女性公民贊成此議題之比例的信賴區間為 [0.48,0.56]. ( 計算到小數點後第二位, 以下四捨五入 ) (3) 此次抽樣的女性公民數少於男性公民數 (4) 如果不區分性別, 此次抽樣贊成此議題的比例 pˆ 介於 0.52 與 0.59 之間 (5) 如果不區分性別, 此次抽樣 pˆ 的標準差 (2010 學科能力測驗 ) p ˆ(1 ) 介於 0.02 與 0.04 之間 (12) 國一學生 30 萬人, 智商測驗的結果是 平均數 100, 標準差 15 的常態分配 若以智商 130 以上做為甄選國一學生為資優生的門檻, 則根據這次測驗的結果判斷下列選項中的敘述, 哪些是正確的? (1) 約有 5% 的國一學生通過資優生甄選門檻 (2) 約有 15 萬名國一學生的智商在 1 00 以上 (3) 超過 20 萬名國一學生智商介於 8 5 至 115 之間 (4) 隨機抽出 100 0 名國一學生, 可期望有 25 名資優生 (5) 如果某偏遠學校只有 1 4 名的國一學生, 那麼該校不會有資優生 (2009 指定乙 ) (13) 某縣市教育局欲瞭解高中生參加課外活動社團的意願, 開學日隨機調查高一 高二 高三學生各 1067 名, 詢問本學期是否要參加課外活動社團 已知該縣市的高一 高二 高三學生人數幾乎一樣多, 各年級學生調查結果如下圖 : 試問下列選項中的敘述, 哪些是正確的? ~55 25~

(1) 學生要參加課外活動社團之比例隨著年級增加而遞減 (2) 由上述資訊可以估算全體學生要參加課外活動社團的比例 (3) 在 95% 信心水準下, 每一個年級學生要參加課外活動社團的比例之信賴區間, 都可以由題目中已知的數據算出 (4) 在 95% 信心水準下, 三個年級的調查結果, 以高一學生要參加課外活動社團的比例的信賴區間最長 (5) 在 95% 信心水準下, 三個年級的調查結果, 以高三學生要參加課外活動社團的比例的信賴區間最短 (2009 指定乙 ) (14) 為講解信賴區間與信心水準, 數學老師請全班 40 位同學使用老師提供的亂數表模擬投擲均勻銅板 16 次 模擬的過程如下 : 隨機指定給每位同學亂數表的某一列, 該列從左到右有 16 個數字 ; 如果數字為 0,1,2,3,4 時, 對應投擲銅板得到正面 ; 而數字為 5,6,7,8,9 時, 對應投擲得到反面 某同學拿到的一列數字依序為 : 0612 9683 4251 9138 該同學計算銅板出現正面的機率在 95% 信心水準下的信賴區間 : pˆ(1 ) pˆ(1 ) [ pˆ 2, pˆ + 2 ] 則該同學所得到的結果中, 2 (2011 指定乙 ) p ˆ(1 ) = ( 化為最簡根式 ) (15) 假設某品牌家電用品的使用壽命呈現常態分配, 平均值是 4.5 年, 標準差是 1 年 若其保證期間為 2 年, 試問退貨比例為多少?( 附註 ) 常態分佈的資料對稱於平均數 M 且當標準差為 S 時, 該資料大約有 x % 落在區間 ( M ks, M ks ) 內 ( 見下表 ): ~55 26~

(16) 人類從受孕到分娩的懷孕期長短不一, 大致呈現平均數 266 天, 標準差 16 天的常態分布 (a) 約有多少比例的人會在 266 天以內分娩? (b) 根據常態分布的規則, 求中間 95% 的人其懷孕天數的範圍 (17) 針對台灣地區的詐騙電話做調查後發現 : 有 95% 的信心認為約有 70% 到 76% 的人都曾接到詐騙電話 試問 : (a) 此次調查約成功抽樣多少人? (b) 樣本中曾接過詐騙電話的約有多少人? (18) 某工廠要檢驗某產品的不良率, 若已知該產品的不良率均不超過 2%, 在 95% 的信心水準之下, 需檢驗多少件產品才能使誤差不超過 1%? (19) 擲一枚公正的硬幣試驗中, 已知硬幣出現正面的比例呈常態分布 現在如果擲一枚公正硬幣 100 次, 其中出現正面的比例為 pˆ, 則 pˆ 0.55 的機率為 (20) 班聯會以問卷調查全校學生對 可以不穿制服 議題的支持程度, 回收有效問卷 520 張, 其中贊成有 416 張 (a) 求贊成的比例 (b) 在 95% 的信心水準下, 這次調查的正負誤差是多少百分點? (c) 計算 95% 的信賴區間 (21) 某次選舉候選人兩名應選 1 名, 民調公司做支持度調查成功訪問了 1070 個合格選民, 其中 642 人表示支持甲候選人, (a) 此次民調支持甲候選人的比例為多少? (b) 在 95% 的信心水準下, 此次民調的誤差約為多少? (c) 請寫出此次民調 95% 的信賴區間 (22) 為了驗證一枚古硬幣是否為均勻的硬幣, 某人做了 600 次的投擲試驗, 其中 240 次出現正面, 試求 (a) 此硬幣出現正面比率 95% 的信賴區間 (b) 此硬幣出現正面比率 99.7% 的信賴區間 (23) 某市場調查想了解女性消費者對於某品牌化妝品的滿意度, 於是隨機抽樣 300 位使用過此化妝品的女性消費者做調查, 發現對於某品牌化妝品覺得滿意的人有 75 位, 試求 (a)95% 信賴區間的最大誤差 (b) 使用過此化妝品的女性消費者滿意比例 p 的 95% 信賴區間 (24) 甲乙丙三人投擲一枚不均勻的硬幣各若干次,( 每人投擲的次數可以不相同 ), 在各自選定的信心水準之下, 做擲出正面機率的信賴區間圖形如下 : ( 其中乙和丙的區間長度相同 ), 試問下列敘述何者正確? 0 0.5 1 ~55 27~

(1) 丙擲出正面比率最大 (2) 甲的抽樣誤差最大 (3) 若投擲次數相同, 則甲信心水準比乙低 (4) 若信心水準相同, 則甲的投擲次數比乙少 (5) 若信心水準相同, 則丙的投擲次數比乙多 (25) 若抽樣樣本數 =100, 母體比例 p 的 95% 信賴區間之最大誤差 e=0.02, 假設抽樣樣本數 =400 時, 樣本比例不變 pˆ, 則母體比例 p 的 95% 信賴區間之最大誤差 e 是多少? (26) 針對台灣地區的詐騙電話做調查發現 : 有 95% 的信心認為 70% 到 76% 的人曾接到詐騙電話 (a) 此次調查約調查多少人? (b) 樣本中曾接過詐騙電話的約有多少人? (27) 甲民調公司被委託做意見調查, 成功訪問了 1000 個民眾後, 公司宣稱 : 本次民調 XX 的支持度是 42%, 成功隨機抽樣訪問 1000 個民眾後, 在 95% 的信心水準下, 抽樣誤差為正負 3 個百分點 若乙民調公司同時作此議題調查, 且成功訪問了 4000 個民眾, 做出相同的支持度, 則在 95% 的信心水準下, 乙公司可宣稱抽樣誤差為正負幾個百分點? (28) 某公司生產的零件長度是常態分布 X ~ N ( 80,25 ), 若零件長度在 75 到 90 之間, 每件可獲利 100 元 ; 若零件長度超過 90, 每件可獲利 40 元 ; 若零件不足 75 時, 每件損失 30 元, 設此公司每月生產 10000 件, 請問每月獲利的期望值是多少? ~55 28~

綜合練習解答 (1) (3) (2) (1)(3)(4) [ 解法 ]: 從 N 個人中隨機抽取 個人, 假設每個人被抽中的機會相等, 那麼每個人被抽中的機會 等於 N C 1 1 N C = N 1 故 (1)(3)(4) 中學員被選中的機率均為 2 32 (2) 中 1~60 號每個人被選中的機率為 60,61~100 號每個人被選中的機率 18 為 40 (3) (E) (4) (B) (5) (A)(B)(D) (6) (A)(B)(C)(D)(E) (7) 2.5% (8) (1) (9) (a)0.025 (b)840 人 (10) (1)(2) (11) (2)(4) [ 解法 ]: (1) 根據抽樣的結果不能得出 全台灣男性公民贊成此議題的比例大於女性公民贊成此議題的比例 這個結論 (2) 在 95% 的信心水準之下, 全台灣女性公民贊成此議題之比例的信賴區間為 [0.52 2 0.02, 0.52+2 0.02]= [0.48,0.56] (3) 設樣本中女性公民有 1 個, 男性公民有 2 個 0.02= 0.52 (1 0.52),0.04= 1 ~55 29~ 0.59 (1 0.59), 故可得 1 > 2 (4) 如果不區分性別, 此次抽樣贊成此議題的比例 pˆ = 0.52 1+0.59 2 1 + 2 而 0.52= 0.52 1+0.52 2 1 + < 0.52 1+0.59 2 2 1 + < 0.59 1+0.59 2 2 1 + =0.59 2 (5) 抽樣 pˆ 的標準差 (12) (2)(3)(4) (13) (1)(2)(3)(5) (14) 3 7 32 (15) 0.6 % p ˆ(1 ) = pˆ(1 ) < + 1 2 2 0.52 (1 0.52) 1

(16) (a)50% (b)234 天 ~298 天 (17) (a)876 人 (b)639 人 (18) 784 件 林信安老師編寫 0.5 (1 0.5) (19) 0.16 [ 提示 :Q 標準差 = 100 = 0.05, 故所求的機率 = 1 0.68 2 ] (20) (a)0.8 (b) 正負 4 個百分點 (c)[0.76, 0.84] (21) (a)0.6 (b) 2 0.6 (1 0.6) 0.02995 (c) [0.57, 0.63] 1070 (22) (a)[0.36,0.44] (b)[0.34,0.46] (23) (a)0.05 (b)[0.2, 0.3] (24) (1)(2)(4)(5) (25) 0.01 (26) (a)876 (b)639 (27) 約 1.5 個百分點 (28) 777000 元 ~55 30~