統計學導論 Statistics for Business & Economics Chapter 1 第一章 Introduction and Data Collection 統計學導讀 1 1
教學重點綱要 1. 統計學的定義 2. 統計學的應用 3. 敘述統計與推論統計的區分與比較 4. 定義統計術語 : 母體 (population), 樣本 樣本 (sample), 變數 ( variable), 母數 (parameter), 統計 (statistic) 5. 資料的類型 6. 資料的來源 7. 抽樣方法 1 2
腦筋轉轉彎 根據銘傳大學統計系調查得知, 20 歲大學男子 100 公尺短跑的平均成績為 12.7 秒. 本班同學的 100 公尺短跑平均成績為何? 你該如何去得到此答案? 你認為本班同學與受調查大學同學的跑步成績是否不同? 1 3
腦筋轉轉彎 根據某報紙調查得知, 大學生罹患近視的比例高達八成以上 本班同學罹患近視的比例為何? 你該如何去得到此答案? 你認為本班同學與受調查大學同學罹患近視的比例是否不同? 你認為銘傳大學同學罹患近視的比例為多少? 你又該如何來得到此答案呢? 1 4
統計學簡介 1 5
何謂統計學? 1. 資料處理與分析的科學 2. 包括 : 收集資料 資料的分類 處理及組織資料 總結資料 分析資料 解析資料作適當的推論 統計統計 統統忘記 統統要記 1 6
何謂統計學? 1. 資料處理與分析的科學 2. 包括 : 收集資料 資料的分類 處理及組織資料 目的 總結資料 分析資料 解析資料作適當的推論 了解明白 協助作決策 1 7
統計學的應用 會計 稽查 成本分析 管理 人事評估 品質改善 財務 趨勢分析 預估未來 行銷 客戶喜愛取向 市場評估 1 8
統計方法的分別 統計方法 敘述統計 推論統計 1 9
敘述統計 1. 包含 資料收集 資料處理與呈現 資料特色與總結 2. 主要目的 將資料作最佳的呈現 50 25 0 $ Q1 Q2 Q3 Q4 X X = 30.5 S 2 = 113 1 10
推論統計 1. 包含 估計 假設與檢定 母體 (Population)? 2. 目的 根據樣本資訊對未知母體母數作推論或下決定 1 11
統計術語簡介 1 12
統計術語簡介 1. Population( 母體 ): 所有合於研究個體總集合 2. Variable( 變數 ): 母體因個體差異會隨之變動的特徵性質 3. Sample( 樣本 ): 母體的子集合 4. Parameter( 母數 ): 描述母體變數的總結數 5. Statistic( 統計 ): 描述樣本變數的總結數 18 1 13 Population 19 18 19 18 21 Sample 20 20 20 母體平均年齡, µ = 19.2 樣本平均年齡, X = 20 年齡 ( 變數 )
請就下列各子題說明其母 體為何? 1. 對臺北市市長選舉所舉辦的選民意向調查 2. 行政院勞工委員會調查遭遇職業災害勞工概況 3. 台灣地區遊覽車營運狀況調查 4. 台灣地區養豬頭數專案調查 1. 台北市全部具有投票權的市民 2. 台灣地區全體遭遇職業災害勞工 3. 台灣地區經營遊覽車營業者 4. 台灣地區全體毛豬飼養戶所養之豬 1 14
統計資料的分類與尺度 Data 資料 Quantitative 量化 Qualitative 質化 Interval Ratio Nominal Ordinal 區間比例名目順序 1 15
資料分類範例 Qualitative 質化資料 Nominal 名目尺度 你的血型為何? A B AB O Ordinal 順序尺度 你喜歡統計學嗎? ( 非常喜歡, 喜歡, 普通, 不喜歡 ) Quantitative 量化資料 Interval 區間尺度 現在室內溫度幾度? ( 攝氏 ) Ratio 比例尺度 你有多高? ( 公分 ) 1 16
動動腦想一想 下列資料為何種資料 ; 類別? 1. 性別 2. 體重 男性, 女性 58, 71, 48,.. 3. 車行速度 40, 80, 60,... 4. 智商 IQ 78, 120, 95,... 5. 考試成績 6. 考績 78, 65, 92, 49,.. 甲, 乙, 丙,.. 1 17
資料的收集 1 18
資料的來源 資料來源 直接第一手 間接第二手 實驗取得問卷調查觀察取得別人發表 1 19
何謂原始資料? 次級資料? 原始資料是指研究者專為目前的研究計畫所蒐集的資料 次級資料是指由其他來源所蒐集的資料, 但亦能為目前的研究所引用 一般而言, 為了節省成本, 在資料的蒐集程序上, 應就各種來源或管道蒐集次級資料以供目前的研究使用, 如若仍有不足之處才考慮原始資料的蒐集 1 20
原始資料蒐集方式有那些 調查 (survey) survey): 所謂調查是指透過訪問員的當面訪問, 電話訪問, 或或郵寄問卷郵寄問卷的方式所蒐集的資料 此種資料蒐集方式是最常見的一種 觀察 (observation) observation): 觀察是由研究者對所研究的事物進行觀察, 以了解該事物的狀況 例如觀察某十字路口旳各種車流況, 可以由數位調查人員以計數器計數在不同日期, 時段計數各型車輛經過該十字路口的數量 實驗 (experiment) experiment): 實驗是指在設定的條件或情形下, 從事實際的試驗以取得資料的方式 由於必須在特定的條件下進行, 因此較常見的實驗有藥廠在新藥申請批准上市前所做的實驗 以所得到旳資料來檢定該藥的藥效 觀察 實驗 1 21
調查 -- 電話訪問的優缺點 優點 : 易監控訪問過程 快速 省時 費用較省 答覆問題時, 較不會產生尷尬 缺點 : 無法涵蓋新近申請的用戶 某些用戶因故已停用原電話號碼 用戶要求不能將電話號碼刊於電話號碼簿內 受訪對象可能沒有電話 很難進行需時較久之大型問卷 尤其有關圖示說明, 或需觀察判斷的問卷, 都無從得知 1 22
調查 -- 郵寄問卷的優缺點 優點 : 成本較低 不會有訪員素質差異, 造成問卷填答偏差 可得到較正確資訊 缺點 : 回收慢, 甚至於 二次二次 催收 更嚴重的是, 回收率低 產生 問題問題 先後次序未按設計原意填答的偏差 影響填答正確性 1 23
調查 -- 當面訪問的優缺點 優點 : 可得到更深入的訊息 回收率提高 不明暸處可當面解說 調查人員可當面察言觀色 缺點 : 成本提高 不同素質的訪員, 對問題有不同解說, 因此可能對受訪者產生不良的影響, 例如 : 誤導 曲解 訪員的虛應敷衍 1 24
何謂問卷? 為了蒐集與研究主題有關的 各項資料, 不論是採行訪員 面訪 電話訪問或郵寄方式, 都必須為調查者準備好蒐 集資料用的格式或表格 1 25
問卷範例一 個人基本資料 姓 名 : 男 女 生 日 : 民國 年 月 日 職 業 : : 學生 工 商 軍 公務人員 教育 自由業 家管 其他 婚姻狀況 : : 未婚 己婚 ( 小孩 有 無 ) 教育程度 : : 小學 國中 高中 大專 研究所 博士 1 26
問卷範例二 1 您購買本產品的原因為何?( 可複選 ) 外觀設計 超大螢幕 可上 WAP 有 PDA 功能 有雙語辭典 可收發 Email 很多遊戲 功能超強 其他 2 請問您對本產品的整體滿意度? (0 為最差,10, 為最好 ) 3 請問本手機是您的第幾隻手機? 第 1 支 第 2 支 第 3 支 第 4 支以上 1 27
問卷設計的七個步驟 確認調查的目的, 應蒐集哪些資料, 以及蒐集來的資料擬使用哪些統計方法進行分析 決定調查方式 決定問問題及回答時所使用的型態或格式 決定問題所使用的文字表達字眼 決定問題順序及問卷整體安排 考量問卷訴求的最大化 進行問卷的預先測試, 修正及問卷最後定案 1 28
何謂前導性的問題? 何謂 引導性的問題? 所謂前導性問題 (Leading Question) 指在問題中隱含或提示受訪者填問卷的答案 設計問卷時, 在排列順序上以將相同問題排放在一起為宜, 並以簡單易答的問題作為問卷的起頭, 此為引導性問題 (Lead Lead in Questions), 目的在獲得受訪著的認同 1 29
問卷預先測試的目的 預先測試 (Pretest) 的目的在於藉由測 試受訪者的填答中找出是否有語意 混淆的題目, 或是問題選項多餘或 不周延的問題 接受預先測試的人 數不用太多, 但每位受訪者所面對 的各項疑點或填答的困難都應深入 探討, 並對問卷進行必要的修正 1 30
抽樣調查設計及方法 Sample Survey Designs 1 31
使用抽樣調查的原因 1. 樣本可能以破壞或無法再使用 品管 Quality control 2. 得到可信賴的精確程度 Accurate & reliable results 3. 實用上原因 節省時間 節約花費 1 32
常見的各種的抽樣方法 Types of Samples Type of Sample Non Probability Probability Simple Random Systematic Stratified Cluster Judg ment Quota Chunk 1 33
簡單隨機抽樣 Simple Random Sample 1. 母體中每一個樣本點均有相同機 率被抽中 2. 抽出某個樣本後不影響另一個樣 本抽出的機率 ( 獨立性 ) 3. 經常先列樣本名冊後用電腦產生 隨機數或隨機表抽選 1 34
簡單隨機抽樣 (simple random sampling) 1. 母體名冊之取得及編號 2. 原則簡單 客觀取樣 樣本具有代表性 3. 例 : 臨床實驗之病歷卡資料查核工作彩券抽獎 (lottery) 4. 隨機數字表的製作問題 (pattern 出現 ) 5. 統計理論之磐石 抽樣分配與樣本值之落點位置 1 35
系統抽樣 Systematic Sample 1. 將所有樣本列冊以序號排列, 先隨機抽取第一個樣本, 接著每隔 K 個樣本抽取下一個樣本 2. 間隔數 K 的求法 母體的個數 Population size 樣本的個數 Sample size 3. 常用於電話抽樣 1 36
系統抽樣 (systematic sampling) 1. 依樣本數比例將母體母體名冊分 n 個區段 2. 第一段內隨機選取隨機選取某一特定位置 3. 其餘段內選取相同對應位置 4. 例 : 生產線上取樣通常以時間為分段執行方便 ; 電話簿之分區段 ( 每數頁特定點 ) 5. 母體內特定結構會影嚮樣本結果問題 ( 例如時間性之循環 ) 1 37
分層抽樣 Stratified Sample 1. 將母體區分為數個 strata 層之間互斥且周延 層內性質相近 層與層之間差異明顯 2. 從每一層中簡單隨機抽取若干樣本作為該層的代表, 再將所有層總結集合 All Students Commuters Sample Residents 1 38
分層抽樣 (stratified sampling) 1. 母體依持性分隔數個部分 ( 層 ) 2. 每層內層內同質性高 ; 各層之間層之間異質性高 3. 各層內以簡單隨機抽樣層內以簡單隨機抽樣行之 ( 依層大小比例抽層之樣本數 ) 4. 例 : 評估某藥對氣喘病人之療效 ( 年齡作分層 ) 調查大學生使用電腦之時間 ( 系作分層 ) 5. 整個樣本及各層樣本各層樣本皆可分析 1 39
群集抽樣 Cluster Sample 1. 將母體區分為多個群集 clusters 群集間互斥且周延 群集與群集間差異小 群集內類似母體 2. 隨機抽取數個 clusters, 並將抽中的群集內每個樣本或部份樣本均抽樣調查 Companies (Clusters) Sample 1 40
群集抽樣 (cluster sampling) 1. 母體依特性分成不同群集 2. 每群集內群集內差異大 ; 不同群集之相同性高 3. 例題 : 紐約市街道之每一個 block 為一個群集 倉庫內不同批號 ( 群集 ) 之相同藥品抽樣查驗藥效 健保局對醫院查核健保資料 ( 一間醫院為一個群集 ) 1 41
非機率隨機抽樣 Non probability Samples 1 42
非機率隨機抽樣 Non probability Samples 判斷抽樣 Judgment 根據經驗選取樣本代表 例如 : 市場測試 定額抽樣 Quota 類似於分層抽樣但不為隨機 Similar to stratified sampling except no random sampling 便利抽樣 Chunk (convenience) 使用最經濟的方式取得樣本 1 43
四種基本抽樣方法 800 員工大公司欲了解 dental plan 花費. 想抽樣本 32 位員工, 唯回收率為 80%. 每人都有一個信箱. 該公司有 25% 為管理階層, 全公司分為十個單位 ( 假設人數一樣 ). 要抽多少人? 用四種不同方法, 如何抽樣? 1 44
四種基本抽樣方法 ( 續 ) 假設回收率 80%, 須抽 40 人以獲得 32 個樣本簡單隨機抽樣 員工編號 (001 800), 使用隨機數表 40 次的抽樣 該 40 人即為一組隨機樣本 (a random sample) 系統抽樣 800 個信箱分 40 區段 ; 每 20 個信箱為一區段 第一個區段, 使用隨機數表抽第一個樣本 剩餘區段, 相同位置抽樣 1 45
四種基本抽樣方法 ( 續 ) 分層抽樣 管理階層和基層員工為兩個 stratum 40 個樣本, 依管理階層和基層員工的 % 抽樣 管理階層隨機抽 10 人, 基層員工 30 人 分群抽樣 十個單位 (clusters), 每單位 80 人 隨機抽一個樣本群集後, 再隨機抽 40 人 或是 : 隨機抽兩個樣本群集, 各隨機抽 20 人 ( 代表性可能高些 ) 1 46
美國 1948 年總統選舉 配額抽樣 1. Dewey( 紐約州長 ) v.s. Truman( 現任總統 ) 2. 選舉民調 : Crossley,, Gallup, Roper, 3. 抽樣方法 : 配額抽樣 4. 選前及發佈前 : 民調預測 Dewey 將勝選 5. The Chicago Tribune 報紙早版己印好勝選 1 47
美國 1948 年總統選舉 ( 續 ) 配額抽樣 全國 1 48 Gallup Roper 性別 男 49.1 50.5 50.1 女 50.9 49.5 49.9 年齡 21 34 34.4 29.6 36.3 35 49 30.9 34.4 30.8 50 以上 34.8 35.9 32.9 種族 白 96.1 95.0 97.4 黑 3.9 5.0 2.6 Highlight if > or <3%
美國 1948 年總統選舉 ( 續 ) 全國 1 49 Gallup Roper 教育國中以下 43.5 35.3 27.5 高中 43.4 46.8 48.8 大學 13.0 17.9 23.7 服役 工會 ( 男 ) 榮民 14.2 13.3 18.3 非榮民 85.8 86.7 81.6 會員 17.5 23.1 非會員 82.5 76.9 有效樣本人數 2,972 3,501
美國 1948 年總統選舉 ( 續 ) 1. Crossley,, Gallop, 和 Roper 等重要民調機構選前預測 Dewey 將勝選 2. The Chicago Tribune 己印好勝選報紙 3. Dewey Truman 選舉結果 45.1% 49.5% Crossley 49.9 44.8 Gallop 49.5 44.5 Roper 52.2 37.1 1 50
美國 1948 年總統選舉 ( 續 ) 4. 該次選舉結果和結果和民調民調預測相反 5. 機率抽樣開始盛行 ; 隨機樣本代表母體 6. 以機率抽樣, 預測錯誤率反而降低 1950 年以前, 24 次全國選舉以配額抽樣者且樣本數為 3250 結果平均錯誤 2.3%; 1950 年以後 17 次全國選舉以機率抽樣者且樣本數為 1500 結果平均錯誤 1.5%; 1 51
抽樣所產生的誤差 Errors Due to Sampling Coverage (Frame) Error Sampling Error Nonresponse & Measurement Error Total Population (Students) Sample Frame (Students in Phone Book) Planned Sample (Selected Students) Actual Sample 1 52
何謂編校? 在編校的過程 中可能遇到哪些狀況? 編校 (Editing) 是指對魁及的原始資料找出錯誤予以更正, 或對遺漏值進行探究及處理的過程 在編校的過程中可能遇到的狀況有 : 問卷填答的字跡模糊難辨 訪問員捏造問卷填答內容 填答問卷內容前後不一致 填答不完整 1 53
資料整理的三項工作 1. 編校 : 是只對所蒐集的原始資料找出錯誤予以更正, 或對遺漏值進行探究及處理的過程 2. 編碼 : 是指將問卷的答案選項以字母或數字等代碼來表示, 以便於資料的整理與分析 3. 列表 : 問券資料經過編校級編碼程序後, 進一步將資料按不同目的予以列表 1 54
目前使用的統計軟體 MINITAB SAS SPSS BMDP STATISTICA S PLUS SYSTAT STATGRAPHICS EXCEL 1 55
總結 1. 統計學的定義 2. 統計學的應用 3. 敘述統計與推論統計的區分與比較 4. 定義統計術語 : 母體 (population), 樣本 樣本 (sample), 變數 ( variable), 參數 (parameter), 統計 (statistic) 5. 資料的類型 6. 資料的來源 7. 抽樣方法 1 56
關於本課程... 請你靜下來想一想 : 1. 你此堂課學到的最重要的關念為何? 2. 是否還有相關問題與疑問? 3. 如何改善今後的學習? 1 57