統計學 statistics 概念與方法精華講義 陳相如編著 德霖技術學院企業管理系
目錄 第一章 統計概論 第二章 次數分配與統計圖示 第三章 統計量數 集中量數 第四章 統計量數 變異量數 第五章 相對位置量數 第六章 常態分配 第七章 相關分析 第八章 迴歸分析 第九章 推論統計概論 第十章 一個母體的推論統計 第十一章兩個母體的推論統計 第十二章卡方檢定 第十三章變異數分析
第一章統計概論 學習重點. 統計學的意義與分類. 母數與無母數統計法的特性與異同 3. 統計資料的分類與例子 一. 統計學的意義 在不確定的情況下, 提供人們作出聰明決策的科學方法, 過程包括資料的收集 整理 圖示 解釋與分析, 並進一步根據分析的結果加以推論, 以獲致合理的研判與有效的結論 因此, 統計學所涉及的分析過程有 :. 確定問題 : 研究興趣 身邊所發生的現象 前人研究鋪路. 蒐集資料 : 初級資料 ( 問卷 測驗 ) 次級資料( 文獻 檔案 出版品 ) 3. 整理分析 : 計算統計量數 繪製統計圖表 4. 統計推論 : 機率 估計 與檢定 二. 統計學的類型. () 敘述統計 (descriptive statistics): 乃一整理 彙總 及呈現資料的方法, 主要在使資料之特性易於萃取與解釋 統計量數 統計圖表 次數分配 為推論統計的基礎 () 推論統計 (iferetial statistics): 是藉由樣本資料對母體進行估計 預測或作決策之過程 抽樣 估計 假設檢定 可視為敘述統計的衍生應用 實驗設計 : 考驗實驗設計中自變項與依變項間的函數關係, 建立模式 迴歸分析 相關分析 變異數分析. () 母數統計法 : 指的是一般統計教科書與考試的主要內容之各種實用的統計方法, 使用時須要對母體參數與母體分配作嚴格的假設, 比如使用 t 分配檢定 H 0 : = 0 時, 必須假設母體為常態分配 ; 而使用 ANOVA (F 檢定 ) 檢定數個母體平均數是否相等時, 很重要的假設之一為變異數同質性 ; 檢定也須假定母體為 N.D. 因此, 母數統計法限制較多 主要用以分析比率與區間尺度資料 () 無母數統計法 : 在母數統計法因使用條件的違反 ( 或不被滿足 ) 而無法被研究者
使用時, 其對應的無母數統計法將 " 挺身而出 ", 成為取代母數統計法的次要選擇 相對於上述方法, 使用限制較少, 其特性為 : a. 不須對母體分配作任何假設 ; b. 檢定的對象不為母體之任何參數 ; c. 適用於按大小順序排列之資料或按 ( 時間 ) 先後順序排列之資料加以分析, 即等級與名目尺度 ; d. 假設母體分配已知時, 檢定的效力不如母數統計法 ; e. 特別適用於小樣本 ; f. 計算上較簡易 ; g. 但無法處理交互作用問題. 無母數統計法不使用原始資料作任何計算, 而多只依據等級或排序 (raks), 因此不 care 母體資料的真實分配, 並且不在假設中指明參數 ;. 由於無母數統計法大多使用於等級尺度的資料 ( 但不限於此 ),mea 不適合作為測量位置的量數, 所以無母數統計法不能檢定其差異, 而以檢定不涉及特定參數的母體特徵取代之, 尤其是針對母體位置 (locatios) 是否不等的檢定 ; 3. 另外, 如果資料為極端非常態, 則 F t-test 皆變得無效, 因而使用無母數統計法, 因此無母數統計法又稱自由分配統計 (distributio-free statistics), 常用的檢定有符號檢定 (sig test) 中位數檢定 等級檢定 等級和檢定 (rak sum test) 等 另外, 取代母數統計法的其他重要無母數統計法, 請見 Ch.3 變異數分析的說明 三. 統計學中變數的分類. 自變數 (idepedet variable) 依變數(depedet variable) 與共變數(covariate) () 自變數 : 指研究者可以自行操弄 (maipulate) 的變數 在廻歸分析的因果關係之探討上, 被定義為 因, 並以 X 加以表示 () 依變數 : 指數值會依自變項的不同而隨之變動的變數, 又稱因變數 在因果關係的探討中, 被定義為 果, 並以 Y 加以表示 (3) 共變數 : 同時會與自變數 依變數產生關聯, 並影響其值變動的變數 在研究法中, 因有各種實驗控制或統計控制的方法來控制其影響, 以突顯實驗研究效果, 又常被稱為控制變項 (cotrol variable) Ex. 教學法 成績 與智力 使用於相關分析與迴歸分析等. 連續 (cotiuous variable) 間斷變數 (discrete variable)
() 連續變數 : a. 用以表示某一連續的數字區間中之任一數值 b. 數值與數值之間因可以無限劃分, 而可能有無限多個數值 c. 此種變數的數值乃經由量測 (measure) 而得 Ex. 時間 身高 體重 智商與物理基本單位的資料, 如公克 公分與其所衍生計算的的面積 濃度 速度等 () 間斷變數 : a. 數值與數值之間存在一最小的觀測單位 b. 數值間不可無限分割 c. 此種變數的數值乃經由計數 (cout) 而得 Ex. 人數 投票數 比賽分數 良品數等 3. 名義 次序 等距 與比率變數 ( 依據 S. S Steves) () 名目尺度 (omial scale): 數字代表一獨立的個體, 因經常可依某一特質予以歸類, 又稱類別變數 ; 不適合加減乘除的四式運算 Ex. 性別 血型 身份證字號等 ; () 等級尺度 (ordial scale): 其值不表示數字間之差異大小與程度, 又稱順序變數 ; 也不適合加減乘除四式運算 Ex. 名次 評等 中位數 百分等級等 ; (3) 等距尺度 (iterval scale): 這種尺度的變數值不存在真正原點, 或者原點乃研究者自己選定 ;0 的數值仍有其意義存在 ; 又稱為區間尺度 其值可以進行基礎的加減運算 Ex. 溫度 音強 智商 考試分數 ( 成績 ) 等 ; 測驗工具中的量表 (scale) 分數通常也視為等距尺度 ;Z 分數也視同等距尺度 (4) 比率尺度 (ratio scale): 這種尺度的變數值具有絕對原點, 可以進行加減乘除四式運算 Ex. 身高 體重 所得 銷售量等 名目與等級為低階尺度 ; 等距與比率則為高階尺度 高階可以轉成低階 ; 但低階不可轉成高階尺度 另外, 低階尺度為間斷, 高階尺度為連續變數資料 由於連續變數資料的使用, 可以假設其分配型態, 並引用較複雜的統計方法加以分析 應用 ; 即使
必須使用無母數統計法 因此, 高階尺度通常提供研究者較多資訊 一個變數資料依研究目的之不同, 有時會以不同尺度視同處理 4. 量化 (quatitative) 與質性 (qualitative) 的變數 四. 練習題. 請簡述變數或量尺的分類法與類別, 並分別舉例說明之. 下列資料那些是間斷變數? 那些是連續變數? () 汽車行駛的速度 ( 變數 ) () 在股票市場流通的壹仟圓臺幣數量 ( 變數 ) (3) 個人的婚姻狀況 ( 變數 ) (4) 火車行駛的時間 ( 變數 ) (5) 學期末考試成績 ( 變數 ) 3. 推論統計與敘述統計的目的上有何不同? 4. 下列各個數據何種屬於次序變數? () 溫度 () 身高 (3) 標準九 (4) 百分等級 5. 在各類變數中具有絕對原點的是 變數, 可以算出差別大小量的是 變數 6. 百分等級為何種量尺? () 等比量尺 () 等距量尺 (3) 次序量尺 (4) 名義量尺 7. 解釋名詞 : () 等距量尺 () 描述統計 (descriptive statistics) (3) 推論統計 (iferetial statistics) 8. 應用統計處理的資料有兩種, 一種是母數資料 (parametric data), 一種是無母數資料 (o parametric data), 兩者有何不同? 其與量尺等級的關係如何?
9. 學生就讀的 年級 是屬何種變項? (A) 名義 (B) 次序 (C) 等距 (D) 比率 0. 下列變項何者與性別變項的測量水準 ( 名義 次序 等距與比率 ) 最為相近? () 身體重量 () 智力商數 (3) 賽跑名次 (4) 身份證號. 臺大醫院院長問 : 去年下半年七月到十二月間, 以心臟疾病為由住院的病人, 其平均年齡是幾歲? 請問此一問題, 在統計學的分類上是屬於 : () 描述統計 () 推論統計 (3) 實驗設計 (4) 無母數統計. 請比較描述統計與推論統計的差別為何? 3. 使用集中量數與變異量數時, 應考慮哪些因素? 4. 根據史蒂文斯 (S.S. Steves, 95) 的分類, 變數 (variables) 可分為那幾種? 並各舉一個例子說明之 5. 某國中校長想瞭解該校國三學生 (000 名 ) 的數學成就, 因此由該校學生中隨機抽取 80 位學生進行數學成就測驗, 並據此了解該校學生之數學學習成就是否低於一般國三學生, 請問這位校長的做法屬於下列何者? () 描述統計 () 實驗設計 (3) 推論統計 (4) 無母數統計估計法 6. 下面那一個變項不是屬於連續變數 (Cotiuous variable)? () 解決問題所花費的時間 () 溫度 (3) 高度 (4) 一個家庭的子女數 問題思考. 考試分數在 S.S Steves 的變數分類法中, 屬於何種變數?
第二章 次數分配與統計圖示 學習重點. 次數分配的性質. 偏態與峰度的圖示 3. 區別正 ( 右 ) 偏與左 ( 負 ) 偏的異同並可以將下一章的三個集中量數標示出, 再舉例說明之 4. 了解長條圖與直方圖的差異, 因而區別下組限與下組界, 以及組距的意義 一. 次數分配 (Frequecy distributio). 意義 : 當收集或使用的資料筆數過多, 為了取得基本的了解與資訊, 將資料依數量大小或類別分成若干組, 並計數各組的資料數 ( 或次數 ) 以顯示資料分佈的情況. 次數分配的性質 : () 集中情形 : 可以以集中的統計量數判斷之 () 分散程度 : 可以以離散的統計量數判斷之 (3) 偏態 (Skewess): 次數分配是否成左右對稱分配? (4) 峰度 (Kurtosis): 次數分配是否成高狹或低闊? 3. 偏態與峰度之圖示練習 : 二. 統計圖示. 種類 () 散佈圖 (Scatter diagram): 檢視兩變項間之相關與變動方向 () 圓形比例圖 (Pie chart): 了解每一屬質 類別佔總次數之比例 (3) 長條圖 (Bar chart): 利用組限所作之分組條狀圖, 適用於間斷或類別資料 (4) 直方圖 (Histogram): 利用組界所作之分組條狀圖 可用以判斷資料分配是否服從或近似常態分配 (5) 多邊形圖 (Frequecy Polygo): 利用直方圖, 連接各條頂端中點, 並向左右分別延伸一組而成
(6) 肩型圖 (Ogives): 使用累積 ( 相對 ) 次數, 連接每一累積之右 / 左肩而成 (7) 莖葉圖 (Stem-ad-leaf plot): 唯一可保留原始資料 (raw data) 之圖形 ; 具備直方圖之雛型 ; 可用以檢視是否遺漏任何一筆單一資料? (8) 箱型圖 (Box-ad-whisker plot): 又稱盒鬚圖, 有最大值 最小值 第一 第二 第三四分位數等五個重要之數值 可以檢視是否存在離群值? 以及資料分布之對稱性. 一般統計圖表的編製步驟 () 大小排列 () 求全距 (Rage) (3) 決定組數 (k) 與組距 (d) (4) 定組限 ( 長條圖 ) 組界 ( 直方圖 ) (5) 劃記與計算次數 (6) 製作圖表 三. 練習題. 在某一次統計測驗中, 全班 50 名同學的成績如下 : 50 44 67 3 84 58 49 68 56 75 37 35 45 88 4 64 43 38 56 55 54 63 59 63 67 6 45 75 3 74 7 5 57 78 55 5 8 50 79 47 40 50 66 84 64 3 3 9 55 試依製作統計圖表的基本步驟, 完成 () 長條圖 () 直方圖 (3) 次數多邊形圖 (4) 枝葉圖 (5) 次數分配表 ( 已知 k=5, d=5, 第一組的下組限為 0). 直方圖比長條圖更適合用來表示等比資料的群體分佈 ( 對或錯?) 3. 請說明兩種統計圖 : 盒形圖與莖葉圖的用途與特性 4. 相關係數的值愈小, 表示散佈圖 (scatter plot) 中的點 : () 愈集中 () 愈分散 (3) 愈平均 (4) 愈一致
5. A frequecy distributio is () A method for highlightig ad summarizig aspects of the data. () A graph i which the midpoit of each class iterval is represeted o the abscissa. (3) The proportio of subjects earig each score value. (4) Noe of the above. 6. 散佈圖 (scatter plot) 在對於下列哪一種相關的判斷特別重要? () 正相關 () 負相關 (3) 零相關 (4) 曲線相關 7. 下列何者不是莖葉圖 (stem-leaf plot) 之功能? (A) 檢定變項分數之偏態情形 (B) 檢定變項分數之集中情形 (C) 檢定變項分數之機率分佈 (D) 檢定變項分數是否出現極端值 8. 下列哪一圖形能用來檢定變項之相關程度? (A) 常態機率散佈圖 (B) 交叉散佈圖 (C) 平均數趨勢圖 (D) 長條圖 9. 肩形曲線 0.
. 問題思考. 偏態與峰度相較於常態分配在兩端的曲線高度應如何表現?
第三章統計量數 集中量數 學習重點. 分組資料的平均數 中位數 與眾數的計算公式. Pearso 近似眾數, 以了解 Mo,Md,M 之間的關係 3. 各集中量數的使用時機 一. 集中量數. 意義 : 凡是用以描述資料集中情形的代表值, 因可以反映測量值集中的位置, 又稱位置量數. 種類 : () 算術平均數 () 中位數 (3) 眾數 (4) 幾何平均數與調和平均數 ( 教育與心理領域較少使用 ) 3. 算術平均數 (Mea, 以 M 表示 ) () 使用時機 : 連續變數最適宜 () µ = N x i X = x i 分組資料 ( 當資料以次數分配呈現 ): X = N k i= x i f i, 其中 x i = 組中點 f i = 分組次數 N= 總樣本數 (3) 特性 : a. ( x ) = 0 x i x x < x A b. ( ) ( ) i i
4. 中位數 (Media, 以 Md 表示 ) () 使用時機 : 間斷變數常用 () 資料依大小次序排列, 位於中間的數值 whe N 為奇數,Md = whe N 為偶數,Md = N 與 N + 位置的數值 N F 分組資料 : Md = l + h f md 5. 眾數 (Mode, 以 Mo 表示 ) () 使用時機 : 間斷變數常用 N + 兩位置數值的平均數 () 資料中出現次數最多的數值, 有不唯一存在的性質 f a (3) 分組資料 : Mo = l + h f a f + b (4) 皮爾遜 (Pearso) 近似眾數 : whe 同一組資料已算出 M 與 Md, 則可以估計 Mo 正偏態 : Mo = M 3(M Md) 負偏態 : Mo = M + 3(Md M) 常用的幾種估算眾數的方法 :. 皮爾遜 (Pearso) 經驗法. 金氏 (Kig) 插補法 3. 古柏 (Czuber) 比率法 6. 各集中量數之使用情形 : () 平均數最適合用來表示等距和比率變數之集中情形 ; 但若出現極瑞分數則應改用中位數 () 中位數適用於次序變數, 但常很不穩定 (3) 眾數適用於名義變數 二. 練習題. 某甲五次考試的成績是 84, 77, 9, 83, 96, 其集中量數為何? () 平均數是 ( )
() 中位數是 ( ) (3) 眾數是 ( ). 已知 6 位男同學之平均體重為 6.5kg, 日後竟才發現其中一人為女生, 其體重 為 45.5kg, 試問其餘 5 位男生之平均體重? 3. 下表乃某一社團 48 位團員的成績分布, 試求其平均成績? 組別 組限 組中點 (x i ) 次數 (f i ) 3 4 5 3~37 38~5 53~67 68~8 83~97 30 45 60 75 90 3 6 3 4 4. 求下列二組資料的 Md: Ι. 3, 0, 8, 5, 7 Ⅱ. 5, 0, 9, 3,, 5 5. 令 X 的平均數 中位數 及眾數分別為 M,Md, 和 Mo, 則下列何者的值為最小? () Σ(X-M) () Σ(X-Md) (3) Σ(X-Mo) (4) Σ(X+Md) 6. 如果某一班級恰巧有一位智能不足的同學, 則該採取下列哪一集中量數來描述其特質較為適當? () 眾數 () 中位數 (3) 平均數 (4) 平均差 7. 良好的集中量數, 應具備哪些條件? 8. 若某資料顯示 Mo=6,M=0, 請說明 Md 大約是多少? 並請畫出此次數分配圖且標明此三種集中量數的位置 9. 某公司的薪資分配為負偏態, 則勞方宜採取何種集中量數以作為薪資對他們較佳? () 眾數 () 中位數 (3) 平均數 (4) 難以決定
0. 在負偏分配中, 下列哪個集中量數的值最大? () 算數平均數 () 中數 (3) 眾數 (4) 無法判斷. 這次期中考, 有半數以上同學的成績高於平均數, 那麼這次考試結果的分配為何? () 常態 () 左偏 (3) 右偏 (4) 無法判斷. 某班教育研究法期中考成績平均數為 78. 中位數為 80 眾數為 8; 請問該班成績之分配型態為何? 3. 試述算術平均數 (mea) 中位數 (media) 眾數 (mode) 的適用時機 4. 請依據所列的分數 ( 即,,,3,3,4,6,7,3,0) 計算或決定下列答案 : () 眾數 = () 中數 = (3) 總分 ( X ) = (4) 平均數 (Mea)= (5) 分數之分配形態 (distributio)( 即正偏態 負偏態 或常態分配 )= 5. 在諸多種眾數的計算方法中, 認為 中數減眾數 比 平均數減眾數 等於 比 3 的統計學家是誰? () Pearso () Fisher (3) Czuber (4) Kig 6. 從單峰 負偏態的分配中, 你可發現有下列那種關係? () 中數大於平均數 () 中數大於眾數 (3) 平均數大於眾數 (4) 平均數大於中數 7. 在什麼情況下, 使用中數會比使用平均數更為恰當? (A) 平均數不是整數時 (B) 需要同時使用到標準差時 (C) 需要有高信度時 (D) 平均數與眾數相差太大時 (E) 極端分數對平均數的影響太大時 8. 何時中位數 (media) 比算數平均數 (mea) 更能有效地代表變項的集中量數? () 次數分配有偏態時 () 變項中出現極端值時 (3) 變項的分配不呈常態分配時 (4) 變項為名義的變項時
9. 如果在編制數學測驗時低估了學生的能力, 題目太簡單, 施測後所得的分數分配 將呈 : () 正偏態 () 負偏態 (3) 對稱狀態 (4) 多峰狀態 (5) 均勻分布 0. 下列哪一種變數資料適合計算眾數? () 名義變數 () 比率變數 (3) 等距變數 (4) 次序變數. 如果一組資料中有一個分數從 X=0 改成 X=30, 那一個集中量數 (Cetral Tedecy) 一定會改變? () 平均數 () 中數 (3) 眾數 (4) 平均數及中數 問題思考. Mo 分組資料公式中,f a 指的是 Mo 以上組或是數據較大資料組的觀察次數?. 集中量數中何者最具不偏性? 為什麼?
第四章統計量數 變異量數 學習重點. 標準差與變異數的關係與公式由來. 3. σ 與 s σ 與 s 之異同 之替代公式 4. 變異數之運算性質 一. 變異量數. 意義描述資料分散情形的統計量數, 因可以衡量各資料之間之差異或離散的程度, 又稱差異量數. 種類 () 平均差 () 標準差 (3) 相對差異係數 (4) 四分差 (5) 四分位距 (6) 全距 3. 全距 (Rage, 以 R 表示 ) () 使用時機 : 等距變數, 不適用於次序變數 () R=X max -X mi (3) 缺點 : 只使用兩個觀測值 ; 且易受兩極瑞分數影響, 極不穩定 4. 平均差 (Mea Absolute Deviatio, 以 M.A.D. 表示 ) M.A.D.= x i N x 5. 標準差 (Stadard Deviatio, 以 S.D. 表示,σ 或 s) x i ( µ) () σ = 或 s = N ( x i x)
( µ) 其中 ( x i µ) 為離均差平方和 (SS); N () 標準差恒大於等於 0, 因為乃出自於平方和的方根 (3) 變異數 / 標準差的運算性質 : Y = X ± c V ( Y ) = V ( X ± c) = V ( X ) x i 為變異數 (Variace) Y= cx V ( Y ) = V ( cx ) = c V ( X ) Y= a+ bx V ( Y ) = V ( a + bx ) = V ( a) + b V ( X ) = b V ( X ) (4) 兩組資料合併後的變異數 σ = N σ ( µ µ ) + N ( µ ) + N σ + N µ N + N (5) 標準差的替代公式 ( 變異數同理可推 ) ( xi ) xi σ = N ; xi x s = N 其使用時機為 :a. 缺乏個別觀測值 x i 而要計算標準差或變異數時 ( 想必有其他 統計量 ); b. 平均數不為整數, 計算因有小數點而繁瑣 ; c. 平均數不為整數且無法除盡, 取捨間造成計算誤差 6. 相對差異係數, 又稱變異係數 (Coefficiet of Variace, 以 C.V. 表示 ) () 使用時機 : 比率變數 () C.V. = S. D. M 7. 四分差 (Quartile Deviatio, 以 Q.D. 表示 ) Q.D.= Q3 Q
8. 四分位距 (Iterquartile rage, 以 IQR 表示 ) IQR=Q 3 -Q 二. 練習題. 有 A,B 兩班的成績如下, 試求其整體平均成績與標準差? N A = 5, A = 65, A = 0 N B = 45, B = 80, B =. 60 名成年男人體重之 M = 57kg, S.D. = kg; 而 8 名男童體重之 M = 5.6kg, S.D.=.4kg, 試問何者體重的差異情形較大? 3. 五名學生參加數學考試, 其得分分別為 96, 78, 84, 66, 9, 請問其平均差是多少? () 44 () 4.4 (3) 83 (4) 8.8 4. 上述五名學生平均成績之標準差是多少? () 0.47 ().70 (3) 3.4 (4) 4.4 5. 明德國小國語科測驗結果, 得六年甲班與三年乙班之測驗分數標準差分別為 5 與 8, 則 () 六年甲班學生素質較不整齊 () 三年乙班學生素質較不整齊 (3) 兩班學生素質一樣整齊 (4) 兩班學生素質整齊度無法比較 6. 若某老師計算某班國文成績, 加入一個分數, 而此分數乃某班平均數的兩倍, 則新成績之標準差會產生什麼變化? () 變大 () 變小 (3) 不變 (4) 無法判斷 7. 某班月考數學的平均數為 45, 標準差是 0, 如果老師為每位同學各加 5 分, 則新成績的標準差為 : () 0 () 5 (3) 35 (4) 7 8. 已知人數 N 為 50, 離均差平方和 ( 總變異數 ) 為 440, 則標準差為 ()5.37 () 8.8 (3) 50 (4) 440 9. 已知某班同學 45 人, 數學成就測驗之算術平均數與標準差分別為 65 與 分, 若張三得分 85 分係作弊所得, 應予刪除, 則刪除後之平均數與標準差為何?
0. 成年男子 50 名身高的平均數為 67 公分, 標準差為 5 公分 ; 體重的平均數為 6 公斤, 標準差為 6 公斤, 試求成年男子身高 體重的相對差, 並解釋其結果的意義. 就用途而言, 四分差和下列何種量數最為接近? () 全距 () 偏態 (3) 中位數 (4) 百分等級. 選修教育統計課程的學生共有 4 位, 期中考的最低分為 3, 最高分為 95, 平均數為 8.9, 中位數為 85, 眾數為 86, 四分差為 5.63, 標準差為.5 請回答下列問題 : () 若將每位學生期中考的分數各加 3 分, 則其平均數 中位數 眾數 四分差及標準差各會是多少? () 若發現最高分登錄錯誤, 正確的分數應為 98 而非 95, 則其平均數 中位數 眾數 四分差及標準差各會是多少? 3. 請簡要說明與比較下列兩對統計符號與公式 : () µ 與 µ X X X () S ( ) ( ) = 與 = X X s N N 4. 某群體的變異數 0, 如將每位受試的得分各乘以 3, 那該群體的變異數變為 (A) 0 (B) 30 (C) 60 (D) 90 (E) 0 5. 下列哪一項敘述是錯的? () 變異數所使用的資料必須是等距或等比量尺 () 中數易受極端值影響 (3) 平均數 標準差所使用的資料必須是等距或等比量尺 (4) 集中趨勢量數可以讓研究者了解資料一致的趨勢 6. 請簡要說明並比較中位數 四分差與百分等級在計算程序上與實際應用上的異同
7. 某班學生測驗分數平均數為 50, 標準差為, 負偏態分配, 如果教師決定每個人各加 0 分, 使及格人數增加, 試問加分後, 分數分配變化如何? (A) 平均數不變, 標準差不變, 正偏態 (B) 平均數增加, 標準差不變, 負偏態 (C) 平均數增加, 標準差增加, 負偏態 (D) 平均數不變, 標準差減少, 常態 (E) 平均數增加, 標準差增加, 常態 8. 解釋名詞 : () 變異係數 () 變異量數 (measures of variatio) (3) outliers 9. 假設一組資料的平均數為 75, 標準差為 0, 如果每個分數都加上 5, 則新的標準差是 :() 5 () 0 (3) 5 (4) 50 0. 假定 X, Y, Z 三個變項的變異數均為 00, 那當三個變項彼此的相關係數均為 0.5 時,X, Y, Z 總分之變異數分別為多少?. 統計上最常用的離散量數是什麼? (A) 標準差 (B) 平均差 (C) 四分差 (D) 全距. 四分差 (iterquartile rage) 所代表的意義是 : () 集中傾向 () 偏態 (3) 散佈量 (4) 峰態 (5) 百分等級 問題思考. 離散量數中, 何者最常使用? 原因為何?. 變異係數的使用時機? 3. 何謂離均差平方和?
第五章相對位置量數 學習重點. 百分位數與百分等級的計算方法. 百分等級乃次序變數, 因此四捨五入取整數 3. Z 分數的平均數與標準差 4. Z 分數與其他典型標準分數間之直線轉換 5. 直線轉換與非直線轉換的意義 ( 測驗分數直線轉換為標準分數, 其目的在便於比較與分析 ; 但是當資料不為對稱時, 轉換會產生分數的曲解因而產生誤差, 則需改採非直線轉換 也就是嘗試將非常態加以常態化 又, 在心教領域中之大多數心理能力原則上皆服從 N.D., 有時因取樣不足或是其他原因造成不為常態, 則需作此非直線轉換以求對分數的解釋能夠儘量正確 ) 一. 相對地位量數. 意義就某一特質描述某人在團體中所占地位的量數. 種類 () 百分等級與百分位數 () 標準分數 3. 百分位數 (Percetile poits, 以 P k 表示 ) () 意義 : 資料數據依大小排列, 並取 99 個等分點, 可將資料分割成 00 等分, 則 P i 代表 N 個人所得的觀察值 ( 或分數 ), 該觀察值之下的人數 ( 或次數 ) 至少佔 00 總人數的 %, 同理可類推至 P 99 () 計算 : 求位置指標 i k i = N i 整數, 取下一位整數的數值 ; 00 i = 整數, 取 i 與 (i+) 兩位置數值平均值
分組資料 : P k PR N F = l + 00 h f p 特別分位數的應用 : (A) 四分位數 : Q,Q,Q 3 (B) 十分位數 :D,D,, 與 D 9 4. 百分等級 (Percetile rak, 以 PR 表示 ) () 意義 : 告訴我們在 N 00 人時, 第 R 名的分數在 00 人中會勝過多少人? () 計算 : 未分組資料 PR=00 ( 00R 50) N, 其中 R= 名次,N= 人數 分組資料 ( x l ) 00 i f p PR = + F N h 其中 : 所在組的下組界 f p : 所在組的次數 h: 組距 F: 該組以下累積次數 為次序變數, 因此取整數 5. 標準分數 (Stadard Score) () Z 分數 : 表示某一分數與平均數之差 ( 距離 ), 為幾個 ( 倍 ) 標準差 x µ Z= i σ 性質 : Z = 0 s z=
Z 分數的直線轉換 (refer to 學習重點 5) X i µ Z = az + b Z = a + b, 其中 a b 分別為轉換後的 S.D. 與 M σ () 典型標準分數 T 分數 魏氏兒童智力量表 T = 50 + 0Z WISC=00+ 5Z 史丹福 -- 比奈智力量表 SBIS= 00+ 6Z ( 或比西量表 ) (BSS)(DIQ) 普通分類測驗分數 AGCT= 00+ 0Z 標準九 STN= 5+Z 大學入學委員會分數 CEEB= 500+00Z 二. 練習題. 位學生的作文成績如下 :34, 40,56, 6, 67, 69, 7, 75, 77,8, 84, 85 試求 ()P 30 ()D 5 (3)Q 3 (4) 得 7 分學生的 PR?. 55 名學生成就測驗成績的資料分組如下, 試求 () 得分 43 分學生的百分等級? () P 74? 組別 f F CP 75~79 55 00 70~74 54 98. 65~69 4 5 94.5 60~64 5 48 87. 55~59 8 43 78. 50~54 0 35 63.3 45~49 9 5 45.4 40~44 7 6 9.0 35~39 4 9 6.3 30~34 5 9.0 5~9 3 5.4 0~4.8
3. 在 M=75, S.D.=5 的分配裡, 某生得 93 分, 如果轉換為 M=00, S.D.=0 的分配, 該生可以考多少分? 4. 甲生在比西量表上的得分為 5 分, 而乙生在普通分類測驗的得分也是 5 分, 兩人的智商分數, 誰較聰明? 5. 某生的英文成績為 85 分, 全班平均為 00 分, 標準差為 5, 而他的數學成績為 35 分, 全班平均為 50 分, 標準差為 5, 他這兩個測驗結果都在全班平均數以下 5 分, 請說明他這兩個測驗的表現是否位於相同的水準? 6. P 80 =7 之意義是指在團體中 : () 有 80% 的人分數低於 7 分 () 有 80% 的人分數高於 7 分 () 有 7% 的人分數低於 80 分 (4) 有 7% 的人分數高於 80 分 7. 已知資優生的智商必須高於魏氏智力成績平均數二個標準差以上, 所以資優生的智商百分等級為何? () 30 以上 () 0.08 (3) 97 以上 (4) 無法判斷 8. 下列何者的表現最差? () P 50 =3.5 () Z=-. (3) T=30 (4) PR=55 9. 已知一常態分配的中位數為 00, 變異數為 64, 若某生的 Z 分數為 0.5, 則其原始分數為 : () 96 () 04 (3) 3 (4) 無法判斷 0. 在一個 μ=0,σ=0 的標準化測驗裡, 某生得分 90, 試問直線轉換成 μ=500,σ=50 之後, 該生分數應為多少?. 某生接受智力測驗得 T 分數 60 分, 若轉換成魏氏離差智商為 : () 05 () 0 (3) 5 (4) 0. 小華與小明所屬群體的平均數是 0, 標準差是 5 請回答以下各題: () 小華的原始分數是 5, 其標準分數 (Z 分數 ) 是多少?
() 小明的 Z 分數是 -, 那他的原始分數是多少? (3) 甲測驗的平均數是 00, 標準差是 5, 乙測驗的平均數為 500, 標準差是 00, 請問甲測驗得 70 分者, 相當於乙測驗得多少分? 3. 某校國文會考, 某生考 60 分, 其 Z 分數為 0, 百分等級為 50, 則以下何者為錯? () 國文會考的平均數為 60 分 () 有半數的學生考不及格 (3) 該生的 T 分數為 60 (4) 在常態分配下, 國文會考的中數為 60 分 4. 有七名小學生參加國語能力測驗, 教師將每人得分均轉換為 Z 分數, 已知六名學生的 Z 分數為.5,.5,.3,-.,-.6,-., 則另一名學生的 Z 分數應為多少? 5. 計算下列資料之 Md 與得分 6 分學生的 PR? 組別 組中點 f Cf 75-79 49 70-74 3 48 65-69 9 45 60-64 5 36 55-59 50-54 7 0 45-49 3 3 6. 若某生得分的百分等級 PR=75, 換算成標準九是第幾分? () 第五 () 第六 (3) 第七 (4) 第八 7. 甲乙兩班人數各為 45 人, 某次數學科考試兩班學生得分如下表所示, 已知甲班 學生得分呈正偏態分布, 而乙班學生的分數呈負偏態, 則學生成績及格的人數, 較多的班級是哪一班? 平均數 標準差 甲班 6.5 5. 乙班 6.8 5.
8. 某國小舉行全校 500 名學生的語文能力測驗, 李生為全校第三名, 則李生的 T 分數為何? 9. 某班國語的平均數為 80, 標準差為 0, 人數為 30 人 甲生得分 90, 乙生的 Z 分數比甲生少 3, 則乙生的百分等級為何? 0. 某生之 CEEB 分數為 600, 則其轉換分數 AGCT 及 T 分數為何? 請詳列過程. 解釋名詞 : () T 分數 () 百分等級 (3) 標準分數. 在常態分配下, 下列哪個相對地位的分數最高? (A) 比西 DIQ = 30 (B) Z = ( µ = 0, σ = ) (C) T = 68 ( µ = 50, σ = 0) (D) PR = 90 (E) 0 人中的第 名 3. 某班學生有 5 人, 那該班成績最高的學生, 其百分等級是多少? (A) 00 (B) 99 (C) 98 (D) 96 (E) 95 4. 如果某生在史比 ( 比西 ) 量表得分在負 個標準差, 那麼他的智商在此測驗上應該是多少? () 3 () 30 (3) 68 (4) 70 5. 標準九的第三分所應包括的常態面積是多少? () 6% () % (3) 7% (4) 0% 6. 某甲接受魏氏成人智力測驗 (WAIS) 得離差智商 5, 若以普通位置量數表示, 其百分等級 PR 是多少? () 64 () 74 (3) 84 (4) 94 7. 某新編智力測驗平均數為 60, 標準差為 8, 某甲在該測驗得 80 分 問 : 甲的魏氏離差智商約是多少? () 5 () 8 (3) 35 (4) 38 8. 甲生在一種平均數為 80, 標準差為 5 的性向測驗得 60 分, 其標準九 (Staie)
分數為第幾分? () () 4 (3) 6 (4) 8 分 9. 在常態分配下, 下列何者的相對表現最好? (A) Z = 0. 8 (B) T = 55 (C) PR = 50 (D) DIQ = 95 ( DIQ : µ = 00, σ = 6) 30. 以 0 個題目的測驗對 00 個學生施測, 而某生的分數換成百分等級是 30, 這表示說 : (A) 他答對 36 個題目 (B) 他答對 30 個題目 (C) 他的分數比 30 個學生高 (D) 他的分數比 70 個學生高 (E) 他的分數落在平均數上下一個標準差之內 3. 某機構辦理一項大型數學能力測驗, 報考考生有 000 人, 實際到考考生有 0034 人 此一數學能力測驗成績經統計分析, 部分結果如表一 二所示 請根據所提供的資訊, 回答下列問題 : () 請分別解釋平均數 中數與眾數所得結果的意思 () 請說明樣本平均數的標準誤為. 的意思 它是如何算出來的? (3) 請分別解釋標準差與變異數的意思 (4) 請根據資料計算四分差, 並說明意義為何? (5) 請解釋百分等級 58, 百分位數 3 的意思為何? (6) 若要將考生根據數學能力測驗成績分成高中低三組, 且各組人數儘可能接近 請問最佳的數學能力測驗成績分數切割點會有幾個, 它們最可能是幾分? 表一 : 數學能力測驗成績統計分析結果 到考人數平均數樣本平均數的標準誤中數眾數標準差變異數 0034 9.8887. 9 8.00.046 49.33964 表二 : 數學能力測驗成績百分等級與百分位數對照常模表 ( 略 )
3. 某次全國數學能力測驗共有 45000 人參加, 其分數呈現常態分配, 平均分數為 73, 標準差是 試計算: ( 請詳細寫出計算過程, 否則不計分 ) () 87 分的百分等級 (percetile rak)? () 第 60 個百分位數 (percetile) 的成績為何? (3) 分數落在 80 分與 95 分之間的有多少人? 33. 彩玲教育心理學考試成績為 80, 輔導原理考試為 73 分 將兩科成績分別換算為 z 分數的結果各為 + 及 +, 請由 z 分數的定義, 陳述彩玲該如何解釋她成績的高低 34. 若分數已常態化, 甲生的標準九分數為 8, 乙生的 T 分數為 58, 丙生的 Z 分數為.0, 丁生的百分等級為 85, 則何者的相對表現較佳? () 甲生 () 乙生 (3) 丙生 (4) 丁生 35. 設有 0 個學生的英文考試分數如下 :58,9,84,56,87,75,65,80,78,68 試問: 得分 80 的這個人, 其百分等級應為多少? () 55 () 60 (3) 65 (4) 70 問題思考. Q 3 與 Md 間的距離約等於幾個標準差?. 標準差與全距之間的關係為何? 3. Z 分數是否具有單位?Z 分數屬於何種變數? 4. 使用 T 分數的基本假定為何? 5. 你 ( 妳 ) 是否了解標準九? 6. 如何利用箱型圖 ( 盒鬚圖 ) 與四分位距來界定離群值?
第六章常態分配 學習重點. 常態分配的特性. 標準常態分配 Z 分數的查表值 3. 常態分配曲線面積與典型標準分數間之運算應用 4. Z 分數查表值之插入法 5. t 分配之特性 6. 由偏態係數 g 與峰度係數 g 的數值, 判斷偏態或峰度的類型 一. 常態分配的意義與特性. 意義 : 當資料的次數分配其圖形呈左右對稱的鐘形曲線時, 稱之為常態分配, 以 N.D. 表示 又稱高斯分配. 特性 : () 具有兩重要參數 μ 與 σ () 鐘形的 N.D 曲線乃以 μ 為中心, 兩邊逐漸與橫軸接近, 但絕不相交 (3) 對稱分配的結果,μ,Md,Mo 三者合而為一, 位於曲線最高點處對應至橫軸的位置, 亦即中心點 (4) σ 可以衡量曲線的散佈程度 (5) 許多樣本統計量之抽樣分配皆在常態分配之基礎上推導而得 二. 標準常態分配 (Stadard Normal Distributio). 意義 : 由於每一常態分配都各有不同的 μ σ 的組合, 造成應用之不便, 因此將各 μ σ 標準化而成解決上述困惑的標準 N.D 其 μ=0 σ=. 標準化 Z 分數 :Z= x i µ σ 3. 圖示與常態分配曲線的面積 : () 假定曲線下的總面積為 () 某一 x i 值轉換為 Z 分數後, 可以利用查表值找出相對應區域的面積 ( 機率 ) 大小 (3) 可應用於百分等級與信賴區間之計算
(4) 經驗法則 (Empirical Rule) μ±σ 0.686 μ±σ 0.9544 μ±3σ 0.9974 常態分配與標準常態分配的表示 : -- 常態分配 : X ~ N( µ, σ ) -- 標準常態分配 : Z ~ N(0,) 三. t 分配 (for 推論統計 ). 由英國統計學家 W.S.Gosset 於 908 年發表, 亦稱學生 t 分配或高斯分配 在 σ 未知時, 無法再使用 Z 分配, 必須以樣本標準差取代未知之 σ, 而得 t- 統計量 x µ t = s 這統計量的抽樣分配被稱為學生 t 分配. 特性 : () 和標準常態分配相似, 也服從 ( x, s) = (0,) () 具有較大之變異性 ( 數 ), 亦即較標準常態分配的分散寬廣 ( 低闊 ) (3) 其散佈程度由樣本數之自由度的函數所決定 d. f. = (4) 自由度愈大, 學生 t 分配的分散程度愈小 ( 高狹 ) 四. 偏態與峰度. 偏態係數 g g = m m 3 m. 峰度係數 g g = m m 4 3
五. 練習題. 試利用查表法找出下列各題之機率 : () P(Z.37) () P(- 0.45 Z.60) (3) P(Z -.9 或 Z.) (4) 滿足 P(- z Z z) = 0.9 之 z 值. 在一個具有 μ=00,σ=0 的標準化測驗中, 某生得分 37, 問有多少百分比的人 不如他? 3. 下列何者可以反應峰度的變化? () 一級動差 () 二級動差 (3) 三級動差 (4) 四級動差 4. 下列何者可以描述高狹峰之特質? () g > 0 () g =0 (3) g <0 (4) 以上皆非 5. 小華在魏式兒童智力量表離差智商為 5, 其百分等級為多少? 6. 某班有 0 位學生, 那該班成績第二名學生的百分等級是多少? 7. 在常態分配下, 得分在平均數上下各一個標準差以內者約佔總人數的, 得分在平均數上下各 個標準差以外者共佔總人數的 5% 8. 在常態分配下, 相當於百分等級 0 的 Z 分數是多少? 9. 某校舉行全校 80 名學生的國語能力測驗, 甲生為全校第五名, 則甲生的 Z 分數為何?
0. 假定全國高中會考成績呈平均數為 70 分, 標準差為 0 分之常態分配, 且規定得分 在 50 分及以下者不得畢業, 而 90 分及以上者保送升學, 試求不得畢業和保送升學 者各佔比例?. 某生之 Z 分數為 -0., 則其 T 分數 AGCT 及 CEEB 分數各為多少?. 萬青國中全體 900 位二年級學生英文段考成績平均數為 7, 標準差為, 依常態分模式, 推估該次段考及格的學生人數? 3. 在某一項計有 600 人參加的大型考試中, 李英明與其他 4 位考生並列 06 名, 可換算李英明在該項考試的百分等級為多少? 4. 已知張明華參加的標準化成就測驗, 平均數為 500, 標準差為 00, 張明華得 300 分, 請問其百分等級為何? 5. 某測驗的平均分數是 00 分, 標準差是 6 分, 而此測驗平均答對的題數是 50, 標準差是 0, 請問下列 : () 在此測驗得分為 9 的人, 其答對的題數為多少? () 若想要在此測驗得分達到前.5%, 至少需答對多少題? 6. 峰態 (kurtosis) 是屬於第幾級動差? () 第一 () 第二 (3) 第三 (4) 第四 7. 在常態分配中, 要達到分數最高的 95%, 其標準差 (stadard deviatio) 應該要大於何種數值? () 0.78 ().6 (3).65 (4).33
8. 何謂集中量數 變異量數和相對地位量數? 各適用於何種時機? 問題思考. Z 分數與 t 分配何者的變異性 ( 數 ) 較大? 為什麼?. t 分配是否也符合對稱分配?
第七章相關分析 學習重點. 如何以散佈圖判斷兩變項間之相關情形. K.Pearso 積差相關係數的計算 3. 利用共變數計算相關係數 4. 相關係數的定義公式 5. 兩變數相加或相減後, 變異數的計算必須利用相關係數強度 一. 簡介 本章開始討論使用兩個變數的統計方法, 可用以研究相關和預測的問題 例如, 研究高中成績好的人是不是大學成績也好, 以及以高中成績預測將來大學成績的好壞 三種常用的相關係數指標與計算 :. Karl Pearso 積差相關 : 等距 比率尺度 ;. Spearso 等級相關 : 等級尺度 ; 3. Cotigecy table 列聯相關 : 名目尺度 二. 積差相關 (Product-momet correlatio) 的值域與特定值的意義. 以相關係數 (correlatio coefficiet)( 以 r 表示 ) 來代表兩隨機變數間關係強度或程度. r () r=, 完全正相關 ( 以散佈圖而言, 所有的對應變數值全出現在線上, 無一例外 ) () r=, 完全負相關 ( 同上 ) (3) r= 0, 沒有線性相關 ( 表示以直線關係來描述兩變數間的相關非常不恰當, 但是嚴格說, 不可說兩者沒有關係存在 ) 三. 積差相關的計算 ( 假設在樣本資料的使用下 ). 以原始資料計算 () X Y 的離均差交乘積和 (sum of cross product), 以 CP 表示 CP = ( X i X )( Yi Y ) = X Y i i X i Y i
() 共變數 (Covariace), 以 C xy 表示 C xy = = ( X i X Y i X )( Y i i Y ) (= X i Y i CP ) 共變數經常也以 S = Cov( x, y) 表示 xy (3) 積差相關係數, 以 r xy 表示 r xy = X X i ( Y i X Y X i ) ( Yi ) i Yi i i (= CP SS x SS y ) = XY ( X )( Y ) X ( X ) Y ( Y ). 直接以共變數 標準差等統計量計算 r xy = C XY S S x y, C XY 與 r xy 呈正負同號 3. 兩變數化為 Z 分數計算 r xy = Z xz y 四. 相關係數的解釋與應用. 樣本量 () 是決定 r 大小的重要因素之一 : () 太小, 即使求得很大的 r, 也可能只是湊巧而已 () 很大, 即使 r = 0.3, 也不能忽略二變數間的相關程度 (3) 愈小,r 必須愈大, 方可說兩者之間有相關存在
. r 不是等距也不是比率變數, 因此, 不可以說 r=0.9 是 r=0.45 的兩倍強度 3. 相關不一定代表因果關係的存在 因果關係的三個要件 : () 兩變數間有符合理論 邏輯 甚至於常理的高度相關 ; () 通常要成立因果關係, 兩變數必須要有 因在前, 果在後 之發生順序 ; (3) 排除可能左右 (ifluece) 曲解(distort) 調節(moderate) 兩變數相關之第三因 4. 在教育 心理範疇, 幾乎找不到 r= ± 的例子 5. 兩變數合併後的變異數 : S ( x+ y) = S x + S y + r xy S x S y S ( x y) S x S y 由於 r S = xy + x y r xy S x S y Cov( x, y) =, rxy S xs y = Cov( x, y), 因此上式又可改寫成 S S ( x + y) = S x + S y + Cov( x, y) 注意此一公式與 Ch.4 的 同一變數兩組資料合併後之總變異數 的差異! 6. 兩變數的相關係數不受其平均數與變異數變動之影響 7. 顯著性考驗 (t-test Z-test, 見 Ch.0) 五. 其他相關係數 ( 於卡方統計法與測驗學效度之計算時使用 ). 相關 (phi coefficiet) () 適用於 X Y 變數皆為二分名義變數 ; 有時, 如果能將連續變數也視為二分變數 ( 如 : 智力分配分為 智能不足 與 正常智能 時 ) () 與 的卡方統計法有密切關係 (3) 公式 = p p X Y X q p X X p p Y Y q Y 其中 p q 表二分 ( 正面與負面意見或反應 ) 分別所佔之百分比
若將資料歸類為 的卡方表, 公式變成 BC AD = ( A + B)( C + D)( A + C)( B + D) (4) 的顯著性考驗 χ = N χ 臨界值 a. χ > χ 臨界值, 達顯著水準, 二變數間有顯著關係 b. 未達顯著水準, 只是抽樣時機遇造成的 c. 若 χ 值顯著, 值也顯著. 點二系列相關 (poit-biserial correlatio) () 適用於 X Y 兩變數, 一為二分名義變數, 另一為等距或比率變數 () 例如 : 歷史科成績與性別的關係 (3) 公式 : r Pb X p X q = pq, 其中 X P, X q 表示二分變數的平均數 S t p q 表二分變數的人數百分比 S t 表整體資料的標準差 (4) r pb 的顯著性檢定利用 t 檢定 t = r pb r pb t 臨界值 3. 四分相關 (Tetrachoric correlatio) () 適用於 X Y 兩變數皆為 N.D. 的連續變數, 且為直線相關時 但 X Y 皆由人為方法分為兩個類別 () 公式 : o 80 rtet = cos( ) BC + AD (3) 注意 : 使用此方法,N 最好要大於 00 以上, 且兩 P 值愈接近愈好 ( 進行 Z 檢定時 )
4. 二系列相關 (Biserial correlatio) () 適用於 X Y 為常態的連續變數, 但其中一個被以人為方法分為兩類別時 ; 亦即一個等距或比率變數, 而另一個為常態的二分名義變數 例如, 體育分數本來是 N.D. 的連續變數, 但如果打分數時以 60 分為準, 只有及格與不及格兩種分數 () 公式 : r bi X p X t P =., Y st 其中 X p 表成功資料平均值 X t 總資料平均值 Y 為在 p 之下,N.D. 曲線的高度或 r bi X p X q Pq =. st Y 5. 多系列相關 (Multi-serial correlatio) () 適用於想了解一連續變數與另一被分為三個以上類別的 N.D. 名義變數間的直線相關時 () 公式 :( 略 ) 6. 列聯相關 (Cotigecy correlatio) () 適用於 X Y 兩變數皆不只被分為兩類別時, 可進行獨立性考驗 如, 3, 4 3, 6 6. 等各種形式之列聯表 () 公式 : χ C = + χ (3) 顯著性考驗 : χ > χ 臨界值, 達顯著, 則 c 值達顯著 (4) 列聯相關的最大值不為.00, 而視類別數而定 在方形列聯表,k = r 時最大相關為 C = ( k ) / k
7. 等級相關 (Rak correlatio) () 斯皮爾曼等級相關 (Spearma rak correlatio) 適用於 X Y 皆為次序變數資料時, 如作文成績之甲乙丙 公式 : 6 d r s =, 其中 d 表兩等級之差異的平方 ( ) 顯著性考驗 : t = r s r () 肯德爾等級相關 (Kedall s rak correlatio) 適用於樣本數很少時 公式 : τ = s, 其中 s 表失序的量數 N( N + ) (3) 肯德爾和諧係數 (W)( 略 ) 8. Kappa - (Kappa coefficiet of agreemet) () 適用於類別變數用以表示評分者間一致性 () 公式 : P( A) P( E) Κ =, P( E) 其中 P(A) 表 k 個評分者評定一致的 % P(E) 表理論上可能評定一致的 % 六. 練習題. 設 X Y 分別代表高中與大學聯考的成績, 資料如下列 ( 共 0 名學生 ) X i 0 6 5 3 7 3 8 9 Y i 9 9 7 5 5 6 6 0 3 試求其相關係數
. 已知 X 的變異量為 4.00,Y 的變異量為 6.5,X 與 Y 的共變量為 3.85, 問 X Y 的積差相關為多少? 3. 下列敘述中何者是正確的? () T 分配的平均數是 50, 標準差是 5 () 常態分配中, 得分在上下一個標準差之間者, 佔總人數的 68% 左右 (3) 有相關存在, 不一定有因果關係存在 (4) 敘述統計是從樣本推論母體的特徵 4. 下列哪一個相關係數的強度最大? () 0.55 () 0.85 (3)0.75 (4) 0.55 5. 若 S XY=.6,S X =.40,S Y =.60, 則 r 為多少? 6. 相關係數的值介於 與 之間 7. 已知 X 的變異量為 4.00,Y 的變異量為 6.5,X 與 Y 的共變量為 3.85, 令 Z=X+Y, 則 Z 的變異量為多少? 8. 假設某一班級國語與數學的離均差交乘積和為負值, 則二者的積差相關為何? () 正值 () 負值 (3)0 (4) 資料不足, 難以判斷 9. 當 S X =5,S Y =3, 則 S XY 可能的最大值為何? 0. 若 N=,S X =.53,S Y =.65,r XY =0.768,b Y.X =0.804, 則 X 變項與 Y 變項的共變數 C XY 為多少?. 若 S X =0,S Y =5,r XY =0.8,Z=X-Y, 則 S Z=?. 下列資料 X 代表智商,Y 代表學習成就 : X 6 5 3 7 3 8 9 0 Y 3 9 7 5 5 6 6 0 9
() 試求智商與學習成就的積差相關 括弧中的資料可減輕妳 ( 你 ) 計算時的負擔 [ X = 64, Y = 7, = 53 Y = 7., ( X ) = 4096, ( Y ) = 584 ] () 如果把 X 加 3,Y 減, 則原來的相關變為多少? XY, X = 498, Y = 586, X = 6. 4, (3) 假定 () 計算所得的相關具有統計意義, 亦即達到顯著水準, 試解釋其意義 3. 美術老先後兩次對 名的水彩作品加以評分, 結果如下表所示, 問兩次評分 結果的相關有多大? 是否達到顯著水準? t.995(0) =3.69,t.995() =3.055 學生 3 4 5 6 7 8 9 0 第一次等第 9 8 3 0 5 7 4 6 第二次等第 6 9 5 0 7 3 8 4 4. 某研究想知道學生退學與否和其父母婚姻狀態的關係, 資料如下 : 學生 A B C D E F G H I J K L M N 就學 (X) 0 0 0 0 婚姻 (Y) 0 0 0 0 0 0 5. 下列關於相關係數的敘述, 何者是正確的? () 相關係數是一種比率變數 () 相關係數是一種等距變數 (3) 相關係數 0.60 與相關係數 -0.60 表示同樣密切的關係 (4) 相關係數 0.60 與相關係數 -0.60 之間無法比較 6. 研究者想知道 睡眠 (X) 與注意力 (Y) 的關係, 他隨機選取國中一年級學生 0 名, 獲得下列資料 問 () 兩變項間的相關為何? () 若 α =. 05,df=6,r
的關鍵值為.707, 則所求得的相關係數如何解釋? X 0 9 8 7 6 5 4 3 Y 7 6 9 3 0 6 0 7. 假定有一項研究指出, 兒童看電視的時數, 與其成年後的暴力傾向有正相關 下列推論, 何者正確? () 兒童看電視的時間越長, 成年後的暴力傾向越高 () 兒童看電視的時數, 是導致成年後暴力傾向的原因 (3) 成年後越有暴力傾向的, 會造成其兒童時越常看電視 (4) 兒童看電視的時數, 與其成年後的暴力傾向, 兩者互為因果 8. 解釋名詞 : () 等級相關 () 肯德爾和諧係數 (3) 假性相關 (4) 多元共線性 9. 某人格測驗由 A B C 三個分測驗所組成, 分測驗的變異數及相關如下 : A 測驗 : s A = 9 B 測驗 : s B = 5 C 測驗 : s C = 6 r =.70 r =. 60 r =. 80 AB AC BC () 列出變異數與共變數的矩陣 () 三個分測驗總分的變異數是多少? 0. 當 X 變數是連續變數, 而 Y 變數是真正二分變數時, 用以表示兩變數的相關係數應採用 : () 積差相關 () 等級差異相關 (3) 點二系列相關 (4) 四分相關. 在計算某測驗的效度時, 假設你得到 Pearso r=+.9 的效度係數, 這表示 : () 具極高度正相關 () 具有正相關的關係 (3) 兼具上述兩種特徵 (4) 此數值有計算上的錯誤. A 與 B 的相關是 0.30,C=3A,D=3B 那 C 與 D 的相關是多少? (A) 0.0 (B) 0.30 (C) 0.60 (D) 0.90 (E).00
3. 已知 X 與 Y 的共變數是 0,X 及 Y 的標準差分為 5 及 8, 那 X 與 Y 的相關是 (A) 0.5 (B) 0.30 (C) 0.60 (D) 0.75 (E) 0.90 4. 下列是一個相關矩陣 性 別 教育程度 ( 男 :0; ( 年 ) 女 :) 教育程度 -.3 年收入 -.4.56 ( 元 ) 我們可以合理地做出下列哪一項結論? 甲 年收入傾向於隨教育程度的提高而 增加 ; 乙 女性的收入傾向於較男性高 (A) 甲正確, 但乙不正確 (B) 甲不正確, 但乙正確 (C) 甲 乙兩項都正確 (D) 甲 乙兩項都不正確 5. 下列相關係數中, 何者之相關程度最高 : (A) r =. 40 (B) r =. 70 (C) r =. 85 (D) r =. 05 6. 下列敘述中, 何項敘述是不正確的? () 相關係數 r=0.4 是相關係數 r=0. 的 倍 () 相關係數 r=0.4 與相關係數 r=-0.4 的相關程度是一樣的 (3) 相關係數並非等距的變項 (4) 當量變項的關係是二次的, 不適合使用相關係數表示兩變項的關係 7. 根據表一資料, 請回答下列 5 道單選 ( 或複選 ) 題 : 表 七位學生三科分數的原始分數和描述統計量 編號 自然分數 數學分數 國語分數 74 74 80 69 84 00 3 6 75 60 4 76 83 50 5 77 85 89 6 63 73 80 7 63 79 5 平均數 69 79 73 標準差 6.76 5.07 9.4
偏態.07.000.08 峰度 -.3 -.3 -.64 () 自然分數呈現何種分配型態? (a) 正偏態 (b) 負偏態 (c) 常態 () 國語分數呈現何種分配型態? (a) 高狹峰 (b) 低闊峰 (c) 常態 (3) 分析自然和數學兩科分數的關係, 可用哪些方法? (a) 積差相關 (b) 單廻歸 (c) 相依樣本 t 考驗 (d) 獨立樣本 t 考驗 (4) 數學分數的變異係數計算方式為何? (a) 79 5.07 (b) 5.07 79 (c) 73 9.4 (d) 6.76 69 (5) 自然和數學兩科分數可能呈現哪種相關? (a) 正相關 (b) 負相關 (c) 零相關 8. 在常態分配中, 要達到分數最高的 95%, 其標準差 (stadard deviatio) 應該要大 於何種數值? () 0.78 ().6 (3).65 (4).33 9. 某研究想了解家庭社經水準 ( 分為高 / 低 ) 與學生上大學與否 ( 是 / 否 ) 間之相關, 可行的統計方式為? () semi-partial correlatio () multiple correlatio (3) Phi coefficiet (4) Pearso correlatio 30. 某一次高中學力測驗國文分數與數學分數的相關係數為.60, 若每一位同學國 文分數乘以 5, 數學分數也乘以 5, 則相關係數變為原來的 (A) 不變 (B) 5 倍 (C) 5 倍 (D) 0 倍 (E) 5 倍 3. 智力測驗分數與學業成績的相關係數為.60, 曠課天數與學業成績的相關係數為 -.85, 則 () 智力測驗分數比曠課天數更能預測學業成績 () 智力測驗分數與曠課天數對學業成績有相同的預測力 (3) 繪製散佈圖 (scatter plot) 表示曠課天數與學業成績的相關, 其圖形將呈左上至右下的趨勢 (4) 智力測驗分數與學業成績的散佈圖, 比曠課天數與學業成績的散佈圖更具直線的趨勢
3. 下列哪一統計方法最適用於檢定二個各包括 3 個類別名義變項間之相關? (A) 列聯相關 (B) φ 相關 (C) Spearma 相關 (D) Gamma 相關 33. 研究者請了五位助理, 來評定十個幼兒行為, 要求助理依照行為的複雜程度做 -0 的排序, 請問若想知道評分者間的一致性如何, 該研究者應該用下列哪個係數做為指標? (A) 肯得爾和諧係數 (B) 皮爾遜相關係數 (C) 斯皮爾曼等級相關 (D) 二系列相關 34. 有一學者蒐集了當年度台灣各鄉鎮地區的白鸛 ( 俗稱送子鳥 ) 發現數量與嬰兒出生數量, 以進行白鸛發現數量與嬰兒出生數量之相關性研究 (correlatioal study) 學者發現白鸛發現數量與嬰兒出生數量的 Pearso 積差相關係數 (Pearso s product-momet correlatio coefficiet) 為 0.95 請解釋學者的發現 學者進行下列相關係數之統計假設檢定(statistical hypothesis testig): H0( 虛無假設 ): 白鸛發現數量與嬰兒出生數量無顯著正相關 H( 對立假設 ): 白鸛發現數量與嬰兒出生數量具顯著正相關 () 若學者下了一個 在顯著水準 α=0. 之下, 拒絕 H0 的結論, 是什麼意思? 若將 α 縮小為 0.0, 可能改變結論嗎? 為什麼? () 在顯著水準 α 控制不變的條件下, 已知檢定統計量 (test statistics) 公式為 t * = r, 增加資料蒐集的樣本大小 (sample size) 可能改變結論 r 嗎? 為什麼? 註: 公式中的 t* 為 t 檢定統計量,r 為樣本相關係數, 為樣本大小 35. 解釋資料從下表可得知壓力與那些因素是負相關? 其相關係數 強度 意義各為何?
變項 3 4 5 運動 -- 自尊.64* -- 自我滿意度.67**.7** -- 壓力 -.70** -.54* -.65** -- 智力.5**.4*.3 -.5 -- * p<.05 ** p<.0 問題思考. K.Pearso 積差相關之使用條件為兩變項皆為何種變數?. r xy 是否為等距變數? 抑或是比率變數? 為什麼? 3. 相關是否代表因果關係的存在? 4. 樣本大小與相關係數大小的關係為何? 5. 為何當 X,Y 兩變項間呈完全正相關時,r xy =? 思考 r xy 的定義公式, 並令 ( Z x Z y ) 0 N x N Z Z xz y + Z y 0 N N r xy 6. 你 ( 妳 ) 是否清楚以下各符號的意義與關係? S x,s y,s x,s y,ss x,ss y,ss xy,s xy,c xy,cp
第八章 簡單廻歸分析 學習重點. 何謂廻歸?. 簡單廻歸分析 = 一階線性模式 3. 廻歸係數的意義與計算 4. 利用標準分數廻歸時,b y.x 與 r xy 的計算關係 5. 廻歸變異各來源的意義與 ANOVA 表的完成 6. 簡單廻歸分析 ANOVA 表中的 F 考驗是針對哪一數值作顯著性檢定? 7. 決定係數與疏離係數的意義 8. 等分散性的假設 一. 簡介 接續前一章, 我們知道兩變數除了相關的探討外, 還可以研究預測的問題 相 關愈大, 愈可以由其中一個變數較正確的預測另一個變數 ( 當 r= ±, 所有的點 皆位於線上, 預測結果完全正確 ) 因之建立的模式, 即廻歸分析 (Regressio Aalysis) 之所以稱為 regressio( 廻歸 ) 的理由是 : 在英國人 Galto 研究 父母與子女身 高間的關係 的論文中首先提出小孩的身高會趨於中庸 :regressio toward mediocrity 的概念 廻歸分析的分類 :. 簡單廻歸分析 (simple regressio aalysis): 只考慮一個自變數 X 與因變數之間的關係所構建的廻歸分析模式 ;. 多元廻歸分析 (multiple regressio aalysis): 當考量一個以上自變數 X i ( ) 與因變數之間的關係所構建的廻歸分析模式 在此只討論線性模式 (liear model) 的計算 解釋 與應用 非線性模式 ( 如 : 曲線 雙曲線 或拋物線 ) 的內容不在考試範圍中 二. 簡單線性廻歸 (Simple Liear Regressio) 預測變項 X i, 效標變項 Y i, 當只有一個 X 變項且兩變數間的關係呈線性時的廻歸分析
三. 最小平方法 (Method of Least Square). 在散佈圖中, 試著找出一條直線 ( 最佳配適線 ), 使之最能代表各點, 亦即各點至 該線垂直於橫軸的距離平方和為最小的方法 廻歸模式的估計方法有二 :() 普通最小平方法 (GLS) () 最大概似法 (ML). Y = b 0 + b X,( 其中 b 表斜率,b 0 表截距 ) 為母體廻歸模式 Y i = β 0 + βχ i + ε i 的估計式, 使 i ε 最小 b 與 b 0 稱為廻歸係數 (regressio coefficiets) 其原本的求算須利用偏微分, 在此提供簡易的公式如下 : b ( X i X ) ( Yi Y ) ( X i X ) SS xy = = SS x = XY X X N ( X ) N Y = CP SS x = C S XY X b0 = Y b X, 因而可以得到估計的廻歸直線 () 此一直線使 ( Y Y ) 為最小 () 在範圍內的任一 X i, 即使沒出現過, 也可以利用該模式進行預測 因為 X i 乃隨機變項! (3) 使用樣本廻歸估計模式, 估出的 Yˆ 值, 可用以進一步進行依變項 Y 的真正分數之信賴區間估計 :
Yˆ ± t ( x x) + + x (, / α ) s Y 廻歸直線的係數 b 又可表示為 b y. x ; b 0 也可以表示為 a y. x 利用最小平方法所得結果, E ( b) = β, E ( b ) = β 0 0 此一廻歸直線的正確唸法為 : regressio equatio of Y o X, 即 Y 對 X 的 廻歸方程式 四. 利用標準化分數廻歸. 將 X i Y i 化為 Z X Z Y 時, Z 位都不一樣,b 跟著改變為 β X X x =,Z Y S x SY Y Y =, 由於 S X S Y 的大小與單 S. Z Yˆ = β Z X, 在簡單廻歸中, β = b X = r S Y XY 五. 變異來源分析與 ANOVA 表. 觀察值 Y i 的總變異, 可分為兩部份 : (). 可解釋變異 ( 自變數的變異 ) () 無法解釋變異 ( 其他如實驗誤差等因素所導致 ). 展開式 : SS t = SS reg + SS res 總離均差平方和 = 廻歸離均差平方和 + 殘差平方和 Y Y ) = ( Y Y ) + ( ( Y Y ) 其中 SS t = ( Y ) Y N = SS y SS = b reg SS xy SS res = SSt SS reg = SS y. x
3. 變異數分析摘要表 SV SS df MS F-test Reg Res Total 六. 決定係數 (Coefficiet of Determiatio). 又稱判定係數, 以 r 表示, 為 Y 的總變異中, 由 X 與廻歸模式所解釋變異的百 分比 SS. r = SS reg t, 此一數值愈大則預測正確的程度愈高 ; 界於 0 與 之間 3. = b x y by x; 指當我們無法確定誰為自 / 因變數時, 而能將兩變數互為因果的 r.. 角色對調所產生之有趣關係式 七. 疏離係數 (Coefficiet of Alieatio) 設 SS t =, 則 SS t = SS reg + SS res 變成 SS SS t t SS = SS reg t SS + SS res = r + ( r ) t r = σ Y, X σ 無法解釋 Y 的程度 Y = 疏離係數, 大小與意義與判定係數正好相反 即為變數 X ( SS reg SS SS res res N σ Y X r = r = = =. ) SS SS SS // N σ t t t Y 八. 估計標準誤 (Stadard Error of Estimate), 以 SEest 表示. 當以樣本估計時, S Y,X = SS res N = MSE. 若有大量資料時, σ Y,X = σ Y r 3. () S Y,X 與 σ Y,X 愈小愈好
() r 愈大,σ Y,X 愈小, 愈可以正確由 X 預測 Y σ Y,X 與 S Y,X 可用來作區間估計 4. 等分散性 (Homoscedasticity) 的假設 : 不論預測變項分數 X i 分數之高低, 效標變項 Y 之估計標準誤皆一樣大的特性 由於實得分數可能不完全等於預測分數, 而且許多的 X I 可能形成常態分配, 因此以估計標準誤來表示 X I 所形成之常態分配分散的情形 ; 所以, 不論 X I 大小, 均以同一估計標準誤來估計預測時可能產生之誤差, 此一估計標準誤皆一樣大的特性即稱等分散性 九. 多元廻歸分析. 多元廻歸模式可以下列線性模式表達 : Y i = 0 + X + X + + k X k + ε i, i =,,..., 其中 Y 為因變數 (depedet variable or respose variable), 須為連續型變數,X, X,..., X k 為自變數 (idepedet variable, regressor, or predictor), 0,,,..., k 為廻歸係數 (regressio coefficiets), 皆為未知參數 (parameters), 誤差項 ε s 為服從 N( 0, σ ) 之 i.i.d. (idetically ad idepedetly distributed) 隨數變數, 為樣本數 當 k = 時, 上述模式稱為簡單 ( 線型 ) 廻歸模式 ; 當 k 時, 稱為複廻歸模式. 當自變數多於兩個以上時, 分析變得複雜以外, 尤須注意可能發生的問題 : 多元共線性 (Multicolliearity) 發生原因 : () 自變數間存在高度相關 ; () 模式設定時, 引進某一自變數的平方作為另一個自變數 ; (3) 當自變數太多, 而樣本量太少時 ; (4) 樣本取樣不當 造成影響 : () 廻歸係數雖仍為最佳線性不偏估計值, 但其變異數與共變數都變大而降低精確度 ; () 廻歸係數可能出現錯誤的正負號 ; (3) 廻歸係數的信賴區間會不當擴大 ;
(4) 個別係數的 t-test 會增加犯型 II 錯誤的機率 ; (5) 個別係數的 t-test 與整個廻歸模式的 F-test 結果不一致 補救辦法 : () 使用脊廻歸估計量 ; () 將某一自變數刪除 ; (3) 將某些自變數作變數轉換 ; (4) 改用主成份變數 ; (5) 儘可能增加樣本量 十. 多元廻歸分析中的偏廻歸係數與偏判定係數 : () 假設估計廻歸式為 Yˆ = 5.574 + 0.6X + 0.489X, 判定係數 R = 0.977 其中,0.6 與 0.489 可稱為偏廻歸係數 (partial regressio coefficiet), 分別表示在固定其他預測變數不變下, 反應其所對應的預測變數於模式中的部份效應或偏效應 ; 則 0.8883 的偏判定係數 r Y. ( 其 t-test 之 p-value < 0.000), 表示在固定 X 之下,X 對 Y 有顯著的正向影響 ;0.8070 的偏判定係數 r Y. ( 其 t-test 之 p-value < 0.000), 表示在固定 X 之下,X 對 Y 亦具顯著的正向影響 () 當廻歸模式之自變項含有類別 (categorical) 或屬質 (qualitative) 變數時, 通常需引進虛擬變數 (dummy variable), 也稱指標變數 (idicator variable) 以利分析處理, 當一個類別變數有 k 個水準 (levels), 則應引進 (k ) 個虛擬變數, 虛擬變數值之設定方式並非唯一, 只要使模式之參數易於解釋即可 例如 : 當我們想要分析成績 (X) 與起薪 (Y) 之間的關係, 額外考量主修科目 (MAJOR) 對上述關係的影響 假設類別變數 MAJOR 只有會計 (Accoutacy) 與行銷 (Marketig) 兩個 levels, 因此只需引進一個虛擬變數 DUMMY, 另因 MAJOR 或將影響 X 與 Y 的關係, 故須考慮其與 X 的交互作用, 可以以 XDUMMY = X*DUMMY 表示之 引進虛擬變數的優點是我們可透過一個複廻歸式 ( 內含 X, DUMMY 及 XDUMMY 三個自變項 ) 來表達兩條不同的簡單廻歸式 ( 分屬 MAJOR 為 Accoutacy 與 Marketig 者 ) 以利比較檢定, 模式表示如下 : E(Y) = 0 + X + DUMMY + 3 X*DUMMY (3) 一個好的廻歸模式應滿足三要件, 即配適度 (goodess-of-fit) 佳, 精簡 (parsimoy) 及具詮釋性 (iterpretable) 當各自變數間存在著多元共線性(multicolliearity),
表高度相關時, 較直接的作法是採統計檢定將多餘 (redudat) 的變數刪除以免產生推論上的不良結果, 然此舉並不會損害配適度 至於如何診斷多元共線性? 我們可以先進行 (ex. X ~ X 3 ) 兩兩相關情形的分析, 初步觀察是否存有共線性的現象 (4) 進一步作所有可能廻歸 (all possible regressio) 分析以供選取變數的參考 ; 當自變數之個數甚多時 (40~60 個 ),all possible regressios 或不可行, 此時自動變數篩選程序可派上用場, 該程序共有向前選取 (forward selectio), 由後刪除 (backward elimiatio) 及逐步迴歸 (stepwise regressio) 等三種方式進行變數篩選, 都是由統計檢定決定變數是否納入模式 (5) 廻歸模式中誤差項之獨立性 變異數一致性與常態性是進行推論的重要假定 (assumptios), 前二者假設的成立可使一般最小平方 (ordiary least squares, OLS) 估計值成為最佳線性不偏估計值 (the best liear ubiased estimator, BLUE), 若再加上常態性成立, 則 OLS 估計值為最佳不偏估計值 (UMVUE), 且可為廻歸係數提供具良好特性之檢定 (6) 校正後決定係數 (adjusted coefficiet of determiat): 針對同一研究問題當考量不同數量的自變項而有兩個以上的廻歸預測方程式可供選擇時, 因不同自變項個數的使用使得兩個模式缺乏可以公平比較的基礎, 因此必須計算校正後決定係數以比較模式預測能力或解釋力的大小高低 其公式為 : SSE ( k ) R a =, 其中 : k = 自變項個數 SST ( ) 此時, 在比較各模式校正後決定係數的大小才能真正呈現公平狀態下的解釋能力高低 (7) 比照簡單廻歸分析可以分別求算 : SSR 複判定係數 R = = SSTO SSE SSTO 複相關係數 R = R (8) 淨相關 (Partial correlatio) 與部分相關 (Part correlatio) 淨相關表示的是兩個連續變數在其與其他一個或多個變數的共同解釋力被移去後的相關程度高低的統計方法 ex. 智力測驗 (X ) 與語彙測驗 (X ) 之相關或許是因為第三個變數 年齡 (X 3 ) 皆與其存在某種程度的相關, 則個別由兩個測驗分數中移去 年齡 的解釋力後, 兩測驗分數是否仍相關的計算與探討 其符號表示為 :
r.3 部分相關則為, 當研究者認為只有語彙測驗 (X ) 的成績高低受年齡 (X 3 ) 影響, 因此先自語彙測驗 (X ) 排除年齡 (X 3 ) 的影響後, 再求語彙測驗 (X ) 與智力測驗 (X ) 的相關, 其符號表示為 :r (.3) 兩者的相同點在於其同時可以是複廻歸分析中的分析技巧 ; 相異處在於部分相關特別是在逐步廻歸分析中逐步檢視各自變項之是否適合保留並使用於廻歸模式中, 而淨相關在複廻歸分析中等同於偏相關係數, 由其衍生計算的偏判定係數 R.3, 可以解釋為, 在原來已有 X 3 的模式中, 當加入 X 後, 新模式對 X 總變異之解釋百分比 (9) 標準化複廻歸模式 : 標準化可使估計的廻歸係數具有相同的單位以資比較 Y i = β 0 + β X i + β X i + + β k X ki + i, i =,,..., 標準化後可得 Y i = β * Z i + β * Z i + + β * kz ki + ε * i, i =,,..., s β = s Y K β * k ( k =, ) 十一. 電腦報表分析 以下乃迴歸分析使用 EXCEL 軟體的輸出結果, 我們想研究讀書時間長短與考試成 績之關係並建立一預測模式 若自變項為讀書時間, 依變項為考試成績, 請回答 下列問題 :(α=0.05) THE REGRESSION EQUATION IS SCORE = 3.6357 + 0.675TIME Predictor Coefficiet St.Err t-value P Costat 3.6357.60.6333 0.394 Time 0.675 0.055 4.8548 0.00 S=5.89 R-sq=8.9% Aalysis of Variace Source Df SS MS F P Regressio 88.4965 88.4965 3.6 0.045 Residual 58 0.036 34.674 Total 59 89.600
() 試問最小平方估計值為何? () 由廻歸係數, 請判斷預測變項與效標變項間之關係為何? (3) 整條迴歸直線之估計標準誤為何? (4) 決定係數為多少? 並解釋其意義 (5) 由上述輸出結果, 你可知此一實驗所使用的樣本量為多少? (6) 請分別檢定 b 0,b 之顯著性並結論之 (7) 請檢定此一廻歸直線之解釋能力高低 解答 : 一個完整的廻歸分析, 由任何統計軟體執行所獲致的輸出結果皆包含上述幾個部份 最重要的是要了解每一個數字間的數學關係與統計意義 () 由於我們在廻歸分析中使用最小平方法以求得最佳適配線, 因此利用 (X,Y) 所得之係數 b 0,b 稱最小平方估計值, 分別為 b 0 ( 截距 )=3.6357,b ( 斜率 )=0.675 也可以由輸出結果的第二部份之 coefficiet 取得 () 廻歸係數亦即斜率 b, 其值為 0.675, 正的數值告訴我們預測變項與效標變項間為正相關 SSres 0.036 (3) 整條廻歸直線之估計標準誤為 S=5.89, 可以利用 S = = N 60 求得 SSreg 88.4965 (4) r = = = 0. 89, 亦即可解釋 ( 廻歸 ) 變異佔總變異之比例, SSt 89.600 也表現兩變項之相關強度與廻歸模式之解釋能力高低 其值介於 0 與 之間 (5) 由 SSt 之對應自由度 59 可知 :-=59, 因此樣本量為 60 (6) 個別係數之顯著性考驗, 我們使用 t-test 或 P 值法 因此, 只有 b 達顯著, 亦即其數值並非機遇造成的 (7) 對整個廻歸直線解釋能力的檢定, 我們使用 F-test 法或 P 值法 F 表 =F(0.05;, 58)=4.00,F 統 > F 表, 與 P 值法之結論相同 解釋能力達顯著 十一. 練習題. 五名學生的語文與歷史成績如下表, 試利用最小平方法取得廻歸直線 Yˆ 並計 算兩變數間之相關係數 語文 80 75 70 65 60 歷史 70 66 68 64 6
. 同上題, 求其 SS t,ss reg,ss res? 並製作其 ANOVA 表 3. 由練習題 的數據, 計算 r, 並解釋之 4. 試根據下列資料求其變異數, 共變數, 與相關係數 成員 3 4 5 6 7 8 9 0 X 4 5 7 7 8 9 4 Y 7 6 9 7 5 0 8 0 3 5. 某班教師欲從國語預測數學, 已知國語成績的平均數與標準差分別為 8 與 6, 數學的平均數為 80, 兩變項的相關為.80 若吳生的國語成績為 90, 則其數學成績的 Z 分數的預測值為何? 6. 已知 r XY =0.60, 則以 X 預測 Y 的變異量解釋度有多少? () 40% () 36% (3) 6% (4) 60% 7. 如果一個廻歸預測方程式,Y 的預測分數等於 5X, 則以下哪一個敘述是錯誤的? () b Y.X >0 () S Y.X <0 (3) 積差相關係數為正值 (4) 廻歸線通過原點 8. 若高中成績與大學聯考成績的相關值為 0.75, 則 () 以高中成績預測大學聯考成績, 以標準分數寫出之直線廻歸公式為 () 有 % 的大學聯考成績, 是由高中成績來解釋的
(3) 其疏離係數為 9. 若 SS t =98.55,SS res =4.45,SS reg =84.0, 則 r = 0. 若 b Y.X =.50, 請解釋此一廻歸預測的意義. 若 N=6,S x =.38,S Y =.94,b Y.X =0.97,a Y.X =7.00, 則由 X 變項預測 Y 變項的決定係數為何?. 若 N=6,S x =4,S Y =3,r XY =0.60, 則 SS reg = 3. 若 N=6,S x =4,S Y =3,r XY =0.60, 則 b Y.X = 4. 有八位學生的成績如下表, 試計算其 SS t,ss reg,ss res, 再根據所計算的結果求決 定係數 學生 測驗 測驗 x i x y xy A 5 9 B 5 7 C 3 5 D 7 4 E 4 5 F 8 6 G 9 7 H 3 5 Total 44 48 5. 若某班 30 名學生國語的平均數為 85, 標準差 5, 數學的平均數為 80, 標準差為 0, 國語預測數學的斜率為 0.80, 則國語與數學的離均差交乘積和為多少? 6. 若 r xy =-, 且 Z x =.5, 則 Z y =?
7. 以下乃 0 位學生的智力測驗和學業成績, 試問該 0 位學生的智力分數和學業成 績的積差相關係數是多少? () 0.83 () 0.74 (3) 0.65 (4) 0.56 學生 A B C D E F G H I J 智力 85 93 66 74 68 54 5 59 88 74 學業 65 88 54 80 77 73 0 6 95 90 又, 若以上述 0 位學生的智力分數 (X 變數 ) 預測其學業成績 (Y 變數 ), 其預測公 式為 Y=AX+B, 則 A=? () 0.84 () 0.83 (3) 0.93 (4) 0.74 8. σ 0, σ = 0, = 0.70, 則 σ =? x = y r xy y. x, Y Y, Y Y ˆ ˆ 9. 在直線廻歸分析中, 以最小平方法說明 ( ) ( ) ( ) 間之關係及各所代表之意義 Y Y 三者 0. 解釋名詞 : () 廻歸係數 () 廻歸效應 (3) 等分散性 (4) 偏相關係數 (5) 多元共線性 (multicolliearity) (6) 決定係數 (7) 最適合線 (8) coefficiet of determiatio. 若丙班人數 30 人, 教育統計的平均值為 86, 標準差為 5; 數學的平均數為 8, 標準差為 0, 教育統計與數學的積差相關為.60, 則殘差平方和為多少?. 若 XY 兩變項無關, 則由 X 估計 Y 的估計標準誤為 : () S X () S Y (3) (4) 0
3. 請依以下資料回答各子題 ( 由 X 預測 Y) X = x y xy 60, S = 0, Y = 00, S = 0, r = 0.70 () 原始分數的廻歸預測方程式 () Z 分數的廻歸預測方程式 (3) 估計標準誤 S Y.X (4) 設甲生 X 變項得分為 75, 試預測其在 Y 變項的得分 (5) 與甲生能力相同的人 (X=75),Y 得分高於 0 的機率為何? 4. 若某班教師想由國語預測數學的成績, 已知全班學生共 30 名, 國語的平均數為 85, 標準差為 5, 數學的標準差為 0, 全班數學的預測分數總和為 400, 國語預測數學的斜率為.64, 請求其廻歸預測方程式 5. 以直線廻歸進行預測時, 有一個 等分散性 (Homoscedasticity) 的基本假定, 請說明其意義 6. 何謂估計標準誤? 其大小與相關之大小有何關係存在? 7. 下表乃五位學生月考 期考及由月考預測期考的成績, 則由月考預測期考 之估計標準誤為何? 學生 月考 期考 期考之預測值 80 78 75 8 74 77 3 76 7 7 4 68 60 64 5 70 69 66
8. 王老師發現, 在他任教學校的 50 個班級, 國語和數學成績的相關.50 左右, 依據這些資訊, 下列哪一項推論是適切的? () 國語能力影響數學學習 () 國語能力差的, 數學能力不會太好 (3) 知道學生的國語成績, 對預測他們的數學成績有幫助 (4) 進行數學補救教學, 要先從國語能力的強化著手 9. 以下是某班級國文及英文期末考成績的統計資料, 已知該二科成績皆呈常態分 配且相關係數為 0.8 國文 英文 算術平均數 40 30 變異數 9 4 全班總人數 00 00 () 請問該班學生國文成績介於 37 分與 43 分之間的約有多少人? () 請根據國文成績與英文成績間的關係, 求出其廻歸方程式 ( 依變數 : 英文成 績 ) 30. 某研究者根據模擬考成績 (X) 預測聯考成績 (Y), 求得 r xy =.50, 總變異 SS t =80, 那麼廻歸變異 SS reg =, 殘差變異 SS res = 3. 下列各關係式何者是錯誤的? () SS total = SS regressio +SS residual () SS total = SS betwee +SS withi (3) MS total = MS betwee +SS withi (4) df total = df betwee +df withi 3. 某系研究所三年內錄取的 60 位新生, 入學考試之測統科目成績平均數為 6, 標準差為 9; 該考試科目成績與研一高等統計學成績的積差相關係數為.58 若已知研一高等統計學平均數為 86, 標準差為 6 應屆錄取新生陳台煇在入學考試中測統科目成績為 50 分, 請問預測陳台煇研一高等統計學的成績為何?
33. 承前題, 依據前述資料所作的預測, 估計標準誤為何? 34. 某學者想知道 努力 是否具有預測 學業成績 的效用, 他獲得下列報表資料 : -. 這整個廻歸方程式為何? -. 努力 是否真的可以預測到 學業成績? -3. 努力 與 學業成績 間的相關係數是多少? -4. 努力 解釋到 學業成績 的變異量大約有多少百分比? -5. 上述問題中, 努力 的預測力是否達顯著? Variable B SE R Beta T Sig T 努力.74083.4405.906 6.4.0003 截距 -.07090.7509 -.389.707 35. 請簡要說明與比較積差相關 淨相關與部分相關在概念上與使用上的差異 36. 請證明迴歸方程式 Y ˆ xy = bx + a 中的 b =, a = Y bx x 37. 根據 X 變數去預測 Y 變數時, 其預測的準確性叫做什麼係數? () 決定係數 () 離間係數 (3) 效標係數 (4) 可靠係數 38. 某國中一年級 00 位學生國文成績的平均數為 75 標準差為 6; 歷史成績的平均數為 80 標準差為 ; 兩科成績的相關為.60, 請問以國文成績預測歷史成績的非標準化廻歸係數為, 決定係數為 ; 若甲生歷史成績為 86, 可預測其國文成績為 39. 某個研究單位針對青少年 上網咖 的情形進行調查研究, 統計分析結果發現 上網咖的次數 與 學業成績 有負相關, 相關係數 r=-0.6,r 為 0.36 且達.0
顯著水準 因此該研究單位公布的研究報告中做了以下結論 : 上網咖 是導致青少年學業低落的原因 () 請您用文字陳述該研究單位之統計分析結果中, 各項數據所代表之含意? () 您是否贊成該研究單位所做的結論? 請提出您的理由 (3) 針對該研究單位的統計分析結果, 還有哪些可能的結論? 請根據判定因果關係的三個標準一一說明之 40. 何謂 廻歸分析 (regressio aalysis)? 並舉例說明, 簡單廻歸 與 多元廻歸 有何不同? 4. 如何區別廻歸分析 (regressio aalysis) 應用在預測 (predictio) 與解釋 (explaatio) 的適用時機? 4. 簡單直線廻歸中, 只有一個自變項去預測一個依變項, 此時標準化廻歸係數之數值等於? () 總變異數 () 共同變異數 (3) 相關係數 (4) 決定係數 43. 某一統計學家進行問卷調查研究, 他從母群體當中隨機抽取 7 名樣本當受試者, 收集到每位受試者的五個變項資料 ( 其中, 四個 X 變項為預測變項, 一個 Y 變項為效標變項 ) 已知該五個變項之間的 SSCP 矩陣 (sum of squares ad cross-product matrix) 如下, 請回答下列各子題 : -. X 4 變項的變異數 (variace) 是多少? -. Y 變項的標準差 (stadard deviatio) 是多少? -3. X 變項與 X 3 變項之間的共變數 (covariace) 是多少? -4. X 變項與 X 3 變項之間的相關係數 (correlatio coefficiet) 是多少? -5. 哪一個預測變項對 Y 變項最具有預測效果? 五個變項之間的 SSCP 矩陣 : X X X 3 X 4 Y X 576 400 576 40 64
X 400 400 44 56 8 X 3 575 44 04 9 60 X 4 40 56 9 784 64 Y 64 8 60 64 04 44. 請解釋下列兩個線性方程式的意思, 其中後者方程式是前者方程式的標準化方程式 Y ˆ b X + b X + a = zˆ Y = β z + β X X X z X 45. 以下是準備考試的小時數 (X) 與考試成績 (Y) 的資料, 其中 X = 8.75,Y =7.5,S x = 46.6875,S y=8.75, 準備考試的小時數 考試成績 (Y) X Zx Y Zy 5-0.55 8 0.7 0.65.5 8-0. 6-0.5-0.99 4 -.8 () X 與 Y 變項的相關係數 r =? () 若以考試的小時數預測考試成績, 寫出原始分數的廻歸預測公式 (3) 若以考試的小時數預測考試成績, 寫出標準分數的廻歸預測公式 (4) 廻歸的離均差平方和 SS reg =? (5) 自變項能解釋依變項變異量的百分比是多少?
46. 以下是自我概念與學業成績的平均數 標準差 相關係數, 依此資料回答下列問題 : 學業成績 (Y) 自我概念 (X) µ 55 0 σ 0 相關.60 () 若以自我概念預測學業成績, 分別求出原始分數與標準分數的廻歸方程式, 並解釋其結果 () 自我概念為 5 分的學生, 其學業成績會高於 4 分的比例為何? (3) 學業成績的百分等級是 84 的學生, 他的自我概念是多少? (4) 學業成績有多少變異可由自我概念來解釋? (5) 在何種情形下, 當學業成績與自我概念的相關係數高達 0.95, 我們卻發現大幅提高自我概念, 學業成績卻只有細微的提昇?( 也就是我們發現其廻歸方程式可能為 y ˆ =. 00000x + a ) (6) 若學業成績與自我概念的相關係數為 0, 我們是否可以結論 : 學業成績與自我概念互為獨立 (idepedet)? 為什麼? (7) 若學業成績 (Y) 與自我概念 (X) 的相關係數為 0., 是否意味著我們應該用非線性廻歸 (oliear regressio) 以 X 預測 Y? 為什麼? (8) 若自我概念的標準差由 變為 5, 其他條件不變, 相關係數會改變嗎? 如何改變? 為什麼? 47. 設 r xy =0.7, 已知小李 X 變數的成績是平均數以下 個標準差, 那麼我們對小 李 Y 變項之 Z 分數的估計是多少? (A)- (B)-.4 (C) (D).4 (E) 0 48. 假設你所獲得之廻歸方程式為 Yˆ = 56.79 + 0.8X, 估計標準誤為.0 如果 X=5, 試問 Y 介於 43.69 至 45.7 的機率約為多少? (A) 0.6 (B) 0.34 (C) 0.68 (D) 0.7 (E) 0.84
49. 請寫出下公式所代表的意義 : () r S S xy y X () ( Y Yˆ ) N (3) N xy 50. 如果 X 的變異數為 00,Y 的變異數為 8,X 和 Y 的積差相關係數為 0.5, 那麼 X 和 Y 的共變數應為多少? 5. 一個統計方法分析所得的結果, 列出三個表格如下 其中,X 與 X 是自變數, Y 是依變數 請先分別解釋說明表一 表二 表三, 其次再盡可能綜合交叉解 釋三個表格中的數據資料 表一 Y X X Y.000.47 *.53 * X.000.8 * X.000 * P<.05 N=49 表二 來源 SS df MS F 迴歸 63.68 3.84 6.455 * 殘差 899.748 46.788 全體 353.430 48 * P<.05 表三 未標準化係數 標準化係數 t B 值 標準誤 ( 常數 ) 0.33.974 0.608 X.406.060.403 6.779 * X.048.047.06.0 * P<.05
5. 某研究指出, 根據其 5 人的取樣資料分析結果, 身高與體重的相關是 0.8, 請問有多少百分比的體重不是由身高的因素所影響? 53. 請舉一個多元廻歸的例子 ( 包括說明分別以包含 b 與包含 β 之廻歸公式表示 );又請說明 b 與 β 之差別與使用時機 54. 請舉一適用 多元逐步廻歸分析 之研究實例, 並說明採用此一統計方法的原因及統計結果的解釋 55. 請分別說明在多個連續變數的條件下, 何謂 淨相關 (partial correlatio)? 何 謂 部分相關 (part correlatio)? 進一步比較說明兩者的相同點與相異點, 最 後各舉出一個實例來說明其各自適用時機 56. 研究員想了解練習程度對鋼琴演奏水準的影響, 該員利用簡單線性廻歸來做分析, 並得判定係數為 0.96, 這表示 : (A) 96% 的鋼琴演奏水準數值是正的 (B) 廻歸線可解釋 96% 鋼琴演奏水準的差異 (C) 練習程度有 96% 是相同的 (D) 廻歸線可解釋 96% 練習程度的差異
57. 在一個簡單直線廻歸中, 已知效標變項 Y 的總變異量中, 由預測變項 X 所能解釋的變異百分比為 6.5%, 廻歸模式中總離均差平方和 ( ) 為 0, 請問殘差平方和 ( SS residual ) 的值為多少? SS total 58. 有關回歸係數 (regressio coefficiet) 與相關係數 (correlatio) 的敘述何者為真? () 回歸係數為正時, 相關係數必定為正 () 回歸係數為正時, 相關係數必定為負 (3) 回歸係數為負時, 相關係數必定為正 (4) 回歸係數與相關係數的正負無必定關係 問題思考. 當所有的觀察值皆座落在同一條直線上, 則 r xy 的值為何?. 在使用最小平方法取得迴歸直線時, 會使哪一部份的變異為最小? 3. 利用標準化分數迴歸時, 截距會不復存在, 而迴歸係數會等於 b y.x 或 r xy? 4. 練習題 :N=6,S x =4,S y =3,r xy =0.60, 則 SS reg =? 嘗試不要以決定係數的關係式來解答, 而改以相關與迴歸的算式關係解答? 5. 是否了解估計標準誤 標準差 測量標準誤 與樣本平均數之標準誤的不同? 又, 是否 Sy.x 必為正值? 為什麼?
第九章推論統計概論 學習重點. 母數 ( 參數 ) 與統計量的不同與關係. 中央極限定理與大數原則 3. 點估計的三大條件 4. 區間估計 = 樣本統計量 ± 抽樣誤差 5. 研究假設 ( 科學假設 ) 與統計假設之不同 6. 型 I 錯誤與型 II 錯誤之意義 7. 顯著水準, 信賴水準, 與檢定考驗力之關係 8. P 值檢定法之使用 一. 推論統計的意義 根據抽取樣本所得樣本統計量的抽樣分配性質, 推估母體參數真實值, 並以之考驗對母體特性的敘述是否加以接受或拒絕的統計方法 兩種最重要的統計推論學習內容為 :. 母體參數的估計. 統計假設的考驗 當我們從一組雜亂無章的資料集, 使用在敘述統計中所學的統計量數的計算與統計圖表的繪製, 而取得對資料的初步訊息與瞭解 ; 接著想要進一步操作的是利用所得資訊輔助你 ( 妳 ) 作決策或推論 但是, 必須要知道的是, 母體中的觀測值 (observatios) 通常非常多而且不可得 ( 在人力 經費 能力等限制下 ), 因此, 如果能夠取得具有代表母體特性的樣本, 而且在樣本量夠大的情況下, 以其數據計算所得的統計量 (statistics) 作為母體參數 (parameters) 的近似值並以之進行推論統計的計算與結論, 是接下來幾章所要探討的主題 二. 基本概念. 次數分配, 機率分配, 與抽樣分配 : () 次數分配 (frequecy distributio) 乃針對隨機實驗之所有可能結果 ( 觀測值 ) 其發生次數的整理, 可以經由將觀測值資料歸類於互斥的組別中, 顯示每一個類組的觀測值個數以瞭解資料分佈的情形 結果可以次數分配表表示之 是敘述統計整理資料並取得初步資訊的方式之一
() 機率分配 (probability distributio) 指的是隨機變數 X 的所有個別變量發生之機率的彙整, 其提示一隨機實驗所有可能結果個別發生機率之大小 與前述之次數分配可以互作轉換 差別在於機率分配乃描述未來某種現象發生機率的大小 ; 而次數分配在描述過去的事實 相同的是二者皆可以藉由平均數 ( 期望值 ) 與變異數表示其特性 常見的機率分配有兩類 : 間斷 ( 伯努利 二項 超幾何 卜瓦松分配等 ) 與連續 ( 常態 卡方 指數分配等 ) 其中又以連續型的機率分配為教育心理領域學習 應用 與考試的重心 其原因是教育心理領域所使用的變數或資料多為連續型變數 ( 即 Ch. 中所指包含區間與比率尺度的變數 ) (3) 抽樣分配 (samplig distributio) 則為由母體中重覆抽出固定大小的樣本, 其所有可能的樣本統計量之機率分配 瞭解特定統計量之正確抽樣分配型態, 才能知道估計的正確性並進行所對應母體參數的正確推論 特定的統計量本身也是一個隨機變數, 其抽樣分配的選擇通常取決於 a.. 抽樣方法 b. 樣本大 小 c. 母體分配 常見的抽樣分配有 : 常態 (Z) 卡方( χ ) t 分配 與 F 分配 皆為推論統計中的重要統計方法. 母數 ( 或參數 ) 與統計數 ( 或統計量 ) 的不同 () 所描述資料對象的不同 () 在推論統計中的位階不同 (3) 表示的符號不同 3. 抽樣方法 : () 機率抽樣 : 簡單隨機抽樣分層隨機抽樣系統抽樣叢集抽樣 () 非機率抽樣 : 便利抽樣配額抽樣判斷抽樣雪球抽樣 * 機率抽樣確保在母體中之任一個體皆有一均等被抽出的機率 ; 而在非機率抽樣下, 任一個體被抽出的機率不一, 且沒有均等被抽出的機率 理論上, 以機率抽樣法所得的樣本資料較具母體代表性, 也造就其推論統計結果的正確性較高 ; 而在非機率抽樣法下, 由於樣本資料多由人為主觀判斷或方便性而取得, 通常是在不得已的情況下才作為機率抽樣法的替代方法
4. 中央極限定理 (Cetral Limit Theorem) 與大數原則 (Law of Large Numbers) () 中央極限定理 : 乃有關樣本平均數抽樣分配之理論 當我們反覆由 (, ) 之母體中抽取樣本 大小為 之許多樣本, 可以得到許多 X i, 此時不論原來各樣本數值的次數 分配為何, X i 的機率分配會趨近於常態分配 () 大數原則 : 指的是當 N 愈大, σ ( 樣本平均數之估計標準誤 ) 愈小, 表各 X i 之間愈接 近, 且愈接近 X 5. 點估計 (Poit estimatio) 與區間估計 (Iterval estimatio) () 點估計指的是使用單一一個統計量以作為母體參數的估計值 其應具備的條件或特性有 : a. 不偏性 (ubiasedess): 點估計量之抽樣分配的期望值等於母體參數 以平均數為例, E (X ) = µ b. 一致性 (cosistecy): 點估計量與參數之差異隨著樣本量增加而減小, 使結論得以一致 c. ( 相對 ) 有效性 (relative efficiecy): 如果有兩個參數的不偏估計值, 則其中具有較小變異數者 () 區間估計 : 當資料 ( 或者點估計量的抽樣分配 ) 符合常態分配時, 可以在 ( α)% 的信賴水準下由樣本統計量 ± 抽樣誤差 = ( 信賴下限, 信賴上限 ) 取得信賴區間 也就是利用點估計量抽樣分配的性質, 求出在某一信心水準下, 未知之母體參數所處兩數值範圍 ( 區間 ) 之統計方法 6. 虛無假設 (Null hypothesis) 與對立假設 (Alterative hypothesis) : H 0 H : 7. 型 I 錯誤 (Type I Error) 與型 II 錯誤 (Type II Error)
() 型 I 錯誤 () 型 II 錯誤 (3) 型 I 錯誤與型 II 錯誤之間的關係犯型 I 錯誤的結果, 因為依檢定結論所進行之決策錯誤的影響嚴重性通常遠高於犯型 II 錯誤的結果, 在允許較低的犯錯上限下, 研究者常需犧牲型 II 錯誤的犯錯率, 因此型 I 與型 II 錯誤之間常存在一種微妙的抵換 (trade-off) 關係 8. 單尾與雙尾檢定 9. 拒絕域與接受域 0. 顯著水準 (Sigificace level) 與信賴水準 (Cofidece level) () 顯著水準 : 為驗證提出之假設, 檢定在判斷統計量與母數之差異, 是否超過依推論統計原理所設定之否定該假設之水準 依此拒絕虛無假設所可能產生之風險為 () 信賴水準 : 又稱信賴係數 信賴度 乃用以推估母體參數真實值落在某一區間之機率大小. 臨界值 (Critical value). 檢定考驗力 (Power of Test) 乃正確拒絕虛無假設之機率 影響因素有四 : () 樣本量大小 () 檢定類型 (3) 顯著水準大小 (4) 母體參數估計值與真實值之間的差異
3. Z 檢定與 t 檢定 () 為最重要的兩種連續型機率分配下之統計檢定法 () 在單一母體與兩個母體下, 分別有多種不同母數的推論統計會使用 (3) 不同母數的推論統計會使用不同標準誤下的公式 4. P 值法 P 值乃在既定之樣本結果下, 導致 H 0 被拒絕之最小 α 值 P 值 <α, 則檢定達顯著 由於近來統計軟體與電腦報表在統計應用分析時的普遍性,P 值很容易可以在報表的適當位置找到 ; 另外, 利用 P 值法進行假設考驗並不需要臨界值 ( 查表值 ), 使用上與結論上更為簡單方便, 因此適用於對各種參數之假設考驗 * 只有對於抽樣分配服從或近似常態分配的特定樣本統計量, 其 P 值才可以徒 手計算 三. 練習題. 以下何者為發生第一類型錯誤的時機? () 拒絕錯誤的虛無假設 () 拒絕真正的虛無假設 (3) 維持錯誤的虛無假設 (4) 維持真正的虛無假設. 在下列四種情況下, 何者應使用雙側考驗? () 考驗女生的語言能力是否比男生好 () 考驗常翹課的學生成績是否比一般學生差 (3) 考驗個別化教學的效果是否有別於團體教學 (4) 考驗體育組學生體能是否優於其他學生 3. 通常我們先假設虛無假設為真, 再計算其發生的機率, 如果所出現之機率甚微 ( 如 <0.05), 則可以 : () 拒絕虛無假設 () 接受虛無假設 (3) 拒絕對立假設 (4) 接受對立假設 4. 在假設考驗時, 正確拒絕虛無假設的值為 5. 看到一個數字較大的相關係數, 例如 r=.89, 不可馬上說這相關, 因為
6. 如果 α=0.05, 雙尾考驗時, 臨界值 ( 拒絕域 ) 應如何決定? 並以圖示之 7. 所謂.05 顯著水準是指犯型 錯誤的機率為 8. 假設考驗時, 下列何者最容易拒絕統計性假設? () =.0 的單尾考驗 () =.05 的單尾考驗 (3) =.0 的雙尾考驗 (4) =.05 的雙尾考驗 9. 當 =30,r=.36,P>.05 時, 指兩變數間的相關 : () 等於零 () 顯著 (3) 很顯著 (4) 非常顯著 0. 在假設考驗中, 接受 H 0 而當 H 0 為真的機率以下列何者表示? () α () -α (3) β (4) -β. 如果樣本的分配曲線不為常態分配, 則以下何者為真? () 不可以計算信賴區間 () 可以計算信賴區間 (3) 有時可以, 有時不可以計算信賴區間. 統計考驗可檢測 () 觀察到的差異是否為隨機誤差 () 觀察到的差異是否重要 (3) 觀察到的差異是否具有公信力 (4) 實驗設計是否恰當? 3. 如果其他條件不變, 使用較嚴格的顯著水準, 則統計的考驗力 (power of test) 會如何? () 降低 () 提高 (3) 不變 (4) 不一定 4. 解釋名詞 () 統計假設 () 命題 (3) 叢集抽樣 (cluster samplig) (4) 虛無假設 (ull hypothesis) (5) 顯著水準 (sigificace level) (6) 統計考驗力 (7) oprobability samples (8) 推論統計 (iferetial statistics) (9) tests of sigificace
(0) the ull hypothesis () 中央極限定理 () 統計顯著的雙側檢定 (two-tailed test of statistical sigificace) (3) 第一類型錯誤 5. 何謂 中央極限定理 (cetral limit theorem)? 6. 有關母群體的平均數, 與其抽樣分配的平均數, 下列敘述, 何者正確? (A) 兩者理論上的概念不同, 但通常是相同的值 (B) 兩者理論上的概念相同, 但通常是不同的值 (C) 兩者理論上的概念相同, 但通常是相同的值 (D) 兩者理論上的概念不同, 但通常是不同的值 7. 適當的單側考驗 (oe-tailed test), 與雙側考驗 (two-tailed test) 比較 ( 以 t 考驗為例 ), 下列敘述何者正確? (A) 抽樣分配的標準誤較小 (B) 樣本計算出的 t 值較大 (C) 犯第二類型錯誤的概率較低 (D) 自由度較少 8. 應用 亂數表 來抽樣, 係屬 : (A) 立意抽樣 (B) 分層抽樣 (C) 隨機抽樣 (D) 叢集抽樣 9. 叢集隨機抽樣 (cluster radom samplig) 的步驟與優缺點為何? 0. 進行科學推論時, 所謂第一類型錯誤 (type oe error) 指的是 : () 對立假設含糊所造成的錯誤 () 拒絕零假設時所犯的錯誤 (3) 接受零假設時所犯的錯誤 (4) 檢查平均數差異時所犯的錯誤. 關於研究假設性質之敘述, 錯誤的選項是 : (A) 得到證實或未獲證實 (B) 是對於研究問題的暫時性預測
(C) 比問題的敘述更為特定 (D) 得到支持或未獲支持. 何謂 第一類型錯誤 (Type I Error) 與 第二類型錯誤 (Type II Error)? 又二者之間有何關係? ( 簡答題 ) 3. 其他條件相同時, 下列那一個顯著水準, 其統計考驗力 (power) 最高? ().0 ().05 (3).0 (4).00 4. 請寫出抽樣分配 (samplig distributio) 的定義 性質並舉一例說明之 (7 分 ) 5. 採用啟發式教學法與採用創造式教學的教學效果不同, 這個假設的敘述是 : (A) 虛無假設 (B) 對立假設 (C) 方向性假設 (D) 無方向性假設 6. 顯著水準 ( ) 由 0.05 增加為 0.0, 則 : () 統計考驗力將增加 () 犯第二類型錯誤的機率增加 (3) 縱使虛無假設的是假的, 接受虛無假設的機率將增加 (4) 此研究將得到拒絕虛無假設的結論 7. What are some of the importat () similarities ad () differeces betwee a frequecy distributio ad a samplig distributio? 8. 下列何種分配不受自由度 (df) 之影響? () t 分配 () 卡方分配 (3)Z 分配 (4)F 分配 9. 輔導方案研究員利用一測驗的結果決定是否執行中的輔導方案運作適當, 除非有充分的証據顯示接受輔導者的測驗結果不佳, 研究員不會做出將輔導方案結束的決定 經測驗了一羣接受該方案輔導的學生, 研究員決定繼續執行該輔導方案 ; 可是事實上, 該輔導方案不適合受輔導的學生 研究員可能犯了何種判定錯誤? (A) 型 I 誤差 (B) 型 II 誤差 (C) 該員的判斷沒有錯誤 (D) 資料不足, 無法回答
30. 當一個研究假設的對立假設 H :μ >μ, 且 α=.05 時, 如為單側考驗其拒絕區在常態分配中居於何處? 又當 H :μ μ, 且 α=.05 時, 如為雙側考驗其拒絕區在常態分配中又居於何處? 請分別以常態分配圖繪出並加清楚的標示 3. 解釋名詞 () 分數差異的標準誤 () 區間估計 (3) t 考驗 (4) 第二類型錯誤 3. 如果實際上 焦慮與學習動機有關係, 而研究者作了拒絕虛無假設的裁決時, 有可能犯了下列何種類型的錯誤? (A) 只有第一類型 (B) 只有第二類型 (C) 兩種類型都有 (D) 兩種類型都沒有 問題思考. 當顯著水準相等時, 單尾或雙尾檢定較容易拒絕虛無假設? 又, 當顯著水準不等時, 較容易拒絕虛無假設的 α 值愈大或愈小?. 其他條件不變, 增加抽樣的樣本人數, 抽樣分配的標準誤會變大或變小? 3. 樣本變小會增加或降低第一類型錯誤的機率? 為什麼? 4. 顯著水準訂的愈嚴, 對統計考驗力的影響會是如何?
第十章單一母數的區間估計與假設考驗 學習重點. 對母體平均數作區間估計時,Z 分配與 T 分配之使用時機. 假設考驗時, 考驗型態 ( 單雙尾 ) 與查表臨界值之使用 3. 母體相關係數之區間估計 利用 Fisher Z-Trasformatio 之後, 再轉換回相關係數 4. 相關係數的臨界值檢定法 5. 型 II 錯誤 β 機率之計算 6. 檢定考驗力之計算 一. 概論 描述母體特性的數值為母數 ( 或參數 ), 本章討論有關一個母數的推論統計, 包括 母體平均數 母體變異數 母體比例 與母體相關係數 二. 區間估計 (Iterval Estimatio). 意義 : 乃根據樣本資料的點估計值, 藉由其抽樣分配的性質求出兩數值, 構成一區間, 再利用該區間推估未知的母體參數範圍的統計方法. 母體平均數的區間估計 : 因為 X 的抽樣分配有兩種, 可選擇的估計方式有二 : () Z 分配 a. 使用時機 (a) 常態母體, 大樣本 ( 30) (b) 常態母體, 小樣本,σ 已知 (c) 非常態母體, 大樣本 ( 乃基於中央極限定理 ) X ± Z α σ () t 分配 a. 使用時機常態母體, 小樣本,σ 未知, 以 S 取代 σ X ± t α s
3. 母體變異數的區間估計 ( ) s ( ) χ α, χ s α 樣本變異數的抽樣分配服從卡方分配, 其為右偏分配, 由於不像之前在估計母體平均數時, 樣本平均數的抽樣分配呈對稱分配 (Z t) 般, 因此不可再以樣本統計量 ± 抽樣誤差的方式來估計母體變異數的信賴區間 4. 母體比例的區間估計 P( P) pˆ ± Z α pˆ 乃 P 的一致性估計式 ; 要估計母體比例 P, 當然是在 P 未知的情況下, 當 使用大樣本 ( 30 ), 則 pˆ 的抽樣分配近似標準常態分配, 可以在上述區間 估計的公式中代入 pˆ 以取代 P; 唯其使用條件為 ˆ p ( pˆ ) 皆大於 5 有時 候, 有人甚至以二項分配中, 成功與失敗各 0.5 的機率於此代入計算 5. 母體相關係數的區間估計 Z r ± Z α 此乃利用費雪 Z 轉換 (Fisher's 3 Z-trasformatio), 使用附表六 再轉換回 r xy 只要是異於 0 的相關係數, 其分配不會是對稱, 因此可以先藉由費雪 Z 轉換 為以 Z 分配為基礎的對稱分配, 就可以利用樣本統計量 ± 抽樣誤差的方式 來估計母體相關係數 ; 但切記在最後結論時, 必須將前述所得區間先行再轉 回相關係數的數值, 才是正確答案! 6. 結論 () 母體參數落在某一區間的機率大, 我們稱其信賴水準高 ; 而信賴區間大小與信賴水準高低, 皆會影響區間估計的準確度 () 當樣本量 增大,σ 會變小, 導致估計值會較接近母體參數, 且估計的區間較短 (3) 在求 95% 的信賴區間時, 我們更稱 95% 為信賴水準, 信賴度, 或信賴係數 (4) 在信賴區間長度相同下, 信賴水準越大, 估計結果越準確 ; 在信賴水準相同時, 信賴區間長度越短, 估計結果越準確
三. 假設考驗. μ 的假設考驗 () Z 檢定 Z X µ = σ () t 檢定 t = X s µ. σ 的假設考驗 χ = ( ) s σ 3. P 的假設考驗 Z = Pˆ P P( P) 4. ρ 的假設考驗 () 臨界值法 r 統 > r 臨界值, 考驗達顯著 () t 檢定法 t = r ρ r (3) Z 檢定法 當所要檢定的相關係數明顯大於 0 ( 實際上, 只要不為 0), 一樣使用費雪 Z 轉換如下 :
Z = Z r Z ρ 3 四. 練習題. 周生想研究 女老師的任教意願是否比較高 的問題, 試就此研究回答以下問題 : () 此問題的虛無假設是 ; () 在此研究中, 第一類型錯誤是指 ; (3) 在此研究中, 第二類型錯誤是指. 某教師利用 WAIS 量表測量 00 位該校高三學生, 得平均智商 7, 試估計該校所有高三學生的智商平均為何? (α=0.05) 3. 自某一班級中隨機抽出 4 名學生的統計學成績為 64,66,89,77, 求全班平均成績之 95% 信賴區間並說明之 4. 自全校抽取 00 名學生, 其中患近視眼者 60 名, 而該校聲稱近視之概率為 0.5, 試估計該校近視學生百分比的 95% 信賴區間 5. 某一鐘錶製造商欲了解其產品品質之差異性, 今自一批手錶中隨機抽出 0 隻, 已知其 X = 0.7, s = 0. 4, 則其所生產手錶時間變異之 95% 信賴區間為何? 又, 試在 0.05 顯著水準下, 檢定該批手錶時間變異大於 0.05 之假設 6. 某一蕃茄醬生產商在瓶裝標籤上說內容物淨重為 6 盎司, 由於政府機構檢查全國販售的所有包裝是不可能的, 因此隨機抽查 5 瓶該產品, 其平均數為 5.9, 已知所有瓶重的標準差為 0.4 盎司, 問是否有充分證據足以推論所有瓶裝的平均重量少於 6 盎司? (α=0.05)
7. 政大某位教授以同一教學模式教學多年, 他所教過的所有學生成績平均數與標準差 8 與, 今年該教授改採電腦輔助教學, 並相信會比過去班級之學習成就高, 今年班級有 36 位學生, 平均成績為 87, 試回答下列問題 : () 寫出方向性研究假設 () 以符號方式表示虛無與對立假設 (3) =.05, 試問該教授的看法是否得到支持? 8. 已知母體的 和, 在考慮某樣本某特質的平均數是否顯著時, 應查 分配表, 若樣本 N 為無限大, 且為雙尾考驗, 並定 =.05, 則臨界值為 9. 某研究者想了解父母親智力與子女智力之相關, 他抽取 0 對家庭為研究樣本, 結果得 r=.6, 試問在 =.05 下, 該研究者能不能下結論說二者之相關不是零相關? 0. 高點師院學治會在支持或反對學校某項議題前, 想知道學生對該項議題的態度再決定投贊成或反對票 當支持率超過.50 以上, 才投贊成票 學治會隨機抽取 00 位學生, 發現 60 位贊成,40 位反對 試問在 =.05 下, 學治會是否該支持該項議題?. 已知受試者 8 名, 在 X Y 兩變項之反應結果如下 : = 56 X, ( X ) = 3 = 40 X, Y, ( Y Y ) = 56, ( X )( Y Y ) = 84 X,
則 () X 與 Y 之變異數分別為何? () X 和 Y 之共變數為何? (3) X 和 Y 之相關是? (4) 若 r 的顯著性臨界值為.707, 則本題所求得的相關應解釋為何?. 張生檢定學童之自我概念與其學習之相關是否為 0, 分析結果得到兩者之積差相關係數為 0.48 假定在 α=.05 下, 相關係數顯著性臨界值為 0.35 根據上述情境, 下列敘述何者正確? () 張生採用單側檢定 () 張生須接受虛無假設 (3) 張生可能犯第一類型錯誤 (4) 張生的研究證明學童之自我概念與其學習動機有相關存在 3. 設最新統計資料顯示新生男嬰的體重平均數為 300 克, 標準差為 900 克, 而某城鎮懷疑其空氣受到化學污染, 隨機抽取 00 位男嬰得到平均體重為 3000 克, 該城鎮男嬰體重是否低於常模? 探討這個問題宜採下列哪一項考驗? () 單側 Z 考驗 () 雙側 Z 考驗 (3) 單側 t 考驗 (4) 雙側 t 考驗 4. 承上題, 男嬰體重平均數抽樣分配的標準誤為何? () 900 克 () 90 克 (3) 9 克 (4) 資料不全, 無法判斷 5. 當母群為常態分配而其變異數未知時, 下列何者不會影響信賴區間的大小? () 平均數 () 標準差 (3) 樣本人數 (4) 顯著水準 6. 用 α=0.05 的顯著水準, 以 t-test 考驗假設 H 0 :μ 75 ;H :μ>75, 其拒絕區的位置何在? () t 分配的兩邊 () t 分配的中間 (3) t 分配的左邊 (4) t 分配的右邊 7. 某位學生在魏氏兒童智力量表的離差智商是 30, 請將這項分數轉化為以下衍生分數 : Z 分數 ; 百分等級 測量標準誤為 0, 進行區間估計 ( 信賴水準為 95%) 8. 如果維持相同的顯著水準, 則隨著樣本人數的增加, 下列敘述何者正確? () 可降低第一類型錯誤的概率 () 可降低第二類型錯誤的概率 (3) 可將研究結果推論至較大的母群體 (4) 可提高變項間之相關係數
9. 同樣為百分之九十五的信賴區間估計結果, 以下哪個區間展現統計上的顯著效果 且估計較為精準? () 3.7,5.8 () -0.3,.9 (3) -7.5,-.0 (4) -.6,5.3 0. 已知某班學生在教育統計學課程的兩次考試成績的報表資料如下 : variable umber of mea stadard stadard cases deviatio error 第一次考試 0 73 9.89.906 第二次考試 0 83 5.869.856 t 考驗結果如下 : (differece) stadard stadard tail t value degrees of tail mea deviatio error corr. prob. Freedom prob. 0 0.74 3.49.4.734 0.03 -. 這兩次考試成績之間, 是否達顯著差異? -. 這兩次考試成績, 何者較優? -3. 該班參加考試的人數是多少人? -4. 該兩次考試成績差距的抽樣標準誤是多少? -5. 該兩次考試成績間的相關係數是多少?. 解釋名詞 () 標準誤 () t 考驗 (3) F 考驗. 隨機選取某地區 44 位高中學生, 經工具測得其智商之平均值是 30, 標準差是 36; 經由此資料, 以 99% 之機率確定該地區之高中學生之平均智商的範圍為何? 並寫出計算過程 3. 以下資料為五個新生兒體重的隨機樣本, 每個樣本的樣本數為 0, 平均數及標準差分別如下 :
x =6.90 x =36.80 x 3 =7.00 x 4 =06.70 x 5 =.90 s =.70 s =3.6 s 3 =.44 s 4 =4.3 s 5 =0.46 請計算第一樣本體重的 95% 信賴水準區間 (z=.4) 請問哪一個樣本的區間長度最長? 這表示這個估計較準或較不準? 4. 為使實驗的效果, 容易達到統計上的顯著差異水準, 則宜使誤差變異量 (A) 越大越好 (B) 越小越好 (C) 隨機處理 (D) 控制個別差異的因素 5. 某研究者主張兒童的閱讀能力與其數學成績之間有正相關存在, 他利用 名兒童求得兩者間的相關為 r=.47, 試問此一證據是否可以支持該研究者的認知? 試用兩種檢定法進行考驗並比較其結果 ( =0.05) 6. 從國立彰化師大選修教育學程的學生中, 隨機抽出 3 人, 發現其中有 46 人有翹課經驗 試估計該校選修教育學程學生翹課百分比之 99% 和 99.9% 水準之信賴區間 (t.0/(0) =.67;t.00/(0) =3.373) ( 註 : 未列出計算過程不予計分 ) 7. 常態分配以及 t 分配是統計檢定時常被使用的兩個重要分配, 請問這兩個分配有何不同? 並請舉出兩個例子來說明在何種情況下是使用常態分配來檢定, 何種情況下是使用 t 分配來檢定
8. 有一研究結果顯示在某大學中一個包含 00 名學生的隨機樣本內有 60 位同學戴眼鏡 試就此數據計算全國大學生戴眼鏡比率的 95% 信賴區間 (A) 60% ± 4.9% (B) 60% ± 9.8% (C) 60% ± 4% (D) 60% ±.4% (E) 因為數據不足, 故不能回答 9. 有一組資料形成的 95% 信賴區間 (95%CI) 為 76<μ<84), 請問這個信賴區間的意義 為何? 30. 該用 t 值檢定, 而採用 z 值檢定時, 會發生何種狀況 3. 請填入統計符號 題號 統計符號 中文名稱 對立假設 母群變異數之不偏估計值 3 預測 y 值 4 母群之平均數 5 第一類型錯誤之機率 6 母群之積差相關係數 7 樣本之積差相關係數 8 樣本之標準差 9 樣本之變異數 0 百分等級 3. 由某師專三年級學生中, 隨機抽取 0 人為樣本, 得其測驗成績如下, 試在 0.05 顯著水準下, 檢定全體三年級學生測統期中與期末考成績為正相關之假設 學生 A B C D E F G H I J 期中考 77 50 78 84 8 8 97 68 85 77 期末考 8 66 7 7 67 85 96 70 86 74 33. 抽取甲地 50 個家庭, 得其收入與支出之相關係數為 0.65, () 試求母體相關係數之 95% 信賴區間 () 試以 α=0.05 檢定 ρ=0.55?
(3) 試以 α=0.0 檢定 ρ=0? 34. 下列何項情況應使用 t 考驗, 而不能使用 Z 考驗 : () t 考驗用於樣本人數很大時,Z 考驗用於小樣本時 () t 考驗用於單側考驗時,Z 考驗用於雙側考驗時 (3) t 考驗用於母群的變異數未知時,Z 考驗用於母群變異數已知時 (4) t 考驗不需估計母群的變異數,Z 考驗需估計母群的變異數 35. 下列有關獨立樣本與相依樣本 t 考驗的比較, 何者是錯誤的? () 均必須根據樣本的資料, 估計母群的變異數 () 兩者通常使用前後測設計 (3) 兩種考驗母群的平均數均是未知的 (4) 兩者均需計算 t 值, 並與 t 的臨界值 (cutoff score) 比較, 以瞭解研究是否達到顯著 36. 某研究中心以電話隨機訪問了 900 名民眾, 是否同意 政府應該繼續增設碩士班 這一教育議題, 結果有 80 人表示同意 請計算本次調查同意百分比的 95% 信賴區間 ( 參考數據 :Z (.95) =.65,Z (.975) =.96,t (.95, 899) =.65,t (.975, 899) =.96) 37. 當一個獨立樣本的 t 檢定的結果顯示 t(5)=-., P>.05, 雙側考驗 時, 研究者的結論應是 : () 接受虛無假設 () 拒絕虛無假設 (3) 兩組有顯著的差異 (4) 題目所顯示的資料不足, 無法下決定 38. 一隨機樣本含有 5 組 (x,y) 值, 假設變數 X 和 Y 的樣本相關係數為 0.6, 檢定 H 0 : ρ = 0 對 H : ρ 0 的檢定統計量之值約為多少? (A ) 4.80 (B) 3.75 (C) 3.67 (D) 3.60 39. 若已知一母群的平均數為 50, 變異數為 00, 若從此母群中抽取樣本 0 人的樣本許多個, 請問樣本平均數次數分配的變異數為多少?
(A) (B) 5 (C) 0 (D) 00 問題思考. 以平均數為例, 能否說明區間估計之重要步驟並導出公式?. 母體變異數必須利用 χ 分配, 你是否了解 χ α/ 與 χ -α/ 的值何者較大? 3. 以 Fisher Z-Trasformatio 進行區間估計時, 標準誤之自由度為何成為 N-3? 4. 假使假設考驗的結果為拒絕虛無假設, 是否接受對立假設的結論不會有犯錯的可能?
第十一章兩個母數的假設考驗 學習重點. 實驗設計的種類影響檢定 ( 考驗 ) 方法之選擇 -- 獨立 / 相依樣本設計. 基本假定有二 :Normal Distributio ad Homogeeity of Variace 3. 合併 ( 共用 ) 變異數的使用與意義 4. 兩個相依樣本之母體比例差異之顯著性考驗與卡方考驗中之態度改變的顯著性考驗結論一致 一. 基本概念. 當我們把注意力放在比較新舊技術在產量上的差異, 比較兩種教學法的效果, 或兩次測驗成績有無進步等問題時, 所進行的考驗方法即為本章討論的內容. 涉及的兩種實驗設計為 : () 獨立樣本設計 = 受試者間設計 () 相依樣本設計 = 受試者內設計 3. 基本假定 : 不論樣本來自同一母體或來自 σ 相同的兩個不同的母體, 都要謹守 : () σ = σ = σ : 變異數同質性 (Homogeeity of variace) () 兩母體呈常態分配 二. 兩平均數差異的統計推論. µ µ 的區間估計 ( X X ) ± Z σ α + σ ( X X ) ± t S p ( + ) α
. µ µ 的假設考驗 ( 獨立樣本 ) () σ 與 σ 已知 X X Z σ σ + = 由 X X 的抽樣分配之期望值與變異數可知 : ) ( ) ( ) ( µ µ = = X E X E X X E ) ( ) ( ) ( X V X V X X V σ + σ = + = 因此可得 ) ( X X 的標準誤為 ) ( X X V σ + σ = () σ 與 σ 未知且 σ =σ =σ,, 皆小樣本, 以 S 取代 σ S X X t p + =, 其中 ( ) ( ) + + = S S S p (3) σ 與 σ 未知且 σ σ, 皆小樣本, S S X X t + =
+ + = ) / ( ) / ( ) / / ( s s s s df welch ( 取四捨五入 ) (3) σ 與 σ 未知, 不須知道 σ,σ 是否相等, 皆為大樣本 S S X X Z + = 3. µ µ 的假設考驗 ( 相依樣本 ) 三. 兩百分比差異的統計推論. P -P 的區間估計 ( ) ˆ ˆ ˆ ˆ ˆ ˆ q p q p Z P P + ± α. P -P 的假設考驗 ( 獨立樣本 ) ) ˆ ˆ ( P P p p E = ( ) ( ) 0 0 = + = d d X X S rs S S X X t x x x x + = ˆ ˆ ˆ ˆ pq p p Z
當檢定的假設為 0 : P P H =, 則可於上式分母的標準誤中使用 共用的比例估計式 ˆ x x p + + = 代入計算檢定統計量 3. P -P 的假設考驗 ( 相依樣本 - 重複量數 ) b a p p Z + = ˆ ˆ 四. 兩變異數差異的顯著性考驗. /σ σ 的區間估計, ; ), ; (, df df df df F s s F s s α α. /σ σ 的假設考驗 ( 獨立樣本 ) 3. /σ σ 的假設考驗 ( 相依樣本 ) 五. 兩相關係數差異的顯著性考驗. 獨立樣本 3 3 + = z z Z r r. 相依樣本 S S F = ( ) 4 = r S S S S t
t = ( r r ) ( 3)( + r ) 3 ( r r 3 r 3 + r r r ) 3 3 3 六. 練習題. 要考驗實驗組的平均數是否高於控制組的平均數, 則虛無假設應寫成, 對立假設應寫成. 某研究者提出的假設是 : 男生與女生的平均智商不相同, 虛無假設應寫為, 對立假設應寫為 3. 將 名受試者隨機分派至實驗組與控制組, 其表現摘要如下 : 實驗組 M=86 s=8 = 控制組 M=75 s=0 = 請用單側考驗 (α=0.05) 決定實驗組的表現是否優於控制組? 4. 以下乃學生期初期末的成績表現, 問兩項成績是否有顯著差異? (α=0.05) 學生 3 4 5 期初 5 8 6 7 期末 5 0 8 6 9 5. 某國三老師想知道男生或女生的數學程度較整齊, 隨機抽出 名男生和 8 名女生, 得其成績的變異數分別為 3.4 與 84.86, 問男生女生成績的分散情形是否一致? (α=0.05)
6. 5 名學童參加兩次考試的成績摘要如下, 問成績是否有明顯進步? (α=0.05) 第一次平均數 = 30 標準差 = 5 第二次平均數 = 38 標準差 = 4 r xy =0.7 7. 某國中施行智力測驗, 男生得平均數 80, 標準差 3.6, 抽樣 36 人 ; 女生得平均數 76, 標準差 4, 抽樣 00 人, 試加以分析男女在智力上的差異? ( =0.05) 8. 已知甲乙兩校六年級學生之體重均符合常態分配, 今自兩校六年級學生中各隨機抽取 0 名, 得樣本平均數與標準差分別為 34,30 與 7.,6.4, 試問 : () 兩者平均體重的差異是否達 0.05 顯著水準? () 兩者體重之變異數的差異是否達 0.05 顯著水準? (F 0.975(9,9) =4.03,t (0.05;8) =.0) 9. 在某項測謊研究中, 隨機抽出 400 位家境良好的兒童, 發現其中有 80 位有欺騙行為 ; 另隨機抽出 600 位家境貧困的兒童, 發現其中也有 80 位有欺騙行為 試問不同家境兒童的欺騙行為有無顯著差異? ( =0.05)
0. 利用隨機分派方法, 將 30 名受試者分為兩組, 分別接受閱讀推理訓練, 得以下資料 : 甲組 : N=5,M=46.,S=3.6 乙組 : N=5,M=4.6,S=.8 設以 =0.05 考驗兩組的成績有無顯著差異? () 依研究者的目的, 寫出虛無假設 : 對立假設 : () 不偏估計值 S P= (3) t 值為 (4) 若臨界值為.408, 研究者應作何結論?. 隨機抽取高一男生 5 名, 女生 49 名, 發現其智商與學業成績之積差相關係 數男生為 0.48, 女生為 0.56 問男女生智商與學業成績之積差相關係數之差異 是否達 0.05 顯著相關?. 已知去年政大教育研究所碩士班入學考試共有 3 名考生報名, 三科共同科目 : 教育研究法 ( 代號 ), 國文 ( 代號 ), 英文 ( 代號 3), 彼此之間的相關係數為 : r =0.7,r 3 =0.6,r 3 =0.8, 試問國文, 英文二者與教育研究法間之相關是否達 =0.05 顯著差異, 請考驗並說明之 3. 某研究者利用 研究者內設計 進行教學, 下面是前後測的平均數 標準差 與相關 : X = 64 s = 6. 5 X = 74 s 50 = 7. = r=.75 試以 α=0.05, 考驗 後測成績高於前測成績 的說法是否成立? 4. 有人比較甲 乙兩種教學方法的學習結果是否有差異 最後依據研究資料宣稱 : 以.05 顯著水準, 拒絕虛無假設 下列推論, 何者正確?
() 兩種教學方法的學習結果相同 () 兩種教學方法的學習結果不同 (3) 甲方法的學習結果較乙方法好 (4) 乙方法的學習結果較甲方法好 5. 請針對下列各待答問題,() 寫出問題敘述中重要變項之測量量尺 ;() 寫出研究假設 ; (3) 寫出適切的資料分析方法 (a) 學童的自我概念和學業成績間是否有相關? (b) 性別與支持之候選人間是否有相關? (c) 實驗組在創造力測驗的得分是否高於控制組? (d) 不同任教年資教師對教師評鑑的支持度是否有差異? 6. 請說明獨立樣本 t 考驗公式 : t = X X s ( N 的統計意義為何? ) + s ( N ) N + N 當中分子與分母兩部份各自 7. 雙母數平均數差異考驗統計中, 獨立樣本模式的平均數差值標準誤公式為 ( ), 自由度為 ( ); 重複測量模式的平均數差值標準誤公式為 ( ), 自由度為 ( ) 8. 某研究者以獨立 t 考驗, 考驗不同性別的學生在數學態度量表平均分數上的差異 () 說明何謂 樣本平均數差異分數的抽樣分配? 其平均數與標準誤為何? () 使用抽樣分配的目的何在? (3) 獨立 t 考驗有那些基本假定? 基本假定與研究結果間有何關聯? (4) 在那些情況下, 獨立 t 考驗對違背基本假定相當強韌 (robust)? 9. 採用獨立樣本 t 檢定時, 何以要符合同質性 (homogeeity) 的假定, 檢定同質性的方法是什麼? 0. 在進行統計檢定時, 何以檢定值在概念上被認為是效果 (effect) 與誤差 (error 之比值? 舉一統計檢定公式輔以說明
. 請寫出以下待答問題的 虛無假設 及 對立假設, 並說明適當的 統計方法 () 國小三年級學生的國語成績 (X) 與數學成績 (Y) 是否有關? () 教育學者贊成九年一貫課程的比例是否高於國小教師? (3) 北 中 南 東四個地區國小一年級學生的平均身高是否有差異? (4) 師院畢業之男性教師連續任教滿二十年的比例是否未達六成? (5) 甲乙兩國小六年級學生, 其數學成績的分散情形是否有不同?. 某一實驗設計採用受試者內設計 (withi subject desig), 檢定兩平均數之差異時, 可能適用的統計法有 : () 配對 t 考驗 (paired t test) () 獨立樣本單因子變異數分析 (oe way ANOVA) (3) 複廻歸分析 (multiple regressio aalysis) (4) 卡方分析 ( χ ) 3. 在民國 9 年 9 月, 某研究者對台北市立師範學院附設幼稚園的幼兒施測一份 學前兒童自我概念量表, 在民國 9 年 3 月又對這些幼兒施測一次, 現在研究者想瞭解幼兒在這兩次測驗中的平均數是否達顯著差異, 你認為他應該運用那種統計方法處理這些資料? () 獨立樣本的 t 考驗 (Idepedet t-test) () 相依樣本的 t 考驗 (Depedet t-test) (3) 積差相關 (Pearso Correlatio) (4) 卡方考驗 (Chi-Square Test) 4. 某教育機構發展出一套為期三個月的體能課程, 並隨機選取台北市 30 名幼兒參與本課程 教練記錄幼兒課程前 後的體能表現 ( 分數愈高表示體能愈佳 ), 並計算其差異是否達顯著水準, 計算值為.05( 分子為 後測 平均數減 前測 平均數 ) 問該課程是否能提升幼兒的體能?
() 請寫出假設考驗的完整步驟 ( 需說明本題適合以何種統計考驗數來進行分析 ; 例如 t,z, χ ) () 分別以.05 及.0 顯著水準執行考驗並解釋結果 (3) 若使用.05 及.0 兩個顯著水準所得之結論不一致, 請說明原因 5. 某學者設計了一套輔導的方案用以減低學生的困擾行為, 為了了解這套方案的效果, 這位學者在某國小中隨機抽取了兩個班級, 並隨機選取其中一班為輔導組 ( 班級人數 3 人 ) 實施輔導專案, 另一班為對照組 ( 班級人數 人 ), 不實施該項輔導專案 進行一學年的研究後, 兩個班級的學生均施以 困擾行為量表, 該學者以.0 的顯著水準進行假設考驗, 發現輔導組學生在困擾行為量的平均數顯著低於對照組, 於是歸結該項輔導專案確有減低學生困擾行為的效果 請回答下列問題 : () 本研究使用的研究方法為何? () 本研究的對立假設與虛無假設各為何? (3) 本研究應使用何種統計方法? (4) 若輔導組在困擾行為量表上的變異數為 6, 對照組為 5, 兩者間並無顯著差異, 則進行假設考驗時, 抽樣分配之標準誤為何?( 請列出計算過程 ) (5) 上題中, 其自由度為何?( 請列出計算過程 ) (6) 該項假設考驗的結果犯錯的機率為何? 6. 有位研究者想知道 : 不同性別五歲幼兒的口語表達能力是否不同? 他 / 她從 00 位五歲幼兒所獲得的樣本資料如下 : 50 名五歲女性幼兒的平均口語表達能力為 7.45,50 名五歲男性幼兒的平均口語表達能力為 6.0, 兩樣本平均數差異的標準誤為 0.7
() 請問他 / 她該如何設定虛無假設? () 若將顯著水準設為 0.05, 他 / 她該接受或拒絕虛無假設? (3) 他 / 她的研究結論應該是什麼? 7. 從兩獨立母體中, 分別抽出兩樣本 資料顯示 : 樣本數分別為 0 及 0 樣本平均數分別為 40 及 34 不偏樣本標準差分別為 8 及 6 在顯著水準 =0.05 時, 假設母體變異數相等, 檢定兩母體平均數是否相等時的檢定統計量之值約為多少? (A).96 (B).645 (C)0.83 (D)0.660 8. 兩獨立樣本, 分別抽自於兩個常態母體, 而兩組資料之樣本數 平均數 及標準差依序為 : = 0 x = 40 s = 3 = 8 x = 35 s = 5 在顯著水準 =0.05 時, 檢定兩母體變異數是否相等之臨界值約為多少? (A).96 (B). (C) 3.30 (D) 4.0 9. 兩獨立樣本, 分別抽自於兩個常態母體, 而兩組資料之樣本數 平均數 及標準差依序為 : = 0 x = 40 s = 3 = 8 x = 35 s = 5 假設兩母體變異數相等, 根據該資料計算, 兩母體平均數差異的 95% 信賴區間之上界約為多少? (A) 8. (B) 8.3 (C) 8.7 (D) 9.0 問題思考. 在進行兩平均數差異顯著性考驗之前, 應該如何確認變異數同質性之假設是否成立, 必須先進行 F 考驗 注意 F 查表值之倒數轉換方法. 面對不同的母體參數差異之假設考驗, 妳能否由題目條件清楚使用正確之檢定公式? 3. 每一次檢定, 妳能否清楚查表值 ( 考驗臨界值 ) 之自由度的數值與自由度的意義?
第十二章卡方檢定 (χ 考驗 ) 學習重點. 卡方考驗適用之資料類型為類別 ( 名義 ) 變數資料與間斷變數資料. 卡方考驗之所以被視為無母數統計方法之原因 3. 卡方考驗的四種用途分別使用次數分配與列聯表 4. 卡方值乃取 Z 分數平方而得, 因此不再呈現常態分配, 而是正偏 而當自由度愈大, 卡方分配愈接近 N.D.; 自由度愈小, 卡方分配正偏的情形愈明顯 5. 當自由度為, 亦即 列聯時,Z =χ,both true o 統計量與查表值 6. 耶氏校正之進行時機 7. 獨立性考驗達顯著性後,φ 相關 列聯相關 與 Vc 統計量之計算 一. 意義與用途. 在第十章對母體變異數作區間估計與假設考驗時, 曾經使用 χ 分配來加以探 討 而本章所介紹的 χ 考驗則最常應用於問卷調查的研究. χ 考驗主要適用於類別資料的分析與間斷變數資料 3. 進行 χ 考驗時, 只需對母體作簡單的假設, 不需知道母體參數或母體分配, 因此有人將之視為無母數統計的一種 二. χ 考驗的種類. 適合度考驗 (Test of goodess of fit) 即探討母體中的各種變量, 其觀察次數與期望次數是否相符, 以考驗該母體是否符合某一機率分配的假設. 百分比同質性考驗 (Test of homogeeity of proportios) 目的在考驗 J 個母體在 I 個反應的百分比是否一致, 即反應是否同質 3. 獨立性考驗 (Test of idepedece) 目的在考驗兩個變項是否獨立或相關, 若顯著相關則進行其關連性考驗, 以了 解兩變項之間的關聯強度與性質 4. 改變的顯著性考驗 (Test of sigificace of chage)
在考驗同一群受試者對事情或現象, 前後兩次反應 ( 態度 ) 間的差異情形是否顯 著 三. χ 分配與基礎公式. χ 乃自 Z 分數的常態分配中, 隨機抽取一個 Z 分數後加以平方, 因此 χ = Z,χ 在平方後必為正值, 且不再是常態分配. 公式 : χ ( O E ) = E 其中 O,E 分別代表觀察次數與期望次數 由 Karl Pearso 所提出 : () O 與 E 的差距越大,χ 值會越大 () χ 統 >χ 表, 則 O 與 E 的差異達顯著水準 (3) χ 考驗的結果會與 Z 考驗的結果相同 (4) 當使用列聯表, 每一個期望次數要 5 才滿足適用此一考驗之大樣本假設 ; 否則必須進行耶式校正 (Yate s Correctio) (5) 簡易公式 : χ O = E (6) 期望值求法 行和 列和 E = 總樣本 df = (I-)(J-) 四. 適合度考驗 根據屬性或處理, 將自變項分為 k 個類別或層次 H 0 : 母體符合某一機率分配 H : 母體不為某一機率分配
χ 統 >χ 表 (α; df = k-), 則拒絕 H 0,χ 統達顯著水準 五. 百分比同質性考驗 使用 I J 交叉列聯表,J 個母體的邊際人數 / 次數要固定 H 0 : p = p = = pj H : 至少 p p χ O = N > χ 表 J 行和 列和 ( α; df = ( I )( ) ) 則拒絕 H 0 當 χ 統達顯著水準, 則 J 個母體在 I 個反應選擇某一選項的百分比存在顯著差異, 可以再進行事後比較以找出哪幾組的百分比間存在顯著差異 六. 獨立性考驗 考驗的總人數事先知道 H 0 : 兩變數無關 ( 獨立 ) H : 兩變數有關 ( 不獨立 ) χ 統 >χ 表 (α; df =(I-)(J-)), 則拒絕 H 0 當兩變項非互為獨立, 可進一步進行關連性探討 () 交叉列聯, φ = χ () 3 3或 3 3以上之方形交叉, C = χ χ + (3) 不是方形交叉時,
φ V c = mi df 注意獨立性檢定與百分比同質性檢定的比較 :. 獨立性檢定 : 為事先控制總樣本人數, 是屬 oe bivariate multiomial populatio;. 百分比同質性檢定 : 事先控制邊際人數, 當有兩個母體時, 是為 two uivariate multiomial populatios 3. 二者皆屬列聯表的卡方檢定 七. 改變的顯著性考驗 H 0 : 事件前後態度無顯著性改變 H : 事件前後態度有顯著性改變 χ 統 ( A D) = 表 J A + D > χ ( α; df = ( I )( ) ) 則拒絕 H 0 八. 耶式校正 當自由度 df=, 且 E I < 5 時, 最好進行此一校正, 以獲取更正確的檢定結果 九. 練習題. 某人丟骰子 60 次, 每次的點數分配如下, 請問該骰子是否為公正骰子? 點數 3 4 5 6 (α=0.05) 次數 7 4 9 6
. 一項對各行業職員酒精中毒的研究, 調查對象與實際觀察所得資料如下, 試 檢定各行業職員酒精中毒的比例是否相同? (α=0.05) 中毒 非中毒 牧師 3 68 教育界 5 99 行政部門 67 33 商人 83 67 3. 以下為抽煙與否和得肺癌與否的列聯表, 請 () 計算抽煙且得肺癌的 ` 期望次 數 () 檢驗兩變項間的關係, 並作結論 (α=0.05) 抽煙 不抽煙 得肺癌 5 5 未得肺癌 0 0 4. 同練習題.6, 試以假設考驗重作並比較兩種考驗方法的結論是否相同? 5. 在觀賞有處罰情節的影片後, 隨機樣本 60 人被問及其贊成處罰的態度是否隨 著觀看前後而有顯著性改變? 所得答案如下, 請以適當的統計方法探討之並作 結論 (α=0.05) 觀看前 不贊成 贊成 觀 贊成 3 0 看後 不贊成 3 4
6. 李生想比較城鄉地區教師, 其對開放教育的贊同程度之差異情形, 最適合採 下列何種統計方式? () 卡方考驗 () t 考驗 (3) 變異數分析 (4) 多變項分析 7. 比較兩群體的差異時, 如果資料是間斷變數, 其正確的統計方法是 : () t-test () chi-square test (3) ANOVA (4) ANCOVA 8. 甲研究員在計算 3x5 的 列聯表時, 其自由度是多少? () 5 () (3) 0 (4) 8 9. 下列交叉表中,( ) 處是理論次數, 如何計算, 請填在 ( ) 裡, 又下表的 =5.68, 而列聯相關 C=0.57, 達 0.05 顯著水準, 則如何解釋此項結果? 低收入 高收入 大學 6 64 80 中學 ( ) 5 6 7 69 96 0. 各舉一例說明 統計法有哪四種用途?. 請簡述卡方考驗的適用時機與限制. 請說明何時 公式須作適當的校正, 又如何校正? 3. 某甲做健美先生選拔意見調查, 選取樣本 60 人, 結果同意者有 30 人, 反對者有 5 人, 無意見者有 5 人, 則此三種意見的人數是否達顯著差異? ( 0.05;=5.99; 0.05;3=7.85)
4. 某甲從我國全部的大學生當中隨機抽取 300 人, 調查他們就讀學校及其社經 地位的資料, 得到結果如右表 : 試問根據此資料, 你能下何結論? 公立 私立 高 40 0 中 00 50 低 60 30 () 就讀公立或私立大學與社經地位無關 () 就讀公立或私立大學與社經地位有關 (3) 樣本太小, 無法下任何結論 (4) 中等階級比高等階級子弟更有機會讀公立大學 5. 某大學舉辦座談會, 主題是 : 違紀應受如何處分? 在座談會前, 隨機抽取與會學生 80 人, 調查他們是否贊成違紀應受勞動服務處分, 結果有 30 人贊成,50 人反對 ; 座談會後再調查這 80 人, 贊成的有 55 人, 反對的有 5 人 ; 前後兩次均持反對意見的有 0 人 試問 : 與會學生在座談會前後之態度有無顯著改變? 6. 50 名修統計學的學生, 期初與期末分別被問及 是否喜歡統計? 其回答如下, 問此學期學生對統計學之態度是否改變? (α=0.05) 期末喜歡不喜歡 喜歡 4 期初不喜歡 9 5 7. 去年年底與今年年初台灣總統競選期間, 民意調查中經常出現所謂的 交叉分析, 如不同性別的選民, 所支持的總統候選人, 是否會有所差異呢? 請問在卡方 (χ ) 考驗的問題性質中, 這是一種 () 適合度考驗 () 同質性考驗 (3) 獨立性考驗 (4) 改變性考驗 8. 下列資料係某一研究樣本 00 人在 教育程度 與 社經地位 相關類格上之分配人數, 如擬求具 教育程度 與 社經地位 的相關, 應用何種相關為宜?
請計算之 低 中 高 教 大學以上 5 33 育程 中學 0 65 5 度 小學以下 35 3 9. 某廣告披露出 00 位消費者對 X 品牌與 Y 品牌洗衣粉洗淨程度的調查結果如下 表 : X 品牌 Y 品牌 合計 較易洗淨 56 4 80 不易洗淨 4 6 0 合 計 70 30 00 妳可否分辨出品牌和洗淨程度間之關係? 依照以上的資訊, 似乎較多的人 (56) 認為 X 品牌洗的較乾淨, 所以廣告商宣稱 X 品牌較好, 妳認為呢? 0. 請說明 χ 統計法適用於用來處理哪種類型的資料? 然 χ 統計法的定義公式只有一種, 但卻可以有不同的用途, 請舉三個例子說明 χ 統計法的多種用法. 某研究者欲了解性別與閱讀書信種類之關係, 其應採取的統計考驗為 : () t 考驗 () 變異數分析 (3) 皮爾遜相關 (4) 卡方考驗. 試說明 χ 統計法獨立性考驗與同質性考驗相同與相異之處
3. 積差相關係數與卡方考驗的目的都是在檢定兩個變項間之關係, 請問此二種統計法在應用上有何差異? 4. 下表是調查高中 高職 五專三組學生有關大學推薦甄試的意見之結果, 各組表 示贊成與反對之人數 請以 χ 統計法檢定這三組學生贊成的百分比是否相同? 如果有顯著差異, 請進行事後比較 (α=0.05,χ.95()=5.99) 高中 高職 五專 贊成 5 36 40 9 反對 3 4 67 j 46 58 54 58 p j.36.6.74 5. 若民調機構想分析不同性別的選民, 所支持的市長候選人是否有差異, 宜採用下列何種統計分析方法? () t 考驗 () 卡方考驗 (3) 簡單迴歸分析 (4) 單因子變異數分析 6. 說明 Z χ t F 四個分配之間的關係 7. 常見的 χ 考驗的用途有四 :() 考驗,() 考驗,(3) 獨立性考驗和 (4) 改變的顯著性考驗 8. 某大學教師研究大學生政黨取向, 請 00 位樣本學生票選心目中最喜愛的政黨, 獲得結果為 : 國民黨 45 票 民進黨 65 票 親民黨 55 票 台灣團結聯盟 35 票 請問各政黨受大學生喜愛的程度是否不同?
9. 某校高中學生欲對 是否贊成學生染髮 表示意見 學生自治會分別從三個年級中各隨機抽取 40 名學生回答問卷, 其中一年級贊成的有 0 人, 二年級贊成的有 30 人, 三年級贊成的有 0 人 試考驗三個年級的看法是否有差異 () 寫出虛無與對立假設 () 寫出適用的統計公式 (3) 寫出計算結果 (4) 寫出臨界值, 並寫出你的結論 (5) 是否須進行事後比較? 你打算如何做? (6) 若要求相關, 你會選用何種相關法? 30. 下列敘述中, 何項敘述是不正確的? () χ 的分配是對稱分配 () χ 與 F 分配的數值均不會小於 0 (3) 常態分配的圖形只有一個 (4) t 分配的數值可能小於 0 3. 某研究想了解家庭社經水準 ( 分為高 / 低 ) 與學生上大學與否 ( 是 / 否 ) 間之相關, 可行的統計方式為? () semi-partial correlatio () multiple correlatio (3) Phi coefficiet (4) Pearso correlatio 3. 有 60 名學生選讀心理與教育統計學課程, 在學期初及學期末分別詢問你是否喜歡 心理與教育統計學? 學生的態度反應摘要如下 : 期初 期 末 喜歡 不喜歡 喜歡 0 4
..95 () = 3.84 不喜歡 6 0 請問 : 修讀 心理與教育統計學 後能否改變對 心理與教育統計學 的態度? 33. 今年 30 總統選舉, 民意調查機構以問卷調查選民會將選票投給哪位總統候選人, 同時也調查選民是否贊同公投議題 調查所蒐集之資料以交叉分析處理, 藉以了解總統選誰與贊同公投議題與否之間的關係 請問交叉分析若以卡方 ( χ ) 考驗來解答上述所要了解的問題, 則以下何者最為接近上述考驗之性質? () 適合度考驗 () 同質性考驗 (3) 獨立性考驗 (4) 改變性考驗 34. 研究員從調查研究搜集到兩個類別變數分別是性別與上班所搭乘之主要交通工具類型 他想了解性別是否與上班所搭乘之交通工具有沒有任何關聯 他採用卡方考驗來分析所得資料 下列何者最可能是他的卡方考驗類型? (A) 適合度考驗 (B) 同質性考驗 (C) 獨立性考驗 (D) 改變的考驗 35. 在推論統計時, 卡方百分比同質性考驗之自由度是由下列何者決定? (A) 理論期望次數 (B) 樣本人數 (C) 樣本數與母群數之比 (D) 變項類別數 36. 隨機抽取大學一年級學生 00 人, 其中男生 40 人, 女生 60 人, 調查對國文 英文 心理學 與教育概論等學科的偏好, 結果如下表所示 試問大學一年級學生於不同學科的偏好是否與性別有關? ( χ = 7.8) ---------------------------------------------------------------------------------- 男生 女生 國文 8 英文 0 5 心理學 7 5 教育概論 5 8 合計 40 60 37. 在卡方適合度檢定中, 顯著水準 =0.05, 虛無假設為 4 種類別的比例是相等的 資料顯示 : 總樣本數為 00, 而某一類的觀察次數為 30 在該類的卡方統計值為
多少? (A) 50 (B) 0 (C) 8 (D) 7.8 38. 請分別說明在多個連續變數的條件下, 何謂 百分比同質性考驗 (test of homogeeity of proportios)? 何謂 獨立性考驗 (test of idepedece)? 進一步比較說明兩者的相同點與相異點, 最後各舉出一個實例來說明其各自適用時機 39. 解釋名詞 () 卡方檢定 40. 應用卡方的獨立性檢定於一具有 6 列 6 行的兩變數之列聯表, 該檢定的自由度為多少? (A) 6 (B) (C) 5 (D) 36 問題思考. Karl Pearso 提出之統計相關理論與概念有哪些?. 卡方考驗與 Z 檢定的結果是否相同? O 3. 卡方檢定之替代公式, 何時使用 χ = N? 行和 列和 4. 妳是否知道百分比同質性考驗兩變項為設計變項? 而獨立性考驗之母體變項為設計變項, 但另一為反應變項? ( A D) Pˆ Pˆ 5. Z = =, 告訴我們兩種檢定之間的相等關係 A + D a + d N
第十三章變異數分析 學習重點. F 考驗法與 t 考驗法之異同. ANOVA 實際上是針對不同平均數間之差異進行顯著性考驗, 之所以稱為變異數分析乃因分析數個變異數間之顯著差異而得 3. 不同實驗設計之 ANOVA 的公式與 ANOVA 表格製作不同 4. 關聯強度的意義 5. Two-way ANOVA 的交互作用效果與單純主要效果 6. ANOVA 的基本假設有三 一. 基本認識. 變異數分析 (Aalysis of Variace), 簡稱 ANOVA, 又稱 F 統計法, 與第十一章的 t 考驗皆可用來考驗兩個母體平均數間差異的顯著性, 但更常用來考驗三個或三個以上母體平均數間差異的顯著性. 變異數分析乃將一組資料所發生的總變異, 依可能來源分割為數個部份, 除了測量變異大小外, 並考驗各變異間是否存在顯著差異的統計方法 依自變項個數可分為 : () 一因子變異數分析 () 二因子變異數分析 (3) 多因子變異數分析 而變異數分析又可分為兩種實驗設計 : () 獨立樣本又稱為受試者間設計, 完全隨機化設計 乃將 N 個受試者隨機分派到 k 個不同組別, 分別接受 k 種實驗處理的一種實驗處理, 各組受試者間毫無關係存在 () 相依樣本又稱為受試者內設計, 隨機化區集設計 常見的三種情況為 : 重複量數, 配對組法, 同胎法 二. 一因子變異數分析 (Oe Way ANOVA). 獨立樣本
() 計算 SS SS t b = ( x x ) i j = x i j ( x ) N ( x j ) i j = = j ( x j x) j x j = k ( T ) j j ( N x ij ) SS w = ( xi x j ) = SSt SSb j () 製作 ANOVA 表 SV SS df MS F-test B W Total (3) F 考驗 H 0 : µ = µ =... = µ k H : 任兩個 µ 不等 = MS > ( α; df df ) b F F b, MS w 則拒絕 H 0, 平均數間有顯著差異存在 w (4) 當 F 考驗達顯著水準, 可進行事後比較以了解到底哪幾組平均數間存在差異 (5) 關連強度 ˆ ω = SS b SS ( k ) t + MS MS w w. 相依樣本 () 計算 SS t,ss b.subject,ss w.subject,ss b.treatmet,ss res 並製作 ANOVA 表
SS t = x i j ( x ) N i j SS b. subject = k S ( x ) N i j SS w. subject = SSt SSb. subject SS b. treatmet = ( x ) ( x ) j N i j SS = SS SS. residual w. subject b treatmet () 製作 ANOVA 表 SV SS df MS F-test B W TR E Total (3) F 考驗 F MS ( ; k, ( )( ) ) b. treatmet = > F α k MS residual 則拒絕 H 0, 平均數間存在顯著差異 三. 二因子變異數分析 (Two-factor ANOVA). 意義 : 當 A 因子有 3 個水準,B 因子有 個水準時, 以 a b 分別表示其水準個數, 則 a b 任一水準之組合即為一種處理 因此, 總共有 a b 個處理, 則 ab 可被視為在單因子研究中之因子水準數 二因子變異數分析的使用, 除了可以獲得每一因
子之主效應 (mai effect), 或稱單純主要效果, 也可以取得任何可能存在的聯合 效應 (joit effect), 或稱交互作用效果. 交互作用效果 3. 單純主要效果 4. 製作 ANOVA 表 SV SS df MS F* A B A B S/AB Total 5. 對單純主要效果與交互作用效果之檢定 6. 對是否存在交互作用效果之討論 四. 變異數分析的基本假設 若使用的資料違反以下任何一項基本假設, 則變異數分析的結果將導致錯誤的推論. 常態性 : 指樣本所來自母體在依變項的分配為常態分配, 在樣本量夠大時, 可用適合度考驗來檢查. 可加性 : 指變異來源可由幾個分割部份相加而得 3. 變異數同質性 : 指各分組變異數必須要相等, 而判斷方法有二 : () Bartlett s test () Hartley s test 五. 共變數分析. 一因子變異數分析中之實驗單位若不具同質性 (homogeeity), 則往往會使實驗誤
差增大而影響實驗之結果, 故吾人應設法控制一些變數以降低實驗誤差, 提高分 析效度 這些控制變數若為間斷型, 則可稱之為集區變數 (blockig variable), 若 為連續型, 則稱之為共變數 (covariate) () 隨機集區設計 隨機集區設計之模式如下 : Y ij = µ + α i + β j + ε ij, i =,,..., I; j =,,..., J 其中 α i = 0, β j = 0, α i 稱為處理效果,β j 稱為集區效果, 誤差項 ε ij 服從 N(0, σ ) 且為 i.i.d. 我們的目的是檢定 H 0 :α = α =... = α i = 0, 希望透過集區的控制, 可有效揭露處理效果, 故要求集區效果具顯著性, 否則即顯示該集區變數之引用失當 () 共變數分析共變數分析之模式如下 : Y ij = µ + α i + β X ij + ε ij, i =,,..., I; j =,,..., i 其中 β 代表因變數 Y 與共變數 X ( 連續型態 ) 關係的迴歸係數, 其餘符號定義與 一因子變異數分析模式相同 引進 X 的目的在於降低實驗誤差, 增進實驗之準 確度, 模式係假定因子與共變數 X 之間無交互作用存在 六. 補充 : 變異數分析 (ANOVA) 的系列常識 ( 一 ) 定義 : 又稱 F-test, 乃 t-test 之延伸 由於分析方法之過程以樣本變異數進行, 而有其名稱 實驗設計之確認乃決定使用正當方法之關鍵因素之一 ( 二 ) 基本假定 :. 常態性 : 隨機變數為常態分配 ; 當 夠大, 可以適合度考驗或將每一組樣本 ( 依處理方式 ) 繪製直方圖檢視之 如果違反, 則改採無母數方法之 Kruskal-Wallis 檢定 ( 獨立樣本或排序資料 ) 或 Friedma Test ( 區集樣本 ) 取代之. 可加性 : 變異來源分割部份可以相加
3. 變異數同質性 : σ = σ =... = σ k, 為最值得遵守之假定 判斷是否成立之方法有二 :a. Bartlett s Test b. Hartley s Test a. Bartlett s Test: k 組組內變異數之平均數 求對數 log s k k 乘以 k 倍 : k log k log s k - k s k k log s k s k k = Diff χ =.306(-)(Diff) χ ( α : k ) k + C= + 3k( ) χ 校 > χ 表 ( : k ) > 計算校正值 C, 與校正後之 χ 值 χ, χ 校 = C max s j b. Hartley s Test: F max = > F ( α ; k, ) mi s α 拒絕 H 0 : σ = σ =... = σ k j 拒絕 H 0 : σ = σ =... = σ k ( 三 ) 資料轉換 若違反基本假定之一或兩個以上時, 可以先進行資料轉換改善之, 再進行 ANOVA. 平方根 : 當組內 s x j j 之比值大致相等 (=) 時,X = j X 結果可以使 s 接近, 但 x 大小地位之特性不變 j. 對數 : 當 x j 與 s j 之比值大致接近,X =log 0 X 3. 倒數 : 當 x j 與 s j 大致呈某種比例時,X = X * 切記 : 要以轉換前之資料解釋結果
( 四 ) F-test 達顯著後之處理 :. 可以求關連強度 : ˆ ω SSb ( k ) MS = SS + MS. 事後比較 ( 非正交比較 ): t a. Tukey 之 HSD 法 ( 即, 公正顯著差異法 ) ψ ˆ ( HSD) = q( α ; k, N k ) w MS k 利用上式, 對處理方式之平均數計算 C w w 對差值之計算, 再將所得差值與上 式數值比較 x j x j ' >HSD 值, 則兩平均數差異達顯著 b. Newma-Keuls method (N-K 法 ) c. Scheff e 法 (S 法 ) ' ' ( c x + c x ) j j j j F = > F' = ( k ) F ( α ; k, N k), 則兩平均數差異達顯著 ' cj cj MS + w j j ' d. HSD 法 : q ( α ; r, N k + ) MS res 至於 S 法則只要改公式符號 註 :() a.b.c. 法適用於獨立樣本 ; 而 d. 法適用於相依樣本 () a.b. 法適用於各組人數相同, 以及比較一對 x j 之差異時 ;c. 法適用於 各組人數不等, 或每次兩個以上 x 之差異的比較時 (3) 當只比較一對平均數之差異時, 使用 HSD 法較佳 ( 因為 S 法之檢定力較 HSD 法低 ) (4) N-K 法較 HSD 法容易得到差異顯著性之結論 ( 因為自由度較小, 所得臨界值較小 ) j ( 五 ) 事前比較在 ANOVA F-test 之前, 就選定好要比較哪幾對特定之平均數的差異. Fisher 之 LSD 法 ( 即, 最小顯著差異法 ) ( 正交比較 ) x j x j > LSD = t( ; ) + ' α N k MS w, 則差異達顯著 j j'. Duett td 考驗法 ( 非正交比較 ) 3. Du s 多重比較法, 又稱 Boferroi t 考驗 ( 非正交比較 )
x j x j ' t =, MS + w j j' t α m; N k, t α m; N k 落入拒絕域, 差異達顯著 4. 聯合信賴區間 ( x j x j' ) ± t α m; N k MS w j + j ', 所得區間不包含 0, 則差異達顯著 ( 六 ) 其他重要觀念. t-test 可否取代 F-test? 不可以! 理由是 :() 增加冗長多餘之計算工作 () 增加型 I 錯誤之機率. F-test 可否取代 t-test? 不一定!F-test 只能用以檢定 µ = µ ; 若是檢定 µ > µ 或 µ < µ, 則一定要進行 t-test 3. F-test 恆為單尾檢定 4. 當 k=, F 5. 統 = t統 SS s p = MS w = df w = ( s x x p + ), 且 F = ( t表 ), 尤其是當 σ = 時 表 σ ( 七 ) 二因子變異數分析係一因子變異數分析之延伸, 此時同時考慮二個因子 A B 對 因變數 Y 的影響, 一般分析模式為交叉設計 (crossed desigs) 模式, 型式如下 : Y ij k = ij + ε ijk (the meas model) = + α i + β j + (α β) ij + ε ijk (the effects model), i =,,..., I (Factor A 之 levels 的個數 ),j =,,..., J (Factor B 之 levels 的個數 ),k =,,..., ij, ij 與 ij 分別表第 ij 個組合 (cell, 可視為一母體 ) 的平均數與樣本數,α i 為 Factor A 之主效果, β j 為 Factor B 之主效果,(α β) ij 為 Factor A 與 Factor B 之交互作用效果,ε ijk 為誤差項, 係 i.i.d. N(0, σ ) 當 ij 皆相等時, 稱為平衡 (balaced) 模式, 否則為非平衡 (ubalaced) 模式 ; 通常待檢定之基本虛無假設為
H 0 :. =. =... = I. ( 無 Factor A 主效果 ) H 0 :. =. =... =. J ( 無 Factor B 主效果 ) H 03 : j, j+ = j, j+ =... = Ij I, j+, j =,,..., J ; ( 無 A*B 交互作用效果 ) 無論是平衡或非平衡模式, 當交互作用不顯著 ( 即接受 H 03 ) 時, 我們接著觀察 Factor A 及 Factor B 主效果 ( 示於 H 0 及 H 0 ) 的檢定結果, 然後針對主效果顯著的因子, 進行事後比較分析 ; 然而, 當交互作用顯著時, 顯示 Factor A 對因變數 Y 的影響, 會受到 Factor B 的牽動, 而 Factor B 對因變數 Y 的影響, 會受到 Factor A 的牽動, 此時 H 0 及 H 0 所列示的主效果已無法符合我們的需求, 進一步的作法應固定 Factor A 之各 level, 進行 Factor B 之 oe-factor ANOVA; 另固定 Factor B 之各 level, 進行 Factor A 之 oe-factor ANOVA 七. 練習題. 某研究想了解四種教學方法對國小六年級學生自然科成績的影響, 乃以隨機分 派方式將 0 名學生分配到四種教學情境中, 一年後得成績如下, 問不同教學方 法的效果是否有所不同? (α=0.05) 並請製作 ANOVA 表 演講 自學 啟發 編序 4 5 9 7 3 7 8 9 5 4 9 5 7 6 6 8 6 5 8 7. 某研究者想知道漢字的兩種書寫方式在速度上是否有所差異, 已知數據如下, 請以 t 考驗與 F 考驗分別檢定之, 並比較其結果 (α=0.05) 平均字數直寫 4 0 7 3 0 9 0 8 橫寫 8 7 9 5 0 7 9 0
3. 試求練習題 的關連強度並解釋之 4. 八名受試者先後參加對四種色調光線的反應時間實驗, 得其結果數據如下, 試 問他們對不同光線的反應時間是否有顯著不同? (α=0.0) 受試者 紅 黃 綠 藍 總和 A 3 3 4 5 5 B 6 5 6 6 3 C 3 3 3 D 3 4 4 7 8 E 3 4 0 F 3 3 4 G 6 H 3 3 4 5. 某研究者探討啟仁 啟明 啟智和啟聰共四類教師 40 位, 在工作壓力上是否有不同, 請回答下列問題 : () 請依該研究者的目的, 寫出虛無假設 :, 對立假設 : () 請將下列變異數分析摘要表有關之資料填上 : 變異來源 離均差平方和 自由度 均方 F 組間 ( 類別 ) 66.80 組內 ( 誤差 ) 9835.80 84.05 (3) 若臨界值為.60 時, 該研究者應拒絕或接受虛無假設? 6. 解譯名詞 () 變異數同質性假定 () 變異數分析 7. 某一資料分析者, 為探討國小四 五 六年級學生之出席率是否有所差異, 而進行單因子變異數分析, 結果如下表, 則 :
變異來源 SS DF MS F 組間組內全體 70 80 3 () 請在 填入正確數字, 以代為完成變異數分析摘要表 () 若 α 定在 0.05, 則本題的 F 顯著水準的臨界值應為 3.48, 請問根據變異數分析 摘要表中的 F 值應作何推論? 有何意義? 8. () 變異數分析之基本假設為何? () 試列舉變異數同質性考驗的方法? (3) 當變異數分析基本假定經考驗不合時, 應考慮採用那幾種資料之轉換? (4) 若經各種資料轉換均不合時, 則應採用何種統計分析方法? (5) 何謂變異數分析之關聯強度 (Stregth of Associatio)? 9. 試利用右表和表中資料, 進行變異數分析, 填好變異數分析摘要表 第一組 第二組 第三組 ΣX ΣX X 48 394 8.0 6 33 35 6.6 5 6 70 4.0 4 7 9 8 6 8 0 4 8 5 7 9 5 4 5 變異數分析摘要表 變異來源 SS df MS F 組間組內 總和 F (0.95:,) =3.89
0. 茲由都市 城鎮 鄉村國中生中各隨機抽取若干名學生參加體能測驗, 設得下列數據, 試據此作一變異數分析摘要表, 但不必作假設檢定 都市樣本.,0.9,.3,.9 城鎮樣本 3.6,3.,.7,.7 鄉村樣本 3.6,.9,3.5. 下列哪些是雙因子 two-wayanova 勝於單因子設計的優點 ( 可複選 ): () F-test 的分母會增大 () 結果的普遍推衍性會增強 (3) 變項之間的交互作用會被發現 (4) 統計檢定力會提高. 變異數分析使用二因子, 比使用單因子多了下列哪些優點? 甲 可多探討一項主要效果 ; 乙 可探討交互作用效果 ; 丙 可探討兩個因子之間的關係 ; 丁 可探討因果關係 () 甲 乙 () 丙 丁 (3) 甲 丙 (4) 乙 丁 3. 將 48 位受試者隨機分派至三種不同的實驗處理, 以單因子變異數分析, 算出其 SSb=30,SSw=70, 則 F 值是多少? () 0. ().78 (3).50 (4) 9.00 4. 下表為一變異數分析摘要表, 請根據該表回答下列問題 : SV SS df MS F* A 3449.06 74.53 07.34 B 47. 47. 6.58 A B 0.38 0.9 6.86 S/AB 48.00 30 6.07 () A 與 B 兩因子的水準 (level) 各為多少? () 該項分析的細格人數為何? 總人數有多少? (3) 請說明該項分析的結果及其代表的意義?(F.99(,30)=7.56,F.99(,30)=5.39) (4) 應如何進行後續的統計分析?
5. 下表為獨立樣本二因子變異數分析與其依變項的平均數表, 自變項分別為 A 與 B, 各自都有, 兩個水準 請根據表中的數據, 解釋變異數分析的結果 表. 獨立樣本二因子變異數分析摘要表 來源 SS df MS F A B A*B 93.05.5 75.65 93.05.5 75.65 5.08*.5 340.98* Error 9.00 36.808 *P<.05 表. 依變項的平均數表 A B 平均數 人數 標準差 3.80 8.70 0 0.789.949 小計 6.5 0.653.0 6.50 0 0.994.849 小計 9.30 0 3.00 小計 7.95 7.60 0 0 4.346.49 合計 7.78 40 3.98 6. Complete the missig etries i the summary table for a oe-way repeated measure havig 4 idepedet variable ad =7: () Source SS df MS F Treatmet 3.8 Subjects Error 6.43 Total 0. () What is your coclusio based o the complete summary table above?(usig a alpha level of.05)
7. 在 ANOVA 過程中, 如果在 k 個實驗處理組中包括一組控制組, 則事後比較最適宜採用那一種方法? () 薛費法 (Scheffe method) () 鄧恩法 (Du method) (3) 杜基法 (Tukey method) (4) 鄧奈特法 (Duet method) 8. 某研究者利用圖片故事和文字故事兩種教材, 給同年級不同理解能力的學生閱讀, 一週後舉行測驗, 其成績整理如下表 () 請填寫完成該摘要表 () 請檢定兩種教材之間是否有差異, 並解釋之 (3) 不同理解能力的學生其成績是否有差異, 並解釋之 (4) 兩種教材與理解能力是否有交互作用, 並解釋之 二因子變異數分析摘要表 變異來源 SS 自由度 (df) 均方 (MS) F 組間 508 5 理解能力 40.4 (4) (8) 教材方式 5. (5) (9) 交互作用 () (3) (6) (0) 組內 誤差 () 4 (7) 全體 638.8 9 9. 試根據底下變異數分析表 (Aalysis of Variace), 進行研究推論 :( 提示 : 我們可 以從這樣的表看到什麼?) A 組 B 組 C 組 D 組 ( 樣本數 ) 7 7 6 6 M( 平均數 ) 0. 4.9.38.35 SD( 標準差 ) 7.68 6.78 6.06 4. 來源 df SS MS F p ( 平方和 ) ( 均方和 )
組間 3 60.06 40.0 0.08 0.00 組內 0 449.9 4.66 合計 05 5509.35 0. 請繪一個二因子的變異數分析表 (Table of two-way aalysis of variace). 試自行繪製一個變異數分析表 (aalysis of variace), 並說明此一變異數分析的結果. 有 位受試者, 都先後接受三種不同的實驗處理, 以單因子變異數分析, 算出 其 SS 350, SS. = 50, SS. = 0, 則 F 值是多少? total = b treatmet w subjects (A) 5.00 (B) 6.5 (C) 7.4 (D). 3. 如果一項研究的兩自變項都有主要效果, 下列有關其交互作用的敘述, 何者正確? (A) 很可能有交互作用 (B) 很可能沒有交互作用 (C) 不可能有交互作用 (D) 不能判斷有無交互作用 4. 比較雙因子變異數分析及單因子共變數分析相同及相異之處 接著請以實例方
式, 先列舉出各變項, 再說明運用此二種不同統計分析時所分別代表的意義及其解釋 5. 一變異數分析摘要表 (ANOVA table) 如下 : 變異來源 (Source) 平方和 (SS) 自由度 (df) 均方 (MS) F 組間 4.5 ()? () 組內? 84? 總和 384.090 846 () 請依該 ANOVA 摘要表, 選取以下數據中最接近 () 之值的答案 (A) (B) (C) 3 (D) 4 (E) 5 () 請依該 ANOVA 摘要表, 推斷該因子 (factor) 有幾個水準 (level)? (A) (B) (C) 3 (D) 4 (E) 5 (3) 請依該 ANOVA 摘要表, 請問最接近 () 之值為何? (A) 4.3403 (B) 5.3 (C) 4.08 (D) 7.00 (E) 7.73 (4) 請問若欲檢查該 ANOVA 分析之正確性 ; 相對之下, 其資料最不需要符合以下何種假設? (A) 個別資料間的同質性 (homogeeity) (B) 各組的變異數 (variace) 大小相近 (C) 殘差的常態性 (ormality) (D) 個別資料間的獨立性 (idepedece) (E) 殘差的隨機性 (radomess) (5) 若僅依該 ANOVA 摘要表, 推測以下何者之正確率較高? (A) 組間不顯著差異 (o-sigificace) (B) 組內不顯著差異 (o-sigificace) (C) 組間效果量 (effect-size) 小 ( < 0.) (D) 組內效果量 (effect-size) 小 ( < 0.) (E) 組內隨機性 (radomess) 6. 下列有關 t 考驗與變異數分析 (ANOVA) 的比較, 何者正確? () 獨立樣本變異數分析通常用來比較兩組平均數的差異, 而獨立樣本 t 考驗通常用來比較兩組以上平均數的差異 () 獨立樣本變異數分析用於作事前比較, 而獨立樣本 t 考驗用於作事後比較 (3) 實施獨立樣本變異數分析需計算變異數, 而實施獨立樣本 t 考驗無需計算變異數
(4) 可以使用獨立樣本 t 考驗的情境, 就可以使用獨立樣本變異數分析 7. 實施變異數分析時, 若拒絕虛無假設 (ull hypothesis) 時, 下列何項敘述是正確的? () F 值會大於 F 的臨界值 () 此時可能犯第二類型錯誤 (3) 組內變異數會大於組間的變異數 (4) 組間的變異主要來自隨機抽樣的誤差 8. 研究背景 : 某一教育學者欲進行有關學習方法的實驗研究 他打算從母群體中隨機抽取 名樣本當受試者, 並且分成三組, 進行 概念圖學習法 ( 第一組 ) 心像學習法 ( 第二組 ) 和 記憶術學習法 ( 第三組 ) 等三種學習方法的成效實驗研究 已知, 他最後獲得如下列表 的簡要數據, 請你或妳幫他完成這份統計分析的工作, 並回答下列待答的問題 X = X = 第一組第二組第三組 48 5 60 600 70 936 F. 95(,9) = 4.6 X = 60 X = 56 X j = N j = 3 5 X = 3. 33 4 4 4 N = 6 待答問題 : () 請問 : 該教育學者該如何將這 名受試者分成三組? () 請問 : 該教育學者該使用何種統計方法來進行分析較適合? (3) 請問 : 該教育學者的分析結果該如何摘要表示出來? (4) 請問 : 該教育學者最後可能獲得什麼結論? 9. 下列有關 t 考驗與變異數分析 (ANOVA) 的比較, 何者錯誤? () 獨立樣本 t 考驗通常用來比較兩組的平均數差異, 而獨立樣本變異數分析通常用來比較兩組以上的平均數差異 () 獨立樣本 t 考驗的 t 值與獨立樣本變異數分析的 F 值具有下列的關係 : t (dfw) =F (,dfw) (3) 實施獨立樣本 t 考驗與獨立樣本變異數分析都需要計算變異數
(4) 可以使用獨立樣本 t 考驗的情境, 就可以使用獨立樣本變異數分析 30. 統計報表分析 研究者對國小六年級學生實施學業成就測驗 ( 含國語及數學兩科, 滿分 00 分 ), 並調查學生之家庭社會經濟地位 ( 簡稱社經地位 ), 經分析後得到以下的 SPSS 報 表 請問 : 一 該研究者進行何種統計分析? 待答問題可能是什麼? 二 不同社經地位間, 學業成就的變異數是否相等? 如何得知? 三 不同社經地位間, 學業成就的平均數是否相等? 如何得知? 四 由統計分析中, 可得到哪些發現? 報表一 : 描述性統計量 學業成就 社經地位 個數 平均數 標準差 標準誤 最小值 最大值 低 440.865 3.6376.5559.0 89 中 58 4.07 3.878.4008 9.0 88 高 43 4.66 7.7744.3504 8.0 96 總和 39 5.863 33.3548.8943 8.0 96 報表二 : 變異數同質性檢定 學業成就 Levee 統計量 分子自由度 分母自由度 顯著性 7.5 388.00 報表三 :ANOVA 學業成就平方和 自由度 平均平方和 F 檢定 顯著性 組間 0767.50 03633.755 07.43.000 組內 33969.038 388 964.89 總和 546436.547 390 報表四 : 多重比較依變數 : 學業成就 Scheffé 法 (I) 社經地位 (J) 社經地位平均差異 (I-J) 標準誤顯著性
中 -.07*.0050.000 低高 -30.7960*.5.000 低.07*.0050.000 中高 -8.5888*.069.000 低 30.7960*.5.000 高中 8.5888*.069.000 * 在.05 的水準上的平均差異很顯著 3. 當進行變異數分析 (ANOVA) 後, 在何種狀況下須作事後考驗 (Post Hoc Test)? () 當虛無假設被拒絕時 () 當有兩組以上的實驗處理 (3) 當虛無假設被拒絕且有兩組以上的實驗處理 (4) 不管什麼狀況, 進行變異數分析 (ANOVA) 考驗後, 都要作事後考驗 3. 二因子變異數分析 (Two-Way ANOVA) 會有 () 一個 F 值 () 二個 F 值 (3) 三個 F 值 (4) 四個 F 值 33. 在二因子混合設計變異數分析中, 若相依樣本自變項 A 有 個處理水準, 獨立樣本自變項 B 有 3 個處理水準, 則在等組條件下, 若每一實驗處理樣本數為 6 名, 則應抽取幾名樣本? (A) 6 (B) (C) 8 (D) 30 34. 在一個實驗設計中, A 因子有兩個水準 (level), B 因子有三個水準, 每個實驗處理的單元有五個受試者 (=5), 請問誤差變異來源 (w.cell) 的自由度是多少? a. 30 b. 9 c. 4 d. 8 35. 二因子變異數分析的 A 因子的 F 值的自由度是 df=,5. 根據這些資料, 請問 A 因子有幾個水準? a. b. 3 c. 4
d. 5 36. 下面那一個部份不在二因子變異數分析的計算之中? a. MS A b. MS AxB c. MS betwee treatmet d. MS w.cell 37. 完全隨機化設計的變異數分析的檢定中, 若組間的自由度及離均差平方和分別為 4 及, 而組內的自由度和離均差平方和分別為 30 及, 則檢定統計量之值應為多少? (A) 0.33 (B) 7.5 (C) 0.8 (D).5 38. t 檢定與變異數分析有何相同與相異處? 請說明之 (9%) 39. 解釋名詞 () 事前比較 vs. 事後比較 () homogeeity of variace (3) covariace 40. ( ) 變異數分析中, 若虛無假設 (Ho) 為真, 理論上 F 觀察值會趨近於.0 4. Which of the followig post-hoc aalysis is most appropriate for pairwise comparisos ivolvig a sigle group? A. Fisher s LSD B. Tukey HSD C. Scheffé s test D. Duett s test 4. 以下何者不是變異數分析的基本假定? (A) 依變項呈常態分配 (B) 總離均差平方和等於各變異數來源之加總 (C) 各組的人數是相同的 (D) 各組的變異數是相同的 43. 在變異數分析中 F 值是組間均方 (MSb) 與組內均方 (MSw) 的 (A) 總和 (MSb) + (MSw) (B) 乘積 (MSb) (MSw) (C) 商數 (MSb) / (MSw) (D) 以上皆非
44. 下列有關兩個母數 t 檢定與單因子變異數分析之描述何者正確? (A) 二者皆有各組變異數同質性的假設 (B) 二者皆有各組母群呈常態分配的假設 (C) 當組數只有兩組時, 以 F 檢定的考驗統計數為 t 檢定之平方倍 (D) 以上皆是 45. 承上題, 在組數大於兩組時, 須用變異數分析法而非數個 t 檢定來決定各組平均數是否有差異存在, 主要原因是考量到下列何因素? (A) 第一類型錯誤變大 (B) 第二類型錯誤變大 (C) 樣本數太小 (D) 要跑太多 t 檢定實在是麻煩 46. 在一檢定三組樣本是否抽自於同一個分配的問題中, 研究者欲合理使用單因子變異數分析來考驗該問題, 下列那一個條件不一定需要滿足? (A) 三組母體的變異數要相等 (B) 三組樣本是隨機且獨立的被抽取 (C) 三組樣本的樣本數要相等 (D) 三組母體分配是常態分配 47. 採用二因子變異數分析時, 常會出現因子間的 交互作用 現象 請舉一實例說明此現象之意義及其統計結果的解釋方法 問題思考. 妳是否了解關聯強度與決定係數之相對意義?. 兩個母體平均數差異之顯著性檢定與 ANOVA 共有之假定為哪兩項? 3. 統計方法中, 就妳所學, 哪些可以將變異來源分割或拆解為數個部分?