99 年公務人員高等考試三級考試試題類科 : 教育行政 技職教育行政科目 : 教育測驗與統計 一 請回答下列有關直線迴歸的問題 : 在簡單直線迴歸中, 一旦標準化後, 請問其常數是否存在? 請說明之 在簡單直線迴歸中, 若標準化迴歸係數為 β, 原始迴歸係數為 b, 而預測變項與效標變項相關係數為 r, 請問以上三係數或兩係數間有關係存在嗎? 請說明之 其中 為 變項的標準差,y 為 變項的標準差 承上題, 請說明該如何了解預測變項對效標變項的解釋力 擬答 : 簡單直線迴歸中標準化後, 常數因為標準化後已經不具備單位, 因此其常數不見了 Ŷ a b b b ˆ ˆ r r. Z ˆ r. Z [ 截距 ( 常數 )a 不見了 ] 簡單直線迴歸中 r 稱為 標準分數迴歸係數, 由於標準化結果 係數具有與相關係數相似性質, 其值介於 -1 與 1 之間, 當絕對值越大時表該變項的預測力越強, 而正負號代表 與 變項關係方向 迴歸係數 b 表示迴歸方程式預測方向性, 如值為正值表示自變項對依變項影響為同方向, 反之則相反 ; 迴歸係數帶有單位非標準化統計量, 可以反應自變項對依變項影響的數量, 但由於單位差異無法進行相對比較 b r, 亦即 b 與 r 兩者同號且正比, 當 與 兩者不變條件下,b 值越大則 r 值 越大, 表示預測變異百分比越大 使用決定係數 (Coefficient of Determination) 以 r 表示, 表效標變項 中之總變異百分比有多少可由預測變項 來解釋到的變異量百分比, 或由 變項預測 變項預測正確部分 ; 亦即表示 變項被自變項所削減的誤差百分比 (Proportioned reduction in error; PRE) 因此在總離均差平方和中, 迴歸離均差平方和占其多少百分比, 便為判斷預測效果大小重要指標 :r reg 預測正確部分 平均數預測 變項的誤差 t 二 實驗一 : 某研究者想了解三種對國中生數學科成績的影響, 以隨機分派的方式將學 生分 派到教師中心 學生中心 團體教學等三組教學情境 每組 5 人共 15 人 這些國中 生參加一年後, 數學科成績如表 1 所示 : 表 1: 實驗一 教師中心 學生中心 團體教學 4.00 5.00 9.00.00 7.00 8.00 5.00 4.00 9.00 7.00 6.00 6.00 6.00 5.00 8.00 實驗二 : 與實驗一非常相似, 唯其在學生分派上有所不同 某研究者想了解三種對國中生數學科成績的影響, 此實驗為節省人力, 故只用五名 學生, 而每位學生必須經歷三種 ( 教師中心 學生中心 團體教學 ) 這些國中生參 加一年後, 數學科成績如表 所示 : 共 5 頁第 1 頁
表 : 實驗二 學生 教師中心 學生中心 團體教學 A 4.00 5.00 9.00 B.00 7.00 8.00 C 5.00 4.00 9.00 D 7.00 6.00 6.00 E 6.00 5.00 8.00 問題 : 請問實驗一與實驗二各為何種實驗設計? 分別羅列實驗一與實驗二的研究假設 請分別羅列實驗一與實驗二的變異數摘要表 請寫出變異來源 自由度, 並以代號方式表 示各離均差平方和, 以此計算均方和 F 值 變異來源 離均差平方和 自由度 均方 F 請問實驗一和實驗二何者較容易得到 F 值的顯著, 或是兩者並無差異, 為什麼? 擬答 : 實驗一為完全隨機化設計 ( 受試者間設計 )--- 單因子獨立樣本變異數分析 ; 實驗二為隨機化區組設計 ( 受試者內設計 )--- 單因子相依樣本變異數分析 實驗一的研究假設 : 國中生不同對數學科成績有顯著影響. 實驗二的研究假設 : 國中生重複接受不同對數學科成績有顯著影響. 實驗一 教師中心 學生中心 團體教學 4.00 5.00 9.00.00 7.00 8.00 5.00 4.00 9.00 7.00 6.00 6.00 6.00 5.00 8.00 5 5. 4 8 6. 1 H0: 1 H1: i: 不全等 計算 : t n. k t 4 6 8 (4 6 8 )- 5 t 9 61-47.7 15 6. 55 b n ( ) 5 5 6.1 5.4 6.1 8 6.1 =t b=47.7 6.55=1.1998 變異來源 離均差平方和 自由度 均方 F b 6.55 1.668 7.5094 1.1998 1 1.7667 t 47.7 14 共 5 頁第 頁
. 實驗二 學生 教師中心 學生中心 團體教學 i A 4.00 5.00 9.00 6 B.00 7.00 8.00 6 C 5.00 4.00 9.00 6 D 7.00 6.00 6.00 6. E 6.00 5.00 8.00 6. 5 5.4 8 6.1 H0: 1 H1: i 不全等 計算 : t= n. k t 4 6 8 9 =(4 6 8 )- =61-47.7 5 15 b.subects n ( ) [ 6 6.1 6 6.1 6 6.1 6. 6.1 6. 6.1 ]. 999.subects t -b.subects =47.7.999 47.4 n ( ) b.treatments i i 55 6.1 5.4 6.1 8 6.1 6. 55 residual.subects b.treatments 47.4-6.55 0.7999 編製變異數分析表 : 變異來源 df 均方 F 值 受試者間 b.subects.999 4 受試者內.subects 47. 4 10 處理效果 6.5 1.66 1.668 b.treatments F= =5.108 5 8.5999 殘 差 residual 0.799 9 8.5999 全 體 t 47.7 14 在相依樣本中 ( 實驗二 ), 真正誤差為扣除為受試間個別差異造成變異所剩殘差, 其數值 比獨立樣本的組內誤差 () 數值小, 因此在進行 F 考驗時, 由於分母殘差值較小, 相依 樣本比獨立樣本 ( 實驗一 ) 更易達到顯著水準 三 請將下列各小題, 就選目性質 鑑別指數及難度指數說明試題分析, 並決定每一小題是否應修正 刪除或採用? 組別選目鑑別難度 A* B C D 未答指數指數高分組 16 0 0 4 0 0.10 0.65 低分組 1 0 6 0 共 5 頁第 頁
A B C* D 未答 指數 指數 高分組 7 0 10 0 低分組 4 7 7 0 0.9 0.5 A B* C D 未答 指數 指數 高分組 4 6 5 5 0 低分組 5 5 4 6 0 0.07 0.5 A B* C D 未答 指數 指數 高分組 0 10 10 0 0 低分組 4 6 6 4 0 0.5 0.4 擬答 : 選目性質 :B 選項無誘答作用, 因為高分組與低分組均無人作答 ;D 選項高分組選錯人數 高於低分組選錯人數表無誘答力 ( 吸引高分組學生作答 可能題目不清 爭議答案 作 答粗心 );C 選項低分組有多人作答, 但高分組無人選填, 此選項有誘答作用 鑑別指數 : 美國測驗專家 Ebel 在 1979 年提出一套評鑑標準, 當 D 值在 0. 以下顯示此 題劣 必須加以淘汰 難度指數 P=.65 說明此題題目較易 選目性質 :A 與 C 選項高分組選錯人數均高於低分組選錯人數表無誘答力 ;B 選項低分組 有多人作答, 但高分組無人選填, 此選項有誘答作用 鑑別指數 : 美國測驗專家 Ebel 在 1979 年提出一套評鑑標準, 當 D 值在 0.~0.9 顯示 此題尚可, 通常須修改 難度指數 P=.5 說明此題題目難易適中 選目性質 :A B C 選項高分組選錯人數均低於低分組選錯人數表有誘答力 鑑別指數 : 美國測驗專家 Ebel 在 1979 年提出一套評鑑標準, 當 D 值在 0. 以下顯示此 題劣 必須加以淘汰 難度指數 P=.5 說明此題題目難度較高題目較難 選目性質 : 選項 A 與 D 其高分組答錯人數均低於低分組答錯人數顯示具有誘答力, 而 C 選項其高分組答錯人數高於低分組答錯人數顯示無誘答力 鑑別指數美國測驗專家 Ebel 在 1979 年提出一套評鑑標準, 當 D=.5 顯示此題優良, 可 能須修改 難度指數 P=.4 說明此題難度適中稍難 四 請解釋下列有關的測驗名詞 : 反應心向 (response set) 構念效度 (construct validity) 決策效度 (validity of decisions) 測量標準誤 (standard error of measurement) 量尺分數的等化 (equating) 擬答 : 共 5 頁第 4 頁
依照某種習慣性的反應型態, 對測驗試題作一致性傾向的反應行為, 相同題目以不同方式出現 ; 葛樹人 ( 民 88) 提出反應心向為受測者有意識或無意識地變更其在測驗反應, 而塑造出一種他或她內心中所希望呈現形象, 可以採用強迫選擇式的題目減少反應心向作用 例如 : 猜測 重速度 輕正確 重正確 輕速度均為反應心向類型 ; 反應心向類型包括 : 猶豫性 隨機反應性 默從性 社會期許 指測驗能測量理論的概念或特質的程度, 換言之, 指測驗分數能夠依據某種心理學的理論構念加以解釋的程度, 凡用心理學的概念來分析測驗分數的意義皆為建構效度 ( 郭生玉, 民 95) 學者 Loevinger 在 1957 年便提倡建構效度為效度全部內涵, 因為預測效度 同時效度及內容效度本質上都在測驗建構前就存在, 其性質較不符合科學探究精神, 如從科學觀點具有建構效度是完整效度 測量工具之效度檢驗, 通常可分為兩方面, 即測量效度 ( 測量個人的某種屬性 ) 與決策效度 決策效度即預測未來結果並作出個人有關的決策, 一般分為人員甄選時決策效度, 分析基準率 選擇比率 命中率與增進效度, 另一為診斷工具的研究決策效度, 結果常以兩種方式呈現 :1. 檢驗或檢查的準確度, 包括敏感度 特異度,. 檢驗或檢查在某一群體的預測值, 包括陽性預測值 (PPV) 陰性預測值(NPV) 用以估計受試者測驗之真實分數所在範圍的誤差單位與分數穩定性的信度 在標準情境下, 使用相同測驗或複本測驗測量一個受試者許多次, 其所得分數的平均數即為個人的真實分數 一般來說, 會以受試者的真實分數為中心形成常態分配 而每次測驗實得分數與真實分數的差, 稱為測量誤差, 這許多次測量誤差分配之標準差即為測驗標準誤, 又稱為分數的標準誤差 公式 :Emeas 1 r 國際上大型標準測驗通用的方式, 因為具有和群體比較的意義, 好像一把用來測 量 個人表現的 尺, 所以稱為 量尺分數, 量尺分數的等化 (equating) 為將題庫中的每道試題都透過 試題反應理論 (Item Response Theory, 簡稱 IRT) 的估計程序, 將試題難度連結在同一把尺上, 所以每道題目的難度值是已知的 著名的 TOEFL GRE 國中基測等電腦化適性測驗也都是採用這種作法 共 5 頁第 5 頁