等類科 96 年特種考試地方政府公務人員考試試題 別 : 四等考試科 : 教育行政目 : 教育測驗與統計概要 ㄧ 某輔導教師欲進行一項對象為國小五年級學習障礙學生之研究計畫 在其研究設計中, 研究工具為一開放式數學解題能力測驗, 此外, 亦規劃安排間隔約為 6 週的前後測 該計畫共同主持人建議使用一份測驗內容適合一般國小五年級學生的測驗, 研讀該測驗使用手冊, 並注意到相關報告如下 : 兩位教師分別對學生作答評分的相關係數為 0.6 學生測驗分數與間隔 3 週後的重測分數的相關係數為 0.5 學生測驗分數的標準差為 0, 而測量標準誤為 16 請依輔導教師的研究設計及該測驗使用手冊相關報告, 評估該測驗結果的信度指標可能會有什麼變化? 並就變化結果評析該數學解題能力測驗是否為一可靠及有效的工具? 擬答 : 評分者信度 (Scorer Reliability) 評分者信度 =0.6 係指從測驗卷中隨機抽取一些樣本, 由不同的評分者或同一個評分者在不同的時間, 對每一份試卷評分, 在測驗過程中觀察 記錄 評分 計分等各方面相互間的一致性而言, 然後根據每份測驗卷評分的兩個分數計算其相關係數, 即得評分者信度 評分者信度愈高, 表示評分者間評分愈一致, 此份測驗反應評分者誤差為 0.4 重測信度 ( 再測信度 )(Test-retest Reliability) 重測信度 =0.5 指同一份測驗在不同時間針對相同學生前後重複測量二次, 根據二次分數所求得其相關係數, 即稱再測信度係數, 又稱穩定係數 (Coefficient of Stability) 再測信度基本假設測驗所測量潛在特質, 在短時間內不隨時間消逝而變化 其誤差來源 來自不同時間下測量所造成之誤差 再測信度高低與二次施測間隔時間長短關係 如二次間隔時間愈長, 則再測信度愈低, 反之則愈高 測量標準誤 : 用以估計受試者測驗之真實分數所在範圍的誤差單位與分數穩定性的信度 在標準情境下, 使用相同測驗或複本測驗測量一個受試者許多次, 其所得分數的平均數即為個人的真實分數 一般來說, 會以受試者的真實分數為中心形成常態分配 而每次測驗實得分數與真實分數的差, 稱為測量誤差, 這許多次測量誤差分配之標準差即為測驗標準誤, 又稱為分數的標準誤差 任何測驗均會有測量誤差存在, 解釋分數時最好考量誤差大小, 如考量測量標準誤大小, 根據測量實得分數推測真實分數的可信範圍與可靠性 是否為可靠及有效工具 理想的信度係數比較個人分數與他人的差異, 則信度至少要達到 0.85 重測信度 =0.5 表示該測驗容易受到練習與記憶影響, 測驗題目性質會因重測而改變, 像推理與思考題目極易因第一次施測時因思考而貫通原則或瞭解解決方法, 在第二次時便只需記憶即可 二次施測的情境很難完全相同 認知測驗容易在短時間內改變其潛在特質, 不適用重測信度 評分者信度 =0.6 表評分結果會受到評分者主觀判斷和意見的影響時, 此份測驗兩位教師評分者ㄧ致性較差 測量標準誤 =16 表示實得分數推測真實分數的可信範圍與可靠性誤差較大, 很難對學生數學解題能力解釋 信度是效度必要條件而非充分條件, 效度是測量的首要考量條件, 而信度則是效度的輔助品 此份測驗信度低其效度一定低 二 下表為三種標準化推理測驗的平均數與標準差, 其分數的分配均呈常態分配 請根據資料回 共 5 頁第 1 頁
答問題 :( 附常態分配表 ) 測驗 μ σ 小英分數圖形推理 10 5.0 110 語文推理 50.0 51 數學推理 85 6.? 以 PR 值及 Z 分數比較小英在何種推理測驗 ( 圖形及語文推理 ) 上的表現比較好, 並解釋其表現 小英在數學推理測驗上要達到與語文推理測驗至少要得到幾分? 小英在經過一個學期的推理訓練後, 在圖形推理與語文推理上的表現都進步了一個標準差 請問她的 PR 值在兩個測驗上的改變是否相同? 請說明原因, 並根據此對 PR 及 Z 分數的特性做一結論 為方便分數的解釋, 學校老師提出兩種分數轉換的方式, 一是將每位學生的 Z 分數乘以 7.5, 再加 30; 另一是將 Z 分數乘以 100, 再加 500 經過轉換後, 小英的圖形推分數是多少? 學校準備根據圖形推理的成績篩選學生 若全校有 500 位學生, 有多少學生的分數介於 110 至 130 分? 若僅最高 1% 的學生可入選, 請問入選的門鑑分數是多少? X - μ 110-10 圖形推理 Z = = = -,PR= σ 5 X - μ 51-50 語文推理 Z = = = 0.5,PR=69 σ 小英在語文推理的表現比圖形推理的表現好 百分等級表示一個人的分數在某一團體中所占的地位, 亦即團體中按某一屬性依序排列且分成一百個等級情況下, 某一個人分數能勝過多少個百分等級, 以 PR 表示 例如 : 小英語文推理得分 51 分, 在團體中 100 人勝過 69 人, 則表示 PR=69, P 69 = 51( 原始分數 51 分便相當於第 69 個百分位數 ) 百分等級為次序變項 X - μ X - 85 Z = = = 0.5 X = 88.1 σ 6. 百分等級量尺單位並不相等, 是一種次序量尺, 靠近常態分配中央原始分數單位小, 二端單位大 亦即接近中央原始分數差異會因為百分位數的轉換而擴大, 但分配二端原始分數差異則會大幅地縮小 ( 危芷芬, 民 88) 圖形推理的 PR 會比語文推理的 PR 變化較大 圖形推理轉換分數 =7.5Z+30=7.5 (-)+30=15 圖形推理轉換分數 =100Z+500=100 (-)+500=300 110-10 X - μ 130-10 P [ 110 X 130] = P = P[ - Z ] =.9544] 5 σ 5 學生人數 =500.9544=477 最高 1% 入選級 PR=99 查表 Z=.33 圖形推理轉換分數 =5Z+10=5.33+10=131.65 三 影響實作評量的信度與效度的重要因素為何? 如何提升其信 效度? 擬答 : 影響實作評量信效度因素 : 偏見 (Bias): 教師常會因學生性別 種族 先前經驗等因素會對學生有先入為主的偏見觀念存在, 且對不同族群的評分結果亦不同 此一偏見會造成對學生實作評量不具真實性, 影響其效度與鑑別度 第一類偏見過失 嚴苛偏失 (Severity Error): 常將學生的表現一律評定在較低等級 共 5 頁第 頁
第二類偏見過失 寬容偏失 (Generosity Error): 常將學生的表現一律評定在較高等級 第三類偏見過失 集中趨勢偏失 (Central Tendency Error): 常將學生的表現一律評定在較中間等級 月暈效應 : 教師根據單一特徵對某位學生整體印象, 教師與學生經常相處, 對學生瞭解會產生一般性印象, 針對學生的實際表現進行評分即成系統性評分誤差 如學生性別 容貌 身分地位或族群意識的影響 評量次數過少 : 單獨一次的評量結果, 充當學生整體學習成就的結論, 此種評量誤差最大, 其信度與效度皆欠佳 因此測量若想得到接近真實分數特質的評量結果, 就必須在不同時間針對同一表現與作品, 進行多次觀察與判斷 時間限制 : 實作評量在實施測驗過程與記分過程需投入大量時間與人才, 執行困難度較高 經費與設備限制 : 實作評量執行成本比傳統紙筆測驗高, 有時需購買器材與儀器執行評量, 除成本外, 尚有空間需求限制與維修保管成本 評分難題 : 當進行非結構性的實作評量, 在評量與觀察重點的掌握與評分標準有執行上困難 如何提升信效度 確立實作評量的目的 : 教師使用實作評量的二大目的 : 給學生評分 ; 診斷學生學習情形 實作評量標準 : 詳細說明細節行為的項目, 以及教師所期望學生達成的表現標準 表現規則 (Criteria) 與標準 (Standards), 即評分標準與評量重點須事先決定 提供適當的表現情境 : 評量標準界定後, 教師便需準備可供觀察表現成果的施測情境 情境選擇視進行評量表現或成果特質而論 其選擇情境原則有 : 教室裡自然發生表現的頻率 ; 決定的重要性 ; 到底需要多少訊息才能決定 選擇計分與評定方法 : 實作評量的評分方式與論文試題評分方法極為相似, 分為 : 整體評分法 ; 分析評分法 採用時機視決定本身性質重要性而定, 如只做一般性質 ( 分組 評定成績 ) 使用整體評分法即可 ; 若決定具診斷困難與學生精熟表現, 則需使用分析評分法 蒐集與記錄學生表現行為方法 : 系統觀察與軼事記錄 檢核表 (Checklists) 評定量表 (Rating Scales) 作品量表 (Product Scales) 檔案錄 (Portfolios) 降低月暈效應產生, 如評分前後標準需一致 預擬一份評分要點 使用適當的評分方式 四 某班學生 50 人, 男生與女生各半, 身高的平均數分別是 160 公分與 150 公分, 標準差都是 5 公分 請以 t 檢定來檢驗是否男生與女生的身高顯著不同?(df=48,α =.05 的雙側 t 檢定臨界為 ± ) 本題若以 F 檢定來計算,F 值與自由度為何? H0: 1 H1: 1 臨界點 t0.05(48) t0.975(48) 共 5 頁第 3 頁
計算 : ˆ ˆ ( n1 1). S1 + (n 1) S (5 1). 5 + (5 1). 5 S p = = = 5 n1 + n 5 + 5 X1 X 1 (160 150) 0 t = = 7.07 Sp S 5 5 p + + n1 n 5 5 結論 :t 7.07 t0.975(48),reh0,ach1, 男生與女生在身高平均數有顯著差異 惟結論仍有 0.05 的機率犯型 Ⅰ 錯誤 F = t = 50 df b = -1 = 1, df w = N K = 50 = 48 五 何謂樣本平均數次數分配? 請說明其定義與依據的理論或定理 共 5 頁第 4 頁
抽樣分配意義 : 由母體平均數, 變異數 中, 每次抽出若干個體為一組樣本, 再由此組樣本求算出一個樣本平均數 ( X ), 重複此一步驟反覆進行無數次抽樣, 得到無數個樣本平均數, 則所有各組樣本平均數構成另一統計量之分配, 稱為抽樣分配 抽樣分配是多次抽樣的機率分配 ( 張子傑, 民 86) 基本原理 : 任何統計量 ( 平均數 變異數 標準差 相關係數 百分比 ) 均可導出一個統計量的抽樣分配, 而這個抽樣分配大都是常態分配 每一個抽樣分配都可求出變異數與平均數, 利用樣本統計量的抽樣分配得到所抽得樣本統計量出現的機率, 進而判斷母體參數是否等於某一特定值 ( 謝廣全, 民 8) 抽樣分配是一種理論性的機率分配, 它是代表某一種包含 N 個觀察值的樣本可能出現統計量, 及從某一特定群體抽出 n 個觀察值所有可能的統計量, 兩者間函數關係 ( 謝廣全, 民 8) 中央極限定理 (Central Limit Theorem, 簡稱 C. L. T.) 係指反覆地從平均數, 變異 數為 σ 的母群中抽取樣本大小為 n 的無數個樣本, 得到無數個樣本平均數 X, 當抽取樣本 n 次數夠多時, 不論原來母體次數分配呈現何種形狀, 這些樣本平均數皆會呈現常態 分配 而且樣本平均數的平均數等於母體平均數, 樣本平均數的標準誤 = X X n 共 5 頁第 5 頁