Microsoft PowerPoint - 測驗信度 [相容模式]

信度的概念 Concepts of Reliability Case Exhibit 3.2: Test Reliability and Courtroom Testimony Classical Theory and the Sources of Measurement Error Sources of Measurement Error Measurement Error and Reliability The Reliability Coefficient The Correlation Coefficient The Correlation Coefficient as a Reliability Coefficient Reliability as Temporal Stability Reliability as Internal Consistency Item Response Theory and the New Rules of Measurement Special Circumstances in the Estimation of Reliability The Interpretation of Reliability Coefficients Reliability and the Standard Error of Measurement

Key Terms and Concepts Classical Theory of Measurement 古典測量理論 Reliability 信度 / as Temporal Stability; as Internal Consistency 內部一致性 1. inter-scorer 評分者間 2. test-retest 再測 3. alternate forms 複本 ( parallel forms 平行版本 ) 4. Split-half 折半 Spearman-Brown 斯布校正公式 5. Kuder-Richardson formula 庫李公式 6. Coeficient alpha α 係數 Measurement Error 測量誤差 Systematic Measurement Error 系統性測量誤差 & true score 真分數 Generalizability theory 概化理論 Correlation Coefficient 相關係數, Reliability Coefficient 信度係數 Item Response Theory 試題反應理論 Latent trait Theory 潛在特質理論 Rasch Model Rasch 模型 Speed test 速度測驗 power test 難度測驗 Estimation of Reliability 信度估計 Confidence interval 信賴區間 Standard Error of Measurement 測量標準誤 Standard Error of the difference 差異分數標準誤

古典測量理論 (classical measurement theory) Observed Score (OS) 受三個影響 : (1) 真實得分 (True Score; TS) (2) 獨特得分 (Unique Score; US) (3) 誤差得分 (Error Score; ES) 離職意向的例子 : OS1 = TS + US1 + ES1 ( 第一題 ) OS2 = TS + US2 + ES2 ( 第二題 ) OS3 = TS + US3 + ES3 ( 第三題 )

變異量 (Variance) 及共變量 (Covariance) -- 以變異量及共變量驗證構念間之關係 -- 樣本整體變異量 (Observed Variances; O), 包括 : (1) 真實差異 (True Variance;T) (2) 獨有因素帶來的差異 (Unique Variance;U) (3) 隨機誤差帶來的差異 (Error Variance;E) O = T + U + E

信度 (reliability) (1) E 佔 O 的比重 (2) 因為 E 是隨機的, 信度為測量的工具免於隨機誤差的程度 (3) 測量結果的一致性或穩定性

信度係數的估計 : 為了與統計上的相關係數看齊, 我們一般會取兩次測量的共變量比例的平方根, 來合計信度, 稱之為信度係數 (reliability coefficient) E1 T+U E2

信度係數的方程式信度係數 = T U O O E O

信度 (reliability) 的估計 -- 兩次測量的相關係數 : (a) 再測信度 (test-retest reliability) (b) 複本信度 (alternative forms reliability) (c) 折半信度 (split-half reliability) (d) 項目間的一致性 (internal consistency reliability) : Coefficient alpha;α (SPSS reliability 的指令 ) -- 一般來說信度係數要在 0.7 以上

測量工具的信度係數

把 R 0 除以 r1 及 r2 的平方根, 便可求得 R t

R t 與 R o 的關係 (Correction for Attenuation) 削弱校正 In investigating test validity the test scores to be validated are called X and they are validated against a criterion called Y. For example, X might be SAT verbal scores and Y could be grade point average in freshman year in college. Then the correlation between X and Y is a validity coefficient. Spearman derived an equation which displays the effects of altering the length of both the test and the criterion on validity. Then the validity of a perfect test for predicting a perfect criterion is caled Spearman scorrection for Attenuation. It yields an estimate of the true score correlation. Conditions under which this formula is useful have been presented by Zimmerman and Williams (1997)

影響信度的主要因素 (1) 受測量者方面 ( 動機情緒等 ) (2) 主持測量者方面 (3) 測量內容方面 item selection (4) 測量情境方面 test administration (5) 時間影響方面測量誤差 Measurement Error 的來源 1.item selection 2. test administration 3. Test scoring 4.Systematic Measurement Error 系統性測量誤差

共同因子 (common factor) 的概念 Common Factor = CF EF1+UF1 EF2+UF2 EF3+UF3 OS1 OS2 OS3 CF

共同因子 (common factor): 共變量 T = 共同因子的變異量 ( 各項目的共變量 : 沒有測量誤差的變異量 ) U 1 +E 1 C 13 C 12 T U 3 +E 3 U 2 +E 2 C 23

傳統測驗主要以古典真分數 (true score) 理論為基礎, 古典測驗理論的假設較少, 且容易滿足, 有時又被稱為弱勢理論 (weak theory); 相反的, 適性測驗則以試題作答理論 (item response theory; IRT) 為理論根據,IRT 係晚近從數學發展出來的測量理論, 理論較嚴謹, 假設也較難滿足, 因此也被稱為強勢理論 (strong theory)

一般而言, 題庫會因測驗評量方式之不同而有不同程序之建立方法例如, 以古典測量理論 (classical measurement theory) 為基礎所編製的傳統式測驗 (conventional test), 常以團體為基礎的試題統計量數 (group-based item statistics)( 如 p 值 ) 來建立結構化的試題組合以此種方式建立的題庫有其難以克服的缺點 ( 何榮桂, 民 80) 在教學活動中, 測驗評量是獲得學生學習情況的主要訊息來源, 測驗結果的量化分析隨著資訊科技的進步, 近年來已產生了相當大的變革, 其中較重要且有效的方法就是所謂的試題反應理論 (Item Response Theory, 簡作 IRT)( 簡茂發劉湘川許天維與郭伯臣, 民 83) 由於許多學者對這方面的投入, 新的理論與應用方法愈來愈精進, 愈來愈實用

電腦化適性測驗 (computerized adaptive tests; CAT) 是測驗理論 ( 主要以 item response theory, IRT, 為理論基礎 ) 與實務伴隨電腦科技的發展而形成的產物至目前為止,CAT 的理論與技術均已十分成熟, 一些常見的測驗工具 ( 如 ETS 的托福測驗等 ) 也以 CAT 的方式施測 ; 適性 (adaptive) 測驗是量身訂製 (tailored) 的測驗, 是個別測驗 (individual test), 也是真正的個別化測驗 (individualized test) 量身訂製或個別化的測驗, 意指給受試者做符合她 / 他能力 ( 或特質 ) 水準的題目最能反映她 / 他的能力或特質對某一受試者而言, 太難或太簡單的題目都沒有必要 ; 也就是說, 對某一受試者而言, 題目太難或太簡單, 即使此受試者答了這些題目, 也無法從這些題目獲得此受試者之特質, 或是說, 這些題目並無法回饋受試者的訊息給主試者, 這樣的測量就失去意義

一信度的意義測驗信度 : 一測驗在某持久性心理特質的一致性或穩定性影響測驗信度主要有三個因素 : 1. 測驗長度 2. 受試的變異性 3. 間隔時間的長短表各種信度估計法的誤差變異量主要來源信度估計法 1. 折半法 2. 複本法 ( 立即 ) 3. 重測法 4. 複本重測法 5. 庫李法或 α 係數 6. 多人主觀評分法誤差變異量來源試題內容的取樣試題內容的取樣時間上的取樣時間取樣 + 內容取樣試題內容取樣和內容同質性評分者之間的差異

分數的變異來源

估計信度方法與測驗版本及施測次數的關係測驗版本施測次數一種二種一折半法庫李法複本法 ( 立即 ) 次或 α 係數 ( 等值係數 ) 二次 ( 內部一致性係數 ) 重測法 ( 穩定係數 ) 複本重測法 ( 延宕 ) ( 穩定等值係數 )

求評分者信度可用的統計方法評分者人數二名二名以上評名斯比爾曼等級肯德爾和諧係數分次相關係數方法式分皮爾遜積差變異數分析數相關係數 (Hoyt 法 ) 法

二信度的類別及其求法 (1) 內部一致法, 為一種內部一致性量數, 其高低受到內容取樣和樣本異質性兩種誤差變異量的影響 (2) 複本法 alternative-form reliability 同一測驗有兩種以上複本, 將兩種複本分別實施於同一群受試者, 再以其分數計算相關係數, 即得複本信度, 如兩者同時連續實施, 其複本信度又稱等值係數 ; 如隔一段時間或分兩次實施, 其複本信度又稱穩定與等值係數 (3) 重測法, 同一測驗, 同一群受試者, 前後測兩次, 再計算其相關係數, 或稱再測信度 retest reliability ( 又稱穩定係數 ) (4) 評分者信度, 指不同的評分者或同一個評分者在不同的時間, 在測驗過程中觀察記錄記分等一致性而言, 方法為隨機抽權相當份數的測驗卷, 由兩位評分者按記分要點評分, 然後依兩個分數計算其相關係數

內部一致法 1. 折半信度 ( split-half reliability ), 依正常程序施測, 將全部試題分為相等的兩半 ( 大多依單雙數題 ), 計算每位受試者在兩半測驗的總得分, 再以這兩半分數計算其相關係數因僅計算測驗兩半之相關, 故需用公式校正, 其中常用的是斯布校正公式 (Spearman-Brown Prophecy Formula), 如下頁右 ; 但若兩半變異數不等, 則宜用范氏公式 ( 如下頁左 ) 2. 庫李信度 Kuder-Richardson Reliability,1937 僅適用二分法測驗 3. Cronbach s α 係數 (1951) 適用各種計分法之測驗 4. Hoyt 信度係數 (C. Hoyt, 1941) 信度乃真正分數變異數在實得分數總變異數中所佔之比率 rh=1-ms errors / MS individuals 附註 : 上述公式中之 k 為題數,p 為某題答對率,q 為答錯率,M 為測驗總分 X 的平均數,SD 為測驗總分 X 的變異數,SDi 為某題分數的標準差

信度的求法折半信度斯布校正公式 Spearman-Brown Prophecy Formula) Flanagan,1937 庫李信度和 α 係數 KR20 r xx 2 2 sa sb 2 ( 1 ) 2 s k pq KR20 k 1 1 2 SD t r SB 2rhh 1 r hh KR21 k M k M KR21 k 1 1 ( ) 2 k( SD ) k Cronbach s α k 2 SDi 1 1 ( ) 2 SD

內部一致性信度係數的求法舉例 I1 I2 I3 I4 I5 I6 X XX 奇數偶數乘積 A 0 1 1 1 1 1 5 25 2 3 6 B 1 1 1 0 1 0 4 16 3 1 3 C 0 0 1 1 0 0 2 4 1 1 1 D 1 1 1 1 1 1 6 36 3 3 9 E 0 1 0 0 0 0 1 1 0 1 0 SUM 2 4 4 3 3 2 18 82 9 9 19 4 16 16 9 9 4 324 平方和 2 4 4 3 3 2 82 23 21 SD 0.4899 0.4 0.4 0.4899 0.49 0.4899 1.8547 1.1662 0.9798 V 0.24 0.16 0.16 0.24 0.24 0.24 3.44 1.36 0.96 pq 0.24 0.16 0.16 0.24 0.24 0.24 1.28 KR20= 0.7535 rh= Hoyt 信度係數 rf= 0.651 范氏公式 α= 0.7535 0.7535 = 1-0.1767/0.7167 rf=2*(1-(1.36+0.96)/3.44)

利用變異數求 Hoyt 信度係數折半相關變異來源 SS df MS F P r=(19/5-1.8*1.8)/(1.1662*0.9798) 受試間 2.8667 4 0.7167 4.057 r= 0.4901 試題 0.8 5 0.16 0.906 斯布校正誤差 3.5333 20 0.1767 rsb=2*0.4901/(1+0.4901) 總數 7.2 29 r= 0.6578 rh=1-ms errors / MS individuals = 1-0.1767/0.7167= 0.7535 SSt=18-18*18/30=7.2 SSb=(82-18*18/5)/6=2.8667 SSitem=(58-18*18/6)/5=0.8 [ 用 IA 程式計算所得 ] Coe. of Kuder-Richardson formula : 0.7535 Coe. of Split-half reliability : 0.4901 Coe. of Spearman-Brown formula : 0.6578 Coe. of Rulon formula : 0.6512 1. 斯布校正公式 (Spearman- Brown Prophecy Formula) r S B 2 1 r r h h h h

相關係數的解釋 1. 相關係數求得後, 可根據樣本人數 N 的大小, 查相關係數顯著性臨界值表, 以決定該相關值是否由機遇造成不能僅憑其數值大小而斷言其相關的高低 2. 相關是共變關係, 僅表示兩個變項相互關係而已, 不表示具有因果關係 3. 相關係數的值介於 +1 至 -1 之間 +1 稱為完全正相關,-1 稱為完全負相關, 相關係數為 0 時稱為完全零相關 4. Pearson 積差相關為直線相關, 若兩變項為非直線關係則不適用 5. 相關係數的平方稱為決定係數, 乃表示 X 變項解釋 Y 變項變異量的百分比

測量標準誤 standard error of measurement 在測量中, 對同一受試者測無限多次的平均數為真正分數, 但每次測量的實得分數與真正分數間不一定一致, 而有誤差, 稱為測量誤差, 而無限多次的測量誤差將形成一常態分配, 測量誤差分配的標準差, 特稱為測量標準誤 ( 個人真正分數的推定測量標準誤是由信度係數衍生而來的一個統計數值, 對測驗分數的解釋有重要的用途, 測量標準誤最大的功能便是協助我們去對測驗各層面上誤差的大小有所了解其公式如下 : SEM=SD ( 1-rxx) confidence interval 信賴區間較理想的測量分數解釋是同時使用實得分數和測量標準誤, 來估計真正分數, 通常用區間估計來呈現 ; 例如某人在魏氏智力測驗智商為 108, 該測驗之信度係數為.91, 則其真正智商的信賴區間如下 : 測量標準誤 =15( 1-.91) =4.5 95% 信賴區間 =108±2 (4.5)=99~117 99% 信賴區間 =108±2.58 (4.5) =96.4~119.6 [ 註 : 上式中 2 為概率 95% 的 z 值的近似值 ;2.58 為概率 99% 的 z 值 ]

測量標準誤 SEM (Standard Error of Measurement) 信度表示測量分數的穩定與可靠性, 亦表示測量受到測量誤差的影響程度測量分數的變異量, 受到測量誤差影響的部分, 稱為測量誤差變異量, 開方後稱為測量標準誤 (σ e ) SEM 1 x r xx r xx X 特質的測驗信度測量誤差被假設呈常態分配, 因此測量標準誤配合常態化機率可以用來進行測量分數的區間估計 T x 1.96 e X 分數的 95% 的信心區間 Ex. 某測驗變異數 100, 信度.80, 測量標準誤為何? 某生得分 80 分,95% 信心估計為何?

差異分數標準誤 standard error of the difference A statistical index that can help a test user determine whether, for an individual examinee, the difference between scores on two tests or subtests is significant. 用於個人測驗分數的解釋, 可幫助受試者了解其在兩測驗或分測驗所得分數間, 是否達顯著差異兩項測驗分數的比較應用差異分數的標準誤, 其公式如下 :SEdiff=SD( 2-rxx-ryy) SEM diff 2 SEM 1 SEM 例如小華在語文測驗得 T 分數 56, 空間關係測驗得 T 分數 48, 已知語文測驗信度係數為.84, 空間關係測驗信度係數為.91, 則其差異分數的標準誤 =10*0.5=5 當 α=.05, 其臨界值 =1.96*5=9.8, 而兩測驗分數差異為八分 (56-48=8), 小於臨界值, 故差異不顯著 2 2

信度係數的樣本依賴性 : 信度係數會因樣本的變異性而受到影響, 其依變項可分為 : 個別差異 : 當樣本的個別差異範圍越小時, 所得的信度係數會偏低能力水準 : 當樣本的能力水準越接近時, 所得的信度亦會偏低測量標準誤 SEM: SEM SD t 1 r tt 所謂的測量標準誤是指因各種隨機誤差的影響, 所測量的分數會在真實分數附近變動而形成一個常態分配, 而此常態分配的標準差, 即是測量標準誤 SEM 可被用來估計個體真實分數的合理範圍兩分數差異的 SEM 必大於任一分數的 SEM, 故 SEM diff 2 SEM 1 SEM 效標參照測驗的信度 : 可利用複本信度及折半信度來計算, 以避免試題重複用一般測 mastery, 減低了個別差異, 故所得信度偏高不適用於對 preestablished mastery 的人做信度分析 2 2

generalizability theory 概化理論 A domain sampling model of reliability that recognizes several alternatives of generalization for test results. 是 Cronbach 發展出的一套辨識測量誤差來源的統計模型逐漸取代古典測驗理論來定義及估計測驗的信度它與古典測驗理論的不同在於, 認為測量誤差除了隨機誤差之外, 尚有系統性誤差, 例如主試者的施測或評分習性, 或施測地點季節等概化理論是運用變異數分析的方法以瞭解測驗誤差的來源, 測驗信度及測量標準誤的一種理論

概化理論研究及應用前景 Studies and Application Prospects of Generalizability Theory 作者 : 劉桔,<< 心理科學 >>2003 年第 26 卷第 03 期期刊 - 核心期刊 QCode : xlkx200303014 1972 年,Cronbach 和他的同事們提出概化理論之後, 概化理論在行為與心理測量領域得到了廣泛的應用, 較之經典測量理論, 它的優勢逐漸地顯露 : (1) 測量的多種誤差來源可以在同一個分析中分別估計 ; (2) 可以指導決策者選擇最優測量方案 ; (3) 提供可靠性係數 : 概化係數 (G 係數 ) 和依存性指標 (ψ 係數 ) 用於不同的決策任務 ; (4) 排除了嚴格平行測驗的假設. 概化理論以它的精確性和可靠性受到了信度測量領域研究者們的青睞, 本文旨在對概化理論的基本框架產生發展及應用前景進行詳細論述

測驗理論主要可以分為兩大類 : 古典測驗理論 (classical test theory, CTT) 與試題反應理論 (item response theory, IRT) 古典測驗理論的名稱確立於 Gullikson (1950) 的經典之作心理測驗理論 (Theory of Mental Test), 但是有學者認為古典測驗理論的基礎可以追溯到 Spearman 早在 1913 就已經提出相關的理論 (Embretson & Reuse, 2000) 該理論簡單易行, 在 20 世紀引領著測驗編製發展試題反應理論又稱為潛在特質理論 (latent trait theory, LTT), 該理論的名稱的確立主要是由 Lord & Novick (1968) 的經典作品 (Statistical theories of mental test scores), 引發學者對潛在特質概念的重視與研究試題反應理論背後之數學模式較為複雜, 而且受限於早期電腦的運算速度, 以致於理論推展較緩慢近年來由於學者學者們持續的重視與推展, 再加上電腦運算速度大幅提升, 大有後來居上, 凌駕古典測驗理論之趨勢 ( 余民寧, 2002) 目前許多重要的入學考試與證照測驗, 例如國內的國中基本學力測驗美國的托福測驗 (TOEFL, Test of English as a Foreign Language) 多益測驗(TOEIC, Test of English for International Communication) 臺灣理財規劃顧問認證測驗等, 其測驗編製與考生能力估計都是採用試題反應理論來進行

試題反應理論試題反應理論 (Item Response Theory, IRT) 以試題目特徵函數 (Item Characteristic Function, ICF) 表達受試者能力和測驗反應間之關係, 因函數中所採用的參數個數不同, 通常被分成單參數雙參數以及三參數等三種模式在受試能力和反應的關係上,IRT 以機率概念的數學模式來表達, 較古典測驗理論以線性關係來說明, 更能契合受試特質測量的意義 [Downing SM,2003; McHorney CA.,2003; 王文中,1997)

試題反應理論 IRT 概要受試者在某測驗上的表現情形, 可由一組因素來加以預測或解釋, 這組因素稱為潛在特質 (latent traits) 或能力 (abilities) 受試者的表現和潛在特質之間的關係, 可透過一條連續嚴格遞增 (monotonically increasing) 的函數來解釋, 此函數稱為試題特徵函數 (item characteristic function ), 然後再把不同能力的學生在某試題的得分期望連結成線, 所形成的曲線則稱為試題特徵曲線 (item characteristic curve, 簡稱 ICC) IRT 的目的就在於提供計的試題不變量 (invariant) 和能力估計值 [ 試題參數不變性和能力參數不變性 (invariance)] 由於 IRT 試題反應理論是針對古典測驗理論的缺失而發展出來, 所以它有幾項特色 (Hambleton&Swaminathan,1985) 1. 在受試母群中, 試題參數估計值是不受取樣波動 (sampling fluction) 的影響, 不同的取樣結果, 只呈現 ICC 的局部區間, 連結了不同的取樣結果, 則可呈現較完整的 ICC 圖 2. 在試題的選擇中, 受試者能力估計值不受取樣波動的影響 3. 受試者的能力可以確切估計求出

試題反應理論 IRT CAT 理論基礎主要是源自於試題反應理論 (item response theory, IRT) 基於 IRT 的單向度 (unidimensionality) 假定, 以及受試者的能力估計的不變性 (invariance), 使接受不同試題的受試者能力可以被放在同一個尺度上互相比較 (Hambleton & Swaminathan, 1985; Wainer et al., 1990)

試題反應理論 Item response theory 至於最近發展的試題反應理論則對試題分析提供更豐富的訊息, 並使測驗的應用有更多的發展以下概略說明試題反應理論的意義與特色 : 1. 試題特徵曲線 ICC (Item Characteristic Curve, 參看圖三 ) 是現代心理計量學最強有力的理論之一試題反應理論 (Item response theory) 或稱潛在特質理論 (Latent trait theory) 的基礎 2. 某個試題的試題特徵曲線就是該題答對機率對考生能力的迴歸線 3. 試題反應理論的基本假設是 : 單一維度 uni-dimensionality 指測驗只測一個特質或能力試題局部獨立 local independence, 就某一受試能力而言, 試題間無相關, 也就是統計獨立

IRT 三參數模式 ICC : ci 是試題猜測的程度,ai 及 bi 分別為試題的鑑別度及難度,D 值設在 1.7 P(θ) 轉折點圖三試題特徵曲線 ICC

試題反應理論 Item response theory 4. IRT 三參數模式 : P( ui 1, ai, bi, ci) 1 ci ci 1 exp[ Dai ( bi)] ci 是試題猜測的程度,ai 及 bi 分別為試題的鑑別度及難度,D 值設在 1.7 5. 試題反應理論的三個優點 : (1) 對考生能力的估計不受試題難度的影響 ; (2) 試題之間相對的難度及鑑別度是根據考生得分情形來估計 ; (3) 每個試題對測量某種能力的精確度可藉由統計方法估計出來

試題反應理論 Item response theory 6.IRT 的實際應用 (1) 誘答項訊息 Getting Information about Ability from Distracters (2) 編製電腦適性測驗 Computerized Tailored Testing 簡稱 CAT, 乃指利用電腦進行施測, 處理選題, 計分及能力估計等問題的一種測驗方式 (3) 特殊測驗的試題分析, 如篩選測驗 (screening test) 或關鍵計分法測驗 (criterion-keyed tests) MMPI (4) 偵測試題偏誤 detect test bias (5) 分數等化測驗的連結 (linking) 與等化 (equating) 是現代測驗理論再實際應用的一大領域

Item-test-regression 13 題比 7 題難

試題特徵曲線 ICC 第 1 題鑑別度最高第 2 題難度最高第 3 題猜測度高

item-characteristic curve 試題特徵曲線 ICC 可表示受試在測驗中所測到特質與正確反應百分比的關係的曲線 A BC D 四條區線最高值 (upper asymptote) 都是 1 BC D 三條曲線的最低值 0 A 題猜測度高 BC 題難度相同 D 題難度最高 C 題鑑別度最高 IRF 試題反應函數

一 IRT 的概念與發展試題反應理論 (item response theory; IRT) 的基本概念 P ij 1 e ( b j ) ( j b e i j b i ) j 為考生 j 的能力, b i 是試題 i 的難度, P ij 是受測者答對某個題目的機率

試題反應理論 (IRT) 與古典測驗理論 (CTT) 比較模式特性試題參數能力量尺試題反應理論試題的作答反應模式不同 IRT 模式適用不同測驗題目參數估計不變性能力估計不變性根據概似函數估計程度, 理論基礎強可直接參照題目或發展參照標準來解釋分數可算出等距量尺傳統測驗理論測驗總分的模式各種測驗都使用同一套模式題目參數會受到受試者能力影響受試者能力受到題目特性影響各題目配分直接加總, 缺乏理論基礎需發展參照標準才能解釋分數群體為常態分布才能算出等距量尺

試題反應理論 (IRT) 與古典測驗理論 (CTT) 比較 ( 續 ) 信度測量精確度 ( 訊息量 ) 隨著受試者能力以及所接受的題目特性而不同應用編製測驗 ( 量表 ) 分數等化, 編製題庫電腦化適性測驗組合測驗整體評估優點 : 能力估計不變性具有題目參數估計不變性測量精準度的概念較合理應用層面較廣缺點 : 不易理解能力估計與試題參數估計較麻煩, 須仰賴電腦軟體來分析接受同一測驗的所有受試者其測量精確度 ( 信度 ) 都相同編製測驗 ( 量表 ) 優點 : 模式簡單易理解, 能力與試題參數容易計算缺點 : 等測量標準誤假設不合理應用較狹隘, 受試者程度受題目特性影響題目參數受受試者特性影響

當代 IRT 的發展評量系統公司 www.assess.com 向度數量單向度計分方式二元計分多元計分參數個數模式提出者適用軟體單參數模式 (Rasch 模式 ) 二參數模式三參數模式類別反應模式 (nominal response model) Rasch(1960) Lord(1952) Birnbaum(1968) Bock(1972) Bigstep, BILOG, BILOG-MG MULTILOG, ConQuest 等級反應模式 (grade response model) Samejima(1969) 部份給分模式 (partial credit model) Wright & Masters(1982) 評定量尺模式 (rating scale model) Andrich (1978) 多向度二元計分多向度二參數模式 Mckinley & Reckase(1983) NOHARM, ConQuest 多向度三參數模式 Hattie(1981) 多元計分多元計分模式 Adams, Wilson & Wang, (1997)

訊息函數訊息函數 (information function) 為某一項目對某一能力值所能提供的訊息量, 可作為選題比較的依據, 加總各試題而成測驗訊息. 其數學表示 :

標準誤測驗訊息函數最大的特性是可加性, 因此題數愈多, 訊息也愈多, 每一題目的訊息量與其他題目的訊息量無關而它與能力估計間的標準誤 (standard error of estimation,see) 關係為如下 :

測驗訊息量與測量誤差題目訊息量 (item information): I i 2 Pi ' ( ) P Q i i 測驗訊息量為題目訊息量總和測量誤差 : SE( ) 1 I ( ) 訊息量 Inf1 Inf2 Inf3 Inf4 Inf5 Inf6 Inf7 Test-Inf 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0-3.0-2.0-1.0 0.0 1.0 2.0 3.0 潛在特質 ( 能力 )

影響信度的因素 : 受測特質因素受測者在受測特質的變異越大, 信度越高當造成隨機變異因素維持恆定的情形下, 異質性越高的受測者, 特質真分數越容易被顯現出來不同類型的受測者 ( 來自不同母體的樣本 ), 特質變異可能不同, 因此信度估計可能會有不同 (ex. 不同種族受測者 ) 不適當的受測者, 特質變異可能不同, 因此信度估計可能會有所不同 ( 把小學測驗拿給大學生作 )

restriction of range 範圍侷限 A phenomenon in which the range on a variable is restricted, causing correlations with other variables to be artificially low. 為一種因某變數全距受限, 導致與其他變數間相關變低的現象

影響信度的因素 : 測驗工具因素測驗工具的品質測驗工具的計量特性測量題目的相關越高, 內部一致性越高測量題目的題數越多, 內部一致性越高加長量表增加信度, 但增加作答時間與成本, 題目亦編寫不易 new_ r xx n old _ rxx 1 ( n 1) old _ r xx n 測驗題目的倍數 Ex. 某測驗共 10 題, 信度為.8, 題目若增加一倍, 信度為多少? 若減少一倍, 信度為多少? 測驗信度若要提高至.9, 題目應增加幾題?

影響信度的因素 : 測驗的使用與信度估計方法測驗的使用目的影響信度越一般性的推論目的, 信度越高越特殊性的推論目的, 信度越低越穩定的特質, 信度越高越抽象的特質的測量, 信度越低不同的信度估計方法, 得到信度不同內部一致性係數通常高於複本信度, 再測最低當測驗題目具有特殊性, 題數少, 越容易被記憶, carryover effect 明顯時, 再測信度高

信度應用的特殊議題 : 速度測驗的信度估計 Speed tests vs. power tests Speed tests: 在時間壓力觀察受測者作答反應測量題目具有同質性或相同難度信度應衡量重複實施的穩定性 Power tests: 在不同難度試題下, 觀察受測者在各題上的反應題目間具有相當程度的異質性 ( 或難度 ) 信度在衡量這些異質題目得分的一致性

speed test 速度測驗 VS. power test 難度測驗 speed test 速度測驗 A timed test that contains items of uniform and generally simple level of difficulty; the time limit is strict enough that few subjects finish a speed test. 是一種限時的測驗, 其試題形式單一化, 且難度偏易, 時間限制嚴格以致幾乎沒有受試者可完成作答 power test 難度測驗 A test that allows enough time for test takers to attempt all items; however, the test is difficult enough that no test taker is able to obtain a perfect score. 為一種類型的測驗, 讓受試有充分時間作答, 但試題難度卻使得受試者無法獲得全部的分數

速度測驗的信度所謂速度測驗即是由低難度的題目所組成, 其中個別差異全由完成的速度而定速度測驗不適用於 K-R 及折半信度來求, 因為測驗分數的個別差異是來自於所答完的題目, 而並非錯誤數同時速度測驗的題目皆由低難度的, 若以 K-R 或折半信度來計算會使信度偏高故速度測驗的信度可用再測信度及複本信度或是以折半信度中以時間先後來分, 而不以題目來區分即可

信度應用的特殊議題 : 合成分數的信度估計 Composite scores 多個測驗分數加總的合併分數分數合成後, 信度傾向於提高測驗間的相關越高, 合成信度 (r ss ) 越高 ss r ss k ( kr ii 1 k ( k 2 ) k) r ij r ii 平均測驗信度 r ij 平均測驗相關 k 測驗數目 Ex. 三個測驗信度分別為.7,.8,.9, 合成分數的信度為何?

信度應用的特殊議題 : 效標參照測驗的信度效標參照與常模參照的信度差異效標參照測驗 : 分數與效標比較重視決策穩定度常模參照測驗 : 分數與分數比較重視分數的穩定度 Kappa coefficient (Taylor & Lee, 1995) 評估兩次測量的決策的一致性 (agreement) kappa agreement exp agreement 1 exp agreement Result 1st P 1st F 2nd P 25 15 2nd F 10 30

效標參照測驗的信度 : 可利用複本信度及折半信度來計算, 以避免試題重複用一般測 mastery, 減低了個別差異, 故所得信度偏高不適用於對 preestablished mastery 的人做信度分析