Microsoft PowerPoint - 測驗信度 [相容模式]

Similar documents
Alternate Form

教育學報31-2期.indd

11-3-Cover-1

inter - rater intra - rater 101

Microsoft Word - A doc

,,,,, :IRT ; ; ; ( CIP ) /. :,2002 () ISBN H CIP (2002) ( ) : : : 890mm1240mm 1/ 32 :

Developing an Item Bank of Fraction Concepts Jyun-Ji Lin Ph. D. Candidate, Department of Psychology, National Chung Cheng University Yuh-Yin Wu Profes

Microsoft Word - z-vc85-王暄博

)

0 0 = 1 0 = 0 1 = = 1 1 = 0 0 = 1

18 A B S 17.44±1() ±6.26( ) 54.23±5.5( ) 6.42±1.51() m 30m t α =.05 ( )AB 1 5 (p>.05)( )AB 1 5 (p<.05)( )A (p>.05)( )B (p<.05)( )A B

二 戶外教學的性質

(baking powder) 1 ( ) ( ) 1 10g g (two level design, D-optimal) 32 1/2 fraction Two Level Fractional Factorial Design D-Optimal D

Vocabulary Development in Armenian Children Attending Armenian-English Bilingual Preschools

2013年香港高級程度會考成績統計

<4D F736F F D B14DA7DEB0AAA6D2AAC0A475AE76312DAAC0B77CA475A740ACE3A873A4E8AA6B>

Microsoft Word doc

Microsoft Word - 01李惠玲ok.doc

untitled

1 500 表 1: 各國平均分數

Leisure Participation Type Differences And Leisure Satisfaction Differences Between Various Body Mass Indices: A Correlation Study To Taiwan s College

66 臺 中 教 育 大 學 學 報 : 人 文 藝 術 類 Abstract This study aimed to analyze the implementing outcomes of ability grouping practice for freshman English at a u

金 鹏 等 体 育 锻 炼 缓 解 公 务 员 心 理 压 力 相 关 量 表 的 编 制 及 常 模 的 建 立 89 此, 本 文 从 探 索 性 研 究 入 手, 对 体 育 锻 炼 缓 解 公 务 员 心 理 压 力 展 开 研 究, 尝 试 编 制 一 个 基 于 本 土 化, 具 有 良

Microsoft PowerPoint - spss2-1.ppt

A VALIDATION STUDY OF THE ACHIEVEMENT TEST OF TEACHING CHINESE AS THE SECOND LANGUAGE by Chen Wei A Thesis Submitted to the Graduate School and Colleg

<4D F736F F D20BDD7A4E5A4BAA4E5BB50A5D8BFFD2E646F63>

When the rejection rule for a test at every level α can be re-written as then xxx is the p-value of the test. xxx < α, If p-value < α, then the test c

Microsoft Word - ACL chapter02-5ed.docx

Shanghai International Studies University THE STUDY AND PRACTICE OF SITUATIONAL LANGUAGE TEACHING OF ADVERB AT BEGINNING AND INTERMEDIATE LEVEL A Thes

Settlement Equation " H = CrH 1+ e o log p' o + ( p' p' c o! p' o ) CcH + 1+ e o log p' c + p' f! ( p' p' c c! p' o ) where ΔH = consolidation settlem

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 Application of IRT in Educational Measurement Bor-Chen Kuo 1 Huey-Min Wu 2 Chun-Hua Chen Graduate Institu

Microsoft Word - p11.doc

ARCLE No.2

(g) 本 公 司 或 其 任 何 聯 屬 公 司 或 彼 等 各 自 之 顧 問 概 無 於 任 何 司 法 權 區 透 過 刊 登 本 網 上 預 覽 資 料 集 而 發 售 任 何 證 券 或 招 攬 購 買 任 何 證 券 之 要 約 ; (h) 本 公 司 未 曾 亦 將 不 會 將 本

第一章

Journal of Curriculum Studies September, 2013, Vol. 8, No. 2, pp A Study of the Relationship between Senior High School Curriculum and the Mult

STEAM STEAM STEAM ( ) STEAM STEAM ( ) 1977 [13] [10] STEM STEM 2. [11] [14] ( )STEAM [15] [16] STEAM [12] ( ) STEAM STEAM [17] STEAM STEAM STEA

a a a 1. 4 Izumi et al Izumi & Bigelow b

会议手册.indd

untitled

應用外語系學生語文證照列表 103 年 8 月 28 日 103 學年度第 1 學期第 1 次課程委員會議訂定 103 年 8 月 28 日 103 學年度第 1 學期第 1 次系務會議通過 證照 代碼 證照名稱 國內 / 國外 級數 / 分數 發照單位

明新科技大學專題研究計畫成果報告編寫須知

學測精彩析 第壹部分 ( 占 84 分 ) 楊慧媛老師聯合題 師大附中 姚翰玲老師聯合題 梁蕙蓉老師聯合題 說明 : 第 1 題皆計分 第 1 題皆是單選題, 請選出一個最適當的選項標示 在答案卡之 選擇題答案區 每題答對得 2 分, 答錯不倒扣 1 4 A B C D 圖一 答案

¦ÛµM¬ì²Ä3¦¸²Õ¨÷-¾Ç´ú¤ºŁ¶«Êٱ.prn, page Normalize ( <4D F736F F D20A6DBB54DACECB2C433A6B8B2D5A8F72DBEC7B4FAA4BAADB6ABCAADB12E646F63> )

<4D F736F F D20A4BDA640BDC3A5CDAED6A4DFBDD2B57BB0F2A5BBAFE0A44FB4FAC5E72DAC79A6E6AF66BEC7B8D5C344A4BDA FA7B9BD5AAAA9>

( ) t ( ) ( ) ( ) ( ) ( ) t-

Microsoft Word doc

國家圖書館典藏電子全文

表二 105 年國中教育會考英語科閱讀與聽力答對題數對應整體能力等級加標示對照表 閱讀答 對題數 聽力答對題數 待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強

Microsoft Word - _m30.doc

- I -

4.3 電 流 洩 漏 對 電 度 表 之 計 量 ( 糾 紛 ) 影 響 其 他 原 因...46 第 五 章 問 卷 調 查 與 分 析 問 卷 研 究 步 驟 因 素 與 信 度 分 析 問 卷 結 果 分 析 -1 (1

中國傳統醫學及養生保健學說中,與經脈及穴道有密不可分的關係

30 ml polystyrene 4 mm ph 0.1 mg blender M -cm D. pulex D. magna 20 L 2 20

经 济 与 管 理 耿 庆 峰 : 我 国 创 业 板 市 场 与 中 小 板 市 场 动 态 相 关 性 实 证 研 究 基 于 方 法 比 较 视 角 87 Copula 模 型 均 能 较 好 地 刻 画 金 融 市 场 间 的 动 态 关 系, 但 Copula 模 型 效 果 要 好 于

「父母與同儕依附量表」之發展

08陈会广

11第十一章階層線性模式.DOC

cover.PDF

生物科 左營高中 / 許惠紋 一 前言 二 試題特色 號稱五年來最難題目 2. 高二 高三課程出題比例高 康熹 97 指考科目. 生物科

Microsoft Word - ACI chapter00-1ed.docx

840 提示 Excel - Excel -- Excel (=) Excel ch0.xlsx H5 =D5+E5+F5+G5 (=) = - Excel 00

: ( ),,


An Investigation and Design of Examination Distance about the Infant s Speed-run Chen-kuan Kao Associate Professor, Humanities and Scienec Education C

基于因子分析的敦煌莫高窟游客满意度研究

ap15_chinese_interpersoanal_writing_ _response

% 30% % % % %

<4D F736F F D20B1E5C3CEC4C8CBB6CABFB1CFD2B5C2DBCEC42E646F63>


基本數學核心能力測驗_行為觀察記錄紙_G2版本

東莞工商總會劉百樂中學

(Microsoft Word - 11-\261i\256m\253i.doc)

240 生 异 性 相 吸 的 异 性 效 应 [6] 虽 然, 心 理 学 基 础 研 [7-8] 究 已 经 证 实 存 在 异 性 相 吸 异 性 相 吸 是 否 存 在 于 名 字 认 知 识 别 尚 无 报 道 本 实 验 选 取 不 同 性 别 的 名 字 作 为 刺 激 材 料, 通

(Microsoft Word - \265\332\276\305\306\332)

HCD0174_2008

Microsoft Word - 中文3-PLM應用.doc

現在人類獲取地球內部訊息的方法, 是從可能影響我們身家性命安全的地震, 用數學模型把地震資料轉換成地震波速度, 進而獲得地底物質密度與深度的關係 地下世界知多少 km/s g/cm 3 P Gpa km S P S 3,000 3,000 ak K 透視地底 Percy Bridgma

(156) / Spurious Regression Unit Root Test Cointergration TestVector Error Correction Model Granger / /

2015年4月11日雅思阅读预测机经(新东方版)

Microsoft Word - 04_曾梁張謝.doc

《普通心理学》讲座提纲


Transcription:

信度的概念 Concepts of Reliability Case Exhibit 3.2: Test Reliability and Courtroom Testimony Classical Theory and the Sources of Measurement Error Sources of Measurement Error Measurement Error and Reliability The Reliability Coefficient The Correlation Coefficient The Correlation Coefficient as a Reliability Coefficient Reliability as Temporal Stability Reliability as Internal Consistency Item Response Theory and the New Rules of Measurement Special Circumstances in the Estimation of Reliability The Interpretation of Reliability Coefficients Reliability and the Standard Error of Measurement

Key Terms and Concepts Classical Theory of Measurement 古典測量理論 Reliability 信度 / as Temporal Stability; as Internal Consistency 內部一致性 1. inter-scorer 評分者間 2. test-retest 再測 3. alternate forms 複本 ( parallel forms 平行版本 ) 4. Split-half 折半 Spearman-Brown 斯布校正公式 5. Kuder-Richardson formula 庫李公式 6. Coeficient alpha α 係數 Measurement Error 測量誤差 Systematic Measurement Error 系統性測量誤差 & true score 真分數 Generalizability theory 概化理論 Correlation Coefficient 相關係數, Reliability Coefficient 信度係數 Item Response Theory 試題反應理論 Latent trait Theory 潛在特質理論 Rasch Model Rasch 模型 Speed test 速度測驗 power test 難度測驗 Estimation of Reliability 信度估計 Confidence interval 信賴區間 Standard Error of Measurement 測量標準誤 Standard Error of the difference 差異分數標準誤

古典測量理論 (classical measurement theory) Observed Score (OS) 受三個影響 : (1) 真實得分 (True Score; TS) (2) 獨特得分 (Unique Score; US) (3) 誤差得分 (Error Score; ES) 離職意向 的例子 : OS1 = TS + US1 + ES1 ( 第一題 ) OS2 = TS + US2 + ES2 ( 第二題 ) OS3 = TS + US3 + ES3 ( 第三題 )

變異量 (Variance) 及共變量 (Covariance) -- 以變異量及共變量驗證構念間之關係 -- 樣本整體變異量 (Observed Variances; O), 包括 : (1) 真實差異 (True Variance;T) (2) 獨有因素帶來的差異 (Unique Variance;U) (3) 隨機誤差帶來的差異 (Error Variance;E) O = T + U + E

信度 (reliability) (1) E 佔 O 的比重 (2) 因為 E 是隨機的, 信度為測量的工具免於隨機誤差的程度 (3) 測量結果的一致性或穩定性

信度係數的估計 : 為了與統計上的相關係數看齊, 我們一般會取兩次測量的共變量比例的平方根, 來合計信度, 稱之為信度係數 (reliability coefficient) E1 T+U E2

信度係數的方程式 信度係數 = T U O O E O

信度 (reliability) 的估計 -- 兩次測量的相關係數 : (a) 再測信度 (test-retest reliability) (b) 複本信度 (alternative forms reliability) (c) 折半信度 (split-half reliability) (d) 項目間的一致性 (internal consistency reliability) : Coefficient alpha;α (SPSS reliability 的指令 ) -- 一般來說信度係數要在 0.7 以上

測量工具的信度係數

把 R 0 除以 r1 及 r2 的平方根, 便可求得 R t

R t 與 R o 的關係 (Correction for Attenuation) 削弱校正 In investigating test validity the test scores to be validated are called X and they are validated against a criterion called Y. For example, X might be SAT verbal scores and Y could be grade point average in freshman year in college. Then the correlation between X and Y is a validity coefficient. Spearman derived an equation which displays the effects of altering the length of both the test and the criterion on validity. Then the validity of a perfect test for predicting a perfect criterion is caled Spearman scorrection for Attenuation. It yields an estimate of the true score correlation. Conditions under which this formula is useful have been presented by Zimmerman and Williams (1997)

影響信度的主要因素 (1) 受測量者方面 ( 動機 情緒等 ) (2) 主持測量者方面 (3) 測量內容方面 item selection (4) 測量情境方面 test administration (5) 時間影響方面 測量誤差 Measurement Error 的來源 1.item selection 2. test administration 3. Test scoring 4.Systematic Measurement Error 系統性測量誤差

共同因子 (common factor) 的概念 Common Factor = CF EF1+UF1 EF2+UF2 EF3+UF3 OS1 OS2 OS3 CF

共同因子 (common factor): 共變量 T = 共同因子的變異量 ( 各項目的共變量 : 沒有測量誤差的變異量 ) U 1 +E 1 C 13 C 12 T U 3 +E 3 U 2 +E 2 C 23

傳統測驗主要以古典真分數 (true score) 理論為基礎, 古典測驗理論的假設較少, 且容易滿足, 有時又被稱為弱勢理論 (weak theory); 相反的, 適性測驗則以試題作答理論 (item response theory; IRT) 為理論根據,IRT 係晚近從數學發展出來的測量理論, 理論較嚴謹, 假設也較難滿足, 因此也被稱為強勢理論 (strong theory)

一般而言, 題庫會因測驗評量方式之不同而有不同程序之建立方法 例如, 以古典測量理論 (classical measurement theory) 為基礎所編製的傳統式測驗 (conventional test), 常以團體為基礎的試題統計量數 (group-based item statistics)( 如 p 值 ) 來建立結構化的試題組合 以此種方式建立的題庫有其難以克服的缺點 ( 何榮桂, 民 80) 在教學活動中, 測驗評量是獲得學生學習情況的主要訊息來源, 測驗結果的量化分析隨著資訊科技的進步, 近年來已產生了相當大的變革, 其中較重要且有效的方法就是所謂的試題反應理論 (Item Response Theory, 簡作 IRT)( 簡茂發 劉湘川 許天維與郭伯臣, 民 83) 由於許多學者對這方面的投入, 新的理論與應用方法愈來愈精進, 愈來愈實用

電腦化適性測驗 (computerized adaptive tests; CAT) 是測驗理論 ( 主要以 item response theory, IRT, 為理論基礎 ) 與實務伴隨電腦科技的發展而形成的產物 至目前為止,CAT 的理論與技術均已十分成熟, 一些常見的測驗工具 ( 如 ETS 的托福測驗等 ) 也以 CAT 的方式施測 ; 適性 (adaptive) 測驗是量身訂製 (tailored) 的測驗, 是個別測驗 (individual test), 也是真正的個別化測驗 (individualized test) 量身訂製或個別化的測驗, 意指給受試者做符合她 / 他能力 ( 或特質 ) 水準的題目最能反映她 / 他的能力或特質 對某一受試者而言, 太難或太簡單的題目都沒有必要 ; 也就是說, 對某一受試者而言, 題目太難或太簡單, 即使此受試者答了這些題目, 也無法從這些題目獲得此受試者之特質, 或是說, 這些題目並無法回饋受試者的訊息給主試者, 這樣的測量就失去意義

一 信度的意義 測驗信度 : 一測驗在某持久性心理特質的一致性或穩定性 影響測驗信度主要有三個因素 : 1. 測驗長度 2. 受試的變異性 3. 間隔時間的長短 表各種信度估計法的誤差變異量主要來源 信度估計法 1. 折半法 2. 複本法 ( 立即 ) 3. 重測法 4. 複本重測法 5. 庫李法或 α 係數 6. 多人主觀評分法 誤差變異量來源 試題內容的取樣試題內容的取樣時間上的取樣時間取樣 + 內容取樣試題內容取樣和內容同質性評分者之間的差異

分數的變異來源

估計信度方法與測驗版本及施測次數的關係 測驗版本 施測次數 一種二種 一折半法庫李法複本法 ( 立即 ) 次或 α 係數 ( 等值係數 ) 二次 ( 內部一致性係數 ) 重測法 ( 穩定係數 ) 複本重測法 ( 延宕 ) ( 穩定等值係數 )

求評分者信度可用的統計方法 評分者人數 二名 二名以上 評名斯比爾曼等級肯德爾和諧係數分次相關係數方法式分皮爾遜積差變異數分析數相關係數 (Hoyt 法 ) 法

二 信度的類別及其求法 (1) 內部一致法, 為一種內部一致性量數, 其高低受到內容取樣和樣本異質性兩種誤差變異量的影響 (2) 複本法 alternative-form reliability 同一測驗有兩種以上複本, 將兩種複本分別實施於同一群受試者, 再以其分數計算相關係數, 即得複本信度, 如兩者同時連續實施, 其複本信度又稱等值係數 ; 如隔一段時間或分兩次實施, 其複本信度又稱穩定與等值係數 (3) 重測法, 同一測驗, 同一群受試者, 前後測兩次, 再計算其相關係數, 或稱再測信度 retest reliability ( 又稱穩定係數 ) (4) 評分者信度, 指不同的評分者或同一個評分者在不同的時間, 在測驗過程中觀察 記錄 記分等一致性而言, 方法為隨機抽權相當份數的測驗卷, 由兩位評分者按記分要點評分, 然後依兩個分數計算其相關係數

內部一致法 1. 折半信度 ( split-half reliability ), 依正常程序施測, 將全部試題分為相等的兩半 ( 大多依單 雙數題 ), 計算每位受試者在兩半測驗的總得分, 再以這兩半分數計算其相關係數 因僅計算測驗兩半之相關, 故需用公式校正, 其中常用的是斯布校正公式 (Spearman-Brown Prophecy Formula), 如下頁右 ; 但若兩半變異數不等, 則宜用范氏公式 ( 如下頁左 ) 2. 庫李信度 Kuder-Richardson Reliability,1937 僅適用二分法測驗 3. Cronbach s α 係數 (1951) 適用各種計分法之測驗 4. Hoyt 信度係數 (C. Hoyt, 1941) 信度乃真正分數變異數在實得分數總變異數中所佔之比率 rh=1-ms errors / MS individuals 附註 : 上述公式中之 k 為題數,p 為某題答對率,q 為答錯率,M 為測驗總分 X 的平均數,SD 為測驗總分 X 的變異數,SDi 為某題分數的標準差

信度的求法 折半信度 斯布校正公式 Spearman-Brown Prophecy Formula) Flanagan,1937 庫李信度和 α 係數 KR20 r xx 2 2 sa sb 2 ( 1 ) 2 s k pq KR20 k 1 1 2 SD t r SB 2rhh 1 r hh KR21 k M k M KR21 k 1 1 ( ) 2 k( SD ) k Cronbach s α k 2 SDi 1 1 ( ) 2 SD

內部一致性信度係數的求法舉例 I1 I2 I3 I4 I5 I6 X XX 奇數偶數 乘積 A 0 1 1 1 1 1 5 25 2 3 6 B 1 1 1 0 1 0 4 16 3 1 3 C 0 0 1 1 0 0 2 4 1 1 1 D 1 1 1 1 1 1 6 36 3 3 9 E 0 1 0 0 0 0 1 1 0 1 0 SUM 2 4 4 3 3 2 18 82 9 9 19 4 16 16 9 9 4 324 平方和 2 4 4 3 3 2 82 23 21 SD 0.4899 0.4 0.4 0.4899 0.49 0.4899 1.8547 1.1662 0.9798 V 0.24 0.16 0.16 0.24 0.24 0.24 3.44 1.36 0.96 pq 0.24 0.16 0.16 0.24 0.24 0.24 1.28 KR20= 0.7535 rh= Hoyt 信度係數 rf= 0.651 范氏公式 α= 0.7535 0.7535 = 1-0.1767/0.7167 rf=2*(1-(1.36+0.96)/3.44)

利用變異數求 Hoyt 信度係數 折半相關 變異來源 SS df MS F P r=(19/5-1.8*1.8)/(1.1662*0.9798) 受試間 2.8667 4 0.7167 4.057 r= 0.4901 試題 0.8 5 0.16 0.906 斯布校正 誤差 3.5333 20 0.1767 rsb=2*0.4901/(1+0.4901) 總數 7.2 29 r= 0.6578 rh=1-ms errors / MS individuals = 1-0.1767/0.7167= 0.7535 SSt=18-18*18/30=7.2 SSb=(82-18*18/5)/6=2.8667 SSitem=(58-18*18/6)/5=0.8 [ 用 IA 程式計算所得 ] Coe. of Kuder-Richardson formula : 0.7535 Coe. of Split-half reliability : 0.4901 Coe. of Spearman-Brown formula : 0.6578 Coe. of Rulon formula : 0.6512 1. 斯布校正公式 (Spearman- Brown Prophecy Formula) r S B 2 1 r r h h h h

相關係數的解釋 1. 相關係數求得後, 可根據樣本人數 N 的大小, 查 相關係數顯著性臨界值 表, 以決定該相關值是否由機遇造成 不能僅憑其數值大小而斷言其相關的高低 2. 相關是共變關係, 僅表示兩個變項相互關係而已, 不表示具有因果關係 3. 相關係數的值介於 +1 至 -1 之間 +1 稱為完全正相關,-1 稱為完全負相關, 相關係數為 0 時稱為完全零相關 4. Pearson 積差相關為直線相關, 若兩變項為非直線關係則不適用 5. 相關係數的平方稱為決定係數, 乃表示 X 變項解釋 Y 變項變異量的百分比

測量標準誤 standard error of measurement 在測量中, 對同一受試者測無限多次的平均數為真正分數, 但每次測量的實得分數與真正分數間不一定一致, 而有誤差, 稱為 測量誤差, 而無限多次的測量誤差將形成一常態分配, 測量誤差分配的標準差, 特稱為 測量標準誤 ( 個人真正分數的推定 測量標準誤是由信度係數衍生而來的一個統計數值, 對測驗分數的解釋有重要的用途, 測量標準誤最大的功能便是協助我們去對測驗各層面上誤差的大小有所了解 其公式如下 : SEM=SD ( 1-rxx) confidence interval 信賴區間 較理想的測量分數解釋是同時使用實得分數和測量標準誤, 來估計真正分數, 通常用區間估計來呈現 ; 例如某人在魏氏智力測驗智商為 108, 該測驗之信度係數為.91, 則其真正智商的信賴區間如下 : 測量標準誤 =15( 1-.91) =4.5 95% 信賴區間 =108±2 (4.5)=99~117 99% 信賴區間 =108±2.58 (4.5) =96.4~119.6 [ 註 : 上式中 2 為概率 95% 的 z 值的近似值 ;2.58 為概率 99% 的 z 值 ]

測量標準誤 SEM (Standard Error of Measurement) 信度表示測量分數的穩定與可靠性, 亦表示測量受到測量誤差的影響程度 測量分數的變異量, 受到測量誤差影響的部分, 稱為測量誤差變異量, 開方後稱為測量標準誤 (σ e ) SEM 1 x r xx r xx X 特質的測驗信度 測量誤差被假設呈常態分配, 因此測量標準誤配合常態化機率可以用來進行測量分數的區間估計 T x 1.96 e X 分數的 95% 的信心區間 Ex. 某測驗變異數 100, 信度.80, 測量標準誤為何? 某生得分 80 分,95% 信心估計為何?

差異分數標準誤 standard error of the difference A statistical index that can help a test user determine whether, for an individual examinee, the difference between scores on two tests or subtests is significant. 用於個人測驗分數的解釋, 可幫助受試者了解其在兩測驗或分測驗所得分數間, 是否達顯著差異 兩項測驗分數的比較 應用差異分數的標準誤, 其公式如 下 :SEdiff=SD( 2-rxx-ryy) SEM diff 2 SEM 1 SEM 例如小華在語文測驗得 T 分數 56, 空間關係測驗得 T 分數 48, 已知語文測驗信度係數為.84, 空間關係測驗信度係數為.91, 則其差異分數的標準誤 =10*0.5=5 當 α=.05, 其臨界值 =1.96*5=9.8, 而兩測驗分數差異為八分 (56-48=8), 小於臨界值, 故差異不顯著 2 2

信度係數的樣本依賴性 : 信度係數會因樣本的變異性而受到影響, 其依變項可分為 : 個別差異 : 當樣本的個別差異範圍越小時, 所得的信度係數會偏低 能力水準 : 當樣本的能力水準越接近時, 所得的信度亦會偏低 測量標準誤 SEM: SEM SD t 1 r tt 所謂的測量標準誤是指因各種隨機誤差的影響, 所測量的分數會在真實分數附近變動而形成一個常態分配, 而此常態分配的標準差, 即是測量標準誤 SEM 可被用來估計個體真實分數的合理範圍 兩分數差異的 SEM 必大於任一分數的 SEM, 故 SEM diff 2 SEM 1 SEM 效標參照測驗的信度 : 可利用複本信度及折半信度來計算, 以避免試題重複 用一般測 mastery, 減低了個別差異, 故所得信度偏高 不適用於對 preestablished mastery 的人做信度分析 2 2

generalizability theory 概化理論 A domain sampling model of reliability that recognizes several alternatives of generalization for test results. 是 Cronbach 發展出的一套辨識測量誤差來源的統計模型 逐漸取代古典測驗理論來定義及估計測驗的信度 它與古典測驗理論的不同在於, 認為測量誤差除了隨機誤差之外, 尚有系統性誤差, 例如主試者的施測或評分習性, 或施測地點 季節等 概化理論是運用變異數分析的方法以瞭解測驗誤差的來源, 測驗信度及測量標準誤的一種理論

概化理論研究及應用前景 Studies and Application Prospects of Generalizability Theory 作者 : 劉桔,<< 心理科學 >>2003 年第 26 卷第 03 期期刊 - 核心期刊 QCode : xlkx200303014 1972 年,Cronbach 和他的同事們提出概化理論之後, 概化理論在行為與心理測量領域得到了廣泛的應用, 較之經典測量理論, 它的優勢逐漸地顯露 : (1) 測量的多種誤差來源可以在同一個分析中分別估計 ; (2) 可以指導決策者選擇最優測量方案 ; (3) 提供可靠性係數 : 概化係數 (G 係數 ) 和依存性指標 (ψ 係數 ) 用於不同的決策任務 ; (4) 排除了嚴格平行測驗的假設. 概化理論以它的精確性和可靠性受到了信度測量領域研究者們的青睞, 本文旨在對概化理論的基本框架 產生 發展及應用前景進行詳細論述

測驗理論主要可以分為兩大類 : 古典測驗理論 (classical test theory, CTT) 與試題反應理論 (item response theory, IRT) 古典測驗理論的名稱確立於 Gullikson (1950) 的經典之作 心理測驗理論 (Theory of Mental Test), 但是有學者認為古典測驗理論的基礎可以追溯到 Spearman 早在 1913 就已經提出相關的理論 (Embretson & Reuse, 2000) 該理論簡單易行, 在 20 世紀引領著測驗編製發展 試題反應理論又稱為潛在特質理論 (latent trait theory, LTT), 該理論的名稱的確立主要是由 Lord & Novick (1968) 的經典作品 (Statistical theories of mental test scores), 引發學者對 潛在特質 概念的重視與研究 試題反應理論背後之數學模式較為複雜, 而且受限於早期電腦的運算速度, 以致於理論推展較緩慢 近年來由於學者學者們持續的重視與推展, 再加上電腦運算速度大幅提升, 大有後來居上, 凌駕古典測驗理論之趨勢 ( 余民寧, 2002) 目前許多重要的入學考試與證照測驗, 例如國內的國中基本學力測驗 美國的托福測驗 (TOEFL, Test of English as a Foreign Language) 多益測驗(TOEIC, Test of English for International Communication) 臺灣理財規劃顧問認證測驗等, 其測驗編製與考生能力估計都是採用試題反應理論來進行

試題反應理論 試題反應理論 (Item Response Theory, IRT) 以試題目特徵函數 (Item Characteristic Function, ICF) 表達受試者能力和測驗反應間之關係, 因函數中所採用的參數個數不同, 通常被分成單參數 雙參數以及三參數等三種模式 在受試能力和反應的關係上,IRT 以機率概念的數學模式來表達, 較古典測驗理論以線性關係來說明, 更能契合受試特質測量的意義 [Downing SM,2003; McHorney CA.,2003; 王文中,1997)

試題反應理論 IRT 概要 受試者在某測驗上的表現情形, 可由一組因素來加以預測或解釋, 這組因素稱為潛在特質 (latent traits) 或能力 (abilities) 受試者的表現和潛在特質之間的關係, 可透過一條連續嚴格遞增 (monotonically increasing) 的函數來解釋, 此函數稱為試題特徵函數 (item characteristic function ), 然後再把不同能力的學生在某試題的得分期望連結成線, 所形成的曲線則稱為試題特徵曲線 (item characteristic curve, 簡稱 ICC) IRT 的目的就在於提供計的試題不變量 (invariant) 和能力估計值 [ 試題參數不變性和能力參數不變性 (invariance)] 由於 IRT 試題反應理論是針對古典測驗理論的缺失而發展出來, 所以它有幾項特色 (Hambleton&Swaminathan,1985) 1. 在受試母群中, 試題參數估計值是不受取樣波動 (sampling fluction) 的影響, 不同的取樣結果, 只呈現 ICC 的局部區間, 連結了不同的取樣結果, 則可呈現較完整的 ICC 圖 2. 在試題的選擇中, 受試者能力估計值不受取樣波動的影響 3. 受試者的能力可以確切估計求出

試題反應理論 IRT CAT 理論基礎主要是源自於試題反應理論 (item response theory, IRT) 基於 IRT 的單向度 (unidimensionality) 假定, 以及受試者的能力估計的不變性 (invariance), 使接受不同試題的受試者能力可以被放在同一個尺度上互相比較 (Hambleton & Swaminathan, 1985; Wainer et al., 1990)

試題反應理論 Item response theory 至於最近發展的試題反應理論則對試題分析提供更豐富的訊息, 並使測驗的應用有更多的發展 以下概略說明試題反應理論的意義與特色 : 1. 試題特徵曲線 ICC (Item Characteristic Curve, 參看圖三 ) 是現代心理計量學最強有力的理論之一 試題反應理論 (Item response theory) 或稱潛在特質理論 (Latent trait theory) 的基礎 2. 某個試題的試題特徵曲線就是該題答對機率對考生能力的迴歸線 3. 試題反應理論的基本假設是 : 單一維度 uni-dimensionality 指測驗只測一個特質或能力 試題局部獨立 local independence, 就某一受試能力而言, 試題間無相關, 也就是統計獨立

IRT 三參數模式 ICC : ci 是試題猜測的程度,ai 及 bi 分別為試題的鑑別度及難度,D 值設在 1.7 P(θ) 轉折點 圖三 試題特徵曲線 ICC

試題反應理論 Item response theory 4. IRT 三參數模式 : P( ui 1, ai, bi, ci) 1 ci ci 1 exp[ Dai ( bi)] ci 是試題猜測的程度,ai 及 bi 分別為試題的鑑別度及難度,D 值設在 1.7 5. 試題反應理論的三個優點 : (1) 對考生能力的估計不受試題難度的影響 ; (2) 試題之間相對的難度及鑑別度是根據考生得分情形來估計 ; (3) 每個試題對測量某種能力的精確度可藉由統計方法估計出來

試題反應理論 Item response theory 6.IRT 的實際應用 (1) 誘答項訊息 Getting Information about Ability from Distracters (2) 編製電腦適性測驗 Computerized Tailored Testing 簡稱 CAT, 乃指利用電腦進行施測, 處理選題, 計分及能力估計等問題的一種測驗方式 (3) 特殊測驗的試題分析, 如篩選測驗 (screening test) 或關鍵計分法測驗 (criterion-keyed tests) MMPI (4) 偵測試題偏誤 detect test bias (5) 分數等化 測驗的連結 (linking) 與等化 (equating) 是現代測驗理論再實際應用的一大領域

Item-test-regression 13 題比 7 題難

試題特徵曲線 ICC 第 1 題鑑別度最高第 2 題難度最高第 3 題猜測度高

item-characteristic curve 試題特徵曲線 ICC 可表示受試在測驗中所測到特質與正確反應百分比的關係的曲線 A BC D 四條區線最高值 (upper asymptote) 都是 1 BC D 三條曲線的最低值 0 A 題猜測度高 BC 題難度相同 D 題難度最高 C 題鑑別度最高 IRF 試題反應函數

一 IRT 的概念與發展 試題反應理論 (item response theory; IRT) 的基本概念 P ij 1 e ( b j ) ( j b e i j b i ) j 為考生 j 的能力, b i 是試題 i 的難度, P ij 是受測者答對某個題目的機率

試題反應理論 (IRT) 與古典測驗理論 (CTT) 比較 模式特性 試題參數 能力量尺 試題反應理論 試題的作答反應模式 不同 IRT 模式適用不同測驗 題目參數估計不變性 能力估計不變性 根據概似函數估計程度, 理論基礎強 可直接參照題目或發展參照標準來解釋分數 可算出等距量尺 傳統測驗理論 測驗總分的模式 各種測驗都使用同一套模式 題目參數會受到受試者能力影響 受試者能力受到題目特性影響 各題目配分直接加總, 缺乏理論基礎 需發展參照標準才能解釋分數 群體為常態分布才能算出等距量尺

試題反應理論 (IRT) 與古典測驗理論 (CTT) 比較 ( 續 ) 信度 測量精確度 ( 訊息量 ) 隨著受試者能力以及所接受的題目特性而不同 應用編製測驗 ( 量表 ) 分數等化, 編製題庫 電腦化適性測驗 組合測驗 整體評估 優點 : 能力估計不變性 具有題目參數估計不變性 測量精準度的概念較合理 應用層面較廣 缺點 : 不易理解 能力估計與試題參數估計較麻煩, 須仰賴電腦軟體來分析 接受同一測驗的所有受試者其測量精確度 ( 信度 ) 都相同 編製測驗 ( 量表 ) 優點 : 模式簡單易理解, 能力與試題參數容易計算 缺點 : 等測量標準誤假設不合理 應用較狹隘, 受試者程度受題目特性影響 題目參數受受試者特性影響

當代 IRT 的發展 評量系統公司 www.assess.com 向度數量 單向度 計分方式 二元計分 多元計分 參數個數模式提出者適用軟體 單參數模式 (Rasch 模式 ) 二參數模式 三參數模式 類別反應模式 (nominal response model) Rasch(1960) Lord(1952) Birnbaum(1968) Bock(1972) Bigstep, BILOG, BILOG-MG MULTILOG, ConQuest 等級反應模式 (grade response model) Samejima(1969) 部份給分模式 (partial credit model) Wright & Masters(1982) 評定量尺模式 (rating scale model) Andrich (1978) 多向度 二元計分 多向度二參數模式 Mckinley & Reckase(1983) NOHARM, ConQuest 多向度三參數模式 Hattie(1981) 多元計分 多元計分模式 Adams, Wilson & Wang, (1997)

訊息函數 訊息函數 (information function) 為某一項目對某一能力值所能提供的訊息量, 可作為選題比較的依據, 加總各試題而成測驗訊息. 其數學表示 :

標準誤 測驗訊息函數最大的特性是可加性, 因此題數愈多, 訊息也愈多, 每一題目的訊息量與其他題目的訊息量無關 而它與能力估計間的標準誤 (standard error of estimation,see) 關係為如下 :

測驗訊息量與測量誤差 題目訊息量 (item information): I i 2 Pi ' ( ) P Q i i 測驗訊息量為題目訊息量總和 測量誤差 : SE( ) 1 I ( ) 訊息量 Inf1 Inf2 Inf3 Inf4 Inf5 Inf6 Inf7 Test-Inf 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0-3.0-2.0-1.0 0.0 1.0 2.0 3.0 潛在特質 ( 能力 )

影響信度的因素 : 受測特質因素 受測者在受測特質的變異越大, 信度越高 當造成隨機變異因素維持恆定的情形下, 異質性越高的受測者, 特質真分數越容易被顯現出來 不同類型的受測者 ( 來自不同母體的樣本 ), 特質變異可能不同, 因此信度估計可能會有不同 (ex. 不同種族受測者 ) 不適當的受測者, 特質變異可能不同, 因此信度估計可能會有所不同 ( 把小學測驗拿給大學生作 )

restriction of range 範圍侷限 A phenomenon in which the range on a variable is restricted, causing correlations with other variables to be artificially low. 為一種因某變數全距受限, 導致與其他變數間相關變低的現象

影響信度的因素 : 測驗工具因素 測驗工具的品質 測驗工具的計量特性 測量題目的相關越高, 內部一致性越高 測量題目的題數越多, 內部一致性越高 加長量表增加信度, 但增加作答時間與成本, 題目亦編寫不易 new_ r xx n old _ rxx 1 ( n 1) old _ r xx n 測驗題目的倍數 Ex. 某測驗共 10 題, 信度為.8, 題目若增加一倍, 信度為多少? 若減少一倍, 信度為多少? 測驗信度若要提高至.9, 題目應增加幾題?

影響信度的因素 : 測驗的使用與信度估計方法 測驗的使用目的影響信度 越一般性的推論目的, 信度越高 越特殊性的推論目的, 信度越低 越穩定的特質, 信度越高 越抽象的特質的測量, 信度越低 不同的信度估計方法, 得到信度不同 內部一致性係數通常高於複本信度, 再測最低 當測驗題目具有特殊性, 題數少, 越容易被記憶, carryover effect 明顯時, 再測信度高

信度應用的特殊議題 : 速度測驗的信度估計 Speed tests vs. power tests Speed tests: 在時間壓力觀察受測者作答反應 測量題目具有同質性或相同難度 信度應衡量重複實施的穩定性 Power tests: 在不同難度試題下, 觀察受測者在各題上的反應 題目間具有相當程度的異質性 ( 或難度 ) 信度在衡量這些異質題目得分的一致性

speed test 速度測驗 VS. power test 難度測驗 speed test 速度測驗 A timed test that contains items of uniform and generally simple level of difficulty; the time limit is strict enough that few subjects finish a speed test. 是一種限時的測驗, 其試題形式單一化, 且難度偏易, 時間限制嚴格以致幾乎沒有受試者可完成作答 power test 難度測驗 A test that allows enough time for test takers to attempt all items; however, the test is difficult enough that no test taker is able to obtain a perfect score. 為一種類型的測驗, 讓受試有充分時間作答, 但試題難度卻使得受試者無法獲得全部的分數

速度測驗的信度 所謂速度測驗即是由低難度的題目所組成, 其中個別差異全由完成的速度而定 速度測驗不適用於 K-R 及折半信度來求, 因為 測驗分數的個別差異是來自於所答完的題目, 而並非錯誤數 同時速度測驗的題目皆由低難度的, 若以 K-R 或折半信度來計算會使信度偏高 故速度測驗的信度可用再測信度及複本信度或是以折半信度中以時間先後來分, 而不以題目來區分即可

信度應用的特殊議題 : 合成分數的信度估計 Composite scores 多個測驗分數加總的合併分數 分數合成後, 信度傾向於提高 測驗間的相關越高, 合成信度 (r ss ) 越高 ss r ss k ( kr ii 1 k ( k 2 ) k) r ij r ii 平均測驗信度 r ij 平均測驗相關 k 測驗數目 Ex. 三個測驗信度分別為.7,.8,.9, 合成分數的信度為何?

信度應用的特殊議題 : 效標參照測驗的信度 效標參照與常模參照的信度差異 效標參照測驗 : 分數與效標比較 重視決策穩定度 常模參照測驗 : 分數與分數比較 重視分數的穩定度 Kappa coefficient (Taylor & Lee, 1995) 評估兩次測量的決策的一致性 (agreement) kappa agreement exp agreement 1 exp agreement Result 1st P 1st F 2nd P 25 15 2nd F 10 30

效標參照測驗的信度 : 可利用複本信度及折半信度來計算, 以避免試題重複 用一般測 mastery, 減低了個別差異, 故所得信度偏高 不適用於對 preestablished mastery 的人做信度分析