新竹縣教育研究集刊第十二期民 101 年 12 月 Application of IRT in Educational Measurement Bor-Chen Kuo 1 Huey-Min Wu 2 Chun-Hua Chen 3 1 3 Graduate Institu

Similar documents

Developing an Item Bank of Fraction Concepts Jyun-Ji Lin Ph. D. Candidate, Department of Psychology, National Chung Cheng University Yuh-Yin Wu Profes

Microsoft Word - z-vc85-王暄博

inter - rater intra - rater 101

教育學報31-2期.indd

考試學刊第10期-內文.indd

Microsoft Word doc

92南師學術研討會

,,,,, :IRT ; ; ; ( CIP ) /. :,2002 () ISBN H CIP (2002) ( ) : : : 890mm1240mm 1/ 32 :

作主动追求知识获取技能, 在心理和生理上都非常积极的个体 (Zimmerman & Pons, 1986) 在此期间, 自我效能感 (self-efficacy) 自我控制 (self-control) 自我管理 (self-

教育科學期刊

EXAMINATIONS RESEARCH No General No. 37 姚霞本文在分析 PISA TIMSS 和 NEAP 三项国际学生科学素养测评现状的基础上, 提出对我国科学素养测评的启示 : 1. 明确测评目标和测试框架, 在深入研究课程教材的

Microsoft Word doc

Microsoft Word - 19陈平辛涛jz12-477_new_.doc

<4D F736F F D20A457AEFCA5ABB0D1B358A6A8AA47B3F8A769AED FB3F8A9B25F>

Journal of Curriculum Studies September, 2013, Vol. 8, No. 2, pp A Study of the Relationship between Senior High School Curriculum and the Mult

Journal of Curriculum Studies September, 2013, Vol. 8, No. 2, pp From the Development Trend of University to Study High School Curriculum Refor

[9] R Ã : (1) x 0 R A(x 0 ) = 1; (2) α [0 1] Ã α = {x A(x) α} = [A α A α ]. A(x) Ã. R R. Ã 1 m x m α x m α > 0; α A(x) = 1 x m m x m +

从语用的角度看口语水平测试

Microsoft Word - 33-p skyd8.doc

A VALIDATION STUDY OF THE ACHIEVEMENT TEST OF TEACHING CHINESE AS THE SECOND LANGUAGE by Chen Wei A Thesis Submitted to the Graduate School and Colleg

Microsoft Word - A doc

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

语篇中指代词的分布规律与心理机制*

2011年南臺灣教育論壇

59 1 MSLQ 2. MSLQ 2. 1 被试 Kuhl 1987 Corno & Kanfer 1993 D rnyei % 111 commitment control strategies 37% 65 21% % metac

2. 文獻探討 2.1 大眾運輸之特性大眾運輸有兩項營運目的 : 第一是減少使用私人運輸工具, 以抒解交通壅塞的現象 ; 第二是藉此達到所得重分配的效果 [2] 根據 Lovelock [

Microsoft Word - 04-內文-02.doc

<4D F736F F D DBED4B2A4A9D2A9DBA5CDB8EAB054A7B9BEE3AAA92DB3D5A468AF5A2E646F63>

<4D F736F F D20B0AAAEC4B276AD5EA4E5BEC7B2DFB5A6B2A42E646F63>

北京大学申报市级教学成果奖

STEAM STEAM STEAM ( ) STEAM STEAM ( ) 1977 [13] [10] STEM STEM 2. [11] [14] ( )STEAM [15] [16] STEAM [12] ( ) STEAM STEAM [17] STEAM STEAM STEA

生涯規劃團體尊女性幼教人員生涯規劃行為之輔導效果

日本、新加坡、中國大陸與台灣中小學教師評鑑制度比較研究

262 管理與系統 countries including Taiwan. Because of the liberalization policy of Taiwan s power industry, there is a critical demand to explore the m

Microsoft Word - 98全國大學校長會議

世界各國為追求經濟發展及提升競爭力致力於教育改革，以提高教育品質，教師在椒玉品質中具有關鍵性的地位，各國為確保師資品質一致無不進行師資培育改革政策的推動

66 臺中教育大學學報 : 人文藝術類 Abstract This study aimed to analyze the implementing outcomes of ability grouping practice for freshman English at a u

（單位名稱）大事記---96學年度(96

六到八歲兒童, 設計並發展一套以 van Hiele 幾何思考層次理論為基礎的悅趣化學習數位教材, 取名為米德玩形狀, 同時探討低年級學童在使用本數位教材之後, 在平面幾何的

中華管理評論國際學報‧第卷‧第期

Haven of Hope Chrristian Service_inside_final.indd

<4D F736F F D20B169B2FAB5D3A5FEA4E55FBEC7AEC9ABD8C4B32E646F63>

國立屏東教育大學碩士班研究生共同修業要點

小組工作定義 (Lee, 1999)

FOREIGN LANGUAGE RESEARCH 2018 No. 1 Serial No. 200 * H319 A DOI /j. cnki /h

70 臺中教育大學學報 : 人文藝術類 Abstract Over the past few years, it became more obvious that students with low level of English language competence in

Microsoft Word - wck.doc

Welch & Bishop, [Kalman60] [Maybeck79] [Sorenson70] [Gelb74, Grewal93, Maybeck79, Lewis86, Brown92, Jacobs93] x R n x k = Ax k 1 + Bu k 1 + w

Microsoft Word tb 赵宏宇s-高校教改纵横.doc

84 國家圖書館館刊一二年第二期 ( ) 一前言在知識經濟的時代, 閱讀力是提升國家競爭力的關鍵, 是一個人有文化涵養重要標誌洪蘭曾志朗認為面對二十一世紀資訊爆

Microsoft Word - 林文晟3.doc

具有多个输入特别是多个输出的部门或单位 ( 称为决策单元 Decision Making Unit 简称 DMU) 间的相对有效 8 性 C2R 模型是 DEA 的个模型也是 DEA 的基础和重要模型假设有 n 个决策单元 DMUj( j = n) 每个 DMU 有 m

<4D F736F F D20322EA764AC57C0732DA668B443C5E9B1D0BEC7A4E8AED7B9EFB0EAA470B4BCAFE0BBD9C3AABEC7A5CDAEC9B6A1B7A7A9C0BEC7B2DFA6A8AEC4A4A7BC76C5545FA7EF32>

第一章緒論

發行人許健將總編輯許健將編輯委員一教育基礎與理論領域黃藿國立中央大學法律與政府研究所教授馮朝霖國立政治大學教育學系暨幼兒教育研究所教授姜得勝國立嘉義大

Transcription:

新竹縣教育研究集刊, 民 101, 第十二期, 頁 05~40 試題反應理論在教育測驗上之應用 1 3 2 1 2 3 郭伯臣吳慧珉陳俊華台中教育大學教育測驗統計研究所國家教育研究院測驗及評量研究中心摘要 E 本文主要簡介試題反應理論的發展與應用, 首先, 比較試題反應理論與古典測驗理論之差異, 接著介紹目前常用試題反應理論模式, 例如 : 單向度單參數二參數三參數 Logistic 模式及多向度模式, 進而簡介新發展之高階試題反應理論模式並舉例說明使用上之差異, 最後, 說明試題反應理論在大型教育測驗及電腦化適性測驗上之應用 5

新竹縣教育研究集刊第十二期民 101 年 12 月 Application of IRT in Educational Measurement Bor-Chen Kuo 1 Huey-Min Wu 2 Chun-Hua Chen 3 1 3 Graduate Institute of Educational Measurement and Statistics National Taichung University of Education 2 Research Center for Testing and Assessment, National Academy for Educational Research Abstract EThe goal of this paper is to introduce the development and application of item response theory. First, the differences of item response theory and classical test theory are compared. Second, some useful and poplar item response models are mentioned, such as unidimensional one-parameter, two-parameter, three-parameter logistic models and multidimenstional models. Moreover, some recently proposed higer-order item response models are also described. Final part contains the applications of item response theory to the large scale education assessments and computerized adaptive tests. 6

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用十九世紀初比奈賽門 (Bi-net Simon) 智力量表問世, 測驗理論開始受到學者重視, 其中廣為人知的應屬古典測驗理論古典測驗理論 (classical test theory, CTT) 最早是 Gulliksen 於 1950 出版的書心理測驗理論 (Theory of Mental Test ) 被介紹, 古典測驗理論的模式簡單易懂成為二十世紀測驗理論的主軸, 在測驗編製評估及使用上有其貢獻, 然隨著測驗需求量的日益增加及形式多樣化, 其簡單的假設造成古典測驗理論應用之限制, 其中最明顯的限制是不同版本測驗的比較問題, 即不同的學生參加不同的測驗, 如何比較這些學生的成績, 於是不同的測驗理論陸續被提出, 如 Lord 和 Novick(1968) 提出以模式為基礎的測驗理論, 即現在常聽到試題反應理論 (item response theory, IRT) 的先驅, 但由於其理論模式過於艱澀且估計過程繁雜, 再加上當時的電腦設備並不先進, 故此書並未引起太大的共鳴 Lord(1980) 出版試題反應理論於測驗的應一書, 正式介紹試題反應理論, 由於試題反應理論架構嚴謹, 考慮層面廣泛, 除了延續古典測驗理論的功能, 並藉由電腦科技協助, 突破古典測驗理論在應用上的瓶頸, 此時電腦技術已較進步, 成為當前的主流測驗理論之一本文主要介紹試題反應理論與其在教育測驗之應用, 主要內容包含試題反應理論與古典測驗理論之差異試題反應理論模式簡介試題反應理論之應用等一試題反應理論與古典測驗理論之差異古典測驗理論也被稱為真實分數理論 (true score theory), 主要是建立於簡單的線性函數假設,X = T + E, 其中 X 為可觀察分數, T 為真實分數, E 為誤差分數 (Lord & Novick, 1968) 古典測驗理論主要考量整份測驗的總分解釋學生的能力而試題反應理論是以非線性數學模式為基礎, 並以試題的觀點解釋學生的能力, 學生在某一題試題的表現, 如答對或答錯, 和學生所具備的某一種能力, 如數學能力, 具有一種非線性關係, 這一種非線性關係可透過一條連續性遞增的數學函數表示, 稱為試題特徵曲線 (item characteristic cure, ICC) 古典測驗理論與試題反應理論對於測量問題所抱持的觀點並不一樣, 試題反應理論具備幾項特點, 正好可以補足古典測驗理論之限制 : 1. 在誤差假設方面, 在古典測驗理論中是假設所有的受試者都有相同的測量標準誤 ; 試題反應理論中假設每位具有不同能力水準的受試者, 對應不同的測量標準誤, 如果使用的是一份難度適中的測驗, 理論上對於中等能力的受試者會有較小的測量標準誤, 而對於較高能力或能力差的受試者, 其測量標準誤會較大 7

新竹縣教育研究集刊第十二期民 101 年 12 月 2. 在信度方面, 相較於短測驗, 古典測驗理論假設測驗題數越多的測驗其信度指數值亦較高 ; 試題反應理論則假設題數少的測驗亦可以得到很好的信度指數, 如適性測驗即是最好的例子 3. 在試題參數估計方面, 古典測驗理論中, 試題的難度指數和鑑別度指數, 會因為受試者的能力分配不同而得到不一樣的估計結果, 如要得到不偏的估計結果, 必須選取具有代表性的樣本 ; 而試題反應理論具有參數不變性 (parameter invariance) 之特色, 即試題的試題參數估計, 不受受試者能力分布影響, 受試者能力值估計, 亦不受到測驗試題之影響 (Hambleton & Swaminathan, 1985) 4. 在分數解釋方面, 古典測驗理論是透過常模參照的方式解釋分數的意義, 受試者只知道他贏過誰, 卻無法得知會什麼 ; 試題反應理論則是將能力與試題擺在同一個量尺, 受試者可以透過能力與試題難度的差異, 瞭解自己大概可以答對哪些題目 5. 在題型設計方面, 對於古典測驗理論, 混合題型的設計, 如一份測驗同時有多元計分和二元計分會對總分的計算產生偏誤 ; 然而這一種混合題型的設計在試題反應理論卻能得到最佳的估計效果 6. 在作答反應組型解釋方面, 受試者能力的估計主要依賴於受試者的作答反應組型和所施測的試題特性, 以古典測驗理論而言, 不管受試者作答反應組型如何, 只要加總之總分相同, 即代帶能力相同 ; 而對於試題反應理論, 原始總分相同的受試者, 若是其作答反應組型不一樣, 亦有可能得到不同的能力估計值 7. 在等化方面, 古典測驗理論假設唯有複本測驗 (parallel test), 不同的測驗分數才能進行比較, 且結果是最佳的, 試題反應理論則無此假設, 而等化效果最佳的情況是不同測驗所使用的題目能涵蓋不同能力學生的需求二試題反應理論模式簡介教育現場, 教師發展一份測驗時必須先決定測量的目標, 也就是所欲測量的學生能力是什麼? 這個目標可以是單一的, 如界定義為數學能力, 亦可以是多維的, 如欲測量學生之幾何能力計算能力等, 而後展開命題, 最常使用的測驗題型是選擇題填充題和應用問題等題型, 針對不同的題型會搭配不同的計分方式, 如選擇題型和填充題型可使用答錯 0 分, 答對 1 分, 這種計分模式在測驗理論中稱為二元 (dichotomous) 計分, 而應用問題則可以是答錯 0 分部分答對 1 分全對 2 分, 這種計分模式則被稱為多點 (polytomous) 計分 8

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用試題反應理論假設學生所具備的某一種能力和受試者在某一題的答題情形, 可以透過數學模式, 也就是試題特徵曲線 (ICC) 加以闡述依據對於能力特質之基本假設不同和計分模式的不同, 主要可分為單向度試題反應理論 (unidimensional IRT, UIRT) 多向度試題反應理論 (multidimensional IRT, MIRT) 以及 ; 依據計分型態, 可分為二元 (dichotomous) 計分和多點 (polytomous) 計分模式, 目前更有學者結合單向度試題反應理論與多向度試題反應理論, 發展高階層試題反應理論 (higher-order IRT, HO-IRT) 以下將介紹這幾種理論模式 : ( 一 ) 單向度試題反應理論模式單向度試題反應理論模式必須符合單向度 (unidimensionality) 局部獨立 (local independence) 非速度性 (nonspeedness) 知道 - 正確假設 ( know-correct assumption) 四項基本的假設 (Weiss & Yoes, 1991), 才能進行測驗資料之分析基於試題反應理論的單向性假設, 一般使用之試題反應理論為單向度試題反應理論, 本研究介紹二元計分對數型模式及多點計分模式, 二元計分對數型模式包含有單參數對數模式 (one-parameter logistic model, 1PL) 二參數對數模式 (two-parameter logistic model, 2PL) 及三參數對數模式 (three-parameter logistic model, 3PL); 多點計分模式包含部分給分模式 (partial credit model, PCM) 和廣義部分給分模式 (generalized partial credit model, GPCM) 1. 二元計分模式 (1) 單參數對數模式單參數對數模式有 Rasch 模式之稱 (Rasch, 1960; Wright & Stone, 1979; Wright & Master, 1982), 在試題反應理論的 1PL 模式下, 假設受試者 j 之能力為 θ j, 其作答試題 i 通過的機率如下 : ( 公式 1) 其中,X ij 為受試者 j 在試題 i 的作答反應, 答對記為 1, 答錯記為 0;b i 為試題 i 之試題難度參數 (item difficulty parameter) (2) 二參數對數模式在試題反應理論的 2PL 模式下, 假設受試者 j 之能力為 θ j, 其作答試題 i 通過的機率如下 (Birnbaum, 1968): 9

新竹縣教育研究集刊第十二期民 101 年 12 月 ( 公式 2) 其中,X ij 為受試者 j 在試題 i 的作答反應, 答對記為 1, 答錯記為 0;a i 為試題 i 之試題鑑別度參數 (item discrimination parameter); b i 為試題 i 之試題難度參數 (3) 三參數對數模式在試題反應理論的 3PL 模式下, 假定測驗會發生猜題之現象, 故假設受試者 j 之能力為 θ j, 其作答試題 i 通過的機率如下 (Birnbaum, 1968; Lord, 1980): ( 公式 3) 其中,X ij 為受試者 j 在試題 i 的作答反應, 答對記為 1, 答錯記為 0;a i 為試題 i 之試題鑑別度參數 ;b i 為試題 i 之試題難度參數 ;c i 為試題 i 之試題猜測度參數 (item guessing parameter) 2. 多點計分模式 (1) 部分給分模式部分給分模式 (partial credit model, PCM) 是由 Masters (1982) 所提出, 為 Rasch s model 在多點計分的一個應用 ( 公式 4) 1 其中,P i1 = 0 且 Σ (θ j c=1 b i v ) 0 ;θ j 表示受試者 j 的能力 ;k 為受試者的回答所屬類別,k=1... m i ;m i 為隨題目而變的變數 ;m i 是第 i 題所有的類別數 ; P ik (θ j ) 表示能力為 θ j 的受試者 j 在第 i 題得 k 類的機率 (0 < P ik (θ j ) < 1 );b i v : 指第 i 題第 v 個的試題步驟難度參數 (item step parameter) 或類別閾參數 (category intersection parameter), 隨著類別界線 (category boundary) 而變, 相鄰在兩類別間, 就有一個 b i v 參數 ( < b i v < ), 即 b i k 為 P (θ i, ) 和 P k -1 j ik (θ j ) 10

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用的交點在部分給分模式的公式中, 我們可以發現如果試題為二元計分, 則用部分給分模式模式來分析試題會與使用 Rasch 單參數模式來分析相同 3. 廣義部分給分模式廣義部分給分模式 (generalized partial credit model, GPCM) 是部分給分模式的延伸, 由 Muraki(1992) 所提出, 為各試題之間有不同的鑑別度參數, 廣義部分給分模式定義如下 : ( 公式 5) 其中 d 1 0, 為了在進行參數估計時, 使其有一個相對原點, b i v = b i d v ;θ j 表示受試者 j 的能力 ; k 為受試者的回答所屬類別, k=1 m i ;m i 為隨題目而變的變數,m i 是第 i 題所有的類別數 ;P ik (θ j ) 表示能力為 θ j 的受試者 j 在第 i 題得 k 類的機率 ( 0 < P i k (θ j ) < 1 ); b i v =b i d v,b i v 為第 i 題第 v 個的試題步驟難度參數 (item step parameter) 或類別閾參數 (category intersection parameter), 隨著類別界線 (category boundary) 而變, 相鄰在兩類別間, 就有一個 b i v 參數 ( < b i v < ), 即 b i k 為 P (θ i, ) 和 P (θ k -1 j i ) 的交點, 同一試題內的試題步驟參數不需 k j 是有序的 ;b i 為試題 i 位置參數 (item location parameter); d v 為閾參數 (threshold parameter); d k 為同一試題內的第 k 類和其他類別的相對難度 (Andrich, 1982);a i : 試題 i 的斜率參數, 同一試題在各類別選項有相同的斜率參數, 但不同的試題有不同斜率 ( 二 ) 多向度試題反應理論模式目前常見的多向度試題反應理論 (multidimensional item response theory, MIRT) 大多是單向度試題反應模式 (unidimensional item response theory, UIRT) 的衍生模式以下將介紹幾種常見的多向度試題反應理論模式, 分別為多向度隨機係數多項 logit 模式 (MRCMLM) 多向度二參數模式 (multidimensional two parameters model, M2PL) 多向度三參數模式 (multidimensional three parameters model, M3PL) 11

新竹縣教育研究集刊第十二期民 101 年 12 月 1. 多向度二參數模式 (M2PL) 多向度二參數模式為二參數 logistic 模式 (two-parameter logistic model, 2PL) 所衍生的模式 (Mckinley & Reckase, 1983;Reckase & Mckinley, 1991), 其模式定義如下 : ( 公式 6) 其中 X i j 為受試者作答反應型態,1 表示答對該試題,0 表示答錯該試題 ;a i 為試題鑑別度向量,d i 為試題難度,θ j 為受試者能力向量多向度二參數模式與二參數 IRT 模式差別為將原本的受試者能力值 θ 與試題鑑別度 a 擴展為向量 θ j 及 a i, 透過向量來表示, 以將多向度的能力同時包含在模式中由於試題鑑別度向量 a i 包含多個向度的鑑別度, 如此多個向度的鑑別度無法完整表現出單一試題的鑑別度, 因此 Reckase & McKinley(1991) 定義出兩個常用的多向度指標, 一個是第 i 題的多向度鑑別度參數 (multidimensional discrimination parameter, MDISC i ) MDISC i =, 其中 m 為能力向度數目 ; 另一個是第 i 題的多向度難度參數 (multidimensional difficulty parameter, MDISC i ) MDISC i = ; 另外, 為了能具體觀察試題的向度結構, 以顯示個別向度鑑別度 a ik 與多向度鑑別度參數 MDISC i 之間的關係,Ackerman(1996) 定義試題所要測量的能力方向與各能力向度間的夾角 cos α ik =, k= 1 m i 2. 多向度三參數模式 (M3PL) 多向度三參數模式為三參數 logistic 模式 (three-parameter logistic model, 3PL) 的改良, 將三參數 logistic 模式中的能力參數與鑑別度參數改成向量的型式 (Hattie, 1981;Sympson, 1978), 模式定義如下 : ( 公式 7) 12

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用其中,U i 為第 i 題反應型態 ;θ j 為受試者能力向量 ;c i 為試題的猜測參數 ;a i 為試題鑑別度向量 ; 而為了使試題的難度成為向量用以與能力向量相減, 故將難度參數 b 與向量 1 相乘多向度三參數的模式有其他表示法, 由 Reckase(1997) 提出的多向度三參數洛基模式 (multidimensional three-parameter logistic model, M-3PL) 如公式 8 所示, 能力為 θ i 的受試者, 在二元計分試題 j 的答對機率為 : 1 β P i j 1 = P ( x i j =1 θ ) = β 3j + 3j βj i 1 + e ( T D β â ) 2 j 2 Θθè T i i = + β 1 j l = â jl è 1 2 il ( 公式 8) 其中,x i j 為受試者 i 在試題 j 的作答反應, 答對時 x i j = 1, 答錯時 x i j = 0; β 2j = ( β 2 j 1 β 2 j D ) 為 D 個向度的試題鑑別度參數向量 ; β 1j 為試題難度參數 ;β 3j 為試題猜測參數 ; β 2j ; 第題的試題參數為 β j = β 2 j, β 1 j, β 3 j T θ 2j 3. 多向度隨機係數多項 logit 模式 (MRCMLM) 多向度隨機係數多項洛基模式是由 Adams Wilson 與 Wang(1997) 等人所提出,MRCMLM 為 Rasch 模式的衍生模式, 是一個混合的 coefficients 模型 (mixed co-efficients model), 試題參數是由未知的參數所描述, 而受試者的潛在變數 θ, 是一個隨機變項, 模式定義如下 : ( 公式 9) 其中表示受試者反應型態, X = i K { 1 為 i 第題作答第 k 個反應類別 0 表其他 ; 為試題參數向量 (p 個參數 );θ'= (θ 1, θ 2 θ D ) 為受試者的能力向量 (D 個向度 ); 為整份測驗的設計矩陣 ; 為第 i 題中第 k 個反應類別的設計向量, 每個向量長度為 : 整份測驗的計分矩陣 ; : 第 i 題的計分子矩陣 ; : 在 D 個向度中, 第 i 題回答第 k 個反應類別的計分向量 13

新竹縣教育研究集刊第十二期民 101 年 12 月依據測驗架構又可分為題間多向度測驗 ( b e t w e e n - i t e m multidimensional test) 與題內多向度測驗 (within-item multidimensional test) 兩種 (Adams, Wilson & Wang, 1997), 前者定義每個試題只測量一種能力, 如圖 1 題間多向度 ; 後者定義每個題目不只測量一種能力, 如圖 2 題內多向度圖 1 題間多向度評量架構圖圖 2 題內多向度評量架構圖 ( 三 ) 高階層試題反應理論模式隨著評量架構的日趨複雜, 近年來更複雜的測驗理論相繼被提出以 PISA(The Programme for International Student Assessment) 數學科評量架構為例, 除了數學科能力 (mathematics), 同時也希望得到學生在數量 (quantity) 空間與形體 (space and shape) 改變與關係 (change and relationships) 及不確定性 (uncertainty) 四個數學能力 (OECD, 2005) 以往估計此種評量架構是以單向度試題反應理論估計數學科能力 ( 如圖 3), 或以多向度試題反應理論估計四個數學能力 ( 如圖 4) 這樣的估計方式會產生較大的估計誤差, 使用 UIRT 模式會違背其假設而使主要量尺能力 ( 即數學科能力 ) 估計不準確, 或當次級量尺 ( 即上述之數量空間與形體改變與關係及不確定性 (uncertainty) 四個數學能力 ) 所對應的題數較少時, 導致估計效果不好依據有鑑於此, 學者開始發展更複雜的測驗理論,Song(2007) 提出一因子高階層 IRT 模式, 同時包含整體能力 (overall ability) 與領域能力 (domain ability)( 如圖 5), 透過適當地參數估計過程可以同時獲得主要量尺能力和次級量尺能力的估計 (de la Torre & Song, 2009) 14

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用 Song(2007) 模擬研究顯示, 當次級量尺之間不相依時,HO-IRT 模式對主要量尺的估計結果會相似於 UIRT 模式 ; 當彼此相依時,HO-IRT 模式估計次級量尺會比 UIRT 模式更準確在 HO-IRT 模式中, 一份測驗可觀察多個單向度子測驗 (subtest), 也就是次級量尺, 表示第 i 位受試者在次級量尺 d 的表現, 其中當不同次級量尺均測量相同能力時, 整份測驗即為單向度測驗 ; 若不同次級量尺間有關聯, 會藉由高階層能力 θ i 來連結這些次級量尺,θ i 表示第 i 位受試者在主要量尺的表現, 而次級量尺是主要量尺的線性函數, 公式定義如下 : 其中為迴歸參數且為誤差項服從平均數為 0 變異數為的常態分布, 服從平均數為變異數為的常態分布為主要量尺與次級量尺間的相關, 表示次級量尺與次級量尺間的相關 ; 可為負數, 但在教育測驗上, 主要量尺與次級量尺皆為正相關, 故只考慮圖 3 單向度 IRT 評量架構圖圖 4 多向度 IRT 評量架構圖圖 5 一因子高階層 IRT 評量架構圖 15

新竹縣教育研究集刊第十二期民 101 年 12 月三試題反應理論之應用 ( 一 ) 試題反應理論電腦程式簡介 1. 電腦程式簡介應用試題反應理論分析測驗資料時, 必須估計所選用試題反應函數的參數, 參數估計常涉及艱深難懂的數學公式及繁瑣的計算過程, 若沒有電腦套裝程式的即時配合, 則在應用上會受到限制 ; 目前電腦科技突飛猛進, 各種適用於試題反應理論的電腦軟體程式相繼問世, 只要使用者學會這些程式, 便能有效率的獲取所需要的參數估計值, 進一步對測驗資料進行分析與解釋目前常見的試題反應理論電腦程式整理如表 1 表 1 的資料顯示, 目前無論是在二元計分多點計分單向度 IRT 模式或多向度 IRT 模式, 都已經開發相對應的電腦程式, 但對於高階層試題反應理論模式只有部分學者於相關的學術論文中自行開發估計程式, 仍無商業軟體或免費的電腦程式供讀者使用 16

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用表 1 試題反應理論參數估計套裝軟體軟體 BILOG-MG 3.0 (Zimowski, Muraki, Mislevy, & Bock, 1996) MULTILOG7 (Thissen, Chen & Bock, 1991) 可分析模式單二三參數對數模式 (1PL 2PL 3PL) 單二三參數對數模式 (1PL 2PL 3PL) Samejima's model for graded responses Bock's model for nominal (non-ordered) responses Steinberg's model for multiple-choice items PARSCALE4.1 (Muraki & Bock, 1997) NOHARM (Fraser, 1988) 單二三參數對數模式 (1PL 2PL 3PL) Samejima's model for graded responses Master's partial credit model Generalized partial credit model 潛在特徵模式 (the latent trait models) 多向度二參數模式 (M2PL) (Mckinley & Reckase, 1983; Reckase & Mckinley,1991) 多向度三參數模式 (M3PL) (Hattie, 1981; Sympson, 1978) 維度多參數試題反應模式 (Mensional multiparameter item) response(mmir) (Beguin & Glas, 2001; Bock, Gibbons, & Muraki, 1988; McDonald, 1982; McKinley & Reckase, 1983; Muraki & Carlson, 1995) 多向度隨機係數多項洛基模式 (multidimensional random coefficients multinomial logit model, MRCMLM) (Adams, Wilson, & Wang, 1997) TESTFACT (Wilson, Gibbons, Schilling, Muraki & Bock, 2003) 多向度二參數模式 M2PL (Mckinley & Reckase, 1983; Reckase & Mckinley,1991) 多向度三參數模式,M3PL (Hattie, 1981; Sympson, 1978) 維度多參數試題反應模式 (mensional multiparameter item response,mmir) 17

新竹縣教育研究集刊第十二期民 101 年 12 月軟體可分析模式 (Beguin & Glas, 2001; Bock, Gibbons, & Muraki, 1988; McDonald, 1982; McKinley & Reckase, 1983; Muraki & Carlson, 1995) 多向度隨機係數多項洛基模式 (multidimensional random coefficients multinomial logit model, MRCMLM) (Adams, Wilson, & Wang, 1997) MAXLOG (Mckinley & Reckase, 1983) ConQuest (Wu, Adams, & Wilson, 1998) MIRTE 2 (Carlson, 1987) BMIRT (Yao, 2003) 多向度二參數模式 (M2PL) (Mckinley & Reckase, 1983; Reckase & Mckinley,1991) 多向度隨機係數多項洛基模式 (multidimensional random coefficients multinomial logit model, MRCMLM) (Adams, Wilson, & Wang, 1997) 多向度二參數模式 (M2PL) (Mckinley & Reckase, 1983; Reckase & Mckinley,1991) 多向度三參數模式 (M3PL) 可分析混合二元計分試題與多點計分試題的測驗 ( 二 ) 試題反應理論在大型教育測驗之應用近年國內積極參加一些國際評比之大型測驗 ( l a r g e - s c a l e assessments), 如 PISA 國際數學與科學教育成就趨勢調查 (Trends in International Mathematics and Science Study, TIMSS), 國際評比的成績收到國人的重視, 而國家教育進展評量 (National Assessment of Educational Progress, NAEP) 則是較早也是較著名之大型測驗, 這些大型測驗都是以試題反應理論為主要測量模式, 是應用試題反應理論最佳範例, 以下將介紹這幾個測驗大型測驗並說明所使用的測量模式與等化設計 1. 國家教育進展評量 (NAEP) NAEP 為美國教育測驗服務社 (Educational Testing Service, ETS) 所發展的聯邦補助計畫, 主要目的為建立學生學習成就的趨勢 NAEP 自 1969 年便開始定期地對 4 年級 8 年級及 12 年級學生進行閱讀 (reading) 數學 (mathematics) 科學 (science) 寫作 (writing) 之能力評量 (NCES, 2005), 是美國評量學生成就之代表,NAEP 評量之範圍可分為全國性的 (National NAEP) 各州的 (State NAEP) 18

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用地區性的 (NAEP Trial Urban District Assessment) 評量 (The Nation s Report Card, 2005; 張鈿富王世英吳慧子周文菁,2006) NAEP 之評量分為主要評量 (Main NAEP) 與長期發展趨勢評量 (Long-term Trend NAEP) 兩類, 主要的目的為 (1) 反映學生在主要課程領域上應該知道和可以做的廣泛能力 ;(2) 測量長時間範圍內的教育發展情形 ( 張鈿富王世英吳慧子周文菁,2006) 2. 國際學生評量 ( PISA) PISA 測驗是由經濟合作與發展組織 (Organization for Economic Co-operation and Development, OECD) 主辦, 目的在於了解個人參與社會活動的能力主要的對象是 15 歲的學生, 並進行其閱讀素養 (reading literacy) 數學素養 (mathematical literacy) 科學素養 (scientific literacy) 及問題解決 (problem solving) 之能力評量 PISA 每次進行評量會從數學科學及閱讀三個領域中選定一個主要領域, 例如 :PISA 2000 的主要領域為閱讀,2003 為數學,2006 為科學,2009 再回到閱讀, 國內從第三次跨國學生評量測驗 (PISA 2006) 開始參與, 一直延續至今 3. 國際數學與科學教育成就趨勢調查 (TIMSS) TIMSS 主要目的為進行學生數學與科學教育成就趨勢調查研究, 測試對象為 4 年級與 8 年級之學生,TIMSS 施測數學與科學兩學科, 各學科分為內容領域 (content domain) 與認知領域 (cognitive domain) 欲評估學生能否掌握參與社會所需的知識與技能, 並藉由國際評比來比較參與地區或國家的教育成效自 1999 年進行 TIMSS-R 評量後,IEA(The International Association for the Evaluation of Education Achievement, IEA) 計畫每隔四年辦理國際數學與科學教育成就研究一次, 並改名為 TIMSS 目前 NAEP TIMSS 仍以 UIRT 為主要使用測量模式, 僅能對各個學科能力以單一能力值進行描述 (Lee, Grigg, & Dion, 2007; Mullis, et al., 2007), 對各學科所屬之次級量尺 (subscales) 表現較無法作精確描述 ;PISA 使用多向度試題反應理論 (multidimensional item response theory, MIRT) 中之多向度隨機係數多項 logit 模式 (multidimensional random coefficients multinomial logit model, MRCML) 進行測驗分析並對各學科之次級量尺進行估計 ; 然而 PISA 使用多點計分模式對題組試 19

新竹縣教育研究集刊第十二期民 101 年 12 月題進行分析 (OECD, 2005), 未考慮題組試題對於參數估計之影響 Wang 和 Wilson(2005) 研究結果顯示, 如果測驗為題組試題之測驗題型, 忽略試題之間彼此可能相依之情形, 則會高估能力參數且造成試題參數估計之偏差國內外的大型測驗, 因題庫涵蓋不同認知程度及不同難度之試題, 試題數量無法由單一受試者於短時間內完成, 故多採用不同的等化設計進行, 常見的等化設計是平衡不完全區塊設計 (balanced incomplete block design, BIB)BIB 設計是由 Yates(1936) 提出, 並於 1992 年 Rust & Johnson 應用於測驗領域的題庫設計此設計是指題庫中所有的試題區塊出現次數是相同的, 且成對試題區塊出現於題本中的次數也必須是相同的所謂的平衡是由於成對試題區塊出現於題本中的次數是相同的, 因此在成對試題區塊平均數間之比較有相同的精準度各題本中的試題區塊可能部分相同或完全不同, 但是每一個試題區塊在所有題本中出現的次數是一樣的, 亦即題庫中的每個試題所受測的學生約為相同的 (Kuehl, 2000; 郭伯臣曾建銘吳慧珉,2012) 以下介紹 NAEP TIMSS 與 PISA 之等化設計 1.NAEP 以 1998 年 4 年級公民為例, 使用之題本設計為 BIB 設計, 設計中共包含了 6 個試題區塊 (M1~M6) 組合成 18 個題本 (S1~S18), 為了使試題區塊在題本前後出現的次數一致, 故將題本 16 到 18 與題本 13 到 15 的兩個試題區塊作交換後組成 (Andrew & Terry, 2001), 以表 2 作說明表 2 NAEP 1998 年 4 年級公民題本區塊設計表題本區塊 I 區塊 II 題本區塊 I 區塊 II S1 M1 M2 S10 M4 M6 S2 M2 M3 S11 M5 M1 S3 M3 M4 S12 M6 M2 S4 M4 M5 S13 M1 M4 S5 M5 M6 S14 M2 M5 S6 M6 M1 S15 M3 M6 S7 M1 M3 S16 M4 M1 S8 M2 M4 S17 M5 M2 S9 M3 M5 S18 M6 M3 20

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用 2.TIMSS 以 2007 年之題本設計為例, 每個題本由四個試題區塊組合而成, 包含數學 (M01~M14) 與科學 (Q01~Q14) 各兩個試題區塊, 為了連結不同題本, 每個試題區塊在題本中出現 2 次 (Graham, Christine, Alka, & Ebru, 2008) 表 3 為 TIMSS2007 年之題本區塊設計表 3 TIMSS2007 年題本區塊設計表題本區塊 (Part I) 區塊 (Part II) 題本區塊 (Part I) 區塊 (Part II) S1 M01 M02 Q01 Q02 S8 Q08 Q09 M08 M09 S2 Q02 Q03 M02 M03 S9 M09 M10 Q09 Q10 S3 M03 M04 Q03 Q04 S10 Q10 Q11 M10 M11 S4 Q04 Q05 M04 M05 S11 M11 M12 Q11 Q12 S5 M05 M06 Q05 Q06 S12 Q12 Q13 M12 M13 S6 Q06 Q07 M06 M07 S13 M13 M14 Q13 Q14 S7 M07 M08 Q07 Q08 S14 Q14 Q01 M14 M01 資料來源..TIMSS2007 Technical Report(p.34) 3.PISA 以 PISA2006 年之題本設計為例, 題本設計為 BIB 設計, 共包含 13 個題本 (S1~S13), 每個題本包含 4 個試題區塊 ( 區塊 I~ 區塊 IV), 每個試題區塊在題本中出現 4 次 (r = 4), 以及成對試題區塊在各題本中出現 1 次 (λ = 1)(OECD, 2009), 表 4 為 PISA2006 年之題本區塊設計, 其中試題區塊 M1~M4 代表數學科之試題區塊 ;Q1~Q7 代表科學之試題區塊 ;R1~R2 代表閱讀之試題區塊, 每個題本內可能包含數學科學或閱讀三種不同科目之試題區塊表 4 PISA2006 年題本區塊設計表題本區塊 I 區塊 II 區塊 III 區塊 IV 題本區塊 I 區塊 II 區塊 III 區塊 IV S1 Q1 Q2 Q4 Q7 S8 M1 M2 Q2 Q6 S2 Q2 Q3 M3 R1 S9 M2 Q1 Q3 R2 S3 Q3 Q4 M4 M1 S10 M3 M4 Q6 Q1 S4 Q4 M3 Q5 M2 S11 M4 Q5 R2 Q2 S5 Q5 Q6 Q7 Q3 S12 R1 M1 Q1 Q5 S6 Q6 R2 R1 Q4 S13 R2 Q7 M1 M3 S7 Q7 R1 M2 M4 資料來源..PISA2006 Technical Report(p.29) 21

新竹縣教育研究集刊第十二期民 101 年 12 月在 NAEP TIMSS 及 PISA 中, 主要關注的焦點是母群或母群中某些群體之能力表現, 這些大型測驗以可能值方法 (plausible value methodology) 進行群體統計描述, 例如群體之平均數或標準差 (Allen, Carlson, Johnson, & Mislevy, 1999; Foy, Galia, & Li, 2008; OECD, 2009), 假如研究者想要瞭解不同群體的能力表現, 則納入群體的背景變項進行可能值方法估計, 藉以提升群體參數估計的精確度 (Adams, Wilson & Wu, 1997) 國內許多大型測驗相關研究, 多未使用可能值方法進行分析, 而是直接計算個別受試者能力值的平均與變異, 並將其視為母群或個別群體的表現與其分散情形, 再進一步的進行假設檢定, 依據相關研究 (Mislevey, 1991; Mislevy, Beaton, Kaplan, & Sheehan, 1992; OECD, 2009; Lee, et al., 2007) 顯示 : 此種集合個體的能力值估計群體特性的方式將會產生嚴重的偏誤, 故對於次級資料分析者, 應使用這些大型測驗的使用手冊, 正確使用這些大型測驗釋出的可能值進行相關的研究探討 ( 三 ) 以試題反應理論為基礎之電腦化適性測驗傳統紙筆測驗, 無論受試者能力高低, 都必須將一份試卷全部作答, 往往發生高能力受試者感到試題太簡單而浪費時間, 低能力受試者感到試題太困難而猜答, 影響到測驗的準確性電腦化適性測驗是逐題依據受試者作答反應, 作為選取下一道試題施測的依據, 符合受試者能力來施測, 使受試者感到試題難易適中, 減少施測題數, 節省施測時間由於網路迅速發展與電腦週邊設備大眾化, 電腦的影音資料傳輸與呈現可以快速且穩定, 因此在網路上實施測驗是具體可行的 ; 透過電腦進行測驗擁有快速資料處理的優點, 使得測驗的歷程統計分析與結果能自動詳細記錄, 所以電腦化測驗的發展愈來愈受矚目且持續被研究中在 1960 年時, 美國陸軍總署人事管理局及其他聯邦機構, 均大力支持贊助有關適性測驗的研究, 舉辦特殊的專題研討會, 並且有數百篇的相關研究論文發表且集結成冊 (Wainer, 2000; Weiss,1983; 余民寧,1997) 在國外許多商業機構測驗公司, 也陸續有測驗產品發行, 如 Larson & Smith (1988) 所發展的西班牙電腦化適性安置測驗 (A Spanish Computerized Adaptive Placement Exam); Assessment Systems 公司所發行的 MicroCAT 適性測驗系統與 Minnesota 文書性向評鑑測驗 ; 美國心理測驗公司 (The Psychological Corporation) 所發行中學區分性向測驗 ( 李茂能,2000) 目前電腦化適性測驗在大型測驗的 GRE (Graduate Record Examinations) TOFEL (Test of English as a Foreign Language) GMAT (Graduate Management Admission Test) 等也均已實施 22

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用電腦適性測驗是為受試者量身打造的個別測驗, 符合因才施測經濟有效誤差最小的原則 ( 李茂能,2000), 主要優點有 : 1. 施測試題的難度, 符合受測者的能力範圍內, 因此試題具備適性 2. 受試者的施測試題不同, 在適性測驗的過程中, 若符合測驗終止條件則結束測驗, 受測者不用作答偏易或偏難的試題, 節省施測時間 3. 適性測驗中, 能對估計精準度提供最大訊息量的試題會被優先選取為施測試題, 因此受試者能力估計的精準度最高在測驗編制過程以 IRT 為基礎, 能經由分析試題獲得篩選過試題參數的題庫, 以確保題庫品質的好壞 ; 在測驗施測過程以 IRT 為基礎的 CAT, 能針對不同受試者提供適合受試者的試題, 在可容忍的誤差下, 讓測驗的時間大幅縮短, 因此以 IRT 為基礎的適性診斷系統也陸續在研發 ( 王雯芳,2004; 陳新豐,2004; 黃吉楠,2004; 楊蹕齊, 2006; 蔡文龍,2008; 蕭顯勝黃啟彥游光昭,2006) 以 IRT 為基礎的電腦化適性測驗, 包含了五項基本要素 : 測驗題庫測驗起點能力估計選題策略與測驗終止條件 (Wainer, 2000), 而依照 CAT 的不同類型又可分作單向度 CAT 與多向度 CAT 兩大類, 本研究針對不同 CAT 實施過程所需的要素與 CAT 施測流程說明如圖 6 所示 : 圖 6 CAT 施測流程 23

新竹縣教育研究集刊第十二期民 101 年 12 月 1. 測驗題庫電腦化適性測驗題庫好壞通常以題庫大小與試題參數來評估, 若 CAT 施測長度為傳統紙筆測驗長度的一半, 則 CAT 題庫大小最好是傳統紙筆測驗長度的 6 至 8 倍, 也就是說題庫大小至少為 CAT 施測長度的 12 倍 (Stocking, 1994), 當題庫長度為 3 倍以上, 精確度與作答效率才有顯著差異 (Hung, 1988) 對單向度 CAT 的 3PLM 來說, 一個好的題庫其試題鑑別度應大於 0.8, 試題難度應該與受試者的母群能力分布相近, 試題猜測度應小於 0.25( 王寶墉,1995) Ree(1981) 曾以最大訊息法為選題策略的研究, 在沒有曝光率控管下, 題庫長度大於 200 題時, 對能力估計的精準度並不會明顯增加對多向度 CAT 來說,Wang, Chen 與 Cheng (2004) 的研究顯示, 當題庫向度之間為高相關時, 多向度 IRT 分析可以大幅提高各向度的信度, 由原本的 0.6 ( 單向度 IRT 分析 ) 提昇至 0.8 2. 測驗起點 CAT 是依照受試者能力挑選適當試題對受試者進行施測, 在測驗初始階段中, 受試者能力高低未知下, 必須決定測驗起始點, 以挑選第一道試題提供受試者進行施測常用的決定起始試題的方法 ( 王寶墉,1995; 陳麗如,1998; 錢永財,2006;Chang & Ansley, 2003) 分別介紹如下 : (1) 中等難度題目 : 先假設受試者為中等能力, 在題庫中挑選適合中等能力難度的試題作為施測的起始試題, 若每位受試者都使用相同的試題, 則起始試題的保密性需要特別考量 (2) 依據受試者能力選題 : 由受試者的基本資料 ( 年齡學習經驗或其他測驗結果 ) 估算受試者的能力初始值, 再利用能力初始值決定測驗的起始試題 (3) 自由選題 : 由受試者在接受測驗的時候, 自行判定自己的程度, 以決定施測的起始題, 但容易受到受試者主觀判斷的影響 (4) 隨機選題 : 由電腦隨機選題, 但一般限定試題選取範圍不可超過題庫本身 Lord (1977) 發現不同起始點對於測驗標準誤 (standard error of measurement) 並沒有很大差別 (5) 隨機法 :McBride 與 Martin(1983) 發表隨機法隨機法是在施測前期使用隨機選取策略來避免題目的過度曝光, 實施方法為對每一個受試者, 依能力初始值從題庫中選出 5 個訊息量最大的題目, 24

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用從這 5 題中隨機選取出一題施測並重新估計能力值 ; 依新估計的能力值從題庫中選出 4 個訊息量最大的題目, 再從這 4 題中隨機選取出一題施測並重新估計能力值 ; 重複相同模式, 選取施測的前 4 題, 第 5 題之後就使用最大訊息法來選取施測題目此外根據 Chang 與 Ansley (2003) 的研究指出隨機法在不同題庫中的比較, 試題最大曝光率皆介於 0.64~0.74, 遠高於可接受試題最大曝光率 (6) 初始階段 b 值分層隨機選題法 : 錢永財 (2006) 提出初始階段 b 值分層隨機選題法來進行測驗初期選題, 其實施步驟為步驟一 : 將題庫依 b 值大小分成 k 層,k 為初始階段選題的題數 ; 步驟二 : 施測前 k 題時, 分別自 k 層中各自隨機選取一個試題, 進行施測, 研究顯示, 此方法可有效降低試題最大曝光率有效提高題庫的使用率 3. 能力估計 3.1 單向度 CAT CAT 常見的能力估計方法有最大概似估計法期望後驗估計法與最大後驗估計法, 三種能力估計方法分別介紹如下 : (1) 最大概似估計法最大概似估計法 (maximum likelihood estimation, MLE) 是設測驗共有個試題, 試題間彼此獨立, 概似函數定義如下 : ( 公式 10) 其中,u 為所有作答反應的向量, 為概似函數 (likelihood function);θ 為受試者的真實能力 ;X i 指受試者在第 i 題的作答反應, 答對為 1, 答錯為 0;P i 指受試者在第 i 題的答對機率 ; 指受試者在第 i 題的答錯機率為了加速找到概似函數的最大值, 通常是先對概似函數取對數, 再以牛頓 - 約佛森 (Newton-Raphson) 法來進行迭代使用 MLE 能力估計的公式如公式 11 所示, 而第 j 次的能力估計的變動量為如公式 12 所示 : ( 公式 11) 25

新竹縣教育研究集刊第十二期民 101 年 12 月 ( 公式 12) (2) 期望後驗估計法 Bock 和 Mislevy (1982) 提出期望後驗法 (expected a posteriori, EAP) 是尋找能力值的事後機率密度函數的期望值, 公式定義如下 : ( 公式 13) 其中 U 為所有作答反應的向量, 為概似函數 (likelihood function);θ q 為受試者的真實能力 ;q 是計算能力的期望值時所切割成的分割點 (quadrature point), 共有 k q 點,k q 愈大, 計算的愈精確不過這種估計方法不需要使用牛頓 - 約佛森法來進行迭代, 而且隨著所選取的分割點數愈多, 所需的計算量較龐大, 計算時間也比較久 (3) 最大後驗估計法貝氏最大後驗法 (maximum a posteriori, MAP) 是以受試者的事前能力分布 f (θ) 作為加權值, 形成事後機率密度函數, 並找出能使此事後機率密度函數最大化的程度值, 稱為 MAP 事後機率密度函數定義如下 : ( 公式 14) 其中, 是受試者 θ 的概似函數, 是受試者的邊際機率, 是由從積分所得, 為了加速找到事後機率密度函數的最大值, 通常也是以牛頓 - 約佛森 (Newton- Raphson) 法來進行迭代 26

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用 (4) 各種能力估計方法的比較雖然 MLE 有不錯的估計效能, 但有實務上的限制, 當受試者作答反應為全對或全錯時,MLE 無法估計受試者能力值 (Wang & Vispoel, 1998) 而 EAP 或 MAP 可以估計全對或全錯的作答反應, 但若事前分配不正確, 則能力估計偏差將會很大 (Baker & Kim, 2004) 洪碧霞吳裕益吳鐵雄陳英豪 (1992) 作過各種能力估計方法的比較,MLE 比較沒有迴歸性的偏誤 (bias), 但均方根誤 (root mean square of error, RMSE) 較大 ;EAP 與 MAP 有迴歸性的偏誤, 但均方根誤較小 3.2 多向度 CAT 多向度 CAT 常見的能力估計方法有最大概似估計法期望後驗估計法與最大後驗估計法, 與單向度 CAT 的估計法類似, 主要由估計單一個能力值變成同時估計多個能力值, 三種能力估計方法介紹如下 : (1) 最大概似估計法 Segall (1996) 提出多向度的 MLE 是設測驗共有 n 個多向度的試題, 試題間彼此獨立, 概似函數定義如下 : ( 公式 15) 其中為概似函數 (likelihood function); 為受試者的真實能力向量, =[θ 1, θ 2,, θ D; u i 指受試者在第 i 題的作答反應, 答對為 1, 答錯為 0;P i 指受試者在第 i 題的答對機率 ; 指受試者在第 i 題的答錯機率為了加速找到概似函數的最大值, 通常是先對概似函數取對數, 再以牛頓 - 約佛森 (Newton-Raphson) 法來進行迭代,MLE 能力估計的公式如公式 16 所示, 而每次能力估計的變動量為如公式 17 所示 (Wang, 1994): ( 公式 16) ( 公式 17) 27

新竹縣教育研究集刊第十二期民 101 年 12 月 ( 公式 18) 所以 ( 公式 19) 若第 i 題試題只測量第 r 種能力向度, 則, 若第 i 題試題沒有測量第 r 能力向度, 則 ( 公式 20) ( 公式 21) 若第 i 題試題只測量第 r 種能力向度, 則, 若第 i 題試題沒有測量第 r 種能力向度, 則 28

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用 (2) 期望後驗估計法多向度的 EAP 是將單向度的 EAP 能力值考慮能力向量, 公式定義如下 : ( 公式 22) 其中 q 是計算能力的期望值時所切割成的分割點 (quadrature point), q 愈多使得計算愈精確 ; 是多變量常態分配, 公式定義如下 : ( 公式 23) 其中, 為的平均數向量,, 為的共變數矩陣, 若變數矩陣標準化後, 即為相關矩陣,, 在多向度中, 分割點的數量會成向度數的指數倍增加, 當向度數增加, 則能力估計時間就會拉長, 若減少各向度的分割點, 又會降低能力估計的精準度 (3) 最大後驗估計法 Segall(1996) 提出多向度的 MAP, 它的事後機率密度函數與 EAP 相同為了加速找到事後機率密度函數的最大值,MAP 比照 MLE 依牛頓 - 約佛森程序來進行首先將分別對 d 個能力向度進行偏微分 MRCMLM 事後機率度函數的一階偏微分向量中的元素如公式 24 所示, 與二階偏微分向量中的元素如公式 25( 陳柏熹,2000;Wang, 1994) 所示 : ( 公式 24) 29

新竹縣教育研究集刊第十二期民 101 年 12 月其中 u 為的平均數向量, 為的共變數矩陣, ( 公式 25) 其他程序則比照最大概似估計法來進行 (4) 各種能力估計方法的比較陳柏熹 (2006) 研究指出 MLE EAP MAP 這三種方法在多向度 CAT 中各有其優缺點, 雖然從整體信度與測量誤差而言, MAP 是比較好的, 但是廻歸性的偏誤也是最嚴重的 ;EAP 估計精準度與 MAP 差不多, 但當向度數較高時, 能力估計所需的時間就會太久 ;MLE 是估計精準度較差的方法所以建議當能力向度數少於四個向度可以使用 EAP, 以減少廻歸性偏誤的問題 ; 但是當能力向度達到四個或四個以上時, 最好使用 MAP 來進行, 不過需要注意廻歸性偏誤的問題 4. 選題策略 4.1 單向度 CAT 選題法是電腦適性測驗中重要的要素之ㄧ, 不同選題法會導致不同的測驗效率, 常用的選題法介紹如下 : (1) 最大訊息法本研究中, 試題的選取方法最常使用為最大訊息法, 其實施步驟有步驟一 : 假設受試者目前能力估計值為, 依據計算尚未施測試題的訊息量, 計算式子參考公式 9-4 所示 ; 步驟二 : 選取試題訊息量最大的試題, 當作下一施測題目 (2) 最接近偏移難度法若猜測度時, 試題訊息最大值不會發生在難度 b j, 會產生偏移至 m j, 最接近偏移難度法為選擇題目偏移難度最接近受試者能力估計值的題目, 作為下一階段施測的題目偏移難度 m j (Birnbaum, 1968) 定義如下 : ( 公式 26) 30

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用則選題時選擇尚未施測且選題函數 F j 最小的題目, 選題函數定義如下 : ( 公式 27) (3) 區間式最大訊息法區間式最大訊息法使用區間能力值的題目訊息量加總, 來取代在某一點能力值的題目訊息量 (Veerkamp & Berger, 1997) 區間式最大訊息法是選擇訊息函數在信賴區間內的面積, 選擇最大的訊息面積, 作為下一題施測試題, 所以選題時選取尚未施測且選題函數最大者, 其函數定義如下 : ( 公式 28) 其中, (4) 考慮 b 參數的 a 分層法 Chang, Qian & Ying(2001) 提出考慮 b 參數的 a 分層法, 希望將 a 分層法各分層中的 b 值分佈保持一致性, 來打破 a b 之間的相關性其實施步驟如下 ( 假設 L 為測驗長度 ; a 為試題鑑別度 ; b 為試題難度 ): 步驟一 : 將題庫依照 b 值由小至大分成 T 個區塊, 第 1 個區塊包含最小的 b 值, 第 T 個區塊包含最大的 b 值步驟二 : 在第 t 區塊 (t=1,2,3, T), 將題庫依照 a 值由小至大分成 K 層, 每一層包含一道試題, 第 1 層包含最小的 a 值, 第 K 層包含最大的 a 值步驟三 : 依序將每個區塊的第 K 層 (k=1,2,3, K) 合併成一層, 因此題庫變成一具有 K 層的結構步驟四 : 建立好試題的結構後, 受試者依序從第 1 層開始施測, 每一層選取 L/K 個試題施測, 一直施測到第 K 層, 直到受試者施測 L 題謝友詩劉湘川郭伯臣 (2006) 研究指出在固定測驗長度下, 能力均方根差由小而大排序分別為考慮 b 參數的 a 分層法最接近偏移難度法鄰近法區間式最大訊息法 ; 考慮 b 參數的 31

新竹縣教育研究集刊第十二期民 101 年 12 月 a 分層法較區間式最大訊息法有較低的最大曝光率 ; 在相同能力估計精準度下, 考慮 b 參數的 a 分層法較區間式最大訊息法有較低的題目重複率 (5) a- 鄰近法錢永財劉家惠郭伯臣 (2005) 提出改進鄰近法的 a - 鄰近法, 其第一步驟為單點式最大訊息法, 第二步驟改由控制 a 值, 使早期能力值未準確時選用 a 值較低試題, a - 鄰近法的實施步驟如下 : 步驟一 : 將題庫依 b 值分三層, 測驗前期三題採取隨機選題, 使受試者在測驗前期施測難易度相差較大試題步驟二 : 估計初始化能力值估計值步驟三 : 根據選擇題庫中 ( 測驗長度 - 已測驗題數 ) 個訊息函數較大者的試題步驟四 : 再從 ( 測驗長度 - 已測驗題數 ) 個試題中, 選其中題目 a 值最小測驗步驟五 : 重新估計能力值為, 回到步驟三, 直到測驗題數結束根據錢永財劉家惠郭伯臣 (2005) 的研究發現, 使用 a- 鄰近法, 當題庫越大時, 在試題曝光率的均勻度能越接近鄰近法, 且能力估計誤差較低於鄰近法 4.2 多向度 CAT Segall(1996) 將概似函數取對數的二階偏微分透過公式 29, 以費雪訊息函數取代 ( 公式 29) 其中是費雪訊息矩陣, 矩陣中第 r 列第 s 行的元素表示如下 : ( 公式 30) 上式表示受試者在施測完 m 個試題後, 能力估計值為的費雪訊息矩陣而累加的第 i 題訊息量表示為, 其定義如下 : ( 公式 31) 32

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用在多向度的 CAT 中, 並非依據各單一向度的最大值來選題, 而是讓費雪訊息矩陣的行列式值最大化的試題, 其公式定義如下 : ( 公式 32) 其中表示施測完前 m 題之後的訊息矩陣, 是表示題庫內剩餘試題在能力估計向量上的訊息矩陣使用 MAP 時, 其選題策略修正如下 : 33 ( 公式 33) 比較公式 32 與公式 33, 可以發現只差在能力先驗分配共變異數矩陣的反矩陣 5. 測驗終止條件測驗終止條件主要分為最大測驗長度與能力估計的最小變動量兩種, 最大測驗長度是指測驗的題數達到預設的長度即停止測驗 ; 能力估計的最小變動量是指當測驗的能力估計的變動量小於預設值即停止測驗四結語古典測驗理論雖然有許多限制, 但由於理論模式簡單易懂, 廣受一般社會大受的接受與喜愛, 而試題反應理論架構嚴謹, 但也相對艱澀難懂, 本文首先比較古典測驗理論與試題反應理論之差異, 並介紹目前常見的試題反應理論模式, 包含單向度試題反應理論多向度試題反應理論與較新的一因子高階層試題反應理論模式, 並提供相對應的電腦程式供讀者參考使用自 1990 年代之後, 許多大型測驗也都應用試題反應理論進行量尺化程序, 本文亦提供大型測驗應用 IRT 之例子供讀者參考, 而隨著電腦科技的進步, 電腦化適性測驗測驗已成為實施測驗之新趨勢, 本文針對電腦化適性測驗之理論與實施流程作一詳細介紹試題反應理論之數學模式較複雜, 讀者如能具備一些數學背景, 閱讀本文較能得心應手本文主要是介紹試題反應理論的基本概念與應用, 許多試題反應理論所探討的課題與應用範疇是本文未提及的, 如試題差異功能參數估計題組模式等, 讀者可根據本文所提供的參考文獻或一些介紹試題反應理論的書籍, 作延伸性之閱讀, 將可更瞭解此一理論之內涵試題反應理論至今仍是測驗領域之發展主軸, 隨著新型測驗與更複雜評量架構之誕生, 一些新的試題反應理論模式仍不斷被提出, 有興趣的讀者可參考測驗領域的期刊, 如 Applied Psychological Measurement Journal of Educational Measurement Psychometrika 等, 將可獲得較新的試題反應理論資訊

新竹縣教育研究集刊第十二期民 101 年 12 月參考文獻中文部份王雯芳 (2004) 網路測驗系統之建置 -- 應用電腦化適性測驗於國民小學自然科技領域華梵大學資訊管理學系碩士論文, 未出版, 台北縣王寶墉 (1995) 現代測驗理論台北 : 心理出版社李茂能 (2000) 中文電腦化適性測驗系統之應用與評鑑文景書局余民寧 (1992) 試題反應的介紹 - 測驗理論的發展趨勢 ( 二 ) 研習資訊, 9(1),5-9 余民寧 (1997) 教育測驗與評量 : 成就測驗與教學評量台北 : 心理洪碧霞吳裕益吳鐵雄陳英豪 (1992) 能力估計方法題庫特質及終止標準對 CAT 考生能力估計影響之研究 ( 國科會專題研究計畫成果報告編號 :NSC81-0301-H024-03) 台北 : 中華民國行政院國家科學委員會洪碧霞林素微林娟如 (2006) 認知複雜度分析架構對 TASA-MAT 六年級線上測驗試題難度的解釋力教育研究與發展期刊,2(4),69-86 陳昇座 (2007) 以能力分佈為基礎之 SHC 曝光率控管法碩士論文未出版, 國立臺中教育大學教育測驗統計研究所, 台中市陳柏熹王文中 (2000) 題間與題內多向度電腦化適性測驗發表於 2000 年教育與測驗學術研討年會台北 : 台灣師範大學陳柏熹 (2006) 能力估計方法對多向度電腦化適性測驗測量精準度的影響教育心理學報,38(2),195-211 陳新豐 (2004) 線上題庫與適性測驗整合系統之發展研究發表於 2004 年教育及心理測驗學術研討會台北 : 國立政治大學陳麗如 (1998) 電腦化適性測驗之題庫品質管理策略碩士論文未出版, 國立臺灣師範大學資訊教育研究所, 台北市張鈿富王世英吳慧子周文菁 (2006) 基本能力評量跨國發展經驗之比較教育資料與研究,68,81-99 黃吉楠 (2004) 多媒體英語文能力檢定暨適性化網路評量系統之建置碩士論文未出版, 國立交通大學理學院網路學習碩士在職專班, 新竹市楊蹕齊 (2006) 以 MOODLE 為平台之國中數學適性測驗工具碩士論文未出版, 逢甲大學資訊工程所, 台中市蔡文龍 (2008) 國小數學網路電腦化適性測驗系統之建置與研究以國小三年級分數單元為例碩士論文未出版, 嶺東科技大學數位媒體設計研究所, 台中市 34

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用錢永財劉家惠郭伯臣 (2005) a- 鄰近法選題對電腦適性測驗試題曝光率之比較發表於 2005 年教育與心理測驗學術研討會台北 : 國立政治大學錢永財 (2006) 以 a- 鄰近法為選題策略之電腦化適性測驗模擬研究碩士論文未出版, 國立臺中教育大學教育測驗統計研究所, 台中市謝友詩劉湘川郭伯臣 (2006) 電腦適性測驗題目曝光率之模擬研究測驗統計年刊,14(1),62-74 蕭顯勝黃啟彥游光昭 (2006) 網路化科技素養適性測驗系統之建置理工研究學報,40(1),1-21 英文部份 Adams, R. J., Wilson, M. R., & Wang, W. (1997). The multidimensional random coefficients. Andrich, D. (1982). An extension of the Rasch model for ratings providing both location and dispersion parameters. Psychometrika, 47, 1, 105-113. Baker, F. B., & Kim, S. H. (2004). Item Response Theory : Parameter Estimation Techniques. Basel, N. Y. : Marcel Dekker, Inc. Beguin, A. A., & Glas, C. A. W. (2001). MCMC estimation and some model-fit analysis of multidimensional IRT models. Psychometrika, 66, 541-561. Birnbaum, A. (1968). Some latent trait model and their use in inferring an examinee s ability. In F. M. Lord and M. R. Novick, Statistical theories of mental test scores, 17-20. Reading, Mass: Addison- Wesley. Bock, R. D., Gibbons, R., Muraki, E. (1988). Full-information item factor analysis. Applied Psychological Measurement, 1988, 12, 261-280. Bock, R. D., & Mislevy, R. J. (1982). Adaptive EAP estimation of ability in a microcomputer environment. Applied Psychological Measurement, 6, 431-444. Carlson, J. E. (1987). Multidimensional item response theory estimation: a computer program. Unpublished manuscript. 35

新竹縣教育研究集刊第十二期民 101 年 12 月 C h a n g, H., Q i a n, J., & Y i n g, Z. ( 2 0 0 1 ). a - s t r a t i f i e d m u l t i s t a g e c o m p u t e r i z e d a d a p t i v e t e s t i n g w i t h b - b l o c k i n g. A p p l i e d Psychological Measurement, 25, 333-341. Chang, S. W., & Ansley, T. (2003). A comparative study of item exposure control methods in computerized adaptive testing. Journal of Educational Measurement, 40 (1), 71-103. de la Torre, J., & Song, H. (2009). Simultaneous Estimation of Overall and Domain Abilities: A Higher-Order IRT Model Approach. Applied Psychological Measurement, 33 (8), 620-639. F r a s e r, C. ( 1 9 8 8 ). N O H A R M. [ C o m p u t e r s o f t w a r e a n d m a n u a l ]. Armidale, New South Wales, Australia: author. Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Boston, MA: Kluwer-Nijhoff. Hattie, J. (1981). Decision criteria for determining unidimensional and multidimensional normal ogive models of latent trait theory. Armidale, Australia: The University of New England, Center for Behavioral Studies. Hung, P. H. (1988). Application of computerized adaptive testing to the university entrance exam of Taiwan, R. O. C. Unpublished doctoral dissertation, University of Minnesota, Minnesota. Larson, J. W., & Smith, K. L. (1988). A Spanish computerized adaptive p l a c e m e n t e x a m. U T : B r i g h a m Y o u n g U n i v e r s i t y H u m a n i t i e s Research Center. Lee, J., Grigg, W., & Dion, G. (2007). The Nation s Report Card: M a t h e m a t i c s 2 0 0 7. N a t i o n a l C e n t e r f o r E d u c a t i o n S t a t i s t i c s, Institute of Education Sciences, U.S. Department of Education, Washington, D.C. Lord, F. M. (1977). Practical applications of item characteristic curve theory. Jaurnal of Educational Measurement, 14, 117-138. Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Lawrence Eribaum Associates. 36

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用 Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. Masters, G. N. ( 1982). A Rasch model f or partial credit scoring. Psychometrika, 47, 149-174. McBride, J. R., & Martin, J. T. (1983). Reliability and validity of adaptive ability tests in a military setting. In D. J. Wiess (Ed.), New Horizons in Testing: Latent Trait Test Theory and Computerized Adaptive Testing (pp. 223-236). New York: Academic Press. McDonald. R. P. (1982). Linear versus nonlinear models in item response theory. Applied Psychological Measurement, 6 (4), 379-396. McKinley, R. L. & Reckase, M. D. (1983). MAXLOG: A computer program for the estimation of the parameters of a multidimensional logistic model. Behavior Research Methods and Instrumentation, 15, 389-390. Mislevy, R. J. (1991). Randomization-based inference about latent variable from complex samples.psychometrika,56,psychometric Society,Greensboro,pp.177-196. Mislevy, R. J., A. E. Beaton, B. Kaplan and K. M. Sheehan.(1992). Estimating population characteristics form sparse matrix samples of item response. Journal of Educational Measurement, 29, pp.133-161, National Council on Measurement in Education,Washington, D.C.. Mullis, I.V.S., Martin, M. O., Ruddock, G. J., O'Sullivan, C.Y., Arora, A., & Eberber, E. (2005). TIMSS 2007 Assessment Frameworks. http://timss.bc.edu/timss2007/frameworks.html. Muraki, E. (1992). A generalized partial credit model: application of an EM algorithm. Applied Psychological Measurement, 16 (2),159-176. Muraki, E. (1999). Stepwise analysis of differential item functioning based on multiple-group partial credit model. Journal of Educational Measurement, 36, 217 232. Muraki, E., & Carlson, E. (1995). Full-information factor analysis for polytomous item responses. Applied Psychological Measurement, 19, 73 90. 37

新竹縣教育研究集刊第十二期民 101 年 12 月 Muraki, E., & Bock, R. D. (1997). PARSCALE 3: IRT based test scoring and item analysis for graded items and rating scales. Chicago: Scientific Software International. NAEP Technical Documentation (2009). The Nation s Report Card. Retrieved May 13, 2009, from National Center for Education Statistics: http://nces.ed.gov/nationsreportcard/tdw/. OECD (2009). PISA 2006 Technical Report. OCED, Paris. OECD (2005). PISA 2003 Technical Report. OCED, Paris. Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests. Danish Institute for Educational Research, Copenhagen. Reckase, M.D. (1997). A linear logistic multidimensional model for dichotomous item response data. In W.J. van der Linden & R. K. Hambleton (Eds.), Handbook of Modern Item Response Theory (pp. 271 286). NewYork: Springer-Verlag. Reckase, M. D., & McKinley, R. L. (1991). The discriminating power of items that measure more than one dimension. Applied Psychological Measurement, 15, 361-373. Ree, M. J. (1981). The effects of item calibrations, sample size, and item pool size on adaptive testing. Applied Psychological Measurement, 5, 11-19. Segall, D. O. (1996). Multidimensional adaptive testing. Psychometrika, 61, 331-345. Song, H. (2007). A higher-order item response model: development and application.unpublished doctoral dissertation, The State University of New Jersey. Stocking, M. L. (1994). Three practical issues for modern adaptive testing item pools. Educational Testing Service, Princeton, N. J. Sympson, J. B. (1978). A model for testing with the multidimensional items. In D. J. Weiss (Ed.), Proceedings of the 1977 Computerized Adaptive Testing Conference (pp. 82-98). Minneapolis: University 38

郭伯臣吳慧珉陳俊華試題反應理論在教育測驗上之應用 of Minnesota, Department of Psychology, Psychometric Methods Program. Thissen, D., Chen, W-H., & Bock, R. D. (2003). Multilog (version 7). Lincolnwood, IL: Scientific Software International. Veerkamp, W. J. J., & Berger, M. P. F. (1997). Some new item selection criteria for adaptive testing. Journal of Educational and Behavioral Statistics, 22, 203-226. Wainer, H., Dorans, N. J., Flaugher, R., Green, B. F., Mislevy, R. J., Steinberg, L., & Thissen, D. (2000). Computerized adaptive testing: A primer. 2nd edition. Hillsdale, N.J.: Erlbaum. Waller, N. G. (2002). WinMFact 2.0. Minneapolis, MN: Author. Wang, T., & Vispoel, W. P. (1998). Properties of ability estimation methods in computerized adaptive testing. Journal of Educational Measurement, 35, 109-135. W a n g, W. C. ( 1 9 9 4 ). I m p l e m e n t a t i o n a n d a p p l i c a t i o n o f t h e multidimensional random coefficients multinomial logit model. U n p u b l i s h e d d o c t o r a l d i s s e r t a t i o n, U n i v e r s i t y o f C a l i f o r n i a, Berkeley, CA. W a n g, W. - C., C h e n, P. - H., & C h e n g, Y. - Y. ( 2 0 0 4 ). I m p r o v i n g measurement precision of test batteries using multidimensional item response models. Psychological Methods, 9, 116-136. Wang, W. C., & Wilson, M. (2005). The Rasch testlet model. Applied Psychological Measurement, 29(2), 126-149. Weiss, D. J. (Ed.) (1983). New horizons in testing: Latent trait test theory and computerized adaptive testing. New York: Academic. Weiss, D. J., & Yoes, M. E. (1991). Item response theory. In R. K. H a m b l e t o n a n d J. Z a a l ( e d s. ), A d v a n c e s i n e d u c a t i o n a l a n d psychological testing. Boston: Kluwer Academic Publishers. Wood, R., Wilson, D., Gibbons, R, Schilling, S., Muraki, E., & Bock, D. (2003). TESTFACT 4: Test scoring, item statistics, and item factor analysis. Mooresville, IN: Scientific Software. 39

新竹縣教育研究集刊第十二期民 101 年 12 月 Wright, B. D., & Masters, G. N. (1982). Rating scale analysis. Chicago: MESA Press. Wright, B. D., & Stone, M. H. (1979). Best test design. Chicago : MESA Press. Wu, M. L., Adams, R. J., & Wilson, M. R. (1998). Acer ConQuest. Melbourne, Victoria, Australia: Australian Council for Educational Research press. Yao, L. (2003). BMIRT: Bayesian Multivariate Item Response Theory. [Computer software]. Monterey, CA: CTB/McGraw-Hill. Zimowski, M. F., Muraki, E., Mislevy, R. J., & Bock, R. D. (1996). BILOG-MG: Multiplegroup IRT analysis and test maintenance for binary items. Chicago: Scientific Software International. 40