新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 Application of IRT in Educational Measurement Bor-Chen Kuo 1 Huey-Min Wu 2 Chun-Hua Chen 3 1 3 Graduate Institu



Similar documents
11-3-Cover-1

Developing an Item Bank of Fraction Concepts Jyun-Ji Lin Ph. D. Candidate, Department of Psychology, National Chung Cheng University Yuh-Yin Wu Profes

Microsoft Word - z-vc85-王暄博

inter - rater intra - rater 101

教育學報31-2期.indd

考試學刊第10期-內文.indd

Microsoft Word doc

92南師學術研討會

,,,,, :IRT ; ; ; ( CIP ) /. :,2002 () ISBN H CIP (2002) ( ) : : : 890mm1240mm 1/ 32 :

作 主 动 追 求 知 识 获 取 技 能, 在 心 理 和 生 理 上 都 非 常 积 极 的 个 体 (Zimmerman & Pons, 1986) 在 此 期 间, 自 我 效 能 感 (self-efficacy) 自 我 控 制 (self-control) 自 我 管 理 (self-

教 育 科 學 期 刊

EXAMINATIONS RESEARCH No General No. 37 姚 霞 本文在分析 PISA TIMSS 和 NEAP 三项国际学生科学素养测评现状 的基础上, 提出对我国科学素养测评的启示 : 1. 明确测评目标和测试框架, 在深入研究课程教材的

Microsoft Word doc

Microsoft Word - 19陈平辛涛jz12-477_new_.doc

第一章

<4D F736F F D20A457AEFCA5ABB0D1B358A6A8AA47B3F8A769AED FB3F8A9B25F>

目 录

Journal of Curriculum Studies September, 2013, Vol. 8, No. 2, pp A Study of the Relationship between Senior High School Curriculum and the Mult

Journal of Curriculum Studies September, 2013, Vol. 8, No. 2, pp From the Development Trend of University to Study High School Curriculum Refor

[9] R Ã : (1) x 0 R A(x 0 ) = 1; (2) α [0 1] Ã α = {x A(x) α} = [A α A α ]. A(x) Ã. R R. Ã 1 m x m α x m α > 0; α A(x) = 1 x m m x m +

% % 34

1

R1_C_V5.PDF

从语用的角度看口语水平测试

Microsoft Word - 33-p skyd8.doc

A VALIDATION STUDY OF THE ACHIEVEMENT TEST OF TEACHING CHINESE AS THE SECOND LANGUAGE by Chen Wei A Thesis Submitted to the Graduate School and Colleg

ming.PDF

Microsoft Word - A doc

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

i-v

语篇中指代词的分布规律与心理机制*

精要

2011年南臺灣教育論壇

59 1 MSLQ 2. MSLQ 2. 1 被 试 Kuhl 1987 Corno & Kanfer 1993 D rnyei % 111 commitment control strategies 37% 65 21% % metac

2. 文 獻 探 討 2.1 大 眾 運 輸 之 特 性 大 眾 運 輸 有 兩 項 營 運 目 的 : 第 一 是 減 少 使 用 私 人 運 輸 工 具, 以 抒 解 交 通 壅 塞 的 現 象 ; 第 二 是 藉 此 達 到 所 得 重 分 配 的 效 果 [2] 根 據 Lovelock [

M037

穨423.PDF

Microsoft Word - 04-內文-02.doc

<4D F736F F D DBED4B2A4A9D2A9DBA5CDB8EAB054A7B9BEE3AAA92DB3D5A468AF5A2E646F63>

<4D F736F F D20B0AAAEC4B276AD5EA4E5BEC7B2DFB5A6B2A42E646F63>

北京大学申报市级教学成果奖

STEAM STEAM STEAM ( ) STEAM STEAM ( ) 1977 [13] [10] STEM STEM 2. [11] [14] ( )STEAM [15] [16] STEAM [12] ( ) STEAM STEAM [17] STEAM STEAM STEA


生涯規劃團體尊女性幼教人員生涯規劃行為之輔導效果

a b

日本、新加坡、中國大陸與台灣中小學教師評鑑制度比較研究

262 管 理 與 系 統 countries including Taiwan. Because of the liberalization policy of Taiwan s power industry, there is a critical demand to explore the m

(494)

Microsoft Word - 98全國大學校長會議

世界各國為追求經濟發展及提升競爭力致力於教育改革,以提高教育品質,教師在椒玉品質中具有關鍵性的地位,各國為確保師資品質一致無不進行師資培育改革政策的推動

66 臺 中 教 育 大 學 學 報 : 人 文 藝 術 類 Abstract This study aimed to analyze the implementing outcomes of ability grouping practice for freshman English at a u

(單位名稱)大事記---96學年度(96

56

六 到 八 歲 兒 童, 設 計 並 發 展 一 套 以 van Hiele 幾 何 思 考 層 次 理 論 為 基 礎 的 悅 趣 化 學 習 數 位 教 材, 取 名 為 米 德 玩 形 狀, 同 時 探 討 低 年 級 學 童 在 使 用 本 數 位 教 材 之 後, 在 平 面 幾 何 的

中華管理評論國際學報‧第 卷‧第 期

Haven of Hope Chrristian Service_inside_final.indd

<4D F736F F D20B169B2FAB5D3A5FEA4E55FBEC7AEC9ABD8C4B32E646F63>

國立屏東教育大學碩士班研究生共同修業要點

小組工作定義 (Lee, 1999)

FOREIGN LANGUAGE RESEARCH 2018 No. 1 Serial No. 200 * H319 A DOI /j. cnki /h

70 臺 中 教 育 大 學 學 報 : 人 文 藝 術 類 Abstract Over the past few years, it became more obvious that students with low level of English language competence in

Microsoft Word - wck.doc

Welch & Bishop, [Kalman60] [Maybeck79] [Sorenson70] [Gelb74, Grewal93, Maybeck79, Lewis86, Brown92, Jacobs93] x R n x k = Ax k 1 + Bu k 1 + w

Lewis

Microsoft Word tb 赵宏宇s-高校教改纵横.doc

84 國 家 圖 書 館 館 刊 一 二 年 第 二 期 ( ) 一 前 言 在 知 識 經 濟 的 時 代, 閱 讀 力 是 提 升 國 家 競 爭 力 的 關 鍵, 是 一 個 人 有 文 化 涵 養 重 要 標 誌 洪 蘭 曾 志 朗 認 為 面 對 二 十 一 世 紀 資 訊 爆

Microsoft Word - 林文晟3.doc

具有多个输入 特别是多个输出的 部门 或 单位 ( 称为 决策单元 Decision Making Unit 简称 DMU) 间的相对有效 8 性 C2R 模型是 DEA 的个模型 也是 DEA 的基础 和重要模型 假设有 n 个决策单元 DMUj( j = n) 每个 DMU 有 m

<4D F736F F D20322EA764AC57C0732DA668B443C5E9B1D0BEC7A4E8AED7B9EFB0EAA470B4BCAFE0BBD9C3AABEC7A5CDAEC9B6A1B7A7A9C0BEC7B2DFA6A8AEC4A4A7BC76C5545FA7EF32>

第一章 緒論

發 行 人 許 健 將 總 編 輯 許 健 將 編 輯 委 員 一 教 育 基 礎 與 理 論 領 域 黃 藿 國 立 中 央 大 學 法 律 與 政 府 研 究 所 教 授 馮 朝 霖 國 立 政 治 大 學 教 育 學 系 暨 幼 兒 教 育 研 究 所 教 授 姜 得 勝 國 立 嘉 義 大

Transcription:

新 竹 縣 教 育 研 究 集 刊, 民 101, 第 十 二 期, 頁 05~40 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 1 3 2 1 2 3 郭 伯 臣 吳 慧 珉 陳 俊 華 台 中 教 育 大 學 教 育 測 驗 統 計 研 究 所 國 家 教 育 研 究 院 測 驗 及 評 量 研 究 中 心 摘 要 E 本 文 主 要 簡 介 試 題 反 應 理 論 的 發 展 與 應 用, 首 先, 比 較 試 題 反 應 理 論 與 古 典 測 驗 理 論 之 差 異, 接 著 介 紹 目 前 常 用 試 題 反 應 理 論 模 式, 例 如 : 單 向 度 單 參 數 二 參 數 三 參 數 Logistic 模 式 及 多 向 度 模 式, 進 而 簡 介 新 發 展 之 高 階 試 題 反 應 理 論 模 式 並 舉 例 說 明 使 用 上 之 差 異, 最 後, 說 明 試 題 反 應 理 論 在 大 型 教 育 測 驗 及 電 腦 化 適 性 測 驗 上 之 應 用 5

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 Application of IRT in Educational Measurement Bor-Chen Kuo 1 Huey-Min Wu 2 Chun-Hua Chen 3 1 3 Graduate Institute of Educational Measurement and Statistics National Taichung University of Education 2 Research Center for Testing and Assessment, National Academy for Educational Research Abstract EThe goal of this paper is to introduce the development and application of item response theory. First, the differences of item response theory and classical test theory are compared. Second, some useful and poplar item response models are mentioned, such as unidimensional one-parameter, two-parameter, three-parameter logistic models and multidimenstional models. Moreover, some recently proposed higer-order item response models are also described. Final part contains the applications of item response theory to the large scale education assessments and computerized adaptive tests. 6

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 十 九 世 紀 初 比 奈 賽 門 (Bi-net Simon) 智 力 量 表 問 世, 測 驗 理 論 開 始 受 到 學 者 重 視, 其 中 廣 為 人 知 的 應 屬 古 典 測 驗 理 論 古 典 測 驗 理 論 (classical test theory, CTT) 最 早 是 Gulliksen 於 1950 出 版 的 書 心 理 測 驗 理 論 (Theory of Mental Test ) 被 介 紹, 古 典 測 驗 理 論 的 模 式 簡 單 易 懂 成 為 二 十 世 紀 測 驗 理 論 的 主 軸, 在 測 驗 編 製 評 估 及 使 用 上 有 其 貢 獻, 然 隨 著 測 驗 需 求 量 的 日 益 增 加 及 形 式 多 樣 化, 其 簡 單 的 假 設 造 成 古 典 測 驗 理 論 應 用 之 限 制, 其 中 最 明 顯 的 限 制 是 不 同 版 本 測 驗 的 比 較 問 題, 即 不 同 的 學 生 參 加 不 同 的 測 驗, 如 何 比 較 這 些 學 生 的 成 績, 於 是 不 同 的 測 驗 理 論 陸 續 被 提 出, 如 Lord 和 Novick(1968) 提 出 以 模 式 為 基 礎 的 測 驗 理 論, 即 現 在 常 聽 到 試 題 反 應 理 論 (item response theory, IRT) 的 先 驅, 但 由 於 其 理 論 模 式 過 於 艱 澀 且 估 計 過 程 繁 雜, 再 加 上 當 時 的 電 腦 設 備 並 不 先 進, 故 此 書 並 未 引 起 太 大 的 共 鳴 Lord(1980) 出 版 試 題 反 應 理 論 於 測 驗 的 應 一 書, 正 式 介 紹 試 題 反 應 理 論, 由 於 試 題 反 應 理 論 架 構 嚴 謹, 考 慮 層 面 廣 泛, 除 了 延 續 古 典 測 驗 理 論 的 功 能, 並 藉 由 電 腦 科 技 協 助, 突 破 古 典 測 驗 理 論 在 應 用 上 的 瓶 頸, 此 時 電 腦 技 術 已 較 進 步, 成 為 當 前 的 主 流 測 驗 理 論 之 一 本 文 主 要 介 紹 試 題 反 應 理 論 與 其 在 教 育 測 驗 之 應 用, 主 要 內 容 包 含 試 題 反 應 理 論 與 古 典 測 驗 理 論 之 差 異 試 題 反 應 理 論 模 式 簡 介 試 題 反 應 理 論 之 應 用 等 一 試 題 反 應 理 論 與 古 典 測 驗 理 論 之 差 異 古 典 測 驗 理 論 也 被 稱 為 真 實 分 數 理 論 (true score theory), 主 要 是 建 立 於 簡 單 的 線 性 函 數 假 設,X = T + E, 其 中 X 為 可 觀 察 分 數, T 為 真 實 分 數, E 為 誤 差 分 數 (Lord & Novick, 1968) 古 典 測 驗 理 論 主 要 考 量 整 份 測 驗 的 總 分 解 釋 學 生 的 能 力 而 試 題 反 應 理 論 是 以 非 線 性 數 學 模 式 為 基 礎, 並 以 試 題 的 觀 點 解 釋 學 生 的 能 力, 學 生 在 某 一 題 試 題 的 表 現, 如 答 對 或 答 錯, 和 學 生 所 具 備 的 某 一 種 能 力, 如 數 學 能 力, 具 有 一 種 非 線 性 關 係, 這 一 種 非 線 性 關 係 可 透 過 一 條 連 續 性 遞 增 的 數 學 函 數 表 示, 稱 為 試 題 特 徵 曲 線 (item characteristic cure, ICC) 古 典 測 驗 理 論 與 試 題 反 應 理 論 對 於 測 量 問 題 所 抱 持 的 觀 點 並 不 一 樣, 試 題 反 應 理 論 具 備 幾 項 特 點, 正 好 可 以 補 足 古 典 測 驗 理 論 之 限 制 : 1. 在 誤 差 假 設 方 面, 在 古 典 測 驗 理 論 中 是 假 設 所 有 的 受 試 者 都 有 相 同 的 測 量 標 準 誤 ; 試 題 反 應 理 論 中 假 設 每 位 具 有 不 同 能 力 水 準 的 受 試 者, 對 應 不 同 的 測 量 標 準 誤, 如 果 使 用 的 是 一 份 難 度 適 中 的 測 驗, 理 論 上 對 於 中 等 能 力 的 受 試 者 會 有 較 小 的 測 量 標 準 誤, 而 對 於 較 高 能 力 或 能 力 差 的 受 試 者, 其 測 量 標 準 誤 會 較 大 7

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 2. 在 信 度 方 面, 相 較 於 短 測 驗, 古 典 測 驗 理 論 假 設 測 驗 題 數 越 多 的 測 驗 其 信 度 指 數 值 亦 較 高 ; 試 題 反 應 理 論 則 假 設 題 數 少 的 測 驗 亦 可 以 得 到 很 好 的 信 度 指 數, 如 適 性 測 驗 即 是 最 好 的 例 子 3. 在 試 題 參 數 估 計 方 面, 古 典 測 驗 理 論 中, 試 題 的 難 度 指 數 和 鑑 別 度 指 數, 會 因 為 受 試 者 的 能 力 分 配 不 同 而 得 到 不 一 樣 的 估 計 結 果, 如 要 得 到 不 偏 的 估 計 結 果, 必 須 選 取 具 有 代 表 性 的 樣 本 ; 而 試 題 反 應 理 論 具 有 參 數 不 變 性 (parameter invariance) 之 特 色, 即 試 題 的 試 題 參 數 估 計, 不 受 受 試 者 能 力 分 布 影 響, 受 試 者 能 力 值 估 計, 亦 不 受 到 測 驗 試 題 之 影 響 (Hambleton & Swaminathan, 1985) 4. 在 分 數 解 釋 方 面, 古 典 測 驗 理 論 是 透 過 常 模 參 照 的 方 式 解 釋 分 數 的 意 義, 受 試 者 只 知 道 他 贏 過 誰, 卻 無 法 得 知 會 什 麼 ; 試 題 反 應 理 論 則 是 將 能 力 與 試 題 擺 在 同 一 個 量 尺, 受 試 者 可 以 透 過 能 力 與 試 題 難 度 的 差 異, 瞭 解 自 己 大 概 可 以 答 對 哪 些 題 目 5. 在 題 型 設 計 方 面, 對 於 古 典 測 驗 理 論, 混 合 題 型 的 設 計, 如 一 份 測 驗 同 時 有 多 元 計 分 和 二 元 計 分 會 對 總 分 的 計 算 產 生 偏 誤 ; 然 而 這 一 種 混 合 題 型 的 設 計 在 試 題 反 應 理 論 卻 能 得 到 最 佳 的 估 計 效 果 6. 在 作 答 反 應 組 型 解 釋 方 面, 受 試 者 能 力 的 估 計 主 要 依 賴 於 受 試 者 的 作 答 反 應 組 型 和 所 施 測 的 試 題 特 性, 以 古 典 測 驗 理 論 而 言, 不 管 受 試 者 作 答 反 應 組 型 如 何, 只 要 加 總 之 總 分 相 同, 即 代 帶 能 力 相 同 ; 而 對 於 試 題 反 應 理 論, 原 始 總 分 相 同 的 受 試 者, 若 是 其 作 答 反 應 組 型 不 一 樣, 亦 有 可 能 得 到 不 同 的 能 力 估 計 值 7. 在 等 化 方 面, 古 典 測 驗 理 論 假 設 唯 有 複 本 測 驗 (parallel test), 不 同 的 測 驗 分 數 才 能 進 行 比 較, 且 結 果 是 最 佳 的, 試 題 反 應 理 論 則 無 此 假 設, 而 等 化 效 果 最 佳 的 情 況 是 不 同 測 驗 所 使 用 的 題 目 能 涵 蓋 不 同 能 力 學 生 的 需 求 二 試 題 反 應 理 論 模 式 簡 介 教 育 現 場, 教 師 發 展 一 份 測 驗 時 必 須 先 決 定 測 量 的 目 標, 也 就 是 所 欲 測 量 的 學 生 能 力 是 什 麼? 這 個 目 標 可 以 是 單 一 的, 如 界 定 義 為 數 學 能 力, 亦 可 以 是 多 維 的, 如 欲 測 量 學 生 之 幾 何 能 力 計 算 能 力 等, 而 後 展 開 命 題, 最 常 使 用 的 測 驗 題 型 是 選 擇 題 填 充 題 和 應 用 問 題 等 題 型, 針 對 不 同 的 題 型 會 搭 配 不 同 的 計 分 方 式, 如 選 擇 題 型 和 填 充 題 型 可 使 用 答 錯 0 分, 答 對 1 分, 這 種 計 分 模 式 在 測 驗 理 論 中 稱 為 二 元 (dichotomous) 計 分, 而 應 用 問 題 則 可 以 是 答 錯 0 分 部 分 答 對 1 分 全 對 2 分, 這 種 計 分 模 式 則 被 稱 為 多 點 (polytomous) 計 分 8

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 試 題 反 應 理 論 假 設 學 生 所 具 備 的 某 一 種 能 力 和 受 試 者 在 某 一 題 的 答 題 情 形, 可 以 透 過 數 學 模 式, 也 就 是 試 題 特 徵 曲 線 (ICC) 加 以 闡 述 依 據 對 於 能 力 特 質 之 基 本 假 設 不 同 和 計 分 模 式 的 不 同, 主 要 可 分 為 單 向 度 試 題 反 應 理 論 (unidimensional IRT, UIRT) 多 向 度 試 題 反 應 理 論 (multidimensional IRT, MIRT) 以 及 ; 依 據 計 分 型 態, 可 分 為 二 元 (dichotomous) 計 分 和 多 點 (polytomous) 計 分 模 式, 目 前 更 有 學 者 結 合 單 向 度 試 題 反 應 理 論 與 多 向 度 試 題 反 應 理 論, 發 展 高 階 層 試 題 反 應 理 論 (higher-order IRT, HO-IRT) 以 下 將 介 紹 這 幾 種 理 論 模 式 : ( 一 ) 單 向 度 試 題 反 應 理 論 模 式 單 向 度 試 題 反 應 理 論 模 式 必 須 符 合 單 向 度 (unidimensionality) 局 部 獨 立 (local independence) 非 速 度 性 (nonspeedness) 知 道 - 正 確 假 設 ( know-correct assumption) 四 項 基 本 的 假 設 (Weiss & Yoes, 1991), 才 能 進 行 測 驗 資 料 之 分 析 基 於 試 題 反 應 理 論 的 單 向 性 假 設, 一 般 使 用 之 試 題 反 應 理 論 為 單 向 度 試 題 反 應 理 論, 本 研 究 介 紹 二 元 計 分 對 數 型 模 式 及 多 點 計 分 模 式, 二 元 計 分 對 數 型 模 式 包 含 有 單 參 數 對 數 模 式 (one-parameter logistic model, 1PL) 二 參 數 對 數 模 式 (two-parameter logistic model, 2PL) 及 三 參 數 對 數 模 式 (three-parameter logistic model, 3PL); 多 點 計 分 模 式 包 含 部 分 給 分 模 式 (partial credit model, PCM) 和 廣 義 部 分 給 分 模 式 (generalized partial credit model, GPCM) 1. 二 元 計 分 模 式 (1) 單 參 數 對 數 模 式 單 參 數 對 數 模 式 有 Rasch 模 式 之 稱 (Rasch, 1960; Wright & Stone, 1979; Wright & Master, 1982), 在 試 題 反 應 理 論 的 1PL 模 式 下, 假 設 受 試 者 j 之 能 力 為 θ j, 其 作 答 試 題 i 通 過 的 機 率 如 下 : ( 公 式 1) 其 中,X ij 為 受 試 者 j 在 試 題 i 的 作 答 反 應, 答 對 記 為 1, 答 錯 記 為 0;b i 為 試 題 i 之 試 題 難 度 參 數 (item difficulty parameter) (2) 二 參 數 對 數 模 式 在 試 題 反 應 理 論 的 2PL 模 式 下, 假 設 受 試 者 j 之 能 力 為 θ j, 其 作 答 試 題 i 通 過 的 機 率 如 下 (Birnbaum, 1968): 9

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 ( 公 式 2) 其 中,X ij 為 受 試 者 j 在 試 題 i 的 作 答 反 應, 答 對 記 為 1, 答 錯 記 為 0;a i 為 試 題 i 之 試 題 鑑 別 度 參 數 (item discrimination parameter); b i 為 試 題 i 之 試 題 難 度 參 數 (3) 三 參 數 對 數 模 式 在 試 題 反 應 理 論 的 3PL 模 式 下, 假 定 測 驗 會 發 生 猜 題 之 現 象, 故 假 設 受 試 者 j 之 能 力 為 θ j, 其 作 答 試 題 i 通 過 的 機 率 如 下 (Birnbaum, 1968; Lord, 1980): ( 公 式 3) 其 中,X ij 為 受 試 者 j 在 試 題 i 的 作 答 反 應, 答 對 記 為 1, 答 錯 記 為 0;a i 為 試 題 i 之 試 題 鑑 別 度 參 數 ;b i 為 試 題 i 之 試 題 難 度 參 數 ;c i 為 試 題 i 之 試 題 猜 測 度 參 數 (item guessing parameter) 2. 多 點 計 分 模 式 (1) 部 分 給 分 模 式 部 分 給 分 模 式 (partial credit model, PCM) 是 由 Masters (1982) 所 提 出, 為 Rasch s model 在 多 點 計 分 的 一 個 應 用 ( 公 式 4) 1 其 中,P i1 = 0 且 Σ (θ j c=1 b i v ) 0 ;θ j 表 示 受 試 者 j 的 能 力 ;k 為 受 試 者 的 回 答 所 屬 類 別,k=1... m i ;m i 為 隨 題 目 而 變 的 變 數 ;m i 是 第 i 題 所 有 的 類 別 數 ; P ik (θ j ) 表 示 能 力 為 θ j 的 受 試 者 j 在 第 i 題 得 k 類 的 機 率 (0 < P ik (θ j ) < 1 );b i v : 指 第 i 題 第 v 個 的 試 題 步 驟 難 度 參 數 (item step parameter) 或 類 別 閾 參 數 (category intersection parameter), 隨 著 類 別 界 線 (category boundary) 而 變, 相 鄰 在 兩 類 別 間, 就 有 一 個 b i v 參 數 ( < b i v < ), 即 b i k 為 P (θ i, ) 和 P k -1 j ik (θ j ) 10

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 的 交 點 在 部 分 給 分 模 式 的 公 式 中, 我 們 可 以 發 現 如 果 試 題 為 二 元 計 分, 則 用 部 分 給 分 模 式 模 式 來 分 析 試 題 會 與 使 用 Rasch 單 參 數 模 式 來 分 析 相 同 3. 廣 義 部 分 給 分 模 式 廣 義 部 分 給 分 模 式 (generalized partial credit model, GPCM) 是 部 分 給 分 模 式 的 延 伸, 由 Muraki(1992) 所 提 出, 為 各 試 題 之 間 有 不 同 的 鑑 別 度 參 數, 廣 義 部 分 給 分 模 式 定 義 如 下 : ( 公 式 5) 其 中 d 1 0, 為 了 在 進 行 參 數 估 計 時, 使 其 有 一 個 相 對 原 點, b i v = b i d v ;θ j 表 示 受 試 者 j 的 能 力 ; k 為 受 試 者 的 回 答 所 屬 類 別, k=1 m i ;m i 為 隨 題 目 而 變 的 變 數,m i 是 第 i 題 所 有 的 類 別 數 ;P ik (θ j ) 表 示 能 力 為 θ j 的 受 試 者 j 在 第 i 題 得 k 類 的 機 率 ( 0 < P i k (θ j ) < 1 ); b i v =b i d v,b i v 為 第 i 題 第 v 個 的 試 題 步 驟 難 度 參 數 (item step parameter) 或 類 別 閾 參 數 (category intersection parameter), 隨 著 類 別 界 線 (category boundary) 而 變, 相 鄰 在 兩 類 別 間, 就 有 一 個 b i v 參 數 ( < b i v < ), 即 b i k 為 P (θ i, ) 和 P (θ k -1 j i ) 的 交 點, 同 一 試 題 內 的 試 題 步 驟 參 數 不 需 k j 是 有 序 的 ;b i 為 試 題 i 位 置 參 數 (item location parameter); d v 為 閾 參 數 (threshold parameter); d k 為 同 一 試 題 內 的 第 k 類 和 其 他 類 別 的 相 對 難 度 (Andrich, 1982);a i : 試 題 i 的 斜 率 參 數, 同 一 試 題 在 各 類 別 選 項 有 相 同 的 斜 率 參 數, 但 不 同 的 試 題 有 不 同 斜 率 ( 二 ) 多 向 度 試 題 反 應 理 論 模 式 目 前 常 見 的 多 向 度 試 題 反 應 理 論 (multidimensional item response theory, MIRT) 大 多 是 單 向 度 試 題 反 應 模 式 (unidimensional item response theory, UIRT) 的 衍 生 模 式 以 下 將 介 紹 幾 種 常 見 的 多 向 度 試 題 反 應 理 論 模 式, 分 別 為 多 向 度 隨 機 係 數 多 項 logit 模 式 (MRCMLM) 多 向 度 二 參 數 模 式 (multidimensional two parameters model, M2PL) 多 向 度 三 參 數 模 式 (multidimensional three parameters model, M3PL) 11

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 1. 多 向 度 二 參 數 模 式 (M2PL) 多 向 度 二 參 數 模 式 為 二 參 數 logistic 模 式 (two-parameter logistic model, 2PL) 所 衍 生 的 模 式 (Mckinley & Reckase, 1983;Reckase & Mckinley, 1991), 其 模 式 定 義 如 下 : ( 公 式 6) 其 中 X i j 為 受 試 者 作 答 反 應 型 態,1 表 示 答 對 該 試 題,0 表 示 答 錯 該 試 題 ;a i 為 試 題 鑑 別 度 向 量,d i 為 試 題 難 度,θ j 為 受 試 者 能 力 向 量 多 向 度 二 參 數 模 式 與 二 參 數 IRT 模 式 差 別 為 將 原 本 的 受 試 者 能 力 值 θ 與 試 題 鑑 別 度 a 擴 展 為 向 量 θ j 及 a i, 透 過 向 量 來 表 示, 以 將 多 向 度 的 能 力 同 時 包 含 在 模 式 中 由 於 試 題 鑑 別 度 向 量 a i 包 含 多 個 向 度 的 鑑 別 度, 如 此 多 個 向 度 的 鑑 別 度 無 法 完 整 表 現 出 單 一 試 題 的 鑑 別 度, 因 此 Reckase & McKinley(1991) 定 義 出 兩 個 常 用 的 多 向 度 指 標, 一 個 是 第 i 題 的 多 向 度 鑑 別 度 參 數 (multidimensional discrimination parameter, MDISC i ) MDISC i =, 其 中 m 為 能 力 向 度 數 目 ; 另 一 個 是 第 i 題 的 多 向 度 難 度 參 數 (multidimensional difficulty parameter, MDISC i ) MDISC i = ; 另 外, 為 了 能 具 體 觀 察 試 題 的 向 度 結 構, 以 顯 示 個 別 向 度 鑑 別 度 a ik 與 多 向 度 鑑 別 度 參 數 MDISC i 之 間 的 關 係,Ackerman(1996) 定 義 試 題 所 要 測 量 的 能 力 方 向 與 各 能 力 向 度 間 的 夾 角 cos α ik =, k= 1 m i 2. 多 向 度 三 參 數 模 式 (M3PL) 多 向 度 三 參 數 模 式 為 三 參 數 logistic 模 式 (three-parameter logistic model, 3PL) 的 改 良, 將 三 參 數 logistic 模 式 中 的 能 力 參 數 與 鑑 別 度 參 數 改 成 向 量 的 型 式 (Hattie, 1981;Sympson, 1978), 模 式 定 義 如 下 : ( 公 式 7) 12

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 其 中,U i 為 第 i 題 反 應 型 態 ;θ j 為 受 試 者 能 力 向 量 ;c i 為 試 題 的 猜 測 參 數 ;a i 為 試 題 鑑 別 度 向 量 ; 而 為 了 使 試 題 的 難 度 成 為 向 量 用 以 與 能 力 向 量 相 減, 故 將 難 度 參 數 b 與 向 量 1 相 乘 多 向 度 三 參 數 的 模 式 有 其 他 表 示 法, 由 Reckase(1997) 提 出 的 多 向 度 三 參 數 洛 基 模 式 (multidimensional three-parameter logistic model, M-3PL) 如 公 式 8 所 示, 能 力 為 θ i 的 受 試 者, 在 二 元 計 分 試 題 j 的 答 對 機 率 為 : 1 β P i j 1 = P ( x i j =1 θ ) = β 3j + 3j βj i 1 + e ( T D β â ) 2 j 2 Θθè T i i = + β 1 j l = â jl è 1 2 il ( 公 式 8) 其 中,x i j 為 受 試 者 i 在 試 題 j 的 作 答 反 應, 答 對 時 x i j = 1, 答 錯 時 x i j = 0; β 2j = ( β 2 j 1 β 2 j D ) 為 D 個 向 度 的 試 題 鑑 別 度 參 數 向 量 ; β 1j 為 試 題 難 度 參 數 ;β 3j 為 試 題 猜 測 參 數 ; β 2j ; 第 題 的 試 題 參 數 為 β j = β 2 j, β 1 j, β 3 j T θ 2j 3. 多 向 度 隨 機 係 數 多 項 logit 模 式 (MRCMLM) 多 向 度 隨 機 係 數 多 項 洛 基 模 式 是 由 Adams Wilson 與 Wang(1997) 等 人 所 提 出,MRCMLM 為 Rasch 模 式 的 衍 生 模 式, 是 一 個 混 合 的 coefficients 模 型 (mixed co-efficients model), 試 題 參 數 是 由 未 知 的 參 數 所 描 述, 而 受 試 者 的 潛 在 變 數 θ, 是 一 個 隨 機 變 項, 模 式 定 義 如 下 : ( 公 式 9) 其 中 表 示 受 試 者 反 應 型 態, X = i K { 1 為 i 第 題 作 答 第 k 個 反 應 類 別 0 表 其 他 ; 為 試 題 參 數 向 量 (p 個 參 數 );θ'= (θ 1, θ 2 θ D ) 為 受 試 者 的 能 力 向 量 (D 個 向 度 ); 為 整 份 測 驗 的 設 計 矩 陣 ; 為 第 i 題 中 第 k 個 反 應 類 別 的 設 計 向 量, 每 個 向 量 長 度 為 : 整 份 測 驗 的 計 分 矩 陣 ; : 第 i 題 的 計 分 子 矩 陣 ; : 在 D 個 向 度 中, 第 i 題 回 答 第 k 個 反 應 類 別 的 計 分 向 量 13

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 依 據 測 驗 架 構 又 可 分 為 題 間 多 向 度 測 驗 ( b e t w e e n - i t e m multidimensional test) 與 題 內 多 向 度 測 驗 (within-item multidimensional test) 兩 種 (Adams, Wilson & Wang, 1997), 前 者 定 義 每 個 試 題 只 測 量 一 種 能 力, 如 圖 1 題 間 多 向 度 ; 後 者 定 義 每 個 題 目 不 只 測 量 一 種 能 力, 如 圖 2 題 內 多 向 度 圖 1 題 間 多 向 度 評 量 架 構 圖 圖 2 題 內 多 向 度 評 量 架 構 圖 ( 三 ) 高 階 層 試 題 反 應 理 論 模 式 隨 著 評 量 架 構 的 日 趨 複 雜, 近 年 來 更 複 雜 的 測 驗 理 論 相 繼 被 提 出 以 PISA(The Programme for International Student Assessment) 數 學 科 評 量 架 構 為 例, 除 了 數 學 科 能 力 (mathematics), 同 時 也 希 望 得 到 學 生 在 數 量 (quantity) 空 間 與 形 體 (space and shape) 改 變 與 關 係 (change and relationships) 及 不 確 定 性 (uncertainty) 四 個 數 學 能 力 (OECD, 2005) 以 往 估 計 此 種 評 量 架 構 是 以 單 向 度 試 題 反 應 理 論 估 計 數 學 科 能 力 ( 如 圖 3), 或 以 多 向 度 試 題 反 應 理 論 估 計 四 個 數 學 能 力 ( 如 圖 4) 這 樣 的 估 計 方 式 會 產 生 較 大 的 估 計 誤 差, 使 用 UIRT 模 式 會 違 背 其 假 設 而 使 主 要 量 尺 能 力 ( 即 數 學 科 能 力 ) 估 計 不 準 確, 或 當 次 級 量 尺 ( 即 上 述 之 數 量 空 間 與 形 體 改 變 與 關 係 及 不 確 定 性 (uncertainty) 四 個 數 學 能 力 ) 所 對 應 的 題 數 較 少 時, 導 致 估 計 效 果 不 好 依 據 有 鑑 於 此, 學 者 開 始 發 展 更 複 雜 的 測 驗 理 論,Song(2007) 提 出 一 因 子 高 階 層 IRT 模 式, 同 時 包 含 整 體 能 力 (overall ability) 與 領 域 能 力 (domain ability)( 如 圖 5), 透 過 適 當 地 參 數 估 計 過 程 可 以 同 時 獲 得 主 要 量 尺 能 力 和 次 級 量 尺 能 力 的 估 計 (de la Torre & Song, 2009) 14

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 Song(2007) 模 擬 研 究 顯 示, 當 次 級 量 尺 之 間 不 相 依 時,HO-IRT 模 式 對 主 要 量 尺 的 估 計 結 果 會 相 似 於 UIRT 模 式 ; 當 彼 此 相 依 時,HO-IRT 模 式 估 計 次 級 量 尺 會 比 UIRT 模 式 更 準 確 在 HO-IRT 模 式 中, 一 份 測 驗 可 觀 察 多 個 單 向 度 子 測 驗 (subtest), 也 就 是 次 級 量 尺, 表 示 第 i 位 受 試 者 在 次 級 量 尺 d 的 表 現, 其 中 當 不 同 次 級 量 尺 均 測 量 相 同 能 力 時, 整 份 測 驗 即 為 單 向 度 測 驗 ; 若 不 同 次 級 量 尺 間 有 關 聯, 會 藉 由 高 階 層 能 力 θ i 來 連 結 這 些 次 級 量 尺,θ i 表 示 第 i 位 受 試 者 在 主 要 量 尺 的 表 現, 而 次 級 量 尺 是 主 要 量 尺 的 線 性 函 數, 公 式 定 義 如 下 : 其 中 為 迴 歸 參 數 且 為 誤 差 項 服 從 平 均 數 為 0 變 異 數 為 的 常 態 分 布, 服 從 平 均 數 為 變 異 數 為 的 常 態 分 布 為 主 要 量 尺 與 次 級 量 尺 間 的 相 關, 表 示 次 級 量 尺 與 次 級 量 尺 間 的 相 關 ; 可 為 負 數, 但 在 教 育 測 驗 上, 主 要 量 尺 與 次 級 量 尺 皆 為 正 相 關, 故 只 考 慮 圖 3 單 向 度 IRT 評 量 架 構 圖 圖 4 多 向 度 IRT 評 量 架 構 圖 圖 5 一 因 子 高 階 層 IRT 評 量 架 構 圖 15

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 三 試 題 反 應 理 論 之 應 用 ( 一 ) 試 題 反 應 理 論 電 腦 程 式 簡 介 1. 電 腦 程 式 簡 介 應 用 試 題 反 應 理 論 分 析 測 驗 資 料 時, 必 須 估 計 所 選 用 試 題 反 應 函 數 的 參 數, 參 數 估 計 常 涉 及 艱 深 難 懂 的 數 學 公 式 及 繁 瑣 的 計 算 過 程, 若 沒 有 電 腦 套 裝 程 式 的 即 時 配 合, 則 在 應 用 上 會 受 到 限 制 ; 目 前 電 腦 科 技 突 飛 猛 進, 各 種 適 用 於 試 題 反 應 理 論 的 電 腦 軟 體 程 式 相 繼 問 世, 只 要 使 用 者 學 會 這 些 程 式, 便 能 有 效 率 的 獲 取 所 需 要 的 參 數 估 計 值, 進 一 步 對 測 驗 資 料 進 行 分 析 與 解 釋 目 前 常 見 的 試 題 反 應 理 論 電 腦 程 式 整 理 如 表 1 表 1 的 資 料 顯 示, 目 前 無 論 是 在 二 元 計 分 多 點 計 分 單 向 度 IRT 模 式 或 多 向 度 IRT 模 式, 都 已 經 開 發 相 對 應 的 電 腦 程 式, 但 對 於 高 階 層 試 題 反 應 理 論 模 式 只 有 部 分 學 者 於 相 關 的 學 術 論 文 中 自 行 開 發 估 計 程 式, 仍 無 商 業 軟 體 或 免 費 的 電 腦 程 式 供 讀 者 使 用 16

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 表 1 試 題 反 應 理 論 參 數 估 計 套 裝 軟 體 軟 體 BILOG-MG 3.0 (Zimowski, Muraki, Mislevy, & Bock, 1996) MULTILOG7 (Thissen, Chen & Bock, 1991) 可 分 析 模 式 單 二 三 參 數 對 數 模 式 (1PL 2PL 3PL) 單 二 三 參 數 對 數 模 式 (1PL 2PL 3PL) Samejima's model for graded responses Bock's model for nominal (non-ordered) responses Steinberg's model for multiple-choice items PARSCALE4.1 (Muraki & Bock, 1997) NOHARM (Fraser, 1988) 單 二 三 參 數 對 數 模 式 (1PL 2PL 3PL) Samejima's model for graded responses Master's partial credit model Generalized partial credit model 潛 在 特 徵 模 式 (the latent trait models) 多 向 度 二 參 數 模 式 (M2PL) (Mckinley & Reckase, 1983; Reckase & Mckinley,1991) 多 向 度 三 參 數 模 式 (M3PL) (Hattie, 1981; Sympson, 1978) 維 度 多 參 數 試 題 反 應 模 式 (Mensional multiparameter item) response(mmir) (Beguin & Glas, 2001; Bock, Gibbons, & Muraki, 1988; McDonald, 1982; McKinley & Reckase, 1983; Muraki & Carlson, 1995) 多 向 度 隨 機 係 數 多 項 洛 基 模 式 (multidimensional random coefficients multinomial logit model, MRCMLM) (Adams, Wilson, & Wang, 1997) TESTFACT (Wilson, Gibbons, Schilling, Muraki & Bock, 2003) 多 向 度 二 參 數 模 式 M2PL (Mckinley & Reckase, 1983; Reckase & Mckinley,1991) 多 向 度 三 參 數 模 式,M3PL (Hattie, 1981; Sympson, 1978) 維 度 多 參 數 試 題 反 應 模 式 (mensional multiparameter item response,mmir) 17

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 軟 體 可 分 析 模 式 (Beguin & Glas, 2001; Bock, Gibbons, & Muraki, 1988; McDonald, 1982; McKinley & Reckase, 1983; Muraki & Carlson, 1995) 多 向 度 隨 機 係 數 多 項 洛 基 模 式 (multidimensional random coefficients multinomial logit model, MRCMLM) (Adams, Wilson, & Wang, 1997) MAXLOG (Mckinley & Reckase, 1983) ConQuest (Wu, Adams, & Wilson, 1998) MIRTE 2 (Carlson, 1987) BMIRT (Yao, 2003) 多 向 度 二 參 數 模 式 (M2PL) (Mckinley & Reckase, 1983; Reckase & Mckinley,1991) 多 向 度 隨 機 係 數 多 項 洛 基 模 式 (multidimensional random coefficients multinomial logit model, MRCMLM) (Adams, Wilson, & Wang, 1997) 多 向 度 二 參 數 模 式 (M2PL) (Mckinley & Reckase, 1983; Reckase & Mckinley,1991) 多 向 度 三 參 數 模 式 (M3PL) 可 分 析 混 合 二 元 計 分 試 題 與 多 點 計 分 試 題 的 測 驗 ( 二 ) 試 題 反 應 理 論 在 大 型 教 育 測 驗 之 應 用 近 年 國 內 積 極 參 加 一 些 國 際 評 比 之 大 型 測 驗 ( l a r g e - s c a l e assessments), 如 PISA 國 際 數 學 與 科 學 教 育 成 就 趨 勢 調 查 (Trends in International Mathematics and Science Study, TIMSS), 國 際 評 比 的 成 績 收 到 國 人 的 重 視, 而 國 家 教 育 進 展 評 量 (National Assessment of Educational Progress, NAEP) 則 是 較 早 也 是 較 著 名 之 大 型 測 驗, 這 些 大 型 測 驗 都 是 以 試 題 反 應 理 論 為 主 要 測 量 模 式, 是 應 用 試 題 反 應 理 論 最 佳 範 例, 以 下 將 介 紹 這 幾 個 測 驗 大 型 測 驗 並 說 明 所 使 用 的 測 量 模 式 與 等 化 設 計 1. 國 家 教 育 進 展 評 量 (NAEP) NAEP 為 美 國 教 育 測 驗 服 務 社 (Educational Testing Service, ETS) 所 發 展 的 聯 邦 補 助 計 畫, 主 要 目 的 為 建 立 學 生 學 習 成 就 的 趨 勢 NAEP 自 1969 年 便 開 始 定 期 地 對 4 年 級 8 年 級 及 12 年 級 學 生 進 行 閱 讀 (reading) 數 學 (mathematics) 科 學 (science) 寫 作 (writing) 之 能 力 評 量 (NCES, 2005), 是 美 國 評 量 學 生 成 就 之 代 表,NAEP 評 量 之 範 圍 可 分 為 全 國 性 的 (National NAEP) 各 州 的 (State NAEP) 18

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 地 區 性 的 (NAEP Trial Urban District Assessment) 評 量 (The Nation s Report Card, 2005; 張 鈿 富 王 世 英 吳 慧 子 周 文 菁,2006) NAEP 之 評 量 分 為 主 要 評 量 (Main NAEP) 與 長 期 發 展 趨 勢 評 量 (Long-term Trend NAEP) 兩 類, 主 要 的 目 的 為 (1) 反 映 學 生 在 主 要 課 程 領 域 上 應 該 知 道 和 可 以 做 的 廣 泛 能 力 ;(2) 測 量 長 時 間 範 圍 內 的 教 育 發 展 情 形 ( 張 鈿 富 王 世 英 吳 慧 子 周 文 菁,2006) 2. 國 際 學 生 評 量 ( PISA) PISA 測 驗 是 由 經 濟 合 作 與 發 展 組 織 (Organization for Economic Co-operation and Development, OECD) 主 辦, 目 的 在 於 了 解 個 人 參 與 社 會 活 動 的 能 力 主 要 的 對 象 是 15 歲 的 學 生, 並 進 行 其 閱 讀 素 養 (reading literacy) 數 學 素 養 (mathematical literacy) 科 學 素 養 (scientific literacy) 及 問 題 解 決 (problem solving) 之 能 力 評 量 PISA 每 次 進 行 評 量 會 從 數 學 科 學 及 閱 讀 三 個 領 域 中 選 定 一 個 主 要 領 域, 例 如 :PISA 2000 的 主 要 領 域 為 閱 讀,2003 為 數 學,2006 為 科 學,2009 再 回 到 閱 讀, 國 內 從 第 三 次 跨 國 學 生 評 量 測 驗 (PISA 2006) 開 始 參 與, 一 直 延 續 至 今 3. 國 際 數 學 與 科 學 教 育 成 就 趨 勢 調 查 (TIMSS) TIMSS 主 要 目 的 為 進 行 學 生 數 學 與 科 學 教 育 成 就 趨 勢 調 查 研 究, 測 試 對 象 為 4 年 級 與 8 年 級 之 學 生,TIMSS 施 測 數 學 與 科 學 兩 學 科, 各 學 科 分 為 內 容 領 域 (content domain) 與 認 知 領 域 (cognitive domain) 欲 評 估 學 生 能 否 掌 握 參 與 社 會 所 需 的 知 識 與 技 能, 並 藉 由 國 際 評 比 來 比 較 參 與 地 區 或 國 家 的 教 育 成 效 自 1999 年 進 行 TIMSS-R 評 量 後,IEA(The International Association for the Evaluation of Education Achievement, IEA) 計 畫 每 隔 四 年 辦 理 國 際 數 學 與 科 學 教 育 成 就 研 究 一 次, 並 改 名 為 TIMSS 目 前 NAEP TIMSS 仍 以 UIRT 為 主 要 使 用 測 量 模 式, 僅 能 對 各 個 學 科 能 力 以 單 一 能 力 值 進 行 描 述 (Lee, Grigg, & Dion, 2007; Mullis, et al., 2007), 對 各 學 科 所 屬 之 次 級 量 尺 (subscales) 表 現 較 無 法 作 精 確 描 述 ;PISA 使 用 多 向 度 試 題 反 應 理 論 (multidimensional item response theory, MIRT) 中 之 多 向 度 隨 機 係 數 多 項 logit 模 式 (multidimensional random coefficients multinomial logit model, MRCML) 進 行 測 驗 分 析 並 對 各 學 科 之 次 級 量 尺 進 行 估 計 ; 然 而 PISA 使 用 多 點 計 分 模 式 對 題 組 試 19

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 題 進 行 分 析 (OECD, 2005), 未 考 慮 題 組 試 題 對 於 參 數 估 計 之 影 響 Wang 和 Wilson(2005) 研 究 結 果 顯 示, 如 果 測 驗 為 題 組 試 題 之 測 驗 題 型, 忽 略 試 題 之 間 彼 此 可 能 相 依 之 情 形, 則 會 高 估 能 力 參 數 且 造 成 試 題 參 數 估 計 之 偏 差 國 內 外 的 大 型 測 驗, 因 題 庫 涵 蓋 不 同 認 知 程 度 及 不 同 難 度 之 試 題, 試 題 數 量 無 法 由 單 一 受 試 者 於 短 時 間 內 完 成, 故 多 採 用 不 同 的 等 化 設 計 進 行, 常 見 的 等 化 設 計 是 平 衡 不 完 全 區 塊 設 計 (balanced incomplete block design, BIB)BIB 設 計 是 由 Yates(1936) 提 出, 並 於 1992 年 Rust & Johnson 應 用 於 測 驗 領 域 的 題 庫 設 計 此 設 計 是 指 題 庫 中 所 有 的 試 題 區 塊 出 現 次 數 是 相 同 的, 且 成 對 試 題 區 塊 出 現 於 題 本 中 的 次 數 也 必 須 是 相 同 的 所 謂 的 平 衡 是 由 於 成 對 試 題 區 塊 出 現 於 題 本 中 的 次 數 是 相 同 的, 因 此 在 成 對 試 題 區 塊 平 均 數 間 之 比 較 有 相 同 的 精 準 度 各 題 本 中 的 試 題 區 塊 可 能 部 分 相 同 或 完 全 不 同, 但 是 每 一 個 試 題 區 塊 在 所 有 題 本 中 出 現 的 次 數 是 一 樣 的, 亦 即 題 庫 中 的 每 個 試 題 所 受 測 的 學 生 約 為 相 同 的 (Kuehl, 2000; 郭 伯 臣 曾 建 銘 吳 慧 珉,2012) 以 下 介 紹 NAEP TIMSS 與 PISA 之 等 化 設 計 1.NAEP 以 1998 年 4 年 級 公 民 為 例, 使 用 之 題 本 設 計 為 BIB 設 計, 設 計 中 共 包 含 了 6 個 試 題 區 塊 (M1~M6) 組 合 成 18 個 題 本 (S1~S18), 為 了 使 試 題 區 塊 在 題 本 前 後 出 現 的 次 數 一 致, 故 將 題 本 16 到 18 與 題 本 13 到 15 的 兩 個 試 題 區 塊 作 交 換 後 組 成 (Andrew & Terry, 2001), 以 表 2 作 說 明 表 2 NAEP 1998 年 4 年 級 公 民 題 本 區 塊 設 計 表 題 本 區 塊 I 區 塊 II 題 本 區 塊 I 區 塊 II S1 M1 M2 S10 M4 M6 S2 M2 M3 S11 M5 M1 S3 M3 M4 S12 M6 M2 S4 M4 M5 S13 M1 M4 S5 M5 M6 S14 M2 M5 S6 M6 M1 S15 M3 M6 S7 M1 M3 S16 M4 M1 S8 M2 M4 S17 M5 M2 S9 M3 M5 S18 M6 M3 20

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 2.TIMSS 以 2007 年 之 題 本 設 計 為 例, 每 個 題 本 由 四 個 試 題 區 塊 組 合 而 成, 包 含 數 學 (M01~M14) 與 科 學 (Q01~Q14) 各 兩 個 試 題 區 塊, 為 了 連 結 不 同 題 本, 每 個 試 題 區 塊 在 題 本 中 出 現 2 次 (Graham, Christine, Alka, & Ebru, 2008) 表 3 為 TIMSS2007 年 之 題 本 區 塊 設 計 表 3 TIMSS2007 年 題 本 區 塊 設 計 表 題 本 區 塊 (Part I) 區 塊 (Part II) 題 本 區 塊 (Part I) 區 塊 (Part II) S1 M01 M02 Q01 Q02 S8 Q08 Q09 M08 M09 S2 Q02 Q03 M02 M03 S9 M09 M10 Q09 Q10 S3 M03 M04 Q03 Q04 S10 Q10 Q11 M10 M11 S4 Q04 Q05 M04 M05 S11 M11 M12 Q11 Q12 S5 M05 M06 Q05 Q06 S12 Q12 Q13 M12 M13 S6 Q06 Q07 M06 M07 S13 M13 M14 Q13 Q14 S7 M07 M08 Q07 Q08 S14 Q14 Q01 M14 M01 資 料 來 源..TIMSS2007 Technical Report(p.34) 3.PISA 以 PISA2006 年 之 題 本 設 計 為 例, 題 本 設 計 為 BIB 設 計, 共 包 含 13 個 題 本 (S1~S13), 每 個 題 本 包 含 4 個 試 題 區 塊 ( 區 塊 I~ 區 塊 IV), 每 個 試 題 區 塊 在 題 本 中 出 現 4 次 (r = 4), 以 及 成 對 試 題 區 塊 在 各 題 本 中 出 現 1 次 (λ = 1)(OECD, 2009), 表 4 為 PISA2006 年 之 題 本 區 塊 設 計, 其 中 試 題 區 塊 M1~M4 代 表 數 學 科 之 試 題 區 塊 ;Q1~Q7 代 表 科 學 之 試 題 區 塊 ;R1~R2 代 表 閱 讀 之 試 題 區 塊, 每 個 題 本 內 可 能 包 含 數 學 科 學 或 閱 讀 三 種 不 同 科 目 之 試 題 區 塊 表 4 PISA2006 年 題 本 區 塊 設 計 表 題 本 區 塊 I 區 塊 II 區 塊 III 區 塊 IV 題 本 區 塊 I 區 塊 II 區 塊 III 區 塊 IV S1 Q1 Q2 Q4 Q7 S8 M1 M2 Q2 Q6 S2 Q2 Q3 M3 R1 S9 M2 Q1 Q3 R2 S3 Q3 Q4 M4 M1 S10 M3 M4 Q6 Q1 S4 Q4 M3 Q5 M2 S11 M4 Q5 R2 Q2 S5 Q5 Q6 Q7 Q3 S12 R1 M1 Q1 Q5 S6 Q6 R2 R1 Q4 S13 R2 Q7 M1 M3 S7 Q7 R1 M2 M4 資 料 來 源..PISA2006 Technical Report(p.29) 21

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 在 NAEP TIMSS 及 PISA 中, 主 要 關 注 的 焦 點 是 母 群 或 母 群 中 某 些 群 體 之 能 力 表 現, 這 些 大 型 測 驗 以 可 能 值 方 法 (plausible value methodology) 進 行 群 體 統 計 描 述, 例 如 群 體 之 平 均 數 或 標 準 差 (Allen, Carlson, Johnson, & Mislevy, 1999; Foy, Galia, & Li, 2008; OECD, 2009), 假 如 研 究 者 想 要 瞭 解 不 同 群 體 的 能 力 表 現, 則 納 入 群 體 的 背 景 變 項 進 行 可 能 值 方 法 估 計, 藉 以 提 升 群 體 參 數 估 計 的 精 確 度 (Adams, Wilson & Wu, 1997) 國 內 許 多 大 型 測 驗 相 關 研 究, 多 未 使 用 可 能 值 方 法 進 行 分 析, 而 是 直 接 計 算 個 別 受 試 者 能 力 值 的 平 均 與 變 異, 並 將 其 視 為 母 群 或 個 別 群 體 的 表 現 與 其 分 散 情 形, 再 進 一 步 的 進 行 假 設 檢 定, 依 據 相 關 研 究 (Mislevey, 1991; Mislevy, Beaton, Kaplan, & Sheehan, 1992; OECD, 2009; Lee, et al., 2007) 顯 示 : 此 種 集 合 個 體 的 能 力 值 估 計 群 體 特 性 的 方 式 將 會 產 生 嚴 重 的 偏 誤, 故 對 於 次 級 資 料 分 析 者, 應 使 用 這 些 大 型 測 驗 的 使 用 手 冊, 正 確 使 用 這 些 大 型 測 驗 釋 出 的 可 能 值 進 行 相 關 的 研 究 探 討 ( 三 ) 以 試 題 反 應 理 論 為 基 礎 之 電 腦 化 適 性 測 驗 傳 統 紙 筆 測 驗, 無 論 受 試 者 能 力 高 低, 都 必 須 將 一 份 試 卷 全 部 作 答, 往 往 發 生 高 能 力 受 試 者 感 到 試 題 太 簡 單 而 浪 費 時 間, 低 能 力 受 試 者 感 到 試 題 太 困 難 而 猜 答, 影 響 到 測 驗 的 準 確 性 電 腦 化 適 性 測 驗 是 逐 題 依 據 受 試 者 作 答 反 應, 作 為 選 取 下 一 道 試 題 施 測 的 依 據, 符 合 受 試 者 能 力 來 施 測, 使 受 試 者 感 到 試 題 難 易 適 中, 減 少 施 測 題 數, 節 省 施 測 時 間 由 於 網 路 迅 速 發 展 與 電 腦 週 邊 設 備 大 眾 化, 電 腦 的 影 音 資 料 傳 輸 與 呈 現 可 以 快 速 且 穩 定, 因 此 在 網 路 上 實 施 測 驗 是 具 體 可 行 的 ; 透 過 電 腦 進 行 測 驗 擁 有 快 速 資 料 處 理 的 優 點, 使 得 測 驗 的 歷 程 統 計 分 析 與 結 果 能 自 動 詳 細 記 錄, 所 以 電 腦 化 測 驗 的 發 展 愈 來 愈 受 矚 目 且 持 續 被 研 究 中 在 1960 年 時, 美 國 陸 軍 總 署 人 事 管 理 局 及 其 他 聯 邦 機 構, 均 大 力 支 持 贊 助 有 關 適 性 測 驗 的 研 究, 舉 辦 特 殊 的 專 題 研 討 會, 並 且 有 數 百 篇 的 相 關 研 究 論 文 發 表 且 集 結 成 冊 (Wainer, 2000; Weiss,1983; 余 民 寧,1997) 在 國 外 許 多 商 業 機 構 測 驗 公 司, 也 陸 續 有 測 驗 產 品 發 行, 如 Larson & Smith (1988) 所 發 展 的 西 班 牙 電 腦 化 適 性 安 置 測 驗 (A Spanish Computerized Adaptive Placement Exam); Assessment Systems 公 司 所 發 行 的 MicroCAT 適 性 測 驗 系 統 與 Minnesota 文 書 性 向 評 鑑 測 驗 ; 美 國 心 理 測 驗 公 司 (The Psychological Corporation) 所 發 行 中 學 區 分 性 向 測 驗 ( 李 茂 能,2000) 目 前 電 腦 化 適 性 測 驗 在 大 型 測 驗 的 GRE (Graduate Record Examinations) TOFEL (Test of English as a Foreign Language) GMAT (Graduate Management Admission Test) 等 也 均 已 實 施 22

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 電 腦 適 性 測 驗 是 為 受 試 者 量 身 打 造 的 個 別 測 驗, 符 合 因 才 施 測 經 濟 有 效 誤 差 最 小 的 原 則 ( 李 茂 能,2000), 主 要 優 點 有 : 1. 施 測 試 題 的 難 度, 符 合 受 測 者 的 能 力 範 圍 內, 因 此 試 題 具 備 適 性 2. 受 試 者 的 施 測 試 題 不 同, 在 適 性 測 驗 的 過 程 中, 若 符 合 測 驗 終 止 條 件 則 結 束 測 驗, 受 測 者 不 用 作 答 偏 易 或 偏 難 的 試 題, 節 省 施 測 時 間 3. 適 性 測 驗 中, 能 對 估 計 精 準 度 提 供 最 大 訊 息 量 的 試 題 會 被 優 先 選 取 為 施 測 試 題, 因 此 受 試 者 能 力 估 計 的 精 準 度 最 高 在 測 驗 編 制 過 程 以 IRT 為 基 礎, 能 經 由 分 析 試 題 獲 得 篩 選 過 試 題 參 數 的 題 庫, 以 確 保 題 庫 品 質 的 好 壞 ; 在 測 驗 施 測 過 程 以 IRT 為 基 礎 的 CAT, 能 針 對 不 同 受 試 者 提 供 適 合 受 試 者 的 試 題, 在 可 容 忍 的 誤 差 下, 讓 測 驗 的 時 間 大 幅 縮 短, 因 此 以 IRT 為 基 礎 的 適 性 診 斷 系 統 也 陸 續 在 研 發 ( 王 雯 芳,2004; 陳 新 豐,2004; 黃 吉 楠,2004; 楊 蹕 齊, 2006; 蔡 文 龍,2008; 蕭 顯 勝 黃 啟 彥 游 光 昭,2006) 以 IRT 為 基 礎 的 電 腦 化 適 性 測 驗, 包 含 了 五 項 基 本 要 素 : 測 驗 題 庫 測 驗 起 點 能 力 估 計 選 題 策 略 與 測 驗 終 止 條 件 (Wainer, 2000), 而 依 照 CAT 的 不 同 類 型 又 可 分 作 單 向 度 CAT 與 多 向 度 CAT 兩 大 類, 本 研 究 針 對 不 同 CAT 實 施 過 程 所 需 的 要 素 與 CAT 施 測 流 程 說 明 如 圖 6 所 示 : 圖 6 CAT 施 測 流 程 23

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 1. 測 驗 題 庫 電 腦 化 適 性 測 驗 題 庫 好 壞 通 常 以 題 庫 大 小 與 試 題 參 數 來 評 估, 若 CAT 施 測 長 度 為 傳 統 紙 筆 測 驗 長 度 的 一 半, 則 CAT 題 庫 大 小 最 好 是 傳 統 紙 筆 測 驗 長 度 的 6 至 8 倍, 也 就 是 說 題 庫 大 小 至 少 為 CAT 施 測 長 度 的 12 倍 (Stocking, 1994), 當 題 庫 長 度 為 3 倍 以 上, 精 確 度 與 作 答 效 率 才 有 顯 著 差 異 (Hung, 1988) 對 單 向 度 CAT 的 3PLM 來 說, 一 個 好 的 題 庫 其 試 題 鑑 別 度 應 大 於 0.8, 試 題 難 度 應 該 與 受 試 者 的 母 群 能 力 分 布 相 近, 試 題 猜 測 度 應 小 於 0.25( 王 寶 墉,1995) Ree(1981) 曾 以 最 大 訊 息 法 為 選 題 策 略 的 研 究, 在 沒 有 曝 光 率 控 管 下, 題 庫 長 度 大 於 200 題 時, 對 能 力 估 計 的 精 準 度 並 不 會 明 顯 增 加 對 多 向 度 CAT 來 說,Wang, Chen 與 Cheng (2004) 的 研 究 顯 示, 當 題 庫 向 度 之 間 為 高 相 關 時, 多 向 度 IRT 分 析 可 以 大 幅 提 高 各 向 度 的 信 度, 由 原 本 的 0.6 ( 單 向 度 IRT 分 析 ) 提 昇 至 0.8 2. 測 驗 起 點 CAT 是 依 照 受 試 者 能 力 挑 選 適 當 試 題 對 受 試 者 進 行 施 測, 在 測 驗 初 始 階 段 中, 受 試 者 能 力 高 低 未 知 下, 必 須 決 定 測 驗 起 始 點, 以 挑 選 第 一 道 試 題 提 供 受 試 者 進 行 施 測 常 用 的 決 定 起 始 試 題 的 方 法 ( 王 寶 墉,1995; 陳 麗 如,1998; 錢 永 財,2006;Chang & Ansley, 2003) 分 別 介 紹 如 下 : (1) 中 等 難 度 題 目 : 先 假 設 受 試 者 為 中 等 能 力, 在 題 庫 中 挑 選 適 合 中 等 能 力 難 度 的 試 題 作 為 施 測 的 起 始 試 題, 若 每 位 受 試 者 都 使 用 相 同 的 試 題, 則 起 始 試 題 的 保 密 性 需 要 特 別 考 量 (2) 依 據 受 試 者 能 力 選 題 : 由 受 試 者 的 基 本 資 料 ( 年 齡 學 習 經 驗 或 其 他 測 驗 結 果 ) 估 算 受 試 者 的 能 力 初 始 值, 再 利 用 能 力 初 始 值 決 定 測 驗 的 起 始 試 題 (3) 自 由 選 題 : 由 受 試 者 在 接 受 測 驗 的 時 候, 自 行 判 定 自 己 的 程 度, 以 決 定 施 測 的 起 始 題, 但 容 易 受 到 受 試 者 主 觀 判 斷 的 影 響 (4) 隨 機 選 題 : 由 電 腦 隨 機 選 題, 但 一 般 限 定 試 題 選 取 範 圍 不 可 超 過 題 庫 本 身 Lord (1977) 發 現 不 同 起 始 點 對 於 測 驗 標 準 誤 (standard error of measurement) 並 沒 有 很 大 差 別 (5) 隨 機 法 :McBride 與 Martin(1983) 發 表 隨 機 法 隨 機 法 是 在 施 測 前 期 使 用 隨 機 選 取 策 略 來 避 免 題 目 的 過 度 曝 光, 實 施 方 法 為 對 每 一 個 受 試 者, 依 能 力 初 始 值 從 題 庫 中 選 出 5 個 訊 息 量 最 大 的 題 目, 24

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 從 這 5 題 中 隨 機 選 取 出 一 題 施 測 並 重 新 估 計 能 力 值 ; 依 新 估 計 的 能 力 值 從 題 庫 中 選 出 4 個 訊 息 量 最 大 的 題 目, 再 從 這 4 題 中 隨 機 選 取 出 一 題 施 測 並 重 新 估 計 能 力 值 ; 重 複 相 同 模 式, 選 取 施 測 的 前 4 題, 第 5 題 之 後 就 使 用 最 大 訊 息 法 來 選 取 施 測 題 目 此 外 根 據 Chang 與 Ansley (2003) 的 研 究 指 出 隨 機 法 在 不 同 題 庫 中 的 比 較, 試 題 最 大 曝 光 率 皆 介 於 0.64~0.74, 遠 高 於 可 接 受 試 題 最 大 曝 光 率 (6) 初 始 階 段 b 值 分 層 隨 機 選 題 法 : 錢 永 財 (2006) 提 出 初 始 階 段 b 值 分 層 隨 機 選 題 法 來 進 行 測 驗 初 期 選 題, 其 實 施 步 驟 為 步 驟 一 : 將 題 庫 依 b 值 大 小 分 成 k 層,k 為 初 始 階 段 選 題 的 題 數 ; 步 驟 二 : 施 測 前 k 題 時, 分 別 自 k 層 中 各 自 隨 機 選 取 一 個 試 題, 進 行 施 測, 研 究 顯 示, 此 方 法 可 有 效 降 低 試 題 最 大 曝 光 率 有 效 提 高 題 庫 的 使 用 率 3. 能 力 估 計 3.1 單 向 度 CAT CAT 常 見 的 能 力 估 計 方 法 有 最 大 概 似 估 計 法 期 望 後 驗 估 計 法 與 最 大 後 驗 估 計 法, 三 種 能 力 估 計 方 法 分 別 介 紹 如 下 : (1) 最 大 概 似 估 計 法 最 大 概 似 估 計 法 (maximum likelihood estimation, MLE) 是 設 測 驗 共 有 個 試 題, 試 題 間 彼 此 獨 立, 概 似 函 數 定 義 如 下 : ( 公 式 10) 其 中,u 為 所 有 作 答 反 應 的 向 量, 為 概 似 函 數 (likelihood function);θ 為 受 試 者 的 真 實 能 力 ;X i 指 受 試 者 在 第 i 題 的 作 答 反 應, 答 對 為 1, 答 錯 為 0;P i 指 受 試 者 在 第 i 題 的 答 對 機 率 ; 指 受 試 者 在 第 i 題 的 答 錯 機 率 為 了 加 速 找 到 概 似 函 數 的 最 大 值, 通 常 是 先 對 概 似 函 數 取 對 數, 再 以 牛 頓 - 約 佛 森 (Newton-Raphson) 法 來 進 行 迭 代 使 用 MLE 能 力 估 計 的 公 式 如 公 式 11 所 示, 而 第 j 次 的 能 力 估 計 的 變 動 量 為 如 公 式 12 所 示 : ( 公 式 11) 25

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 ( 公 式 12) (2) 期 望 後 驗 估 計 法 Bock 和 Mislevy (1982) 提 出 期 望 後 驗 法 (expected a posteriori, EAP) 是 尋 找 能 力 值 的 事 後 機 率 密 度 函 數 的 期 望 值, 公 式 定 義 如 下 : ( 公 式 13) 其 中 U 為 所 有 作 答 反 應 的 向 量, 為 概 似 函 數 (likelihood function);θ q 為 受 試 者 的 真 實 能 力 ;q 是 計 算 能 力 的 期 望 值 時 所 切 割 成 的 分 割 點 (quadrature point), 共 有 k q 點,k q 愈 大, 計 算 的 愈 精 確 不 過 這 種 估 計 方 法 不 需 要 使 用 牛 頓 - 約 佛 森 法 來 進 行 迭 代, 而 且 隨 著 所 選 取 的 分 割 點 數 愈 多, 所 需 的 計 算 量 較 龐 大, 計 算 時 間 也 比 較 久 (3) 最 大 後 驗 估 計 法 貝 氏 最 大 後 驗 法 (maximum a posteriori, MAP) 是 以 受 試 者 的 事 前 能 力 分 布 f (θ) 作 為 加 權 值, 形 成 事 後 機 率 密 度 函 數, 並 找 出 能 使 此 事 後 機 率 密 度 函 數 最 大 化 的 程 度 值, 稱 為 MAP 事 後 機 率 密 度 函 數 定 義 如 下 : ( 公 式 14) 其 中, 是 受 試 者 θ 的 概 似 函 數, 是 受 試 者 的 邊 際 機 率, 是 由 從 積 分 所 得, 為 了 加 速 找 到 事 後 機 率 密 度 函 數 的 最 大 值, 通 常 也 是 以 牛 頓 - 約 佛 森 (Newton- Raphson) 法 來 進 行 迭 代 26

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 (4) 各 種 能 力 估 計 方 法 的 比 較 雖 然 MLE 有 不 錯 的 估 計 效 能, 但 有 實 務 上 的 限 制, 當 受 試 者 作 答 反 應 為 全 對 或 全 錯 時,MLE 無 法 估 計 受 試 者 能 力 值 (Wang & Vispoel, 1998) 而 EAP 或 MAP 可 以 估 計 全 對 或 全 錯 的 作 答 反 應, 但 若 事 前 分 配 不 正 確, 則 能 力 估 計 偏 差 將 會 很 大 (Baker & Kim, 2004) 洪 碧 霞 吳 裕 益 吳 鐵 雄 陳 英 豪 (1992) 作 過 各 種 能 力 估 計 方 法 的 比 較,MLE 比 較 沒 有 迴 歸 性 的 偏 誤 (bias), 但 均 方 根 誤 (root mean square of error, RMSE) 較 大 ;EAP 與 MAP 有 迴 歸 性 的 偏 誤, 但 均 方 根 誤 較 小 3.2 多 向 度 CAT 多 向 度 CAT 常 見 的 能 力 估 計 方 法 有 最 大 概 似 估 計 法 期 望 後 驗 估 計 法 與 最 大 後 驗 估 計 法, 與 單 向 度 CAT 的 估 計 法 類 似, 主 要 由 估 計 單 一 個 能 力 值 變 成 同 時 估 計 多 個 能 力 值, 三 種 能 力 估 計 方 法 介 紹 如 下 : (1) 最 大 概 似 估 計 法 Segall (1996) 提 出 多 向 度 的 MLE 是 設 測 驗 共 有 n 個 多 向 度 的 試 題, 試 題 間 彼 此 獨 立, 概 似 函 數 定 義 如 下 : ( 公 式 15) 其 中 為 概 似 函 數 (likelihood function); 為 受 試 者 的 真 實 能 力 向 量, =[θ 1, θ 2,, θ D; u i 指 受 試 者 在 第 i 題 的 作 答 反 應, 答 對 為 1, 答 錯 為 0;P i 指 受 試 者 在 第 i 題 的 答 對 機 率 ; 指 受 試 者 在 第 i 題 的 答 錯 機 率 為 了 加 速 找 到 概 似 函 數 的 最 大 值, 通 常 是 先 對 概 似 函 數 取 對 數, 再 以 牛 頓 - 約 佛 森 (Newton-Raphson) 法 來 進 行 迭 代,MLE 能 力 估 計 的 公 式 如 公 式 16 所 示, 而 每 次 能 力 估 計 的 變 動 量 為 如 公 式 17 所 示 (Wang, 1994): ( 公 式 16) ( 公 式 17) 27

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 ( 公 式 18) 所 以 ( 公 式 19) 若 第 i 題 試 題 只 測 量 第 r 種 能 力 向 度, 則, 若 第 i 題 試 題 沒 有 測 量 第 r 能 力 向 度, 則 ( 公 式 20) ( 公 式 21) 若 第 i 題 試 題 只 測 量 第 r 種 能 力 向 度, 則, 若 第 i 題 試 題 沒 有 測 量 第 r 種 能 力 向 度, 則 28

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 (2) 期 望 後 驗 估 計 法 多 向 度 的 EAP 是 將 單 向 度 的 EAP 能 力 值 考 慮 能 力 向 量, 公 式 定 義 如 下 : ( 公 式 22) 其 中 q 是 計 算 能 力 的 期 望 值 時 所 切 割 成 的 分 割 點 (quadrature point), q 愈 多 使 得 計 算 愈 精 確 ; 是 多 變 量 常 態 分 配, 公 式 定 義 如 下 : ( 公 式 23) 其 中, 為 的 平 均 數 向 量,, 為 的 共 變 數 矩 陣, 若 變 數 矩 陣 標 準 化 後, 即 為 相 關 矩 陣,, 在 多 向 度 中, 分 割 點 的 數 量 會 成 向 度 數 的 指 數 倍 增 加, 當 向 度 數 增 加, 則 能 力 估 計 時 間 就 會 拉 長, 若 減 少 各 向 度 的 分 割 點, 又 會 降 低 能 力 估 計 的 精 準 度 (3) 最 大 後 驗 估 計 法 Segall(1996) 提 出 多 向 度 的 MAP, 它 的 事 後 機 率 密 度 函 數 與 EAP 相 同 為 了 加 速 找 到 事 後 機 率 密 度 函 數 的 最 大 值,MAP 比 照 MLE 依 牛 頓 - 約 佛 森 程 序 來 進 行 首 先 將 分 別 對 d 個 能 力 向 度 進 行 偏 微 分 MRCMLM 事 後 機 率 度 函 數 的 一 階 偏 微 分 向 量 中 的 元 素 如 公 式 24 所 示, 與 二 階 偏 微 分 向 量 中 的 元 素 如 公 式 25( 陳 柏 熹,2000;Wang, 1994) 所 示 : ( 公 式 24) 29

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 其 中 u 為 的 平 均 數 向 量, 為 的 共 變 數 矩 陣, ( 公 式 25) 其 他 程 序 則 比 照 最 大 概 似 估 計 法 來 進 行 (4) 各 種 能 力 估 計 方 法 的 比 較 陳 柏 熹 (2006) 研 究 指 出 MLE EAP MAP 這 三 種 方 法 在 多 向 度 CAT 中 各 有 其 優 缺 點, 雖 然 從 整 體 信 度 與 測 量 誤 差 而 言, MAP 是 比 較 好 的, 但 是 廻 歸 性 的 偏 誤 也 是 最 嚴 重 的 ;EAP 估 計 精 準 度 與 MAP 差 不 多, 但 當 向 度 數 較 高 時, 能 力 估 計 所 需 的 時 間 就 會 太 久 ;MLE 是 估 計 精 準 度 較 差 的 方 法 所 以 建 議 當 能 力 向 度 數 少 於 四 個 向 度 可 以 使 用 EAP, 以 減 少 廻 歸 性 偏 誤 的 問 題 ; 但 是 當 能 力 向 度 達 到 四 個 或 四 個 以 上 時, 最 好 使 用 MAP 來 進 行, 不 過 需 要 注 意 廻 歸 性 偏 誤 的 問 題 4. 選 題 策 略 4.1 單 向 度 CAT 選 題 法 是 電 腦 適 性 測 驗 中 重 要 的 要 素 之 ㄧ, 不 同 選 題 法 會 導 致 不 同 的 測 驗 效 率, 常 用 的 選 題 法 介 紹 如 下 : (1) 最 大 訊 息 法 本 研 究 中, 試 題 的 選 取 方 法 最 常 使 用 為 最 大 訊 息 法, 其 實 施 步 驟 有 步 驟 一 : 假 設 受 試 者 目 前 能 力 估 計 值 為, 依 據 計 算 尚 未 施 測 試 題 的 訊 息 量, 計 算 式 子 參 考 公 式 9-4 所 示 ; 步 驟 二 : 選 取 試 題 訊 息 量 最 大 的 試 題, 當 作 下 一 施 測 題 目 (2) 最 接 近 偏 移 難 度 法 若 猜 測 度 時, 試 題 訊 息 最 大 值 不 會 發 生 在 難 度 b j, 會 產 生 偏 移 至 m j, 最 接 近 偏 移 難 度 法 為 選 擇 題 目 偏 移 難 度 最 接 近 受 試 者 能 力 估 計 值 的 題 目, 作 為 下 一 階 段 施 測 的 題 目 偏 移 難 度 m j (Birnbaum, 1968) 定 義 如 下 : ( 公 式 26) 30

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 則 選 題 時 選 擇 尚 未 施 測 且 選 題 函 數 F j 最 小 的 題 目, 選 題 函 數 定 義 如 下 : ( 公 式 27) (3) 區 間 式 最 大 訊 息 法 區 間 式 最 大 訊 息 法 使 用 區 間 能 力 值 的 題 目 訊 息 量 加 總, 來 取 代 在 某 一 點 能 力 值 的 題 目 訊 息 量 (Veerkamp & Berger, 1997) 區 間 式 最 大 訊 息 法 是 選 擇 訊 息 函 數 在 信 賴 區 間 內 的 面 積, 選 擇 最 大 的 訊 息 面 積, 作 為 下 一 題 施 測 試 題, 所 以 選 題 時 選 取 尚 未 施 測 且 選 題 函 數 最 大 者, 其 函 數 定 義 如 下 : ( 公 式 28) 其 中, (4) 考 慮 b 參 數 的 a 分 層 法 Chang, Qian & Ying(2001) 提 出 考 慮 b 參 數 的 a 分 層 法, 希 望 將 a 分 層 法 各 分 層 中 的 b 值 分 佈 保 持 一 致 性, 來 打 破 a b 之 間 的 相 關 性 其 實 施 步 驟 如 下 ( 假 設 L 為 測 驗 長 度 ; a 為 試 題 鑑 別 度 ; b 為 試 題 難 度 ): 步 驟 一 : 將 題 庫 依 照 b 值 由 小 至 大 分 成 T 個 區 塊, 第 1 個 區 塊 包 含 最 小 的 b 值, 第 T 個 區 塊 包 含 最 大 的 b 值 步 驟 二 : 在 第 t 區 塊 (t=1,2,3, T), 將 題 庫 依 照 a 值 由 小 至 大 分 成 K 層, 每 一 層 包 含 一 道 試 題, 第 1 層 包 含 最 小 的 a 值, 第 K 層 包 含 最 大 的 a 值 步 驟 三 : 依 序 將 每 個 區 塊 的 第 K 層 (k=1,2,3, K) 合 併 成 一 層, 因 此 題 庫 變 成 一 具 有 K 層 的 結 構 步 驟 四 : 建 立 好 試 題 的 結 構 後, 受 試 者 依 序 從 第 1 層 開 始 施 測, 每 一 層 選 取 L/K 個 試 題 施 測, 一 直 施 測 到 第 K 層, 直 到 受 試 者 施 測 L 題 謝 友 詩 劉 湘 川 郭 伯 臣 (2006) 研 究 指 出 在 固 定 測 驗 長 度 下, 能 力 均 方 根 差 由 小 而 大 排 序 分 別 為 考 慮 b 參 數 的 a 分 層 法 最 接 近 偏 移 難 度 法 鄰 近 法 區 間 式 最 大 訊 息 法 ; 考 慮 b 參 數 的 31

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 a 分 層 法 較 區 間 式 最 大 訊 息 法 有 較 低 的 最 大 曝 光 率 ; 在 相 同 能 力 估 計 精 準 度 下, 考 慮 b 參 數 的 a 分 層 法 較 區 間 式 最 大 訊 息 法 有 較 低 的 題 目 重 複 率 (5) a- 鄰 近 法 錢 永 財 劉 家 惠 郭 伯 臣 (2005) 提 出 改 進 鄰 近 法 的 a - 鄰 近 法, 其 第 一 步 驟 為 單 點 式 最 大 訊 息 法, 第 二 步 驟 改 由 控 制 a 值, 使 早 期 能 力 值 未 準 確 時 選 用 a 值 較 低 試 題, a - 鄰 近 法 的 實 施 步 驟 如 下 : 步 驟 一 : 將 題 庫 依 b 值 分 三 層, 測 驗 前 期 三 題 採 取 隨 機 選 題, 使 受 試 者 在 測 驗 前 期 施 測 難 易 度 相 差 較 大 試 題 步 驟 二 : 估 計 初 始 化 能 力 值 估 計 值 步 驟 三 : 根 據 選 擇 題 庫 中 ( 測 驗 長 度 - 已 測 驗 題 數 ) 個 訊 息 函 數 較 大 者 的 試 題 步 驟 四 : 再 從 ( 測 驗 長 度 - 已 測 驗 題 數 ) 個 試 題 中, 選 其 中 題 目 a 值 最 小 測 驗 步 驟 五 : 重 新 估 計 能 力 值 為, 回 到 步 驟 三, 直 到 測 驗 題 數 結 束 根 據 錢 永 財 劉 家 惠 郭 伯 臣 (2005) 的 研 究 發 現, 使 用 a- 鄰 近 法, 當 題 庫 越 大 時, 在 試 題 曝 光 率 的 均 勻 度 能 越 接 近 鄰 近 法, 且 能 力 估 計 誤 差 較 低 於 鄰 近 法 4.2 多 向 度 CAT Segall(1996) 將 概 似 函 數 取 對 數 的 二 階 偏 微 分 透 過 公 式 29, 以 費 雪 訊 息 函 數 取 代 ( 公 式 29) 其 中 是 費 雪 訊 息 矩 陣, 矩 陣 中 第 r 列 第 s 行 的 元 素 表 示 如 下 : ( 公 式 30) 上 式 表 示 受 試 者 在 施 測 完 m 個 試 題 後, 能 力 估 計 值 為 的 費 雪 訊 息 矩 陣 而 累 加 的 第 i 題 訊 息 量 表 示 為, 其 定 義 如 下 : ( 公 式 31) 32

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 在 多 向 度 的 CAT 中, 並 非 依 據 各 單 一 向 度 的 最 大 值 來 選 題, 而 是 讓 費 雪 訊 息 矩 陣 的 行 列 式 值 最 大 化 的 試 題, 其 公 式 定 義 如 下 : ( 公 式 32) 其 中 表 示 施 測 完 前 m 題 之 後 的 訊 息 矩 陣, 是 表 示 題 庫 內 剩 餘 試 題 在 能 力 估 計 向 量 上 的 訊 息 矩 陣 使 用 MAP 時, 其 選 題 策 略 修 正 如 下 : 33 ( 公 式 33) 比 較 公 式 32 與 公 式 33, 可 以 發 現 只 差 在 能 力 先 驗 分 配 共 變 異 數 矩 陣 的 反 矩 陣 5. 測 驗 終 止 條 件 測 驗 終 止 條 件 主 要 分 為 最 大 測 驗 長 度 與 能 力 估 計 的 最 小 變 動 量 兩 種, 最 大 測 驗 長 度 是 指 測 驗 的 題 數 達 到 預 設 的 長 度 即 停 止 測 驗 ; 能 力 估 計 的 最 小 變 動 量 是 指 當 測 驗 的 能 力 估 計 的 變 動 量 小 於 預 設 值 即 停 止 測 驗 四 結 語 古 典 測 驗 理 論 雖 然 有 許 多 限 制, 但 由 於 理 論 模 式 簡 單 易 懂, 廣 受 一 般 社 會 大 受 的 接 受 與 喜 愛, 而 試 題 反 應 理 論 架 構 嚴 謹, 但 也 相 對 艱 澀 難 懂, 本 文 首 先 比 較 古 典 測 驗 理 論 與 試 題 反 應 理 論 之 差 異, 並 介 紹 目 前 常 見 的 試 題 反 應 理 論 模 式, 包 含 單 向 度 試 題 反 應 理 論 多 向 度 試 題 反 應 理 論 與 較 新 的 一 因 子 高 階 層 試 題 反 應 理 論 模 式, 並 提 供 相 對 應 的 電 腦 程 式 供 讀 者 參 考 使 用 自 1990 年 代 之 後, 許 多 大 型 測 驗 也 都 應 用 試 題 反 應 理 論 進 行 量 尺 化 程 序, 本 文 亦 提 供 大 型 測 驗 應 用 IRT 之 例 子 供 讀 者 參 考, 而 隨 著 電 腦 科 技 的 進 步, 電 腦 化 適 性 測 驗 測 驗 已 成 為 實 施 測 驗 之 新 趨 勢, 本 文 針 對 電 腦 化 適 性 測 驗 之 理 論 與 實 施 流 程 作 一 詳 細 介 紹 試 題 反 應 理 論 之 數 學 模 式 較 複 雜, 讀 者 如 能 具 備 一 些 數 學 背 景, 閱 讀 本 文 較 能 得 心 應 手 本 文 主 要 是 介 紹 試 題 反 應 理 論 的 基 本 概 念 與 應 用, 許 多 試 題 反 應 理 論 所 探 討 的 課 題 與 應 用 範 疇 是 本 文 未 提 及 的, 如 試 題 差 異 功 能 參 數 估 計 題 組 模 式 等, 讀 者 可 根 據 本 文 所 提 供 的 參 考 文 獻 或 一 些 介 紹 試 題 反 應 理 論 的 書 籍, 作 延 伸 性 之 閱 讀, 將 可 更 瞭 解 此 一 理 論 之 內 涵 試 題 反 應 理 論 至 今 仍 是 測 驗 領 域 之 發 展 主 軸, 隨 著 新 型 測 驗 與 更 複 雜 評 量 架 構 之 誕 生, 一 些 新 的 試 題 反 應 理 論 模 式 仍 不 斷 被 提 出, 有 興 趣 的 讀 者 可 參 考 測 驗 領 域 的 期 刊, 如 Applied Psychological Measurement Journal of Educational Measurement Psychometrika 等, 將 可 獲 得 較 新 的 試 題 反 應 理 論 資 訊

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 參 考 文 獻 中 文 部 份 王 雯 芳 (2004) 網 路 測 驗 系 統 之 建 置 -- 應 用 電 腦 化 適 性 測 驗 於 國 民 小 學 自 然 科 技 領 域 華 梵 大 學 資 訊 管 理 學 系 碩 士 論 文, 未 出 版, 台 北 縣 王 寶 墉 (1995) 現 代 測 驗 理 論 台 北 : 心 理 出 版 社 李 茂 能 (2000) 中 文 電 腦 化 適 性 測 驗 系 統 之 應 用 與 評 鑑 文 景 書 局 余 民 寧 (1992) 試 題 反 應 的 介 紹 - 測 驗 理 論 的 發 展 趨 勢 ( 二 ) 研 習 資 訊, 9(1),5-9 余 民 寧 (1997) 教 育 測 驗 與 評 量 : 成 就 測 驗 與 教 學 評 量 台 北 : 心 理 洪 碧 霞 吳 裕 益 吳 鐵 雄 陳 英 豪 (1992) 能 力 估 計 方 法 題 庫 特 質 及 終 止 標 準 對 CAT 考 生 能 力 估 計 影 響 之 研 究 ( 國 科 會 專 題 研 究 計 畫 成 果 報 告 編 號 :NSC81-0301-H024-03) 台 北 : 中 華 民 國 行 政 院 國 家 科 學 委 員 會 洪 碧 霞 林 素 微 林 娟 如 (2006) 認 知 複 雜 度 分 析 架 構 對 TASA-MAT 六 年 級 線 上 測 驗 試 題 難 度 的 解 釋 力 教 育 研 究 與 發 展 期 刊,2(4),69-86 陳 昇 座 (2007) 以 能 力 分 佈 為 基 礎 之 SHC 曝 光 率 控 管 法 碩 士 論 文 未 出 版, 國 立 臺 中 教 育 大 學 教 育 測 驗 統 計 研 究 所, 台 中 市 陳 柏 熹 王 文 中 (2000) 題 間 與 題 內 多 向 度 電 腦 化 適 性 測 驗 發 表 於 2000 年 教 育 與 測 驗 學 術 研 討 年 會 台 北 : 台 灣 師 範 大 學 陳 柏 熹 (2006) 能 力 估 計 方 法 對 多 向 度 電 腦 化 適 性 測 驗 測 量 精 準 度 的 影 響 教 育 心 理 學 報,38(2),195-211 陳 新 豐 (2004) 線 上 題 庫 與 適 性 測 驗 整 合 系 統 之 發 展 研 究 發 表 於 2004 年 教 育 及 心 理 測 驗 學 術 研 討 會 台 北 : 國 立 政 治 大 學 陳 麗 如 (1998) 電 腦 化 適 性 測 驗 之 題 庫 品 質 管 理 策 略 碩 士 論 文 未 出 版, 國 立 臺 灣 師 範 大 學 資 訊 教 育 研 究 所, 台 北 市 張 鈿 富 王 世 英 吳 慧 子 周 文 菁 (2006) 基 本 能 力 評 量 跨 國 發 展 經 驗 之 比 較 教 育 資 料 與 研 究,68,81-99 黃 吉 楠 (2004) 多 媒 體 英 語 文 能 力 檢 定 暨 適 性 化 網 路 評 量 系 統 之 建 置 碩 士 論 文 未 出 版, 國 立 交 通 大 學 理 學 院 網 路 學 習 碩 士 在 職 專 班, 新 竹 市 楊 蹕 齊 (2006) 以 MOODLE 為 平 台 之 國 中 數 學 適 性 測 驗 工 具 碩 士 論 文 未 出 版, 逢 甲 大 學 資 訊 工 程 所, 台 中 市 蔡 文 龍 (2008) 國 小 數 學 網 路 電 腦 化 適 性 測 驗 系 統 之 建 置 與 研 究 以 國 小 三 年 級 分 數 單 元 為 例 碩 士 論 文 未 出 版, 嶺 東 科 技 大 學 數 位 媒 體 設 計 研 究 所, 台 中 市 34

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 錢 永 財 劉 家 惠 郭 伯 臣 (2005) a- 鄰 近 法 選 題 對 電 腦 適 性 測 驗 試 題 曝 光 率 之 比 較 發 表 於 2005 年 教 育 與 心 理 測 驗 學 術 研 討 會 台 北 : 國 立 政 治 大 學 錢 永 財 (2006) 以 a- 鄰 近 法 為 選 題 策 略 之 電 腦 化 適 性 測 驗 模 擬 研 究 碩 士 論 文 未 出 版, 國 立 臺 中 教 育 大 學 教 育 測 驗 統 計 研 究 所, 台 中 市 謝 友 詩 劉 湘 川 郭 伯 臣 (2006) 電 腦 適 性 測 驗 題 目 曝 光 率 之 模 擬 研 究 測 驗 統 計 年 刊,14(1),62-74 蕭 顯 勝 黃 啟 彥 游 光 昭 (2006) 網 路 化 科 技 素 養 適 性 測 驗 系 統 之 建 置 理 工 研 究 學 報,40(1),1-21 英 文 部 份 Adams, R. J., Wilson, M. R., & Wang, W. (1997). The multidimensional random coefficients. Andrich, D. (1982). An extension of the Rasch model for ratings providing both location and dispersion parameters. Psychometrika, 47, 1, 105-113. Baker, F. B., & Kim, S. H. (2004). Item Response Theory : Parameter Estimation Techniques. Basel, N. Y. : Marcel Dekker, Inc. Beguin, A. A., & Glas, C. A. W. (2001). MCMC estimation and some model-fit analysis of multidimensional IRT models. Psychometrika, 66, 541-561. Birnbaum, A. (1968). Some latent trait model and their use in inferring an examinee s ability. In F. M. Lord and M. R. Novick, Statistical theories of mental test scores, 17-20. Reading, Mass: Addison- Wesley. Bock, R. D., Gibbons, R., Muraki, E. (1988). Full-information item factor analysis. Applied Psychological Measurement, 1988, 12, 261-280. Bock, R. D., & Mislevy, R. J. (1982). Adaptive EAP estimation of ability in a microcomputer environment. Applied Psychological Measurement, 6, 431-444. Carlson, J. E. (1987). Multidimensional item response theory estimation: a computer program. Unpublished manuscript. 35

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 C h a n g, H., Q i a n, J., & Y i n g, Z. ( 2 0 0 1 ). a - s t r a t i f i e d m u l t i s t a g e c o m p u t e r i z e d a d a p t i v e t e s t i n g w i t h b - b l o c k i n g. A p p l i e d Psychological Measurement, 25, 333-341. Chang, S. W., & Ansley, T. (2003). A comparative study of item exposure control methods in computerized adaptive testing. Journal of Educational Measurement, 40 (1), 71-103. de la Torre, J., & Song, H. (2009). Simultaneous Estimation of Overall and Domain Abilities: A Higher-Order IRT Model Approach. Applied Psychological Measurement, 33 (8), 620-639. F r a s e r, C. ( 1 9 8 8 ). N O H A R M. [ C o m p u t e r s o f t w a r e a n d m a n u a l ]. Armidale, New South Wales, Australia: author. Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Boston, MA: Kluwer-Nijhoff. Hattie, J. (1981). Decision criteria for determining unidimensional and multidimensional normal ogive models of latent trait theory. Armidale, Australia: The University of New England, Center for Behavioral Studies. Hung, P. H. (1988). Application of computerized adaptive testing to the university entrance exam of Taiwan, R. O. C. Unpublished doctoral dissertation, University of Minnesota, Minnesota. Larson, J. W., & Smith, K. L. (1988). A Spanish computerized adaptive p l a c e m e n t e x a m. U T : B r i g h a m Y o u n g U n i v e r s i t y H u m a n i t i e s Research Center. Lee, J., Grigg, W., & Dion, G. (2007). The Nation s Report Card: M a t h e m a t i c s 2 0 0 7. N a t i o n a l C e n t e r f o r E d u c a t i o n S t a t i s t i c s, Institute of Education Sciences, U.S. Department of Education, Washington, D.C. Lord, F. M. (1977). Practical applications of item characteristic curve theory. Jaurnal of Educational Measurement, 14, 117-138. Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Lawrence Eribaum Associates. 36

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 Lord, F. M., & Novick, M. R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. Masters, G. N. ( 1982). A Rasch model f or partial credit scoring. Psychometrika, 47, 149-174. McBride, J. R., & Martin, J. T. (1983). Reliability and validity of adaptive ability tests in a military setting. In D. J. Wiess (Ed.), New Horizons in Testing: Latent Trait Test Theory and Computerized Adaptive Testing (pp. 223-236). New York: Academic Press. McDonald. R. P. (1982). Linear versus nonlinear models in item response theory. Applied Psychological Measurement, 6 (4), 379-396. McKinley, R. L. & Reckase, M. D. (1983). MAXLOG: A computer program for the estimation of the parameters of a multidimensional logistic model. Behavior Research Methods and Instrumentation, 15, 389-390. Mislevy, R. J. (1991). Randomization-based inference about latent variable from complex samples.psychometrika,56,psychometric Society,Greensboro,pp.177-196. Mislevy, R. J., A. E. Beaton, B. Kaplan and K. M. Sheehan.(1992). Estimating population characteristics form sparse matrix samples of item response. Journal of Educational Measurement, 29, pp.133-161, National Council on Measurement in Education,Washington, D.C.. Mullis, I.V.S., Martin, M. O., Ruddock, G. J., O'Sullivan, C.Y., Arora, A., & Eberber, E. (2005). TIMSS 2007 Assessment Frameworks. http://timss.bc.edu/timss2007/frameworks.html. Muraki, E. (1992). A generalized partial credit model: application of an EM algorithm. Applied Psychological Measurement, 16 (2),159-176. Muraki, E. (1999). Stepwise analysis of differential item functioning based on multiple-group partial credit model. Journal of Educational Measurement, 36, 217 232. Muraki, E., & Carlson, E. (1995). Full-information factor analysis for polytomous item responses. Applied Psychological Measurement, 19, 73 90. 37

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 Muraki, E., & Bock, R. D. (1997). PARSCALE 3: IRT based test scoring and item analysis for graded items and rating scales. Chicago: Scientific Software International. NAEP Technical Documentation (2009). The Nation s Report Card. Retrieved May 13, 2009, from National Center for Education Statistics: http://nces.ed.gov/nationsreportcard/tdw/. OECD (2009). PISA 2006 Technical Report. OCED, Paris. OECD (2005). PISA 2003 Technical Report. OCED, Paris. Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests. Danish Institute for Educational Research, Copenhagen. Reckase, M.D. (1997). A linear logistic multidimensional model for dichotomous item response data. In W.J. van der Linden & R. K. Hambleton (Eds.), Handbook of Modern Item Response Theory (pp. 271 286). NewYork: Springer-Verlag. Reckase, M. D., & McKinley, R. L. (1991). The discriminating power of items that measure more than one dimension. Applied Psychological Measurement, 15, 361-373. Ree, M. J. (1981). The effects of item calibrations, sample size, and item pool size on adaptive testing. Applied Psychological Measurement, 5, 11-19. Segall, D. O. (1996). Multidimensional adaptive testing. Psychometrika, 61, 331-345. Song, H. (2007). A higher-order item response model: development and application.unpublished doctoral dissertation, The State University of New Jersey. Stocking, M. L. (1994). Three practical issues for modern adaptive testing item pools. Educational Testing Service, Princeton, N. J. Sympson, J. B. (1978). A model for testing with the multidimensional items. In D. J. Weiss (Ed.), Proceedings of the 1977 Computerized Adaptive Testing Conference (pp. 82-98). Minneapolis: University 38

郭 伯 臣 吳 慧 珉 陳 俊 華 試 題 反 應 理 論 在 教 育 測 驗 上 之 應 用 of Minnesota, Department of Psychology, Psychometric Methods Program. Thissen, D., Chen, W-H., & Bock, R. D. (2003). Multilog (version 7). Lincolnwood, IL: Scientific Software International. Veerkamp, W. J. J., & Berger, M. P. F. (1997). Some new item selection criteria for adaptive testing. Journal of Educational and Behavioral Statistics, 22, 203-226. Wainer, H., Dorans, N. J., Flaugher, R., Green, B. F., Mislevy, R. J., Steinberg, L., & Thissen, D. (2000). Computerized adaptive testing: A primer. 2nd edition. Hillsdale, N.J.: Erlbaum. Waller, N. G. (2002). WinMFact 2.0. Minneapolis, MN: Author. Wang, T., & Vispoel, W. P. (1998). Properties of ability estimation methods in computerized adaptive testing. Journal of Educational Measurement, 35, 109-135. W a n g, W. C. ( 1 9 9 4 ). I m p l e m e n t a t i o n a n d a p p l i c a t i o n o f t h e multidimensional random coefficients multinomial logit model. U n p u b l i s h e d d o c t o r a l d i s s e r t a t i o n, U n i v e r s i t y o f C a l i f o r n i a, Berkeley, CA. W a n g, W. - C., C h e n, P. - H., & C h e n g, Y. - Y. ( 2 0 0 4 ). I m p r o v i n g measurement precision of test batteries using multidimensional item response models. Psychological Methods, 9, 116-136. Wang, W. C., & Wilson, M. (2005). The Rasch testlet model. Applied Psychological Measurement, 29(2), 126-149. Weiss, D. J. (Ed.) (1983). New horizons in testing: Latent trait test theory and computerized adaptive testing. New York: Academic. Weiss, D. J., & Yoes, M. E. (1991). Item response theory. In R. K. H a m b l e t o n a n d J. Z a a l ( e d s. ), A d v a n c e s i n e d u c a t i o n a l a n d psychological testing. Boston: Kluwer Academic Publishers. Wood, R., Wilson, D., Gibbons, R, Schilling, S., Muraki, E., & Bock, D. (2003). TESTFACT 4: Test scoring, item statistics, and item factor analysis. Mooresville, IN: Scientific Software. 39

新 竹 縣 教 育 研 究 集 刊 第 十 二 期 民 101 年 12 月 Wright, B. D., & Masters, G. N. (1982). Rating scale analysis. Chicago: MESA Press. Wright, B. D., & Stone, M. H. (1979). Best test design. Chicago : MESA Press. Wu, M. L., Adams, R. J., & Wilson, M. R. (1998). Acer ConQuest. Melbourne, Victoria, Australia: Australian Council for Educational Research press. Yao, L. (2003). BMIRT: Bayesian Multivariate Item Response Theory. [Computer software]. Monterey, CA: CTB/McGraw-Hill. Zimowski, M. F., Muraki, E., Mislevy, R. J., & Bock, R. D. (1996). BILOG-MG: Multiplegroup IRT analysis and test maintenance for binary items. Chicago: Scientific Software International. 40