附 件 13: 计 算 机 辅 助 口 语 测 试 中 影 响 评 分 因 素 的 调 研 报 告 计 算 机 辅 助 大 学 英 语 口 语 评 测 课 题 组 2008 年 4 月 摘 要 ; 本 文 通 过 对 口 语 测 试 评 分 的 影 响 因 素 提 高 口 语 测 试 评 分 质 量 的 方 法 进 行 了 大 量 的 文 献 调 研, 归 纳 了 国 内 外 研 究 者 对 口 语 评 分 过 程 中 个 人 因 素 对 评 分 的 影 响 等 方 面 的 研 究 成 果 同 时 整 理 了 目 前 评 分 者 信 度 的 各 种 研 究 方 法 和 提 高 评 分 质 量 的 方 法 最 后, 对 网 上 阅 卷 系 统 及 其 评 分 质 量 控 制 方 法 进 行 了 调 研 通 过 文 献 调 研, 在 口 语 考 试 评 分 中, 评 分 者 个 人 因 素 对 口 语 成 绩 的 影 响 较 大, 主 要 体 现 在 评 分 者 的 个 体 因 素 ( 疲 倦 个 人 情 绪 等 方 面 ) 和 评 分 者 对 评 分 标 准 的 理 解 与 应 用 两 方 面 通 过 相 关 的 计 算 机 技 术, 可 以 提 高 评 分 子 系 统 的 评 分 质 量 关 键 字 : 口 语 机 考 口 语 评 分 影 响 因 素 一 口 语 测 试 评 分 的 影 响 因 素 1.1 口 语 评 分 口 语 评 分, 是 指 评 分 者 采 用 某 一 特 定 的 评 分 方 法 根 据 既 定 的 评 分 标 准 和 评 分 细 则 参 照 口 语 水 平 量 表, 对 口 语 测 验 的 表 现 或 言 语 样 本 等 级 所 做 的 描 述 对 被 试 的 口 语 水 平 做 出 主 观 判 断 并 赋 值 的 过 程 不 同 的 口 语 测 试 方 法 相 应 地 会 有 不 同 的 口 语 评 分 方 法, 总 结 归 纳 目 前 的 口 语 测 试 方 法 共 分 为 以 下 3 种 : 间 接 口 试 直 接 口 试 和 半 直 接 口 试 间 接 口 试 是 通 过 笔 试 来 测 量 考 生 的 口 语 水 平, 即 根 据 考 试 所 测 量 的 某 种 能 力 与 命 题 者 真 正 关 心 的 另 一 种 能 力 之 间 的 关 系, 来 间 接 推 断 被 试 的 口 语 水 平 (Bachman 1988) 在 现 代 语 言 测 试 中, 间 接 口 试 已 经 基 本 被 淘 汰, 毕 竟 懂 得 如 何 讲 一 句 话 和 在 交 际 中 实 际 讲 出 的 话 是 有 很 大 区 别 的 因 此, 间 接 口 试 的 效 度 很 低, 不 能 反 映 口 头 交 际 的 真 实 性 直 接 口 试 是 以 口 语 在 真 实 语 境 中 的 使 用 为 蓝 本, 由 评 分 者 对 被 试 进 行 直 接 面 试, 测 试 考 生 能 否 针 对 评 分 者 的 提 问 用 目 标 语 言 有 条 理 地 表 达 自 己 的 想 法, 以 及 能 否 根 据 评 分 者 的 交 际 要 求 做 出 恰 当 的 反 应 直 接 口 试 具 有 交 际 真 实 性 情 景 真 实 性 和 语 言 真 实 性 的 优 点, 测 试 的 目 标 比 较 直 接 明 确, 表 面 效 度 较 高 不 过,
在 直 接 口 试 中, 由 于 评 分 者 要 身 兼 数 职, 既 要 控 制 考 试 程 序, 又 要 扮 演 交 际 角 色, 还 要 担 当 评 分 者, 在 测 试 的 同 时 还 要 根 据 评 分 标 准 对 被 试 的 口 语 表 现 做 出 即 时 评 估, 因 而, 直 接 口 试 具 有 可 行 性 差 主 观 性 较 强 和 评 分 信 度 不 高 的 缺 点 ( 柴 省 三, 2003) 半 直 接 口 试 (semi-direct test) 在 保 留 直 接 口 试 部 分 优 点 的 基 础 上, 采 用 客 观 型 考 试 的 施 测 程 序, 考 生 在 相 同 的 时 间 内, 按 照 统 一 的 考 试 程 序, 完 成 相 同 的 口 试 任 务, 考 生 的 口 试 表 现 被 录 制 在 磁 带 或 其 存 储 介 质 上, 与 直 接 口 试 相 比, 具 有 如 下 优 点 : 可 以 同 时 测 试 若 干 考 生, 可 行 性 较 强, 适 合 大 规 模 语 言 测 试 ; 考 生 口 语 水 平 的 发 挥 基 本 不 受 评 分 者 情 绪 和 面 试 技 巧 的 影 响 ; 考 生 言 语 表 现 受 其 听 力 水 平 和 个 人 情 绪 的 影 响 较 少 ; 测 验 任 务 基 本 相 同, 测 验 的 公 平 性 可 以 得 到 充 分 保 证 ; 评 分 过 程 与 施 测 过 程 分 离, 评 分 工 作 可 以 由 专 业 评 分 者 集 中 完 成, 对 评 分 的 质 量 可 以 进 行 有 效 的 监 控 ( 柴 省 三,2003) 直 接 口 试 和 半 直 接 口 试 各 有 利 弊, 直 接 口 试 更 侧 重 对 口 语 交 际 能 力 和 交 际 策 略 的 考 核, 而 半 直 接 口 试 则 是 以 牺 牲 部 分 交 际 真 实 性 为 代 价 来 提 高 测 试 的 可 行 性 和 评 分 的 可 靠 性, 因 而 比 较 适 合 大 规 模 口 语 测 试 半 直 接 口 试 的 试 题 内 容 统 一, 口 试 过 程 和 评 分 过 程 相 分 离, 因 此 不 易 受 其 他 因 素 的 影 响 (Kenyon D,Rschirner E,2000) 目 前, 美 国 ETS 1 ( 美 国 教 育 考 试 服 务 中 心 ) 的 TSE 2 ( 英 语 口 语 测 试 ) 口 试 ibt( 新 托 福 口 语 考 试 ) 均 采 用 半 直 接 口 试 的 方 式, 而 英 国 的 IELTS 3 ( 雅 思 考 试 ) 口 试 则 采 用 直 接 口 试 的 方 法 综 上 所 述, 鉴 于 口 语 机 考 中 考 生 在 相 同 时 间 内, 统 一 完 成 口 语 测 试 任 务, 其 口 试 表 现 通 过 录 音 的 方 式 存 储 在 口 语 考 试 系 统 的 文 件 服 务 器 中, 以 及 评 分 者 试 后 通 过 计 算 机 进 行 评 分 工 作 等 特 点, 可 以 鉴 定 本 文 所 研 究 的 口 语 机 考 是 一 种 半 直 接 口 试 的 方 式, 具 有 半 直 接 口 试 方 式 的 优 点, 但 也 存 在 着 评 分 者 评 分 信 度 等 方 面 的 问 题 1.2 影 响 口 语 测 试 评 分 的 主 要 因 素 Bachman(1997) 认 为 语 言 测 试 的 分 数 是 由 以 下 4 种 因 素 决 定 的 :1) 受 试 者 的 语 言 能 力 ;2) 测 试 方 法 ;3) 个 人 特 征 ;4) 任 意 性 因 素 由 第 一 种 因 素 决 定 的 分 数 被 称 为 真 实 分 数 (true score), 是 测 试 所 要 测 得 的 分 数 考 试 成 绩 中 真 实 分 数 的 比 重 越 大, 测 试 的 结 果 就 越 可 靠, 信 度 就 越 高 1 ETS 全 称 Educational Testing Service, 即 美 国 教 育 考 试 服 务 中 心 2 TSE(Test of Spoken English, 英 语 口 语 测 试 ) 是 美 国 教 育 考 试 服 务 处 为 母 语 为 非 英 语 国 家 的 学 生 提 供 的 英 语 口 语 水 平 测 试 3 IELTS 全 称 International English Language Testing System, 即 国 际 英 语 测 试 体 系, 又 称 雅 思 考 试, 该 考 试 由 阅 读 听 力 写 作 和 口 语 四 部 分 组 成
其 他 三 种 影 响 分 数 的 因 素 都 是 不 受 欢 迎 的, 因 为 它 们 干 扰 了 分 数 对 考 生 能 力 的 真 实 反 映, 所 以 在 语 言 测 试 中 我 们 要 尽 量 减 少 后 三 种 因 素 对 考 生 成 绩 的 影 响 其 中 的 测 试 方 法 主 要 涉 及 考 试 环 境 试 卷 安 排 时 间 分 配 题 意 说 明 考 试 方 式 答 题 方 式 评 分 标 准 等 个 人 特 征 是 指 与 所 测 试 的 与 语 言 能 力 无 关 的 一 些 个 人 特 点 或 某 种 能 力, 如 性 别 种 族 民 族 等 个 人 特 征 或 认 知 能 力 和 对 某 一 领 域 所 掌 握 的 特 殊 知 识 等 前 三 种 因 素 对 分 数 的 影 响 都 是 有 规 律 和 系 统 的, 但 第 四 种 因 素 的 影 响 不 同 于 前 三 种, 是 随 意 的 不 系 统 和 无 规 律 的, 如 考 生 的 头 脑 是 否 清 醒, 情 绪 是 否 平 稳, 评 阅 标 准 是 否 一 致 等 Bachman(1997) 认 为 测 试 方 法 和 任 意 性 因 素 可 以 影 响 测 试 结 果 的 可 靠 性, 而 个 人 特 征 可 以 影 响 测 试 结 果 的 有 效 性 测 验 的 分 数 在 很 大 程 度 上 依 赖 于 评 分 过 程, 评 分 过 程 在 口 语 考 试 中 更 是 一 个 重 要 环 节 口 语 测 验 领 域 普 遍 认 为 评 分 者 和 评 分 方 法 决 定 了 口 试 的 信 度, 从 而 在 很 大 程 度 上 影 响 了 测 验 的 效 度 ( 王 佶 旻,2007) 从 评 分 者 的 其 它 素 质 方 面 讲, 还 包 括 个 人 疲 劳 粗 心 大 意 个 人 情 绪 以 及 评 分 者 的 个 人 认 知 倾 向 等, 这 些 都 可 能 对 评 分 产 生 影 响, 影 响 口 试 评 分 的 信 度 口 试 的 评 分 者 可 能 整 天 面 对 的 是 重 复 的 考 题, 在 口 试 过 程 中 能 否 始 终 保 持 高 昂 的 情 绪, 也 会 影 响 学 生 口 语 表 达 水 平 的 发 挥 另 外, 考 试 环 境 和 操 作 管 理 方 面 也 有 不 可 忽 视 的 因 素 1.3 评 分 者 个 人 因 素 对 口 语 成 绩 的 影 响 一 套 试 题 不 论 在 出 题 和 考 试 组 织 这 两 方 面 做 得 如 何 完 美, 如 果 评 分 过 程 出 现 问 题, 就 会 前 功 尽 弃 客 观 题 的 评 分 不 需 评 分 者 的 主 观 评 判, 一 般 都 有 很 高 的 可 靠 性 和 一 致 性, 但 主 观 题 因 为 需 要 评 分 者 做 出 主 观 判 断, 在 评 分 者 本 人 和 评 分 者 之 间 都 会 出 现 不 一 致 的 现 象, 从 而 影 响 测 试 的 信 度 研 究 表 明 评 分 者 的 疲 倦 考 生 之 间 的 差 异 和 对 比 个 人 的 态 度 经 验 和 能 力 等 都 会 影 响 评 分 标 准 实 施 的 一 致 和 评 分 的 质 量 此 外, 还 发 现 许 多 评 分 者 会 被 一 些 外 在 的 表 面 的 东 西 所 影 响, 如 在 作 文 考 试 中 考 生 的 字 迹, 在 口 语 考 试 中 考 生 的 相 貌 和 声 音 等, 不 同 评 分 者 之 间 更 易 出 现 不 一 致 一 方 面 因 为 各 自 的 语 言 能 力 不 同 评 阅 经 验 不 同, 另 一 方 面 也 因 个 人 的 喜 好 和 观 点 不 同 口 试 的 评 分 与 口 试 同 步 进 行, 在 听 取 考 生 口 语 样 本 的 同 时, 评 分 者 需 要 对 样 本 的 等 级 当 场 做 出 快 速 准 确 的 判 断, 因 此 存 在 评 分 的 瞬 间 性 口 试 评 分 要 求 评 分 者 始 终 精 力 高 度 集 中, 反 应 敏 捷, 但 长 时 间 精 力 集 中 与 口 试 内 容 的 重 复 易 引 起 疲 劳 O Loughlin(2002) 在 对 考 生 口 语 输 出 进 行 话 语 分 析, 并 对 评 分 结 果 进 行 多 因 子 Rasch 分 析 的 基 础 上, 得 出 评 分 者 与 考 生 的 性 别 差 异 在 一 定 程 度 上 对 评 分 结 果 造 成 差 异, 但 并 不 显 著 但 是, 性 别 因 素 与 其 他 因 素 ( 如 口 试 目 的 参 与 者 的 年 龄 以 及 社 会 背 景 等 ) 的 交 互 作 用 可 能 会 对 评 分 结 果 带 来 较 大 影 响
口 语 测 试 中, 评 分 问 题 始 终 是 研 究 者 最 关 心 学 术 界 最 有 争 议 的 环 节, 不 管 是 直 接 口 试 的 即 时 评 分, 还 是 半 直 接 口 试 的 集 中 评 分, 对 被 试 口 语 水 平 的 最 终 评 价 始 终 无 法 摆 脱 评 分 者 主 观 判 断 误 差 的 影 响 不 同 评 分 者 之 间 同 一 评 分 者 在 不 同 的 心 理 和 情 绪 状 态 下, 对 同 一 考 生 口 语 水 平 的 判 断 往 往 存 在 一 定 程 度 的 不 一 致 性 (Lievens,2001), 这 种 评 分 误 差 源 于 两 个 方 面, 一 是 考 生 口 语 水 平 的 多 维 不 确 定 性, 二 是 评 分 者 主 观 判 断 的 差 异 性 Lievens(2001) 认 为 影 响 口 试 评 分 信 度 的 一 个 重 要 因 素 是 评 分 者 的 认 知 因 素, 虽 然 在 评 分 实 践 中 一 般 都 对 口 试 评 分 会 有 一 个 明 确 的 操 作 规 定, 由 于 口 试 评 分 过 程 是 评 分 者 内 隐 的 主 观 判 断 过 程, 因 此, 评 分 者 心 理 图 式 的 负 迁 移 作 用 对 评 分 信 度 的 影 响 不 容 忽 视 由 于 评 分 者 的 语 言 学 理 论 水 平 学 术 观 点 和 个 人 性 格 的 不 同, 在 长 期 的 科 研 和 教 学 经 历 中, 不 同 评 分 者 对 口 语 水 平 的 认 识, 形 成 了 各 自 独 特 的 心 理 图 式, 而 且 不 同 的 心 理 图 式 具 有 不 同 的 维 度 结 构, 评 分 者 对 每 个 口 语 水 平 维 度 所 赋 予 的 心 理 权 重 有 较 大 差 别 在 评 分 过 程 中, 由 于 受 心 理 图 式 的 影 响, 不 同 评 分 者 所 关 注 的 焦 点 不 同, 有 的 评 分 者 较 关 注 语 法 形 式 的 正 确 性, 有 的 评 分 者 更 关 注 言 语 表 达 的 流 利 性 如 何, 还 有 的 评 分 者 更 看 中 口 头 交 际 的 得 体 性 和 可 理 解 性 尽 管 在 评 分 时 可 以 通 过 评 分 标 准 和 评 分 细 则 来 约 束 评 分 者 的 评 分 行 为, 但 是 评 分 者 之 间 评 分 的 主 观 性 差 异 始 终 存 在 Oller (1979) 认 为 口 语 考 试 的 成 功 在 很 大 程 度 上 取 决 于 评 分 者 区 分 考 生 表 现 的 能 力 这 里 的 区 分 能 力 是 指 评 分 者 对 评 分 标 准 和 评 分 方 式 的 理 解 与 把 握 能 力 Lado(1965) 等 研 究 者 认 为 导 致 评 分 信 度 不 理 想 的 原 因 有 很 多, 其 中 一 个 重 要 的 原 因 是 不 同 评 分 者 的 注 意 点 不 同 评 分 者 在 评 分 时 可 能 把 注 意 力 集 中 于 被 试 言 语 表 现 的 不 同 方 面 比 如 有 的 评 分 者 比 较 注 重 发 音, 而 另 一 些 评 分 者 则 比 较 重 视 语 法 准 确 性, 这 样 他 们 的 评 分 就 会 有 出 入 1.4 小 结 从 文 献 调 研 结 果 分 析, 在 传 统 口 语 考 试 形 式 中, 影 响 口 语 测 试 评 分 的 主 要 因 素 包 括 评 分 者 个 人 因 素 评 分 方 法 等 其 中, 评 分 者 个 人 因 素 对 口 语 评 分 起 着 重 要 影 响 相 比 较 于 传 统 口 语 考 试 形 式, 口 语 机 考 中 使 用 计 算 机, 在 评 分 子 系 统 上 进 行 评 分 工 作, 因 此 本 文 将 分 别 从 评 分 者 对 评 分 子 系 统 的 使 用 反 馈 评 分 者 使 用 评 分 子 系 统 的 评 分 信 度 评 分 严 厉 度 等 方 面 开 展 实 验 设 计 并 进 行 相 关 研 究, 以 期 为 本 文 提 出 的 评 分 监 控 器 计 算 机 自 动 评 分 等 设 计 方 案 提 供 一 定 的 理 论 基 础 二 口 语 测 试 评 分 信 度 的 研 究 方 法 如 果 从 评 分 者 信 度 研 究 方 法 所 用 理 论 的 角 度 上 进 行 分 类, 国 内 外 研 究 者 多 数
从 经 典 测 量 理 论 概 化 理 论 或 项 目 反 应 理 论 出 发, 对 评 分 质 量 中 的 评 分 者 信 度 问 题 展 开 研 究 相 关 系 数 是 经 典 测 量 理 论 (CTT) 中 常 用 的 考 察 评 分 者 一 致 性 的 信 度 指 标 因 此 基 于 经 典 测 验 理 论 的 许 多 研 究 采 用 肯 德 尔 (Kendall) 和 谐 系 数 W 计 算 评 分 者 信 度 ( 吴 志 明, 张 厚 粲, 杨 立 谦,1997) Kendall 和 谐 系 数 W 用 于 衡 量 两 个 以 上 的 评 分 者 对 N 个 观 测 者 进 行 N 级 等 级 评 估 时 评 分 的 一 致 性 程 度, 比 较 适 合 于 对 少 量 的 观 察 者 进 行 有 限 的 等 级 评 估 其 他 信 度 研 究 方 法 也 可 以 采 用 斯 皮 尔 曼 (Spearman) 相 关 系 数 法 或 克 龙 巴 赫 (Cronbach) 系 数 法 经 典 测 量 理 论 的 真 分 数 概 念 以 及 平 行 测 试 误 差 随 机 的 理 论 假 设 决 定 了 CTT 所 估 计 的 信 度 系 数 以 及 测 量 标 准 误 差, 主 要 适 用 于 纸 笔 方 式 的 常 模 参 照 性 测 试 张 厚 粲 (1988) 在 心 理 测 量 理 论 及 其 发 展 一 文 中 首 次 将 概 化 理 论 引 入 我 国 随 后, 国 内 有 的 研 究 者 也 开 始 采 用 这 种 理 论 来 研 究 我 国 高 考 中 的 作 文 评 分 问 题 目 前, 概 化 理 论 已 经 成 为 现 代 测 量 理 论 中 与 项 目 反 应 理 论 同 样 最 具 影 响 力 的 两 大 理 论 之 一 ( 李 庆 本, 许 雪 立,1999) 基 于 概 化 理 论 (generalizability theory,gt) 的 评 分 者 信 度 分 析 将 平 行 测 验 观 念 推 广 为 随 机 平 行 测 验, 能 计 算 出 各 种 不 同 误 差 来 源, 将 不 同 测 量 情 境 中 引 起 的 误 差, 从 总 的 测 量 误 差 中 分 离 出 来 在 考 察 评 分 者 信 度 的 研 究 中,GT 将 评 分 者 看 成 是 影 响 评 定 学 生 成 绩 这 个 测 量 目 标 (object of measurement) 的 误 差 源, 即 一 个 随 机 侧 面 (facet), 将 评 分 者 自 身 差 异 所 引 起 的 观 测 分 数 变 异 从 总 误 差 中 分 离 出 来 因 此,GT 给 出 了 两 个 类 似 于 CTT 中 的 信 度 系 数 的 指 标 : 概 化 系 数 (generalizality coefficient), 记 为 G 系 数, 作 为 常 模 参 照 性 测 验 中 度 量 分 数 稳 定 性 的 信 度 指 标 ; 可 靠 性 指 数 (dependability coefficient), 记 为 系 数, 作 为 标 准 参 照 性 测 验 中 度 量 分 数 稳 定 性 和 一 致 性 的 信 度 指 标 ( 赵 群, 曹 亦 薇,2006) 如 果 按 不 同 的 评 分 者 人 数 和 不 同 的 评 分 等 级 和 标 准, 又 有 以 下 评 分 者 信 度 研 究 方 法 来 使 用 两 个 评 分 者 对 同 一 试 题 或 任 务 进 行 评 分, 能 使 用 的 评 分 者 信 度 估 计 方 法 包 括 :Spearman 相 关 系 数 法 (Spearman correlation coefficient) Kappa 系 数 法 (Kappa coefficient) 列 联 系 数 法 和 皮 尔 森 (Pearson) 积 差 相 关 系 数 法 ( 王 孝 玲,1993) 见 表 2.1: 表 2.1 两 个 评 分 者 信 度 研 究 评 分 方 法 比 较 方 法 Spearman 相 关 系 数 法 适 用 范 围 应 用 范 围 较 广, 两 个 总 体 不 一 定 是 正 态 分 布, 样 本 容 量 也 不 一 定 大 于 30, 适 用 于 两 个 变 量 ( 或 其 中 一 个
Kappa 系 数 法 列 联 系 数 法 Pearson 积 差 相 关 变 量 ) 的 原 始 资 料 是 等 级 资 料 的 情 况, 或 难 以 判 断 资 料 的 总 体 属 于 何 种 分 布 定 性 资 料 适 用 于 两 个 评 分 者 的 评 分 结 果 等 距 变 量 当 有 两 个 以 上 评 分 者 对 同 一 测 验 任 务 评 分 时, 评 分 者 间 信 度 的 计 算 方 法 有 : 肯 德 尔 和 谐 系 数 Cronbach 和 多 系 列 相 关 分 析 ( 黄 广 扬,2002) 实 践 中, Cronbach 系 数 常 被 用 于 估 计 测 验 项 目 的 内 部 一 致 性, 当 被 用 于 评 分 者 一 致 性 问 题 时, 评 分 者 代 替 了 项 目, 而 Cronbach 系 数 也 就 成 为 评 分 者 信 度 的 一 个 量 度 Cronbach 系 数 适 用 于 连 续 变 量 见 表 2.2: 表 2.2 两 个 以 上 评 分 者 信 度 研 究 评 分 方 法 比 较 方 法 肯 德 尔 和 谐 系 数 克 龙 巴 赫 多 系 列 相 关 分 析 适 用 范 围 等 级 资 料 连 续 性 数 据 连 续 性 数 据 三 提 高 口 语 测 试 评 分 质 量 的 方 法 3.1 提 高 评 分 质 量 的 方 法 要 提 高 主 观 测 试 的 评 分 质 量, 有 一 个 至 关 重 要 的 步 骤, 就 是 评 分 规 范 化 这 包 括 两 个 方 面 : 评 分 标 准 的 修 订 确 立 与 评 分 者 的 培 训 有 可 能 导 致 口 试 信 度 低 的 一 个 原 因 是 评 分 标 准 不 确 切, 评 分 者 理 解 和 运 用 评 分 标 准 时 存 在 差 异, 可 以 采 用 适 当 的 方 法, 降 低 评 分 标 准 的 不 确 定 性 和 减 少 评 分 者 理 解 运 用 评 分 标 准 的 差 异 ; 设 计 描 述 清 楚 明 确 的 评 分 等 级 ; 举 行 规 范 化 会 议 培 训 口 试 评 分 者 并 同 时 修 订 完 成 评 分 标 准 ( 郭 茜, 邢 如, 沈 明 波,2003) Cardy & Keefe(1990) 等 人 在 对 口 试 评 分 进 行 分 析 时 发 现, 对 评 分 者 进 行 精 心 挑 选 和 系 统 培 训, 会 对 评 分 者 信 度 起 到 提 高 作 用 Fiske & Dyer(1985) 发 现, 对 评 分 者 进 行 系 统 培 训, 而 且, 在 每 次 正 式 评 分 前 都 要 进 行 预 评 训 练, 否 则, 评 分 者 在 评 分 时 对 被 试 口 试 表 现 本 能 印 象 的 形 成 完 全 是 评 分 者 心 理 图 式 缺 省 操 作 的 结 果
3.2 实 际 案 例 分 析 案 例 一 :1995 年 首 次 举 行 的 香 港 中 七 英 语 口 试 中, 为 了 提 高 评 分 的 信 度, 两 位 评 分 者 的 平 均 分 要 和 考 生 笔 试 的 成 绩 进 行 相 关 分 析 通 常 这 两 者 的 相 关 系 数 在.65 左 右 如 果 发 现 某 组 评 分 者, 在 整 个 口 试 期 间 的 打 分 与 笔 试 成 绩 相 关 系 数 特 别 低, 这 就 说 明 两 位 评 分 者 中 有 一 位 的 评 分 质 量 有 问 题 香 港 考 试 局 就 会 将 两 位 评 分 者 的 口 试 评 分 分 别 与 笔 试 成 绩 进 行 相 关 分 析, 把 相 关 系 数 特 别 低 的 那 位 评 分 者 的 口 试 成 绩 作 废 ( 文 秋 芳,1999) 4 案 例 二 :HSK( 高 等 ) 口 语 考 试 采 取 网 络 化 评 分 管 理 和 监 控, 目 前 已 在 北 京 语 言 文 化 大 学 汉 语 水 平 考 试 中 心 进 行 实 施 传 统 的 主 观 等 级 评 分 主 要 的 评 分 误 差 来 自 评 分 者 之 间 评 分 的 不 一 致 性 以 及 评 分 者 自 身 评 分 的 不 稳 定 减 少 这 类 评 分 误 差 主 要 有 两 种 办 法, 其 一 是 加 强 对 评 分 者 的 培 训, 以 期 评 分 者 能 够 熟 练 掌 握 评 分 规 则 ; 其 二 是 对 评 分 过 程 进 行 即 时 监 控, 这 是 指 在 评 分 的 过 程 中 对 评 分 者 的 评 分 严 厉 度 和 稳 定 性 进 行 监 控, 从 而 实 现 对 评 分 质 量 的 现 场 控 制 ( 李 庆 本, 许 雪 立, 1999) 案 例 三 : 大 学 英 语 四 六 级 考 试 作 文 网 上 阅 卷 系 统 采 用 了 一 整 套 有 力 措 施 来 保 证 作 文 评 分 的 信 度, 这 些 措 施 包 括 : 制 定 严 格 的 作 文 评 分 原 则 及 具 体 而 明 确 的 评 分 标 准 ; 对 评 分 者 进 行 严 格 的 阅 前 培 训 和 阅 后 考 核 ; 在 阅 卷 过 程 中 由 评 分 组 长 随 机 抽 查 评 分 者 的 评 分 质 量 等 ( 王 跃 武,2004) 3.3 小 结 传 统 口 语 考 试 形 式 下 的 评 分 质 量 控 制 工 作 都 是 在 评 分 前 和 评 分 后 进 行 的, 即 在 评 分 开 始 前, 抽 取 一 定 的 评 分 参 考 样 本, 对 照 评 分 标 准, 进 行 评 分 前 的 培 训 工 作, 以 及 在 评 分 工 作 完 成 后, 抽 取 一 部 分 评 分 结 果, 通 过 相 关 的 评 分 信 度 计 算 手 段, 来 检 查 评 分 工 作 的 完 成 质 量 传 统 形 式 下 的 评 分 方 式 限 制 了 口 语 考 试 的 规 模, 只 适 合 于 小 规 模 的 口 语 考 试, 因 为 无 论 从 评 分 者 人 力 和 评 分 工 作 量 上 考 虑, 大 规 模 的 口 语 考 试 都 是 不 可 行 的 随 着 计 算 机 技 术 和 网 络 技 术 的 发 展 与 普 及, 产 生 了 很 多 网 上 阅 卷 系 统 通 过 网 上 阅 卷 系 统, 对 评 分 工 作 的 质 量 评 分 者 信 度 的 检 测 可 以 在 评 分 过 程 中 实 时 展 开, 这 一 点 很 好 的 弥 补 了 传 统 口 语 考 试 中 的 不 足, 同 时 为 实 施 大 规 模 的 口 语 考 试 奠 定 了 技 术 基 础 4 中 国 汉 语 水 平 考 试 (HSK) 是 为 测 试 母 语 非 汉 语 者 ( 包 括 外 国 人 华 侨 和 中 国 少 数 民 族 考 生 ) 的 汉 语 水 平 而 设 立 的 国 家 级 标 准 化 考 试 中 国 汉 语 水 平 考 试 (HSK) 由 北 京 语 言 大 学 汉 语 水 平 考 试 中 心 设 计 研 制
四 网 上 阅 卷 系 统 对 评 分 质 量 的 控 制 4.1 网 上 阅 卷 系 统 概 述 传 统 考 试 一 般 都 是 笔 试, 其 阅 卷 评 分 方 式 是 手 工 评 分, 存 在 着 工 作 量 大 工 作 效 率 低 评 分 误 差 大 管 理 效 率 低 评 分 者 信 度 偏 低 且 难 控 制 等 缺 点 在 现 实 的 阅 卷 工 作 过 程 中, 往 往 是 单 独 行 事, 评 分 者 是 与 考 试 设 计 实 施 和 统 计 分 析 人 员 分 离 的 一 部 分 教 师 或 技 术 人 员, 这 种 工 作 人 员 的 分 离, 必 然 会 造 成 阅 卷 评 分 结 果 与 其 他 考 试 活 动 的 分 离 性, 其 结 果 往 往 不 能 满 足 考 试 活 动 过 程 的 要 求 和 需 求 阅 卷 评 分 在 整 个 考 试 活 动 中 处 于 承 前 启 后 的 地 位, 它 对 考 试 活 动 的 成 败 起 着 十 分 关 键 的 作 用 传 统 考 试 方 法 存 在 评 分 主 要 靠 手 工 作 业 容 易 出 错 ; 分 数 报 告 不 科 学, 成 绩 不 可 比 评 分 误 差 难 以 控 制 等 问 题 ; 网 上 阅 卷 系 统 的 产 生 改 观 了 上 述 现 状, 尤 其 是 在 评 分 误 差 方 面 的 控 制 网 上 阅 卷 是 以 计 算 机 网 络 技 术 和 电 子 扫 描 技 术 为 依 托, 以 控 制 主 观 题 评 分 误 差, 实 现 考 试 公 平 性 原 则 为 最 终 目 的, 把 多 年 来 人 工 阅 卷 积 累 起 来 的 丰 富 经 验 和 现 代 高 新 技 术 相 结 合, 教 师 不 是 对 考 生 的 原 始 答 卷 直 接 评 分, 而 是 在 网 络 计 算 机 上 对 电 子 化 的 考 生 答 卷 进 行 评 分 ( 刘 玉 侠,2003) 简 言 之, 网 上 阅 卷 评 分 系 统 具 有 以 下 几 个 特 点 : 首 先, 它 有 利 于 提 高 效 率 节 省 资 源 其 次, 网 上 阅 卷 有 利 于 更 好 地 控 制 评 分 误 差 最 后, 网 上 阅 卷 评 分 有 利 于 试 卷 分 析 工 作 的 进 行 4.2 网 上 阅 卷 系 统 误 差 控 制 主 观 题 阅 卷 评 分 者 评 分 前 后 的 不 一 致 性 和 评 分 者 之 间 的 评 分 偏 差 是 影 响 主 观 题 评 分 信 度 和 效 度 的 重 要 因 素 网 上 评 分 是 控 制 主 观 性 试 题 评 分 误 差 的 创 举, 它 把 评 分 过 程 与 控 制 误 差 有 机 地 结 合 起 来, 控 制 误 差 与 评 卷 工 作 同 步 进 行, 伴 随 始 终 通 过 网 上 阅 卷 系 统, 可 以 直 接 把 评 分 者 的 打 分 导 入 到 同 一 个 系 统 中, 也 可 以 直 接 控 制 一 评 二 评 或 三 评 之 间 的 评 分 差, 进 行 及 时 决 定 是 否 进 入 三 评 ( 马 世 晔,2004) 4.3 实 际 案 例 分 析 案 例 一 : 俄 语 测 试 网 上 阅 卷 系 统 该 系 统 首 先 会 严 格 设 置 评 分 误 差, 当 两 位 评 分 者 对 同 一 份 试 卷 所 给 出 的 分 数 在 设 定 的 误 差 值 之 内, 则 计 算 机 自 动 取 其 平 均 值 作 为 考 生 的 最 后 得 分 而 当 两 人 所 给 出 的 分 数 大 于 规 定 的 误 差 值 时, 服 务 器 则 将 该 考 生 的 试 卷 自 动 分 发 给 阅 卷 组 长, 阅 卷 组 长 则 根 据 评 分 标 准 和 评 分 细 则 对 试 卷 给 出 一 个 最 终 得 分, 而 对 争 议 较 大 的 试 卷 则 由 测 试 中 心 主 任 进 行 最 后 仲 裁 其 中, 计 算 机 系 统 赋 予 不 同 级 别 的 评 分 者 不 同 的 权 限 和 职 责, 中 心 主 任 有 权
对 所 有 评 分 者 和 评 阅 组 长 的 工 作 进 行 监 督, 评 阅 组 长 有 权 检 查 小 组 成 员 的 阅 卷 情 况 各 级 评 分 者 的 职 责 分 明, 各 司 其 职, 工 作 进 行 得 有 条 不 紊 所 有 评 分 者 的 真 实 身 份 自 动 隐 藏, 每 个 人 的 身 份 一 律 用 代 码 进 行 标 示 总 之, 这 种 动 态 质 量 监 控 系 统 可 以 随 时 调 整 阅 卷 进 程 和 给 分 偏 差, 对 给 分 过 宽 或 过 严 的 评 分 者 予 以 及 时 提 示 和 纠 正, 降 低 了 误 判 率, 避 免 传 统 评 阅 中 一 评 定 音 宽 严 不 一 的 弊 病 同 时 也 把 因 评 分 者 个 人 主 观 因 素 所 导 致 的 评 分 误 差 降 到 最 低, 保 证 考 生 所 得 分 数 能 最 大 限 度 地 体 现 客 观 和 公 正 性 原 则 ( 刘 素 梅,2007) 案 例 二 : 大 学 英 语 四 六 级 考 试 作 文 网 上 阅 卷 系 统 该 系 统 对 评 分 误 差 和 最 终 得 分 采 取 了 5 道 监 控 和 调 整 程 序 : 一 是 试 评 组 织 评 分 者 进 行 操 作 培 训, 了 解 评 分 标 准 评 分 准 则, 并 通 过 评 分 样 本 进 行 试 评 二 是 自 评 监 控 由 网 上 评 卷 系 统 按 一 定 的 比 例 自 动 将 评 分 者 已 评 阅 试 卷 隐 去 其 原 始 评 分, 发 回 本 人 重 评, 以 衡 量 其 评 卷 的 稳 定 性 客 观 性, 防 止 出 现 趋 中 倾 向 情 况 三 是 计 算 机 自 动 监 控 和 调 整 网 上 评 卷 系 统 不 仅 设 置 了 合 理 的 评 分 误 差, 而 且 具 有 及 时 发 现 误 差 并 自 动 提 请 纠 正 和 防 止 误 差 超 出 设 定 值 的 功 能 四 是 题 组 长 即 时 监 控 与 调 整 题 组 长 负 责 仲 裁 题 组 长 可 依 据 评 分 细 则 对 需 要 仲 裁 的 答 题 进 行 复 评 五 是 检 查 组 即 时 监 控 与 调 整 网 上 评 卷 系 统 具 有 对 评 分 者 工 作 进 度 和 评 卷 质 量 进 行 跟 踪 和 警 示 的 功 能, 有 利 于 管 理 层 对 总 体 情 况 予 以 实 时 监 控, 并 对 评 卷 数 据 信 息 即 时 进 行 统 计 和 查 询 ( 王 跃 武,2004) 五 结 论 根 据 上 述 对 口 语 测 试 评 分 质 量 的 影 响 因 素 评 分 者 个 人 对 评 分 信 度 的 影 响 提 高 评 分 质 量 的 方 法 网 上 阅 卷 系 统 对 评 分 质 量 的 控 制 等 方 面 的 文 献 调 研, 主 要 得 到 以 下 结 论 和 启 示 : 在 口 语 考 试 评 分 中, 评 分 者 个 人 因 素 对 口 语 成 绩 的 影 响 较 大, 主 要 体 现 在 评 分 者 的 个 体 因 素 ( 疲 倦 个 人 情 绪 等 方 面 ) 和 评 分 者 对 评 分 标 准 的 理 解 与 应 用 两 方 面 通 过 相 关 的 计 算 机 技 术, 可 以 提 高 评 分 子 系 统 的 评 分 质 量 通 过 文 献 调 研, 作 者 没 有 发 现 关 于 评 分 者 使 用 计 算 机 评 分 的 态 度 倾 向 等 方 面 的 研 究, 以 及 使 用 评 分 子 系 统 进 行 口 语 评 分 的 评 分 质 量 方 面 的 研 究 其 次, 口 语 评 分 信 度 方 面 的 研 究 方 法 多 是 采 用 经 典 项 目 理 论 下 的 分 析 方 法 对 评 分 一 致 性 进 行 分 析, 还 未 有 研 究 者 使 用 项 目 反 应 理 论 中 的 Many-Facet Rasch 模 型 进 行 口 语 评 分 子 系 统 的 评 分 者 内 部 一 致 性 评 分 者 评 分 严 厉 度 评 分 偏 差 评 分 量 表 等 方 面
的 分 析 最 后, 目 前 除 了 作 文 主 观 题 已 有 具 体 的 计 算 机 自 动 评 分 系 统 的 应 用, 口 语 试 题 的 计 算 机 自 动 评 分 功 能 还 未 得 到 具 体 实 现