二 语 习 得 探 索 * 语 用 能 力 测 试 工 具 的 效 度 和 信 度 研 究 四 川 外 语 学 院 段 玲 琍 摘 要 : 本 研 究 使 用 定 量 方 法 对 比 分 析 了 书 面 话 语 填 充 ( 书 面 ) 选 择 性 书 面 话 语 填 充 ( 选 择 ) 和 书 面 话 语 自 我 评 价 ( 自 评 ) 三 种 语 用 能 力 测 试 工 具 测 量 中 国 学 生 语 用 能 力 的 效 度 和 信 度 情 况 结 果 表 明, 三 种 语 用 能 力 的 测 试 工 具 在 内 容 效 度 和 结 构 效 度 方 面 都 有 效 地 测 试 了 学 生 的 语 用 能 力 但 是, 就 关 联 效 度 而 言, 三 种 测 试 的 相 关 性 较 低 试 卷 信 度 和 评 分 者 间 的 信 度 值 也 不 是 太 高 ; 其 中, 书 面 测 试 的 信 度 最 高, 选 择 测 试 的 信 度 最 低, 自 评 测 试 居 中 关 键 词 : 语 用 能 力 测 试 ; 信 度 ; 效 度 作 者 简 介 : 教 授, 博 士, 硕 士 生 导 师, 主 要 从 事 语 用 习 得 和 语 用 能 力 测 试 研 究 电 子 邮 箱 : duanlingli@hotmail.com 1 引 言 语 用 能 力 测 试 主 要 测 量 外 语 学 习 者 怎 样 使 用 目 标 语 做 事, 怎 样 在 不 同 的 语 境 活 动 和 社 会 关 系 中 使 用 目 标 语 进 行 交 际 活 动 的 语 用 能 力 (Kasper & Roever, 2005) 语 用 能 力 的 培 养 作 为 外 语 教 学 和 学 习 的 最 终 目 标 已 受 到 国 内 外 学 者 的 重 视 自 20 世 纪 80 年 代 以 来, 语 用 能 力 的 习 得 研 究, 即, 语 际 语 用 学, 又 译 中 介 语 语 用 学 (Interlanguage Pragmatics), 一 直 是 中 外 语 用 习 得 研 究 者 的 热 门 课 题 (Kasper & Rose, 2002) 在 中 国, 各 级 英 语 教 学 大 纲 高 等 学 校 英 语 专 业 教 学 大 纲 大 学 英 语 课 程 教 学 要 求 ( 试 行 ) 以 及 九 年 义 务 教 育 全 日 制 初 级 中 学 英 语 教 学 大 纲 ( 试 用 修 订 版 ) 和 全 日 制 高 级 中 学 英 语 教 学 大 纲 ( 试 验 修 订 版 ) 均 要 求 英 语 教 学 以 培 养 语 用 能 力 为 教 学 原 则, 但 是, 以 上 大 纲 都 没 有 明 确 提 出 语 用 能 力 的 测 试 方 法 在 语 际 语 用 学 研 究 中, 有 六 种 比 较 常 用 的 测 量 工 具, 即, 话 语 填 充 (Discourse Completion Tasks) 角 色 扮 演 (Role Play) 多 项 选 择 题 (Multiple-choice Questions) 等 级 回 应 问 卷 (Scaled-response Questionnaires) 采 访 (Interviews) 和 有 声 思 维 (Think Aloud Protocols) 关 于 以 上 语 用 能 力 测 试 工 具 的 信 度 和 效 度 的 研 究 在 国 外 的 文 献 中 有 一 定 数 量 的 研 究, 但 是 国 内 的 相 关 文 献 不 多 见 84
语 用 能 力 测 试 工 具 的 效 度 和 信 度 研 究 在 20 世 纪 90 年 代, 赫 德 森, 德 特 默 和 布 朗 (Hudson,Detmer & Brown, 1992,1995) 最 具 有 典 范 性 的 研 究 提 出 了 六 种 测 试 语 用 能 力 的 方 法, 即 1) 书 面 话 语 填 充 (Written Discourse Completion Tasks),2) 多 项 选 择 话 语 填 充 (Multiplechoice Discourse Completion Tasks),3) 听 说 话 语 填 充 ( Listening Discourse Completion Tasks),4) 话 语 角 色 扮 演 (Discourse Role-play Tasks),5) 话 语 自 我 评 价 (Discourse Self-assessment Tasks),6) 角 色 扮 演 自 我 评 价 (Role-play Selfassessment ) 国 外 的 研 究 主 要 集 中 探 讨 以 上 六 种 测 试 工 具 的 信 度 和 效 度, 尤 其 对 话 语 填 充 角 色 扮 演 和 多 项 选 择 的 研 究 较 多 罗 斯 (Rose,1994) 探 讨 了 在 亚 洲 语 境 下 话 语 填 充 的 效 度 ; 罗 斯 和 小 野 (Rose & Ono,1995) 使 用 日 语 言 语 行 为 来 分 析 多 项 选 择 的 有 效 性 ; 约 翰 斯 顿, 卡 斯 珀 和 罗 斯 (Johnston, Kasper & Ross,1998) 也 针 对 多 项 选 择 选 项 的 有 效 性 进 行 了 研 究 文 献 中 还 有 对 两 种 工 具 进 行 比 较 的 研 究 ; 山 下 (Yamashita,1996) 使 用 话 语 填 充 和 角 色 扮 演 的 不 同 形 式, 即 书 面 或 口 语 等 位 测 量 工 具 比 较 了 日 语 学 习 者 语 用 能 力 测 试 的 信 度 和 效 度 ; 吉 武 (Yoshitake,1997) 用 定 性 研 究 的 方 式 比 较 了 话 语 填 充 和 角 色 扮 演 的 测 试 效 果 ; 欣 克 尔 (Hinkel,1997) 使 用 对 话 语 填 充 和 多 项 选 择 两 种 工 具 比 较 了 外 语 学 习 者 运 用 建 议 言 语 行 为 的 表 现 情 况 进 入 20 世 纪 以 来, 国 外 的 研 究 进 一 步 深 入, 但 是 数 量 相 对 较 少 比 尔 迈 耶 和 瓦 尔 盖 斯 (Billmyer & Varghese,2000) 调 查 了 话 语 填 充 的 使 用 有 效 性 ; 诺 里 斯 (Norris,2001) 考 察 了 德 语 口 语 测 试 与 社 会 语 言 能 力 的 称 呼 行 为 之 间 的 关 系 ; 赫 德 森 ( Hudson,2001) 讨 论 了 三 种 评 估 语 用 产 出 的 方 法, 即 话 语 填 充 在 实 验 室 中 录 音 的 语 篇 填 充 测 试 和 角 色 扮 演, 结 果 是 话 语 填 充 和 角 色 扮 演 好 于 在 实 验 室 录 制 中 的 表 现 ; 布 朗 ( 2001) 基 于 赫 德 森 德 特 默 和 布 朗 (Hudson,Detmer & Brown,1992, 1995) 提 出 的 六 种 语 用 能 力 测 试 方 法, 比 较 了 他 们 在 英 语 作 为 外 语 的 环 境 和 日 语 作 为 第 二 语 言 的 环 境 下 的 信 度 和 效 度 ; 戈 拉 托 (Golato,2003) 使 用 恭 维 应 答 对 话 语 填 充 和 自 由 交 谈 进 行 了 对 比 ; 同 样, 阿 恩 ( Ahn,2005) 比 较 了 韩 语 学 习 者 语 用 能 力 的 不 同 测 试 效 果 此 外, 语 用 能 力 测 试 在 测 量 工 具 和 分 析 模 式 上 有 了 一 些 研 究 进 展 沃 尔 特 斯 (Walters,2007) 另 辟 奇 径, 使 用 话 语 分 析 的 方 法 来 测 量 语 用 能 力, 认 为 经 典 的 话 语 填 充 法 是 不 科 学 的 ; 罗 伊 弗 (Roever, 2001, 2005, 2006) 使 用 以 网 络 为 中 心 的 测 试 程 序, 测 量 言 语 行 为 会 话 含 义 和 习 惯 用 语 理 解, 打 破 了 语 用 能 力 的 测 试 范 围 和 测 量 方 式 多 田 (Tada,2005) 使 用 了 产 出 测 试 感 知 测 试 测 量 了 语 用 产 出 和 感 知 的 效 果 ; 伊 (Youn,2007) 使 用 FACETS 分 析 了 不 同 评 分 员 在 话 语 填 充 在 实 验 室 中 录 音 的 语 篇 补 全 填 充 和 角 色 扮 演 三 种 测 试 中 的 严 厉 程 度 ; 索 拉 尔 和 马 蒂 内 - 弗 洛 尔 (Soler & Martinez-Flor,2008) 以 53 名 以 韩 语 为 外 语 的 大 学 生 为 研 究 对 象, 通 过 四 85
种 测 试 ( 书 面 话 语 填 充 测 试 口 头 话 语 填 充 测 试 角 色 扮 演 和 角 色 扮 演 自 我 评 估 ), 从 三 个 层 面 ( 权 势 距 离 和 强 加 程 度 ) 对 三 种 言 语 行 为 ( 请 求 拒 绝 和 道 歉 ) 进 行 了 测 试, 旨 在 探 讨 不 同 语 用 功 能 评 估 者 数 量 及 题 型 对 不 同 类 型 的 语 用 能 力 测 试 信 度 的 影 响, 同 时 也 为 设 计 更 加 可 靠 的 语 用 测 试 提 供 了 选 择 ( 转 引 自 白 丽 梅,2010) 国 内 的 相 关 研 究 较 少 桑 思 民 栾 守 凤 (1993) 使 用 问 候 道 歉 询 问 赞 誉 请 求 道 别 提 议 和 介 绍 言 语 行 为, 测 试 40 名 英 语 专 业 四 年 级 学 生 的 语 用 能 力, 但 着 重 分 析 测 试 之 后 学 生 语 用 能 力 的 情 况, 对 测 试 工 具 的 分 析 很 少 刘 芹 戴 炜 华 (2004) 介 绍 了 语 用 测 试 的 内 容, 着 重 介 绍 语 用 口 试 的 题 型 和 评 估 办 法 刘 建 达 (2006, 2007, 2008) 是 首 个 系 统 介 绍 语 用 能 力 测 试 并 做 实 证 研 究 的 国 内 学 者 他 (2006) 根 据 赫 德 森 德 特 默 和 布 朗 (Hudson,Detmer & Brown,1992, 1995) 的 六 种 测 试 方 法, 设 计 了 三 种 测 试 方 法, 即, 书 面 话 语 填 充 多 项 选 择 话 语 填 充 和 话 语 自 我 评 价, 考 察 了 中 国 学 生 使 用 英 语 请 求 和 道 歉 两 种 言 语 行 为 的 情 况 杨 满 珍 (2009) 总 结 了 国 内 外 语 用 测 试 的 研 究 进 展 正 如 刘 建 达 (2008) 所 评 价 的, 目 前 语 用 能 力 测 试 主 要 存 在 四 个 方 面 的 问 题 : 情 景 的 采 集 社 会 语 用 变 量 评 分 标 准 和 测 试 方 法 本 研 究 以 测 试 方 法 为 主 要 研 究 对 象, 探 讨 书 面 话 语 填 充 ( 书 面 ) 多 项 选 择 话 语 填 充 ( 选 择 ) 和 话 语 自 我 评 价 ( 自 评 ) 三 种 语 用 能 力 测 试 方 法 的 有 效 性 和 可 行 性 这 三 种 语 用 能 力 测 试 方 法 是 语 用 能 力 测 试 中 最 常 用 的 测 试 工 具, 因 为 他 们 具 有 可 操 作 性 前 人 的 研 究 多 数 结 果 表 明 这 三 种 语 用 测 试 工 具 有 较 好 的 信 度 和 效 度, 但 是 存 在 的 问 题 也 不 少, 而 且 针 对 中 国 英 语 学 习 者 的 研 究 不 多 国 内 外 对 他 们 进 行 系 统 的 研 究 发 现 不 同 环 境 下 使 用 三 种 测 试 的 效 果 有 不 一 致 的 结 果, 如, 布 朗 (Brown,2001) 的 研 究 发 现 以 日 语 为 第 二 语 言 环 境 的 测 试 效 果 好 于 以 英 语 为 外 语 环 境 的 情 况 ; 刘 建 达 (2006) 的 研 究 结 果 表 明 三 种 测 试 方 法 在 以 英 语 为 外 语 的 环 境 下 中 国 学 生 的 测 试 效 果 比 较 好, 但 是 仍 需 要 在 样 本 量 和 测 试 内 容 上 再 进 一 步 研 究 因 此, 本 研 究 希 望 再 次 考 察 使 用 这 三 种 测 试 方 法 来 测 试 以 英 语 为 外 语 的 中 国 学 生 的 情 况, 并 以 刘 建 达 (2006) 的 研 究 为 比 较 蓝 本, 试 图 从 分 析 中 找 出 语 用 能 力 测 试 有 效 和 可 行 的 方 法, 使 语 用 能 力 测 试 进 一 步 走 向 大 众 化, 而 不 是 仅 局 限 于 语 用 能 力 习 得 和 测 试 的 研 究 中 2 研 究 方 法 2.1 研 究 问 题 本 研 究 考 查 三 种 测 试 工 具 的 效 度, 即 考 查 试 题 是 否 测 量 了 我 们 想 要 测 量 或 考 86
语 用 能 力 测 试 工 具 的 效 度 和 信 度 研 究 查 的 语 用 能 力 或 内 容 根 据 测 试 领 域 的 研 究, 如 布 朗 (Brow,2001) 认 为, 效 度 有 三 种 基 本 衡 量 方 法 : 内 容 效 度 (content validity) 标 准 关 联 效 度 (criterion-related validity) 和 结 构 效 度 (construct validity) 同 时 还 考 查 两 种 信 度, 即 测 试 结 果 的 可 靠 程 度 : 第 一 种 是 试 卷 信 度, 主 要 是 样 本 的 大 小 和 区 分 度 等, 如 果 取 样 大, 样 本 具 有 广 泛 性, 测 试 的 信 度 就 高, 反 之 信 度 就 低 若 试 题 太 难 或 太 易, 考 试 分 数 集 中 于 某 一 点 或 某 一 区 域, 测 试 也 失 去 信 度 ; 第 二 种 是 评 分 员 的 信 度, 评 分 员 对 评 分 标 准 的 把 握 是 否 一 致 对 信 度 影 响 很 大 本 着 探 讨 三 种 语 用 能 力 测 试 工 具 有 效 性 和 可 信 度 的 研 究 目 的, 本 研 究 回 答 以 下 研 究 问 题 : 1. 书 面 话 语 填 充 多 项 选 择 话 语 填 充 和 话 语 自 我 评 价 三 种 语 用 能 力 测 试 方 法 的 效 度 如 何? 2. 书 面 话 语 填 充 多 项 选 择 话 语 填 充 和 话 语 自 我 评 价 三 种 语 用 能 力 测 试 方 法 的 信 度 如 何? 2.2 测 试 对 象 语 用 能 力 的 体 现 以 口 语 为 主, 在 听 说 读 写 译 五 项 技 能 中, 属 于 输 出 性 技 能 本 研 究 选 取 了 高 校 英 语 专 业 一 年 级 学 生 进 行 测 试 大 一 学 生 在 口 语 课 程 学 习 中 掌 握 了 基 本 的 语 用 能 力 所 涵 盖 的 内 容, 如 建 议 邀 请 感 谢 等, 而 且 具 备 了 一 定 的 英 语 阅 读 和 写 作 的 能 力 整 理 367 份 试 卷, 有 少 部 分 学 生 出 现 漏 答 题 现 象, 最 终 315 份 试 卷 有 效 学 生 的 英 语 外 教 口 语 课 成 绩 平 均 分 为 85.61, 标 准 差 为 3.68, 这 说 明 他 们 的 口 语 能 力 较 好, 水 平 大 体 一 致 为 确 切 了 解 参 加 者 的 有 关 信 息, 本 研 究 在 测 试 前 进 行 了 包 含 三 个 问 题 的 问 卷 调 查, 根 据 问 卷 分 析, 没 有 学 生 上 大 学 前 到 过 英 语 国 家 286 名 (90.8%) 学 生 表 示 只 在 课 堂 上 与 英 语 为 本 族 语 的 外 教 说 英 语, 只 有 17 人 (5.4%) 表 示 经 常,12 人 (3.8%) 表 示 从 不 以 上 信 息 表 明, 参 加 者 的 英 语 学 习 经 历 和 背 景 基 本 相 同 2.3 测 试 试 题 设 计 为 了 便 于 比 较, 三 种 测 试 方 式 的 内 容 是 一 致 的, 包 括 十 种 常 用 的 言 语 行 为, 但 是 答 题 的 方 式 有 所 不 同 书 面 试 卷 由 学 生 根 据 设 定 的 情 景 自 己 写 回 答, 选 择 试 卷 由 本 研 究 人 员 提 供 三 种 回 答 供 学 生 选 其 中 之 一, 自 评 则 根 据 所 提 供 的 一 种 回 答 进 行 判 断, 按 李 克 特 的 5 级 制 选 择 其 恰 当 性 三 份 试 卷 的 设 计 分 为 以 下 三 个 步 骤 : 第 一 步 为 三 种 测 试 方 法 测 试 内 容 的 选 取 设 计 的 依 据 以 前 人 的 研 究 和 英 语 教 学 87
大 纲 对 常 用 语 表 达 的 要 求 为 基 础, 选 择 了 十 种 常 用 的 言 语 行 为, 即, 邀 请 道 歉 建 议 赞 扬 请 求 道 谢 拒 绝 抱 怨 提 供 问 候, 并 且 设 计 了 十 种 言 语 行 为 分 别 出 现 的 三 种 场 景, 即, 面 对 身 份 高 的 场 景 朋 友 间 的 场 景 和 面 对 身 份 低 的 场 景, 最 终 生 成 一 份 包 含 30 道 题 的 书 面 话 语 填 充 试 卷, 该 试 卷 要 求 学 生 根 据 场 景 写 出 直 接 间 接 和 暗 示 三 种 回 答, 还 要 求 他 们 在 三 种 场 景 中 选 择 他 们 认 为 在 日 常 生 活 中 最 常 见 的 一 种 场 景 第 二 步 为 场 景 选 择 34 名 英 语 专 业 三 年 级 学 生 参 加 测 试, 根 据 他 们 的 选 择 发 现 多 数 学 生 选 择 朋 友 间 的 场 景 最 为 常 见, 因 此,30 个 题 压 缩 为 10 个 题 同 时 他 们 的 回 答 根 据 直 接 间 接 和 暗 含 三 种 情 况 作 为 选 择 试 卷 的 三 个 选 择 项, 然 后 从 中 选 择 一 个 选 项 作 为 自 评 试 卷 的 题 项 第 三 步 为 试 测 在 正 式 测 试 前, 聘 请 以 英 语 为 本 族 语 的 外 籍 教 师 对 试 卷 的 效 度 进 行 评 估, 他 们 均 认 为 试 卷 较 好 地 测 试 了 学 生 的 语 用 能 力 随 后, 选 取 同 等 水 平 的 47 名 受 试 做 了 试 测 学 生 所 选 的 题 项 与 外 籍 教 师 的 选 择 基 本 一 致 这 表 明 试 题 的 有 效 性 符 合 要 求 2.4 评 分 标 准 和 数 据 统 计 315 份 书 面 话 语 填 充 答 卷 为 有 效 答 卷, 按 直 接 回 答 间 接 回 答 和 暗 含 回 答 分 类, 10 个 题 项 按 以 上 三 种 回 答 任 意 抽 取 一 名 学 生 的 回 答 作 为 评 分 试 卷, 目 的 是 为 了 增 加 评 分 的 准 确 性 ;34 名 中 国 英 语 教 师 ( 硕 士, 讲 师 以 上, 两 年 英 语 教 学 工 作 经 历 ) 和 31 名 英 语 为 母 语 的 人 士 ( 本 科 学 历 以 上 ) 参 加 了 评 分 然 后 取 中 外 评 分 员 对 三 类 回 答 评 分 的 均 值 为 最 后 得 分,315 份 试 卷 的 评 分 则 按 此 分 值 评 分, 然 后 总 评 10 项 回 答 得 分 为 最 后 得 分 书 面 话 语 填 充 的 评 分 标 准 以 赫 德 森 德 默 特 和 布 朗 (Hudson, Detmer & Brown, 1992, 1995) 的 测 试 方 法 中 的 四 个 评 分 标 准 为 对 照 标 准 : 即, 语 言 表 达 的 正 确 性 (Correction of Expressions), 信 息 量 (Quantity of Information), 语 用 策 略 选 择 的 恰 当 性 (Level of Strategies Choices), 话 语 的 正 式 程 度 ( Level of Formality) 评 分 等 级 为 5 分 制 评 分,5 分 为 完 全 恰 当,4 分 为 比 较 恰 当,3 分 为 一 般,2 分 为 不 恰 当,1 分 为 完 全 不 恰 当 根 据 中 外 评 分 员 的 平 均 值, 取 三 项 中 最 高 一 项 为 多 项 选 择 话 语 填 充 题 的 答 案 最 后, 选 择 一 种 回 答 作 为 话 语 自 我 评 价 题 的 题 目 供 学 生 判 断 其 恰 当 性, 该 试 题 的 评 分 等 级 也 同 书 面 试 卷 的 评 分 等 级 一 样, 为 5 分 制 使 用 人 文 社 会 科 学 的 统 计 软 件 包 (SPSS)16.0 进 行 数 据 分 析 本 研 究 首 先 进 行 内 容 效 度 的 分 析, 使 用 相 关 分 析 来 体 现 标 准 关 联 效 度, 因 子 分 析 考 查 结 构 效 度 ; 信 度 问 题 主 要 使 用 克 朗 巴 哈 α 信 度 分 析, 即, 学 生 试 卷 成 绩 和 评 分 员 评 分 成 绩 信 度 88
语 用 能 力 测 试 工 具 的 效 度 和 信 度 研 究 3 研 究 结 果 与 讨 论 3.1 研 究 问 题 1 效 度 3.1.1 内 容 效 度 内 容 效 度 指 测 试 中 所 涉 及 到 的 内 容 要 有 代 表 性, 要 准 确 全 面, 要 充 分 体 现 所 测 试 的 内 容 从 全 面 性 来 看, 本 次 测 试 包 括 十 种 言 语 行 为, 不 是 单 一 的 一 种, 因 而 试 卷 有 全 面 性 ; 其 代 表 性 表 现 为 常 用 言 语 表 达 法, 是 经 常 发 生 在 日 常 生 活 中 的 言 语 行 为 ; 准 确 性 主 要 体 现 在 : 首 先 经 过 34 人 的 试 测 (30 个 题 包 含 高 中 等 低 三 种 权 势 关 系 ), 根 据 他 们 的 选 择 确 定 10 个 题 ( 均 为 最 常 见 的 平 等 关 系 ), 然 后, 再 次 通 过 47 人 的 试 测, 并 根 据 试 测 情 况 修 改 试 题, 而 且 多 项 选 择 话 语 填 充 题 的 选 择 项 均 来 自 学 生 对 书 面 话 语 填 充 答 卷 的 回 答, 因 而 准 确 性 较 好 3.1.2 标 准 关 联 效 度 从 标 准 关 联 效 度 使 用 相 关 分 析 可 看 出 三 种 测 试 的 关 联 程 度, 从 表 1 可 看 出 三 种 测 试 之 间 的 相 关 度 为 微 相 关, 相 关 性 很 低 书 面 与 选 择 的 相 关 系 数 为 0.188, 书 面 与 自 评 为 0.179, 自 评 与 选 择 的 相 关 系 数 最 低, 只 有 0.156 尽 管 三 种 测 试 之 间 的 相 关 系 数 不 高, 但 是 有 统 计 显 著 意 义 的 相 关 性, 只 表 明 本 次 测 试 在 一 定 程 度 上 测 试 了 相 似 的 语 用 能 力 ; 这 一 结 果 与 前 人 的 研 究 基 本 一 致 布 朗 (Brown, 2001) 的 研 究 中 以 英 语 为 外 语 的 环 境 测 试 相 关 系 数 也 很 低, 选 择 和 书 面 相 关 系 数 为 0.2254, 而 自 评 与 选 择 只 有 0.0916, 而 且 没 有 显 著 意 义 ; 阿 恩 ( Ahn,2005) 的 研 究 自 评 测 试 和 书 面 测 试 的 相 关 系 数 也 不 高, 只 有 0.50 属 于 弱 相 关 ; 刘 建 达 (2006) 的 三 种 语 用 能 力 测 试 方 法 之 间 虽 然 有 着 显 著 意 义 的 相 关, 三 者 之 间 的 决 定 系 数 介 于 0.267 至 0.469 之 间, 表 示 各 种 方 法 之 间 有 27% 至 47% 的 相 似 性, 但 其 相 关 性 也 不 高 测 试 工 具 书 面 选 择 书 面 选 择 0.188** 0.156** 自 评 0.179** **p<0.01 表 1: 三 种 测 试 的 相 关 分 析 89
3.1.3 结 构 效 度 因 子 分 析 可 以 提 取 三 种 测 试 方 式 的 共 有 特 点 通 过 巴 特 利 特 球 度 检 测 量 的 值 为 26.389,p 值 为 0.000,K MO 为 0.578, 说 明 适 合 进 行 因 子 分 析 ; 本 次 测 试 选 取 特 征 值 大 于 0.8 的 项 为 共 同 因 子 ; 通 过 最 大 负 荷 旋 转 的 情 况 见 下 表 : 测 试 工 具 因 子 1 因 子 2 共 性 方 差 书 面 0.693* -0.094 0.489 选 择 0.665* -0.589* 0.789 自 评 0.653* 0.699* 0.916 方 差 比 例 0.449 0.281 总 共 0.731 *p<0.05 表 2: 三 种 测 试 的 因 子 分 析 从 表 2 可 以 看 出 因 子 1 的 值 比 较 高, 而 且 比 较 一 致, 表 明 三 种 测 试 方 法 考 核 了 学 生 的 语 用 能 力 ; 因 子 2 在 选 择 填 空 和 自 评 试 卷 中 的 值 比 较 一 致, 表 明 两 者 题 型 的 共 有 特 点 都 是 接 受 性 的, 是 有 选 择 题 项 的, 他 们 的 共 性 分 差 分 别 达 到 了 78.9% 和 91.6% 因 子 分 析 的 结 果 与 前 人 的 研 究 基 本 一 致 布 朗 (Brown, 2001) 的 两 个 因 子 为 产 出 性 语 言 和 接 受 性 语 言, 他 的 两 种 测 试 方 法 中 有 明 显 需 要 考 生 自 己 写 出 回 答 的 题 型, 如, 书 面 和 口 语 话 语 填 充, 另 一 类 是 给 出 选 择 答 案 的 选 择 书 面 话 语 填 充 阿 恩 (2005) 也 很 明 显 地 发 现 了 三 个 因 子, 因 子 1 为 口 语 性 测 试, 因 子 2 为 自 评 特 点 的 测 试, 因 子 3 为 书 面 特 点 的 书 面 话 语 测 试 本 研 究 因 子 1 的 结 果 与 刘 建 达 (2006) 的 因 子 1 结 果 接 近 3.2 研 究 问 题 2 信 度 3.2.1 学 生 试 卷 成 绩 描 述 为 了 便 于 对 比 学 生 的 三 种 测 试 成 绩, 笔 者 首 先 对 试 卷 成 绩 进 行 了 描 述 统 计 90
语 用 能 力 测 试 工 具 的 效 度 和 信 度 研 究 测 试 工 具 人 数 满 分 最 高 分 最 低 分 平 均 分 标 准 差 高 于 平 均 分 的 百 分 比 书 面 315 50 49 10 30.62 6.63 51% 选 择 315 50 50 10 40.21 6.172 72.4% 自 评 315 50 45 21 33.98 4.672 54.9% 表 3: 学 生 试 卷 成 绩 描 述 从 表 3 中 的 平 均 分 不 难 看 出, 学 生 的 成 绩 最 低 得 分 是 书 面, 最 高 是 选 择, 这 表 明 书 面 最 难, 也 最 能 体 现 考 生 的 水 平 ; 同 时 选 择 最 容 易, 但 却 不 能 很 好 体 现 最 佳 水 平 ; 自 评 比 较 中 性 以 上 结 果 与 布 朗 (Brown, 2001) 的 结 果 有 些 不 一 致, 他 的 研 究 中, 选 择 的 平 均 得 分 最 低, 其 次 为 自 评, 最 高 得 分 是 书 面 这 种 不 一 致 性 正 好 说 明 书 面 和 选 择 测 试 的 不 稳 定 性 当 然, 本 研 究 与 布 朗 ( Brown, 2001) 的 研 究 在 实 验 条 件 上, 如 实 验 对 象 人 数 和 英 语 水 平 等 方 面 不 完 全 相 同, 出 现 结 论 上 的 不 一 致 也 在 所 难 免 为 进 一 步 了 解 学 生 对 三 种 测 试 形 式 的 评 价, 笔 者 在 三 种 测 试 结 束 后, 列 了 3 个 问 题 请 学 生 回 答 : 你 认 为 哪 种 测 试 形 式 最 难 最 容 易 和 最 能 体 现 考 生 的 能 力? 结 果 见 下 表 : 测 试 工 具 最 难 最 容 易 最 体 现 书 面 176(64.7%) 26(9.56%) 205(75.93%) 选 择 24(8.79%) 200(73.53%) 19(7.04%) 自 评 73(26.74%) 46(16.91%) 46(17.04%) 总 人 数 273(100%) 272(100%) 270(100%) 表 4: 问 卷 结 果 因 对 该 问 卷 的 回 答 有 部 分 学 生 漏 答, 因 此 各 个 问 卷 的 总 人 数 均 未 达 到 315 份, 不 过 回 答 人 数 为 315 人 中 的 85% 以 上, 因 此, 所 得 结 果 有 说 服 力 表 4 中 的 黑 体 数 字 表 明, 书 面 试 卷 是 最 难 的, 因 为 回 答 该 题 需 要 考 生 认 真 思 考 怎 样 回 答 才 恰 当, 因 而 也 是 最 能 体 现 考 生 成 绩 的 试 题 选 择 试 卷 是 最 容 易 的 试 题, 因 有 选 项 供 选 择 这 一 结 果 也 符 合 选 择 填 空 题 的 特 点 而 自 评 试 卷 的 评 价 也 符 合 学 生 所 得 成 绩 的 趋 势, 处 于 中 间 地 带 表 4 的 结 果 正 好 验 证 了 表 3 的 成 绩 结 果 91
3.2.2 学 生 答 卷 成 绩 信 度 在 学 生 成 绩 描 述 统 计 的 基 础 上, 使 用 信 度 分 析 可 以 得 出 三 种 试 卷 间 的 信 度 值, 见 下 表 : 测 试 工 具 人 数 试 卷 信 度 标 准 误 差 三 种 试 卷 间 信 度 书 面 315 0.738 0.374 选 择 315 0.64 0.348 表 5: 学 生 答 卷 成 绩 信 度 0.735 从 表 5 看 出 学 生 成 绩 的 信 度 不 高, 均 未 超 过 0.75, 但 还 算 可 以 接 受 的 范 围 ; 书 面 答 卷 的 信 度 值 最 高, 为 0.738, 选 择 试 卷 的 值 最 低, 为 0.64 不 过 三 种 试 卷 间 的 信 度 系 数 为 0.735, 说 明 三 种 试 卷 的 分 数 差 别 不 是 太 大 造 成 学 生 成 绩 信 度 不 高 的 原 因 主 要 是 书 面 有 3 个 题 有 158(50%) 人 以 上 得 到 同 样 的 分 数, 自 评 有 6 个 题 类 似, 选 择 的 分 值 基 本 一 致, 因 而 信 度 值 最 低 布 朗 (Brown, 2001) 的 研 究 中 以 英 语 为 外 语 的 测 试 组 的 信 度 值 也 比 较 低, 特 别 是 书 面 和 选 择, 也 是 类 似 原 因 ; 山 下 (1996) 比 较 了 六 种 测 试 工 具 的 信 度 系 数, 除 了 选 择 试 题 的 系 数 只 有 0.4562 外, 其 余 的 系 数 均 在 0.9 以 上 ; 阿 恩 ( Ahn, 2005) 的 研 究 除 了 书 面 测 试 的 系 数 为 0.76 以 外, 其 余 的 系 数 都 在 0.9 以 上 ; 刘 建 达 ( 2006) 的 三 种 测 试 工 具 的 信 度 值 很 高, 都 在 0.8 以 上 通 常 情 况 下, 选 择 填 空 题 的 信 度 都 比 较 高, 但 是 语 用 能 力 测 试 的 选 择 题 项 区 分 度 要 么 太 高, 要 么 太 低, 因 而 信 度 值 会 出 现 不 稳 定 的 情 况, 如 3.2.1 节 中 表 3 的 结 果 与 布 朗 (Brown, 2001) 的 结 果 有 些 不 一 致, 这 进 一 步 解 释 为 什 么 多 数 研 究 表 明 选 择 题 的 信 度 低 的 原 因 因 此, 有 的 语 用 测 试 研 究 者 在 做 比 较 研 究 时 往 往 不 考 虑 选 择 测 试, 如, 阿 恩 ( Ahn, 2005) 只 研 究 两 种 书 面 话 语 填 充 形 式 角 色 扮 演 和 自 评 话 语 的 方 法 3.2.3 评 分 员 信 度 如 2.4 所 述, 为 保 证 评 分 的 准 确 性, 从 书 面 话 语 填 充 抽 3 份 答 卷, 邀 请 34 名 中 国 教 师 和 31 名 英 语 外 教 根 据 评 分 标 准 评 分,t 检 验 两 组 评 分 员 所 评 分 数 有 没 有 统 计 意 义 差 别,t=-0.512, p=0.611>0.05 对 三 份 试 卷 的 评 分 进 行 了 信 度 分 析, 结 果 见 下 表 : 92
语 用 能 力 测 试 工 具 的 效 度 和 信 度 研 究 试 卷 信 度 评 分 员 间 信 度 试 卷 1 0.704 试 卷 2 0.707 0.832 试 卷 3 0.784 表 6: 评 分 员 信 度 三 份 试 卷 的 信 度 值 都 在 0.7 以 上, 评 分 员 间 的 信 度 值 为 0.832, 属 于 可 以 接 受 的 范 围, 这 个 结 果 与 山 下 (1996) 和 阿 恩 (Ahn, 2005) 的 4 位 评 分 员 的 信 度 值 相 比 要 低 一 些, 他 们 的 信 度 值 都 在 0.9 以 上 4 结 语 以 上 的 结 果 与 讨 论 表 明, 本 研 究 中 三 种 语 用 能 力 测 试 工 具 的 内 容 效 度 和 结 构 效 度 比 较 好, 但 是, 标 准 关 联 效 度 的 相 关 性 较 低, 信 度 结 果 也 不 够 理 想, 其 中, 书 面 测 试 的 信 度 最 高, 无 论 是 试 卷 信 度 和 评 分 员 信 度 都 有 可 接 受 的 信 度 值, 选 择 试 卷 的 信 度 最 低, 没 有 达 到 可 接 受 信 度 值 ; 自 评 试 卷 居 中, 不 过 信 度 值 也 不 高 该 结 论 与 一 般 语 言 测 试 的 情 况 相 反, 即, 主 观 题 的 评 分 较 低, 客 观 题 的 评 分 和 信 度 系 数 较 高 但 是, 这 一 结 论 进 一 步 支 持 了 语 用 能 力 测 试 文 献 中 的 部 分 研 究 结 果, 如 书 面 测 试 的 准 确 性 选 择 测 试 的 不 稳 定 性 等 不 过, 本 研 究 结 果 与 刘 建 达 (2006) 的 结 论 不 尽 一 致, 这 表 明 在 中 国 以 英 语 为 外 语 的 语 境 下 进 行 语 用 能 力 测 试 还 需 要 再 深 入 研 究 根 据 本 研 究, 可 以 得 到 以 下 启 示 : 书 面 试 卷 的 准 确 性 高, 最 能 体 现 考 生 水 平, 但 评 分 烦 琐, 主 观 性 强, 可 考 虑 小 范 围 的 测 试, 如 平 时 的 单 元 测 试 学 业 考 试 等 ; 自 评 试 卷 评 分 容 易, 而 且 成 绩 稳 定, 可 用 于 大 规 模 考 试, 如 高 考 大 学 英 语 四 六 级 考 试 (CET 4 & CET6) 和 英 语 专 业 四 八 级 考 试 (TEM 4 & TEM8) 等 ; 尽 管 选 择 试 卷 评 分 容 易, 学 生 容 易 答 题, 但 是 选 项 的 命 题 复 杂, 容 易 导 致 考 生 一 边 倒 选 择, 信 度 不 是 很 高, 不 能 很 好 体 现 学 生 的 水 平, 不 太 适 合 大 规 模 考 试 当 然, 本 研 究 所 设 计 的 题 量 不 够 多, 因 而 学 生 答 题 有 一 定 局 限 性, 建 议 增 加 到 15 个, 使 试 题 的 可 信 度 更 高 些 ; 为 避 免 考 生 回 答 等 级 单 一, 增 加 言 语 行 为 回 答 的 身 份 等 级 以 加 大 难 度, 如, 设 高 中 等 低 三 种, 这 样 更 能 考 查 学 生 在 实 际 场 景 的 运 用 能 力 ; 书 面 话 语 填 充 的 评 分 标 准 再 精 确 些, 因 为 评 分 标 准 的 主 观 性 会 导 致 评 分 不 一 致 93
注 释 * 本 研 究 获 2010 年 重 庆 市 教 育 委 员 会 人 文 社 会 科 学 研 究 项 目 ( 项 目 编 号 10SKI03) 立 项 资 助 参 考 文 献 Ahn, R. C. 2005. Five measures of interlanguage pragmatics in KFL(Korean as foreign language)learners. Unpublished doctoral dissertation, University of Hawaii at Manoa, Hawaii. Billmyer, K. & M. Varghese. 2000. Investigating instrument-based pragmatic variability: effects of enhancing discourse completion tests. Applied Linguistics 4: 517 552. Brown, J. D. 2001. Pragmatics tests: different purposes, different tests. In K. R. Rose & G. Kasper(eds.), Pragmatics in Language Teaching. Cambridge:Cambridge University Press,301 325. Golato, A. 2003. Studying compliment responses: a comparison of DCTs and recordings of naturally occurring talk. Applied Linguistics 1: 90 121. Hinkel, E. 1997. Appropriateness of Advice: DCT and Multiple Choice Data. Applied Linguistics 18: 1 26. Hudson, T. 2001. Indicators for pragmatic instruction. In K. R. Rose & G. Kasper(eds.), Pragmatics in Language Teaching. Cambridge: Cambridge University Press,283 300. Hudson, T., E. Detmer & J. D. Brown. 1992. A Framework for Testing Cross-Cultural Pragmatics(Technical Report #2). Honolulu: University of Hawaii, Second Language Teaching & Curriculum Center. 1995. Developing Prototypic Measures Of Cross-Cultural Pragmatics(Technical Report #7). Honolulu: University of Hawaii, Second Language Teaching & Curriculum Center. Johnston, B., G. Kasper & S. Ross. 1998. Effects of rejoinders in production questionnaires. Applied Linguistics 19(2): 157 182. Norris, J. 2001. Use of address terms on German speaking test. In K. R. Rose & G. Kasper (eds.), Pragmatics in Language Teaching. Cambridge: Cambridge University Press, 94
语 用 能 力 测 试 工 具 的 效 度 和 信 度 研 究 248 282. Kasper, G., & C. Roever. 2005. Pragmatics in second language learning. In E. Hinkel(ed.), Handbook in Second Language Teaching and Learning. London: Laurence Erlbaume Associated Publisher, 317 334. Kasper, G. & K. R. Rose. 2002. Pragmatic Development in a Second Language. Blackwell: Mahwah. Rose, K. 1994. On the validity of discourse completion tests in non-western contexts. Applied Linguistics 15(1): 1 14. Rose, K., & R. Ono. 1995. Eliciting speech act data in Japanese: the effect of questionnaire type. Language Learning 45: 191 223. Roever, C. 2001. A web-based test of interlanguage pragmalinguistic knowledge: speech acts, routines, and implicatures. Unpublished doctoral dissertation, University of Hawaii, Honolulu, Hawaii. 2005. Testing ESL Pragmatics: Development and Validation of a Web-based Assessment Battery. Frankfurt am Main: Peter Lang. 2006. Validation of a web-based test of ESL pramalinguistics. Language Testing 23(2): 229 259. Soler, E.A. & A. Martinez-Flor(eds.). 2008. Investigating Pragmatics in Foreign Language Learning, Teaching and Testing. Bristol: Multilingual Matters. Tada, M. 2005. Assessment of ESL pragmatic production and perception using video prompts. Unpublished doctoral dissertation, Temple University, Japan. Walters, F.S. 2007. A conversation-analytic hermeneutic rating protocol to assess L2 oral pragmatic competence. language testing, 24(2): 155 183. Yamashita, S. O. 1996. Six Measures of JSL Pragmatics(Technical Report #14). Honolulu: University of Hawaii, Second Language Teaching & Curriculum Center. Yoshitake, S. 1997. Interlanguage competence of Japanese students of English: A multi-test framework evaluation. Unpublished doctoral dissertation, Columbia Pacific University, San Rafael, California. Youn, S. J. 2007. Rater bias in assessing the pragmatics of KFL learners using facets analysis. Second Language Studies 26(1): 85 163. 95
白 丽 梅, 2010, 中 介 语 语 用 学 多 语 言 跨 文 化 研 究 外 语 学 习 教 学 和 测 试 中 的 语 用 学 研 究 评 介, 外 语 教 学 与 研 究 (6): 475 477 刘 建 达,2006, 中 国 学 生 英 语 语 用 能 力 的 测 试, 外 语 教 学 与 研 究 (4): 259 265 2007, 语 用 能 力 测 试 的 评 卷 对 比 研 究, 现 代 外 语 (4): 395 404 2008, 语 用 能 力 测 试 研 究 : 现 状 问 题 与 启 示, 外 语 研 究 (4): 52 58 刘 芹 戴 炜 华,2004, 语 用 测 试 及 其 在 英 语 口 语 能 力 评 估 中 的 应 用, 上 海 电 力 学 院 学 报 (3): 61 66 桑 思 民 栾 守 凤,1993, 跨 文 化 交 际 语 用 测 试 分 析, 外 语 与 外 语 教 学 (4): 30 34 杨 满 珍,2009, 对 大 学 英 语 语 用 能 力 教 学 的 思 考, 广 东 外 语 外 贸 大 学 学 报 (2): 102 105 96