試題評析

Similar documents
表二 105 年國中教育會考英語科閱讀與聽力答對題數對應整體能力等級加標示對照表 閱讀答 對題數 聽力答對題數 待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強

0 0 = 1 0 = 0 1 = = 1 1 = 0 0 = 1


PDFᅲᆰᄏ커￷

Microsoft PowerPoint - spss2-1.ppt

縣 94 學年度 上 學期 區 國民中學 Q 年級 R 領域教學計畫表 設計者:

Microsoft Word - 94_2_stat_handout08_線性迴歸(考古題).doc

統計分析入門與應用 說明 : a. 獨立樣本 : 兩個來自於獨立, 沒有相關的樣本 b. 成對樣本 : 兩個平均數來自於同一個樣本, 有關係的樣本 7-2 Means 平均數分析 Means 平均數分析是用在不同類別變數組合下, 連續變數在各組的統計量, 例如 : 平均數 中位數 標準差 總合 最小

二 戶外教學的性質


1 500 表 1: 各國平均分數

~ ( ) ( ) ( ) 5 1 ;005 ( ) 11 ; (1) ( 150 ) () ( ) (3) ( ) ( ) ( ) 006 ( 6 18 ); ( ) 6

基本數學核心能力測驗_行為觀察記錄紙_G2版本



Microsoft Word - ACI chapter00-1ed.docx

When the rejection rule for a test at every level α can be re-written as then xxx is the p-value of the test. xxx < α, If p-value < α, then the test c


第一章  緒論

戒菸實務個案自助手冊105年Ver.2

理性真的普遍嗎 注意力的爭奪戰 科學發展 2012 年 12 月,480 期 13


4

目 录 一 项 目 简 介... 3 二 项 目 核 心 成 果... 6 ( 一 ) 创 新 的 理 论... 7 ( 二 ) 技 术 环 境 与 资 源... 8 三 项 目 的 推 进 方 式 四 项 目 实 施 效 果 ( 一 ) 小 学 语 文 跨 越 式 实 验

選擇學校午膳供應商手冊適用於中、小學 (2014年9月版)

untitled

目次 3 ONTNTS 1 相似形 上 國民中學數學第五冊習作 表示為仿會考或特招題 1-1 比例線段 3 1- 相似多邊形 相似三角形的應用 圓形 -1 點 線 圓 4 - 圓心角 圓周角與弦切角 外心 內心與重心 3-1 推理證明 三角形與多

老人憂鬱症的認識與老人自殺問題

Microsoft Word - _m30.doc

1-4 二 社會工作存在的前提 / 基本假設 Boehm


臺南一中 / 程美鐘老師國文考科 壹前 言 貳選擇題命題趨勢分析 101 年 ~104 年學測題型統計表 測驗目標 年度 基礎形音義 字音 字形 字 詞義 成語 文法與修辭 理解與

840 提示 Excel - Excel -- Excel (=) Excel ch0.xlsx H5 =D5+E5+F5+G5 (=) = - Excel 00

Alternate Form

381 課業輔導學習輔導 20 第二節 中學生的學習輔導 Skinner Skinner Skinner Bandura Bandura (381) 學習輔導.indd /5/31 2:44:13 PM

治療血管的雷射 port wine stain 1988 FDA KTP KTP

73 二 課程簡介

01 用 ActionScript 3.0 開始認識 Flash CS3 Flash 是應用在網路上非常流行且高互動性的多媒體技術, 由於擁有向量圖像體積小的優點, 而且 Flash Player 也很小巧精緻, 很快的有趣的 Flash 動畫透過設計師的創意紅遍了整個網際網路 雖然很多人都對 Fl

Microsoft Word - 94_4_stat_handout_07變異數分析.doc

推理證明 本節性質與公式摘要 1 推理與證明 : 1 已知 2 求證 3 證明 2 思路分析與證明 : 3 輔助線 : 四邊形四邊中點連線性質 : 例 ABCD E F G H AC 6 BD 8 EFGH AC BD 14 E A H B F C G D

Microsoft Word - ACL chapter02-5ed.docx

現在人類獲取地球內部訊息的方法, 是從可能影響我們身家性命安全的地震, 用數學模型把地震資料轉換成地震波速度, 進而獲得地底物質密度與深度的關係 地下世界知多少 km/s g/cm 3 P Gpa km S P S 3,000 3,000 ak K 透視地底 Percy Bridgma

應用外語系學生語文證照列表 103 年 8 月 28 日 103 學年度第 1 學期第 1 次課程委員會議訂定 103 年 8 月 28 日 103 學年度第 1 學期第 1 次系務會議通過 證照 代碼 證照名稱 國內 / 國外 級數 / 分數 發照單位

二次曲線 人們對於曲線的使用及欣賞 比曲線被視為一種數學題材來探討要早 得多 各種曲線中 在日常生活常接觸的 當然比較容易引起人們的興趣 比如 投擲籃球的路徑是拋物線 盤子的形狀有圓形或橢圓形 雙曲線 是較不常見的 然而根據科學家的研究 彗星的運行軌道是雙曲線的一部 分 我們將拋物線 圓與橢圓 雙曲

2013年香港高級程度會考成績統計

人為疏失 人與人之間的溝通合作, 往往是事故的最終防線, 若能發揮團隊合作的功能, 則比較能克服其他因素所造成的危害

heepwoh-cover

行政法概要 本章學習重點 本章大綱 第一節行政作用之概念 第二節行政作用之分類 一 行政程序法 第三節行政作用法之範圍 第四節行政作用之私法 行為 二 行政罰法三 行政執行法一 源起二 類型 第五節行政作用中的非 權力行為 一 類型 二 事實行為 第六節行政作用之內部 行為 一 行政規則

Chapter 3 Camera Raw Step negative clarity +25 ] P / Step 4 0 ( 下一頁 ) Camera Raw Chapter 3 089

f n kg 1 J 1 2 A 5 B 0.05 C D E A B C D E ppb ppb parts per billion ppb A 1 µg 1

2

常用的統計檢定方法 依變項 DV 類別變數 自變項 IV 連續變數 連續變數 Type A: t 檢定 變異數分析 Type B: 相關 迴歸分析 類別變數 Type C: 卡方檢定 Type D: 判別分析 羅吉斯迴歸

C19 (1)

目次 CONTENTS 2 1 乘法公式與多項式 二次方根與畢氏定理 因式分解 一元二次方程式

第六章社區關係 6.1 廉潔教育工作 圖表二十二 年講座統計總表 86

DIY香草植物乾燥

% % % 獨立 廉正 專業 創新

財金資訊-82期.indd

Microsoft Word - Tridentine NL_C.docx

男人的大腦 女人的大腦

1970 新技術的應用 X = 20 + B 13B δ13c X 1 X


子學習3 電子學習的定位 傳統電子學習 與 新世代電子學習 SAMS 台上講者從左至右 : 吳薇薇女士 羅陸慧英教授 佘孟先生 李芳樂教授 從 電子銀行服務 到 電子學習 題追3 專蹤電

Zytiga... Zytiga... Zytiga Zytiga Zytiga

攜手拼出圓滿的幸福 2

高雄市光華國民中學九十二學年度第一學期一年級

102_BS

生與死的尊嚴 生與死的尊嚴

生物科 左營高中 / 許惠紋 一 前言 二 試題特色 號稱五年來最難題目 2. 高二 高三課程出題比例高 康熹 97 指考科目. 生物科

Microsoft Word - 結案報告.doc

<4D F736F F D B0D3B77EC3FEA7DEC3C0C476C1C9A5BFA6A1B8D5C3442DB57BA6A1B35DAD702DBEC7ACEC2E646F6378>

10 6, 地球的熱循環

中華民國第 四 十 七 屆中小學科學展覽會

CO 2 以鄰為壑的台灣建築產業

學測精彩析 第壹部分 ( 占 84 分 ) 楊慧媛老師聯合題 師大附中 姚翰玲老師聯合題 梁蕙蓉老師聯合題 說明 : 第 1 題皆計分 第 1 題皆是單選題, 請選出一個最適當的選項標示 在答案卡之 選擇題答案區 每題答對得 2 分, 答錯不倒扣 1 4 A B C D 圖一 答案

NAAC_FNEC.indd

Photoshop CS3 影像創造力 基礎講堂 8 學習流程 學習重要性 學習難度 必學指令工具 實作應用範例 創造舞台燈光的漸層繪圖 延伸學習 雜訊與半透明漸層 8-1 Photoshop Photoshop 8 136

10-2 SCJP SCJD 10.1 昇陽認證 Java 系統開發工程師 的認證程序 Java IT SCJD

一開口就打中人心

C3特教班學習領域課程計畫

一年二班 A081. 生活實業家 音樂教室三 一年二班 A071. 民主審議與公民行動 5F 多功七 一年二班 F191. 插畫設計與版畫創意 4F 圖書館 一年二班 A081. 生活實業家 音樂教室三 一年二班 C091. 打開潘朵拉的盒


Microsoft Word - 94_4_stat_handout_06假設檢定_考古題.doc

42Contents

本章大綱 解剖學與生理學的定義人體組成的層次身體系統介紹恆定 正回饋 負回饋恆定正回饋機轉負回饋機轉解剖語言解剖學姿勢身體剖面體腔背側體腔腹側體腔腹部四象限分法與九分法四象限分法九分法 學習目標 1. 能了解解剖學和生理學的定義及範圍 2. 能了解人體組成的各個階層 3. 能了解人體的基本結構 4.

四技二專統測國文科 93 ~ 98 年 表一 單元名稱 字音辨正 ( 正確讀音 形近字讀音辨識 ) 字形測驗 ( 正確字形 同音字形使用辨識 ) 字 詞義 解釋 ( 一字多義 古今異義

三 冊別比重趨勢分析 表三 104 學測與 105 學測試題冊次比例分析 貳 101 課綱下的歷史科學測試題特色

¦ÛµM¬ì²Ä3¦¸²Õ¨÷-¾Ç´ú¤ºŁ¶«ÊŁ±.prn, page Normalize ( <4D F736F F D20A6DBB54DACECB2C433A6B8B2D5A8F72DBEC7B4FAA4BAADB6ABCAADB12E646F63> )

Microsoft Word - 手冊.docx

99學年第1學期教育心理學研究

( ) (1) (2) (3) (4) 2

SW cdr

1

影響未婚同居的因素:以大學生為樣本的問卷調查

3. ( 41 ) 1 ( ) ( ) ( ) 2 (a) (b) ( ) 1 2 負責人是指負責處理保險代理人的保險代理業務的人士 業務代表是指代表保險代理人銷售保險產品的人士 如保險代理人聘用上述人士 ( 例如該保險代理人是法人團體 ), 則其負責人及業務代表須向保險代理登記委員會登記 保險代理

中華民國 第49屆中小學科學展覽會

座談會 貳 選拔情況 一 選拔要求

Microsoft Word - ok翁志文、張佳音...doc


愛滋實務與治理的政治 - 綜合論壇 以及面對這一連串以 責任 為架構衍生出來的愛滋政策如何造就了台灣現在的愛滋處境

Transcription:

1 高普考重點題神 高 教育測驗與統計 < 傅立葉老師精選 > 點一 實作評量的類型與設計原則分別為何? 請說明評分規準 (Rubrics) 的意義 主要方式 發展流程 以及在實作評量中的應用 ( 一 ) 前言 : 自 198 年代, 實作評量 (performance assessment) 由專業領域轉至教室評量領域, 至今已成為教育評量的另類主流 影響實作評量發展的因素大致包括 ; 對標準化測驗的批判 對學習與思考的認知研究成果 以及在認知科學與電腦科技的發展 等 特別是科技整合的趨勢使評量可以更多元化 更深入化 實作評量是介於評量認知能力與在真實情境中之應用能力兩者間, 在模擬各種不同真實程度的測驗情 境下, 提供教師一種有系統的評量學生實作表現的方法 例如, 自然課程比較重視學生在實驗室的操作技能 數學課程比較重視學生的演算及實際問題解決技能 語言課程比較重視學生的口語表達技能等, 由於典型的客觀式和論文式測驗無法測量這些實作表現技能, 實作評量因而提供直接測量上述學習成果的有用訊息 高在專門評量知識與理解的客觀式紙筆測驗之外, 實作評量提供另一種有用的輔助評量方式, 這種在真實教育情境下進行的評量, 最大的好處是除了可以改變教學和評量, 進而促進改善教育外, 更可以各種方法增進學生 教師及家庭所應扮演的角色 實作評量的類型 : 1. 紙筆表現紙筆表現有別於傳統的紙筆測驗, 它更強調在模擬情境中應用知識與技能 這種紙筆評量方式的應上用可能是最後學習成果的展現, 例如在測驗編製的課程裡實際設計一份雙向細目表, 並據以編擬一份試卷 ; 也作為動手操作前的初步評量, 例如要求學生寫出檢查和啟動機器的安全步驟 在紙筆表現測驗中, 時常使用類似 設計 編製 擬定 創造 撰寫 等行為動詞, 例如設計一份海報 擬定活動流程等 紙筆表現測驗的施測方式是團體的 紙上的, 所以具有經濟與安全的價值. 辨認測驗指以實物作為刺激, 但要求的仍為語文反應 ( 紙筆或口頭 ), 而不要求學生實際操作 例如在某種情境下, 只要求學生辨認一套工具或一組器具, 並指明其功用而已 ; 比較複雜的是, 教師操作一輛故障的汽車給學生看和聽, 要求他們指出最可能故障的部分, 並說出應採取的檢查步驟及所需用到的工具 另外, 化學系學生需要辨認各種化學物質和儀器設備 外語系學生需要辨認正確的發音等也是該類測驗的例子 因此辨認測驗在認知層次上, 不只可以測量知識, 也可以測量分析與評鑑的層次 3. 結構化表現測驗係要求學生在標準且控制下的情境完成實作作業, 測驗情境的結構性甚高, 它要求每位學生都能表現出相同的反應動作 這種測驗和標準化測驗一樣, 特別強調施測和計分過程的一致性和公平性, 因而在儀器設備 材料 時間 要求的實作上都有一致的規定 ; 而在計分上, 通常根據多個標準來評定, 例如成品精確性 實作步驟的適當性 工作速度 符合規定的程度 當使用結構化表現測驗時, 也許需要設定可被接收的最低表現水準 但不論採用何種標準作為判斷表現良窳的依據, 都必須使用操作行定義 版權所有, 以可被觀察到的 測量到的及可被量化的數字形式重製必究!, 加以描述和界定可被接受的最低表現水準, 如此的評量結果才會具有客觀性和公正性 4. 模擬表現為配合或替代真實情境中的表現, 局部或全部模擬真實情境而設立的一種評量方式 例如, 在體育課程中, 針對一個假想的球練習揮棒與一位假想選手模擬拳擊對打 ; 在社會科學課程中, 學生角色扮演法庭審判 市政會議的進行 等, 都是一種模擬表現 5-1

1 高普考重點題神可高模擬表現在學校的應用實例, 例如, 輔導教師以角色扮演方式幫助畢業學生演練就業晤談的能力 ; 也適合用來檢驗各種災變因應計畫的效能, 並同時訓練相關人員應變的能力, 例如舉行消防演習 防震演習等 5. 工作範本在實作評量中, 工作樣本算是真實性程度最高的一種評量方式, 它需要學生在實際作業上, 表現出所要測量的全部真實技能 工作樣本通常取自真正工作中較重要的部分點, 而把較不重要的或有危險性的部分去除 例如, 在模擬道路的標準場地裡進行駕駛執照的路考 在商業及工業教育中的實作評量, 也都常使用工作樣本的評量方式, 例如, 要求學生速記一段口述資料 打一封商業書信或操作電腦分析一份商業資料等 工商企業界在僱用新進人員時常採用 試用制度, 分派新人做一些簡單的工作, 實際上就是以工作樣本法來進行評量 另外, 在甄選製圖或美工新進人員時, 要求應徵者提出個人作品專輯, 以展示個人能力與成就, 也是一種工作樣本的評量方法 實作評量的設計原則 : (1) 確立實作評量的目的 () 確認實作評量的標準 (3) 提供適當的表現情境 (4) 選擇計分和評分方法高( 二 ) 評分規準的意義 : 在測驗評量上, 評分規準是一套經過設計之評估能力表現的規則 指引或標準 其清楚列明表現標準及評分等級, 以及所要評估的特點或範疇, 由教師事先擬定, 讓學生清楚知道他們所要達到之程度, 其對於評定學生的努力成果非常有效, 並可提升學習動機 在教學上, 它可以讓教師向學生說明教師對於作業所期待的標準, 而學生也可以依據它來進行 修改和評鑑自己的作業 ; 在評量上, 他可用來提高評分結果的客觀性與公平性 上主要方式 : 特別是針對評分常涉及主觀的實作評量, 為增進評分效率, 避免評分時太過主觀, 近來評量專家發展出分析式 (analytic rating) 法與整體式 (holistic rating) 法兩類評分規準的主要評定方式 其中, 分析式法常以一種雙向的表格呈現評分規準的兩個向度 一個向度是一系列用以判斷的規準 (criteria), 另外一個向度是三到四個層次的精熟水準 (level), 而在這兩個向度所構成的每一個細格裡都有文字說明, 以界定每一精熟水準的狀況 視需要, 每一個規準也可以依其重要性給予不同加權 (weight) 檢核表為分析式評定法其中的一種 把要觀察的行為或作品先分解成幾個要素, 列成一清單, 然後逐一作判斷, 最後再合計總分 其使用一組列出表現或成果的測量向度, 並且提供簡單記錄 是 或 否 判斷的資料表 適用於當作品或動作可以細分為一系列明確且具體的要素, 而這些要素又可以作二分法判斷 ( 是或否 有或無 合格或不合格 ) 至於, 整體式法則為只對學生表現的品質參照評分指標或, 評分規準中對各級分或等第之表現的整體綜合描述, 直接給予一個整體性的分數或等第 評分規準的發展流程 ( 唐舒愉,6): 1. 查看樣本 : 將優質和瑕疵的作品同時並列, 辨識其擁有的特質 ;. 列出評量項目 : 寫下評量的理由, 以及展示學生應學習的內涵 ; 3. 群組評量項目 : 將理由整理成群組或類別, 使成層面或向度, 並按重要性與邏輯排列 ; 4. 定義 : 對每一個層面或向度寫出其性質的定義 ; 5. 明確表達質量的漸進性 : 決定量尺等級, 再清楚具體描述各程度的表現 ; 6. 收集舉例樣本 : 作為教師將來評分的基準, 亦可協助學生了解優良作品的特徵 ; 7. 不斷修正 版權所有, 重製必究! 評分規準在實作評量中的應用 : 評分規準可以應用在國民中學學生寫作測驗 設立音樂評量標準 表演藝術等藝術與人文的實作評量上 因為評分規準是一種等級量尺, 它具體地說明了該評量項目的精通程度, 用文字詳盡告知學生各自標的層次及要求 以音樂評量為例,Asmus(1999) 也認為評分規準寫下了學生能夠達成的學習任務, 5-

1 高普考重點題神高提供學生未來改善其音樂表現的依據 Hickey(1999) 亦建議音樂老師應揚棄區分等第的作法, 以列出三至五個與學習目標相對應的重要組成成份, 再運用文字將學生達成的表現層次, 使用三到五個句子加以描述, 將其層次明確界定 二 某測驗發展者, 想知道不同地區和不同性別的受測者在測驗的得分是否不同, 研究為等格設計, 進行了二因子變異數分析, 結果如下表點: 變異來源 SS df Mean Square F 地區.561 4 5.64 5.31 性別 47.64 1 47.64 4.498** 地區 * 性別 73.47 4 18.368 16.385** 誤差 314.84 69 1.11 **p<.1 ( 一 ) 請問該研究者將地區變項分為幾區? ( 二 ) 總共有多少有效的受測者? ( 三 ) 性別變項的 eta-squared(η ) 是多少? 高( 四 ) 表中地區 * 性別呈現的檢驗結果是什麼意思? ( 一 ) 由於自由度的計算為因子水準數 ( 分組數 ) 減一, 依表中之 地區 因子的自由度為 4, 可知, 該測驗發展者將地區變項分為五區 ( 二 ) 有效受測者共有,7 位 其計算為將表中所有自由度加總後, 再加上 1 而得 ( 三 ) 性別變項的 eta-squared 為上47.64 47.64 η = = =.158.151 = 1.51%.561+ 47.64 + 73.47 + 314.84 3158.497 表示性別可以解釋受測者在該測驗得分的變異只占總變異的 1.51% ( 四 ) 表中 地區 * 性別 的檢定結果為達.1 的顯著水準, 其表示 : 地區與性別的交互作用項對於測驗結果, 具有顯著的影響力, 即交互作用達顯著 溫馨小叮嚀 本題目可以說是教育行政相關各級考試, 第一次出現 eta-squared (η ) 的專有名詞 其實,eta-squared 指的是在 ANOVA 研究中, 由任一個主效果 (main effects) 交互作用(interactions) 與誤差 (error), 所解釋之變異百分比 其值在獨立樣本設計與平衡設計的假設條件成立之變異數分析中, 通常可以直接由電腦報表上找到 它也可以作為效果量 (effect size) 的估計值 實務上, 也有人將其視為判定係數 R 的同義詞 所有 etasquared 加總應滿足為 1(1%) 的條件 三 何謂標準化心理測驗? 在施測標準化測驗時應注意的事項為何? ( 一 ) 標準化心理測驗其定義是在標準化的情境下, 測量個人心理特質的工具或歷程 其使用原則包含下列四點 : 1. 測驗實施必須顧及施測步驟 計分及結果解釋的一致性 ;. 在施測步驟上, 舉凡指導語 時間限制 物理環境和受試者的身心特質都應力求標準化 版權所有, 重製必究! ; 3. 測驗的計分要力求客觀與正確, 結果解釋則需同時考量輔導個案的問題特性與其他記錄資料, 測驗結果才能真實的反應個案的能力 ; 4. 挑選可以適當評量個案能力的測驗 因為市面上的測驗種類很多, 並不是每一種測驗都適合你的個案使用, 因此需先詳讀測驗手冊之內容, 包括 : 適用對象 測驗目的 常模與信效度 測驗題型等的說明 5-3

1 高普考重點題神 高( 二 ) 實施標準化心理測驗應注意事項 : 在實施心理測驗時, 必須特別注意某些細節, 以幫助測驗的順利實施與測驗結果的有效解釋及應用, 通常可分實施前 實施時 和實施後共三個階段加以討論 : 1. 施測前在測驗實施前, 測驗的使用者與施測者必須培養心理測驗的相關素養和正確觀念 ( 如測驗的功能 種類 與測驗結果的解釋等 ), 並妥善擬定測驗計畫點, 具體說明測驗目的 對象 方式 和結果應用等各項目, 以作為日後改進之參考 而在選擇測驗時, 則應考量測驗的信度 效度 和常模等三個要素 效度, 意指一個測驗所能測量到目標能力或特質的程度 ; 效度需達到且具有統計上的顯著性時, 才可說該測驗具有良好的效度 至於信度, 指的是一個測驗結果的穩定性或測驗分數的一致性, 換句話說, 不論測驗的次數多寡, 就一位個別的特定考生而言, 每次測驗結果應該是相近的 常模是用來解釋測驗結果的依據, 以了解學生在該次測驗分數分配中的相對地位 在具備測驗的相關知識和素養後, 施測者便開始準備實際測驗所需的工作 為了保持客觀和標準化的 原則, 施測者必須了解施行過程標準化的重要性 以工具來說, 指導用語或是計分紙等應該以簡明方便為原則 ; 以施測者或工作人員來說, 輔導人員事先應該預演並備妥相關材料 ; 主試和襄試人員在施測前, 應舉行座談會或工作會報, 使大家了解自己重要的工作任務與內容 此外, 若是團體測驗, 輔導老師應該就施測的大致重點加以講解說明, 若是個人測驗高, 則應個別為受試者解釋, 使其了解測驗名稱 測驗目的 測驗所需時間 以及對測驗結果的合理期望 使其免於誤解該測驗的真正目的或功能. 施測時測驗施行的適切時機, 視輔導目的而定 至於要選擇施行個別或是團體心理測驗, 則需視測驗目的是要解決個別困擾或是對學生作一般性的了解而定 施測時間則以上午為宜, 並儘量避免受試者受到他人干擾 ; 如果條件許可, 在專用的測驗教室舉行會更好 此外上, 嚴格控制外在的環境及時間, 做必要的巡視與指導是必須的 如為團體測驗, 輔導老師應正確指示指導語 測驗分數對照表或換算表, 則最好事先準備並發給受測者每人一份 總之, 輔導老師應該在旁確實督導, 以確保測驗結果的正確性及保密性 如為個別或是少數人受測, 只要注意受試者不受干擾, 待答題完畢後, 再面對面示範計分方式及解說結果即可 3. 施測後測驗最後要經過計分 參照常模 換算 畫側面圖 和解釋等工作 如果測驗所需時間較久, 且計分過程複雜, 可以與受試者另約時間來聽解釋 解釋時, 應注意一般性說明 專業說明 及特殊說明 在解釋過程中, 先再次提醒該測驗的目的並請受試者回想答題狀況, 然後再針對其所得的測驗結果加以分析說明, 並解釋各分項所代表與顯示的意義 輔導者應鼓勵個案參與討論, 給予積極正面的協助 如果測驗結果涉及個人隱私, 測驗結果需加以保密, 需告知學生不要互相比較, 給自己貼標籤, 讓學生可以為自己保留適度的彈性 若有需要, 可以另約時間進行進一步的談話 受測後, 輔導者應將測驗結果與其他資料 ( 如家庭社會經濟地位 晤談紀錄 教師評語 自然情境中的觀察 及學生本身健康情形等 ) 配合使用, 避免以單一測驗結果作為決定或解釋的依據 有機會則可協助家長對心理測驗有正確的認識, 以充分發揮其功能, 且給予輔導個案應有的協助 如果有必要, 更可運用測驗結果於個別諮商中, 以蒐集個案資料作為證實, 或是作為個案轉介至其他心理醫療單位前的準備 溫馨小叮嚀 本題若只是考 標準化測驗, 答題內容最大的差別在於, 施測後的結果解釋可省略事後約談受試者 鼓勵個案參與討論 與轉介等內容 ; 若本題改為考 標準化成就測驗, 則答題內容應就試題組合與內容效度 等加強說明! 版權所有, 重製必究! 5-4

1 高普考重點題神 高四 在某研究報告中, 操作統計軟體得如下的分析報表 試回答以下各子題 : 廻歸統計 R 的倍數.836 R 平方.693 調整的 R 平方.6549 點觀察值個數 1 ANOVA 自由度 SS MS F 廻歸 1 315.7 315.7 18.761 殘差 8 1334.678 166.835 總和 9 435.4 係數標準誤高t 統計量 P- 值截距 6.835 15.499.441.679 X 變數.97.18 4.5.8 ( 一 ) 請寫出廻歸預測方程式 ( 二 ) 請針對自變項與依變項自行舉例, 並說明此一廻歸分析告訴妳 ( 你 ) 自變項與依變項之間的關係為何? 是否達顯著?( 請說明答案所依據的表中數值為何 ) 上( 三 ) 此廻歸模式的決定係數為何? 請說明其意義 ( 四 ) 試計算估計標準誤的值 ( 五 ) 請說明廻歸分析應用在預測與解釋的適用時機 ( 一 ) ŷ = 6.835 +.97x ( 二 ) 假設自變項為準備考試時間, 而依變項為考試成績, 依據.97 的廻歸係數值, 與其所對應的.8 的 p- 值, 可知在.5 的顯著水準下, 因為 p- 值小於.5, 準備考試時間與考試成績之間的正相關達顯著 因而, 廻歸模式配適的 F-test 也得以拒絕虛無假設, 而得配適良好的結論 ( 三 ) 廻歸模式的決定係數即為 R 平方, 本模式.693 的決定係數表示, 利用準備考試時間的資訊與廻歸模式的預測能力, 該模式所解釋考試成績的變異占總變異的 69.3% 166.835 ( 四 ) s Y.X = 1 =.8543 = 4.567 ( 五 ) 廻歸分析應用在預測與解釋的適用時機 1. 廻歸分析應用在解釋 : 通常指的是透過樣本資料, 以最小平方法估計廻歸係數, 由於是最小誤差變異的假設, 且所得方程式最能合理配適變數間之關係, 因此由廻歸係數的數值大小, 尤其是其正負符號, 可以協助我們初步解釋想要研究變數間之正相關或負相關, 而能夠正確解釋變數間的關係, 將對於決策有所助益 ; 但是, 對於係數的解釋只限定 依附於該特定樣本上 版權所有, 如果要進一步推論母體資訊重製必究!, 則須使用估計與檢定等進階方法 ; 5-5

1 高普考重點題神. 廻歸分析應用在預測 : 此為進行廻歸分析的主要動機, 但是在預測之前, 先要利用樣本資料計算出相關係數, 如果相關係數在接下來的假設檢定中 ( 通常所作的檢定為 H : ρ =, H 1 : ρ 雙尾檢定 ) 能夠得到拒絕虛無假設的結論, 則表示由該樣本資料所呈現之兩個變數之間的相關並不是機遇造成的, 也就是兩個變數之間的相關不是湊巧, 而是非常穩定 禁得起考驗的 ; 因此, 才能提供研究者足夠的動機進一步運用廻歸分析方法, 對同一母體中的其他份子或個人, 以其 X 變項的數值代入廻歸模式中, 預測其 Y 變項的可能表現或反應 ; 但是, 要使預測具有一定的準確度, 則仍須先就模式的使用價值進行確認 此時, 可以考慮的方式有 : ss A. 計算決定係數與解釋其大小 reg R = sst B. 評估其估計標準誤的大小 C. 對模式進行配適度的 F-test( 也等同於對廻歸係數進行是否顯著異於 的 t-test) 五 解釋名詞 ( 一 ) 反應心向 (Response set) ( 二 ) 統計考驗力 (Power of test) ( 三 ) 語意分析技術 ( 四 ) 語句完成測驗 ( 五 ) 決策效度 (Validity of decisions) ( 六 ) 常模參照測驗 (Norm-referenced test) ( 七 ) 側面圖 (Profile) ( 八 ) 解釋型作業 (Interpretive exercise) ( 九 )S-P 表 (Student-problem chart) ( 十 ) 屋樹人測驗 (House-Tree-Person Test) ( 十一 ) 標準參照測驗 ( 一 ) 受試者在接受測驗或填答問卷時, 無論測驗的內容和情況為何, 受試者具有一種比較固定的作答傾向, 稱為反應心向 (Wiggins, 1973) 反應心向的發生, 有時是有意識 ( 故意 ) 的, 有時是無意識的, 受試者這種有意或無意地變更其在測驗上的反應行為, 為的只是塑造出個人內心所希望呈現的形象, 但此形象並不代表真正的自己 無論如何, 皆會影響來自測驗或問卷所取得資料的正確應用 常見的反應心向有 : 1. 離異反應心向 (deviation)- 受試者傾向於回答特殊的答案. 順從心向或唯唯諾諾 (acquiescence)- 受試者傾向於回答同意 (yeasayers) 或不同意 (naysayers) 的答案 3. 作答粗心 (careless responding) 或題項遺漏 (omitting items) 4. 偽善 (faking good) 與偽惡 (faking bad) 5. 批判 攻擊傾向 (criticatness or aggression)- 指受試者的答案均較具有批判性或攻擊性 6. 社會讚許或社會偏愛反應心向 (social desirability), 也就是指受試傾向於以社會大眾所歡迎的語句或選項來描述自己的狀態, 避免使用社會不贊同 具負面評價的填答方式 ( 二 ) 假設考驗的目的在於, 利用樣本所提供的資訊取得足以推翻虛無假設, 結論對立假設的充份統計證據, 使有關母體參數的陳述得以達顯著 但是抽樣所得的樣本資訊有可能因抽樣誤差而導致假設考驗的結論犯錯, 如型 I 與型 II 錯誤 因此, 考驗結論正確推翻虛無假設的機率, 即稱統計考驗力, 習慣以符號 1 β 表示 ( 三 ) 語意分析技術 : 屬人格測驗的一種, 目的是在測量與比較概念的意義 概念指的是具體的事物, 如教師 建築物等, 也可以是人物或抽象的事物, 如教育 其進行為使用一些由兩個相對的形容詞所構成的量尺, 要求受試者對某一概念加以評定 量尺則可使用 7 點量表, 也可用 9 點量表, 不過, 對兒童而言, 以 5 點量高點 高上 版權所有, 重製必究! 5-6

1 高普考重點題神 高尺較為適當 語意分析主要包含三個因素, 即評價 力量和行動 語意分析技術可用於研究心理和教育的各類問題, 如個別差異 態度的改變 文化間的溝通 語言結構等問題 優點是不太需要閱讀 實施時間經濟 以及富有彈性 ( 四 ) 投射技術基本上是提供一些意義模糊不清的刺激讓受試者自由反應 在這種情形下, 受試者很容易將其內在的情感 態度 需要 價值等人格特質, 點投射到其反應中 特別是兒童因其認知發展尚未完全成熟, 利用適合兒童特質的投射測驗, 是一種衡鑑人格特質的好方式 其中, 語句完成測驗是極為簡單方便的工具之一, 可以根據兒童的背景 不適應情形 偏差行為及受創狀況等為依據, 自編語句完成測驗的題幹 對兒童兒言, 語句完成測驗的形式和其在學校國語課習作 造句的練習是雷同的, 因此因心理上的陌生所導致的焦慮或緊張現象較少 ; 但可能因為發展上 情緒上及兒童的問題嚴重程度等因素, 導致在施測過程仍會有一些議題出現 語句完成測驗的題目不宜太少, 目的在協助諮商師從不同題幹的題目中, 發現兒童一些共通的情感 態度 需要或價值的反應 若有共通的反應, 則能提出一些暫時性的假設 ( 五 ) 測驗的目的是對人們的行為 成就 或未來發展進行推論 例如, 某甲在空間能力測驗上的得分比其他同學高, 我們可以推論某甲比同儕擁有更佳的空間能力 這些推論的有效程度 ( 正確性 ) 是心理測驗學的重要焦點 利用測驗分數進行的推論, 大致上可分為兩種高: 一為對受測屬性的推論, 二為影響對受測者所作決定的推論 一個測驗能夠準確測量受測者的某一屬性, 而推論某人比較聰明 外向, 或有較好的人際關係等, 這類推論的效度, 稱為測量效度 (validity of measurement) 當我們使用測驗分數進行申請入學的許可決策, 推論測驗分數高的人較有可能成功, 這就是第二種推論 因為評估測驗結果作為決策的正確性相當重要, 此即測驗的決策效度 (validity for decisions) ( 六 ) 常模參照測驗, 就是指測驗的結果 ( 分數 ), 根據其在團體中的相對位置而加以解釋者 如某生在數學成就測驗上得 4 分, 對照常模得到百分等級 9, 上這表示該生的數學成就大約勝過百分之九十的學生, 而不如百分之十的學生 此種測驗的主要目的是在區分學生之間的成就水準, 故適合行政上做決策之用, 如分班編組或鑑定能力 但是, 由此類測驗無法得知學生那些尚未學會, 那些已經學會 為了提供此項資料, 標準參照測驗是一項適當的工具 ( 七 ) 測驗施測後, 可以將個別考生各分測驗之分數以側面圖繪示, 由於在側面圖上, 通常可觀察到個人各項能力表現的整體水準與差異程度 ( 有些人的側面圖呈扁平狀, 顯示其能力未分化 ; 有些同學則有明顯較優及明顯較弱的能力 ) 這兩項重要資訊, 同學可找出自己在側面圖中等級較高及較低的幾個分量表, 對照各分測驗的測驗內容, 便可了解自己較具優勢及相對較弱的幾種能力 側面圖又稱剖面圖, 常用的有標準九與百分位數側面圖 ( 八 ) 根據介紹性資料 (introductory material) 編擬試題, 請受試者依資料的內容做答的測驗題型 ( 即取材非直接取自教科書 ) 介紹性資料的種類, 包括 : 文字材料 圖畫 表格 地圖 統計表 公式 實驗圖表 符號等, 又可區分為 : (1) 閱讀式 : 例如閱讀測驗 () 圖表式 : 例如圖或統計表 ( 九 ) 學生問題分析表是日本學者佐藤隆博 (Takahiro Sato) 在 197 年代發明的試題分析方法, 可以用來分析每位學生及每個試題的作答反應類型, 並提供量化指標來反應作答類型是否異常 很適合用在形成性評量的分析與診斷, 最適合是用在班級人數 4-5 人, 試題數 -3 題的測驗 因為這種試題分析方式是 圖形化 的分析方法, 和一般試題分析方法不同 溫馨小叮嚀 S-P 表的製作方法 : 版權所有, 重製必究! 1. 將學生答案改成 正確以 1 表示, 錯誤以 表示. 將學生得分和試題答對人數作排序 3. 畫出 S 曲線及 P 曲線 S 曲線 :(1) 學生得分的累加分佈曲線, 此曲線以左的範圍, 代表學生大都答對了試題 ()S 曲線的位置可以看出學生學習成就達成的程度 5-7

1 高普考重點題神 高P 曲線 :(1) 試題答對人數的累加分佈曲線, 此曲線以上的範圍, 代表試題大都被學生答對了 ()P 曲線的位置可以看出班級學生達成與未達成教學目標的程度 S 曲線以左的部份, 或 P 曲線以上的部份, 對整個 S-P 表所佔的比例, 表示該次測驗的平均答對率 此外, 還有兩個重要係數的計算 : (1) 差異係數 D* 它看的是 S 和 P 兩曲線之分離面積, 佔隨機情況下點S-P 曲線所圍部份之期望值的比值, 其值介於 -1 間 意義 : D*>.5 表示試題具有相當多異質成份計算方式是 :D*=C/(4NnP(1-P)DB(M) C:SP 兩曲線包含 1, 個數的總合 N: 學生數, n: 試題數, M=( Nn+.5) 取高斯值 P:( 每位學生得分總和 )/nn () 注意係數 又分學生注意係數 (CS) 與題目注意係數 (CP) 這是 S-P 表資料中的實際反應組型與完美反應組型間的差異, 占完美反應組型最大差異的比值意義 : 注意係數愈小愈好高( 十 ) 由 John Buck 於 1948 年提出, 藉由受測者分別畫在三張紙上的 屋 樹 人, 他認為在 人物繪畫 的重要性之外, 人們同樣也會賦予 房子 和 樹木 意義 因此透過該測驗, 可投射出受試者個人的心理狀態, 有系統地把潛意識釋放出 受試者可以由測驗結果認識自我的動機 觀感 見解及過往經歷等, 得以幫助瞭解事件的本質, 以及對外界的接觸取向及生活模式, 並作出適當的反應 是一個廣為應用的心理投射測驗 ( 十一 ) 標準參照測驗的特點上( 一 ) 強調各體與某一標準的比較 著重學生學習結果是否達成教學目標 由於行為目標的發展, 教學目標可以明確的條例, 教學績效端視兩者相符的程度而定 標準參照評量事前已決定所要達到之標準或學習結果, 其分數不因參照團體的改變而不同, 每一教學活動亦需達到一定的標準才能停止, 教師教學的責任也才算是盡到, 是故較易維持一定的水準 ( 簡茂發,1979) ( 二 ) 強調個體內的差異和自我比較 即注重教學前後的比較, 或第一次評量與第二次評量間有無差異, 其差異何在? 是否由起點行為邁向終點行為? 事故標準參照評量強調個體內在自我的比較, 不像常模參照評量強調個體間的比較, 如此對學生較少有壓迫感, 且較易培養一種和諧的學習氣氛 ( 三 ) 反映各領域精熟的程度 標準參照評量其每一評量行為包括許多題項, 且為所欲評量之重要基本能力, 評量的主要目的在反映學習者於各個領域之精熟程度, 瞭解他對於所選修之課程教材是否充分發揮潛在能力 ( 四 ) 強調立即回饋 標準參照評量乙改進教學為目的, 在教學過程中, 何時可進入新教材的學習, 必須隨時加以診斷 因而重視 形成性評量, 強調立即回饋, 對學習的歷程隨時加以掌握, 以便作適當的修正或進行補救教學 ( 五 ) 允許以不同的速度進行學習 教學成敗的關鍵在於教學是否迎合學生的個別需要, 而教學欲個別化必須允許學生按期程度選讀不同的教材, 按自己的學習速度進行學習 ( 六 ) 強調試題能正確反映效標行為 標準參照評量的目的在區別學生所能和無法完成的學習工作, 試題只要與學習結果有直接的關聯, 能代表效標所敘述的行為, 不在乎試題的難易 因題目的難易係以所要測量的學習工作的難度來決定 版權所有, 只要試題與效標間配合良好重製必究!, 不必為增加分數的變異性而揚棄不難或太易的試題, 甚或增加錯誤答案的誘惑性 標準參照測驗的限制 1. 標準參照評量可以說明一個人在特定能力方面之精熟程度, 而較無法說明個人在團體中之好壞程度. 良好的標準參照評量需要詳細界定學習目標或結果, 然此種界定除了基礎程度或有明確範圍的學習外, 較不切實際 因為標準參照很難找到足以作為評量基礎的成就標準 5-8

1 高普考重點題神高3. 由於我們不可能要求每個學生在每一科目上都達到同樣精熟的程度, 且任何成就 標準 的訂定可能並不完備和無法達到絕對的客觀 ( 林新發,1984) 是故, 所編製而成之標準參照測量工具, 可能不完備和無法達到絕對的客觀 標準參照測驗在學科教學評量上的應用標準參照測驗主要用於教學評量, 針對教學的主要內容標準, 考察學習者是否達到精熟程度, 能否進行次一單元的教學 換言之, 教師在教學過程中點, 是用來對其教學工作進行 品質管制 的重要方法 六 某ㄧ數學老師針對 名學生實施數學科成就測驗甲 乙兩複本, 並以答對 75% 的試題數作為精熟標準 學生之測驗結果如下表資料所示 請用以下資料計算百分比一致性指標的數值, 並說明此數值所代表的意義 複本甲 精熟非精熟複精本熟 85 1 乙高非精 65 9 熟單位 : 人 85 + 9 上P A = =.57 85 + 1+ 65 + 9 其值表示對這 名學生實施數學科成就測驗甲 乙兩複本結果, 精熟程度達中度一致性 溫馨小叮嚀 在此, 百分比一致性指標為效標參照測驗的信度指標之一, 其值可進一步作為另一信度指標 -Kappa 係數的 PA Pc 計算, K =, 在計算中,P A =P c!κ 計算的結果為 -1~1, 但通常 κ 是落在 ~1 間, 可分為五組來表 1 Pc 示不同等級的吻合度 :.~. 極低的吻合度 (slight).1~.4 一般的吻合度 (fair).41~.6 中等的吻合度 (moderate).61~.8 高度的吻合度 (substantial) 和.81~1 幾乎完全吻合 (almost perfect) kappa 值只適用於類別尺度 (nominal scale) 和序位尺度 (ordinal scale) 的資料 七 有位研究者想知道 : 不同性別七歲幼兒的口語表達能力是否不同? 他/ 她從 份隨機樣本資料中獲得以下資料 :1 名七歲女性幼兒的平均口語表達能力為 7.65,1 名七歲男性幼兒的平均口語表達能力為 6.4, 兩樣本平均數差異的標準誤為.7 ( 一 ) 請問他 / 她該如何設定虛無假設? ( 二 ) 若將顯著水準設為.5, 他 / 她該接受或拒絕虛無假設? 他 / 她的研究結論應該是甚麼? ( 需列出計算過程 ) ( 三 ) 若此一假設檢定的 p- 值為.3, 請問其意義為何? ( 四 ) 若改用變異數分析 版權所有, 則組間變異及組內變異的自由度分別為多少, 重製必究!? ( 一 ) 這位研究者應設定其虛無假設為 : 不同性別五歲幼兒的口語表達能力並無不同, 以符號表示為 H : µ 1 = µ (7.65 6.4) () ( 二 ) z = = 1.757.7 5-9

1 高普考重點題神高在雙尾檢定下, 因 1.757 小於 1.96 的臨界值, 不拒絕虛無假設, 研究結論為利用這 位樣本的資料, 無法提供充份統計證據, 足以結論不同性別七歲幼兒的口語表達能力存在顯著不同 溫馨小叮嚀 本題因使用的七歲幼兒樣本數, 男女性各有 1 人, 屬於大樣本的條件, 因而採取 Z 考驗! ( 三 )p- 值檢定法的決策法則為, 當 p- 值小於顯著水準, 點則檢定結論得以拒絕虛無假設, 該檢定達顯著 因此一檢定.3 的 p- 值小於.5 的顯著水準, 其意義為 : 在檢定統計量 1.757 以右或以左拒絕域極端區域的機率合計為.3, 因此, 利用這 位七歲男女幼童的樣本資料, 提供充分證據足以結論不同性別七歲幼兒的口語表達能力存在顯著不同 ( 四 ) 若改用變異數分析, 則組間變異及組內變異的自由度分別為 : 組間變異 SS b 的自由度等於母體數減 1, 其為 df = -1 = 1 組內變異 SS w 的自由度等於樣本量減母體數, 其為 df = - = 198 八 假設你正在編製一份 國中學生國語文性向測驗, 針對下列每一種信效度, 請依步驟詳細說明你會如何蒐集並用甚麼統計方法分析資料, 以建立這些信效度證據? ( 一 ) 內部一致性信度高( 二 ) 內容效度 ( 三 ) 由發展角度建立構念效度 ( 四 ) 區別效度 (discriminant validity) ( 一 ) 使用折半法, 利用受試者樣本在預試中的回答情形, 依難度高低排序, 分為兩半後, 計算其分數的積差相關係數, 即可取得 內部一致性信度 上( 二 ) 委請國語文專家學者數人, 就測驗內之試題組合, 依其專業, 取得他們的共同認定, 可得 內容效度 的證據 ( 三 ) 利用文獻中由與發展角度有關的理論, 著手進行國中學生國語文性向能力之定義的詳細探討, 在擬定初步問題後, 找來學生樣本預試, 並選擇一個良好測驗或效標的表現, 進行相關係數的計算與討論 ( 四 ) 利用該測驗的分數, 計算其與另一個異質性的測驗表現之相關係數, 如果結果獲得較低的數值, 則可取得區別效度的證據 九 有一企業請專家為其員工講授兩天 16 小時的 資訊安全 課程, 且規定要課後評量, 評量成績將做為年度考績的參考 業主主觀上認為上課坐前排者較認真, 成績應比較好 ; 坐後排者則反之 課後評量後, 業主刻意把前兩排及後兩排的成績分開處理, 然後請其助理群比較前 後排的得分是否有顯著差異 但其助理群對統計分析的方法有不同的看法 A 助理認為以單因子變異數分析處理會較有深度, 而 B 助理則認為用 t 檢定比較簡單, 也能達到分析的效果 兩人根據同樣的資料運用電腦軟體分析出來的結果如表 A 及表 B Group Statistics 座位 N Mean Std. Deviation Std. Error Mean 前兩排 版權所有 16 7.5, 重製必究.931!.33 後兩排 17 69.53 1.663.43 5-1

1 高普考重點題神 高表 A ANOVA Sum of Squares df Mean Square F Sig. Between Groups 4.8 1 4.8.318.138 Within Groups 57.35 31 1.846 Total 61.515 3 表 B Independent samples test 點Levene s Test for Equality of variances t-test for equality of means 95% Confidence Interval of the Difference Sig. Mean Std. Error F Sig. t df (-tailed) Difference Difference Lower Upper 分數 Equal 9.4.5 1.53 31.138.71.473 -.45 1.686 Variance 高Assumed Equal 1.48 5.45.134.71.466 -.38 1.679 Variance Not assumed 上試根據前述及表 A 表 B 回答下列問題 : ( 一 ) 表 A 及表 B 雖是不同統計方法的結果, 但兩者有何種關係存在? ( 二 ) 就統計分析的觀點看, 你認為那一位助理的方法較妥適, 並說明你的理由 ( 一 ) 表 A 的變異數分析與表 B 的 t 檢定, 特別是在只有兩組資料, 且變異數同質性的假設成立時, 存在一種檢定統計量與臨界值計算之等式關係 其為,t- 值的平方會等於 F- 值,t- 臨界值的平方也會等於 F- 臨界 值 證明如下: 1.53 =.319. 318 = F 值, 且顯著性 (sig.) 也相等為.138 ( 二 ) 依統計分析的觀點看,B 助理的方法應較妥適 理由是 :A 助理所採取的 ANOVA 法, 並未先行檢測兩組資料之 變異數同質性 是否成立的假設 而 B 助理採取的 t 檢定, 在報表中呈現 Levene s Test for Equality of Variances 的檢定結果, 因 9.4 的 F- 值達.5 的顯著水準, 因此兩組成績的變異數同質性不成立, 本研究欲比較前 後排的得分是否有顯著差異的議題, 應採取不等變異數的 t 檢定 也因為變異數分析的基本假定條件之一正是 變異數同質性, 因此, 在違反該假設條件下,A 助理選擇的變異數分析法是錯誤的選擇! 溫馨小叮嚀 此題目有關 Levene s Test for Equality of Variances 的軟體報表輸出是 99 年教育行政三等特考測統的最新考題 Levene s Test for Equality of Variances 是用來檢定多個母體變異數是否全等的一種推論統計方法 其為 Bartlett Test( 詳見本班講義第二回 版權所有 Ch.13) 的常用替代方法, 重製必究, 因為 Levene s! Test 對於偏離常態的資料較不敏感, 也就是說, 當研究者對於資料所來自的母體是否近似常態並未有較大把握時, 以 Levene s Test 取代 Bartlett Test 會較妥適 以高普考的性質,Levene s Test 並不會考計算, 但是要能掌握對於統計分析軟體所得之報表的解讀能力, 方能脫穎而出! 5-11

1 高普考重點題神 十 六年級學生共 3, 人參加國語成就測驗, 測驗分數的分布情形趨近於常態分配, 最大值為 1, 最小值為 48, 平均數為 74, 變異數為 64 ( 一 ) 甲生成績的 T 分數等於 75 時, 則其原始分數應為多少? ( 二 ) 乙生的原始分數剛好是 66, 則這位學生的百分等級等於多少? ( 三 ) 分數高於或等於 8 的學生約有幾位? ( 一 ) T = 75 = 5 + 1Z Z =.5 x 74.5 = x = 94 ( 分 ) 64 66 74 ( 二 ) Z = = 1 64 pz ( 1) =.5.3413 =.1587, 乙生原始分數對應的 PR 值為 16 8 74 ( 三 ) px ( 8) = pz ( ) = pz ( 1) =.1587 8.1587 3 = 476.1 476 ( 人 ) 十一 簡答題 ( 一 ) 請說明枝葉圖與盒鬚圖的特性與用途 ( 二 ) 請說明敘述統計的 Z 公式與推論統計的 Z 公式之差別 ( 三 ) 請說明型 I 錯誤 型 II 錯誤與檢定力的意義與關係 ( 一 )1. 枝葉圖 : 因為具備直方圖的雛形, 可用以了解資料的分配 ( 對稱或偏態 ) 情形 ; 在電腦報表中各枝的左側會提供各組葉 ( 次 ) 數或累積葉 ( 次 ) 數, 可提供判斷並檢視在處理過程中是否遺漏任何單一的一筆資料 為唯一保留所有原始觀測值的統計圖. 盒鬚圖 : 除標示五個重要的統計量, 另由盒狀主體可以藉由判斷三個四分位數的大小關係了解資料的分配為對稱或偏態, 並透過 ( Q1 1.5 IQR, Q3 + 1.5 IQR) 的公式來判斷是否存在離群值, 如果真的存在離群值, 則除了圖形的左右兩個鬚長可以作適當的修改外, 另需將離群值以星號或黑點加以表示 ( 二 ) 敘述統計的 Z 公式推論統計的 Z 公式 x µ µ (1) Z = i Z = X σ σ n () 計算依據為個別觀測值的次數分配計算依據為樣本統計量的抽樣分配 (3) 主要用於解釋原始觀測值相對於主要用於母體平均數的假設考驗全體受試者的表現好壞與地位 ( 三 ) α = P( rejecth H is true) β = P( do not reject H H is not true) 1 β = P( rejecth H1 is true) max P( type I error) α 由於犯型 I 錯誤所導致的後果通常較為嚴重, 所以型 I 錯誤機率 α 常會設得較低, 此時研究者會付出型 II 錯誤機率較高的代價, 也就是型 I II 錯誤的機率間存在抵換 (trade-off) 效果 ; 而同時降低兩種錯誤機率的唯一方法為提高樣本量的使用, 但此一方法又常受限於個別研究所面對的研究限制 ; 因而, 研究高點 高上 版權所有, 重製必究! 5-1

1 高普考重點題神高者只得在既定的型 I 錯誤下, 尋覓犯最低型 II 錯誤之機率的最佳考驗方法 十二 請說明何謂電腦化適性測驗? ( 一 ) 以傳統方式編製的測驗, 是對所有的人施測同一組題目, 這對有些類型的測驗來說不是很恰當, 例如 : 能力測驗, 由於每個人的能力水準並不相同點, 若不考慮個別差異, 而給予每一位受試者相同的題目, 對能力水準較高的人來說, 大多數題目可能太簡單了, 不但作答過程過於乏味, 測驗結果也無法準確反映他的能力 ; 反之, 對能力水準較低的人來說, 大多數題目可能太難了, 不僅作答時容易感到挫折與焦慮, 大多數的題目也是以猜測的方式來填答, 同樣無法精確測量到個人的能力 ( 二 ) 適性測驗 (Adaptive Test) 是改善上述狀況的一種測驗模式, 它會視受測者在測驗一開始的答題情況, 從題庫中選取最能評量出受測者能力的試題來進行後續的施測, 因此每當一道題目作答完畢, 系統就立即估算受測者的能力, 以選取下一道題目並進行施測, 然後受測者再作答, 系統再依受測者的反應再施測一題, 此一程序直到預定的題數都已測完或已達到預設的精確度為止 ( 三 ) 適性測驗的最大優點就在於 它能以最少的試題準確評量出受測者的能力, 因為系統所施測的每道題目都反映了它對受測者能力的最新估計, 因此對受測者來說, 測驗的題目既不致太難也不會太簡單, 而使得評量結果的準確性得以大幅提升 此外, 因施測題數減少而降低施測的時間成本, 也是其優點之一 至於, 其他的優點還有 : 高1. 有因材施教的效果 ;. 閱卷可捨人工方式而由電腦執行 ; 3. 應用試題反應理論, 雖然不同受試者考不同的試題, 但由於精確估計的結果, 可以比較其分數之差異 ; 4. 增強施測的標準化過程 而其缺點有 : 上1. 必須先建立一套完整的題庫, 題庫的品質好壞可能影響 CAT 的效果. 須搭配電腦系統實施, 在電腦系統不穩定的情況下, 易導致測驗中斷而影響受試者情緒 適性測驗由於在施測計分時需進行大量的運算及處理, 因此常利用電腦進行施測, 處理選題 能力估計及計分等問題, 一般稱為 電腦適性測驗 (Computerized Adaptive Testing, CAT) 十三 已知甲乙兩校六年級學生之體重均符合常態分配, 今自兩校六年級學生中各隨機抽取 1 名, 得樣本平均數與標準差分別為 34,3 與 7.,6.4, 試問 : ( 一 ) 兩者體重之變異數的差異是否達.5 顯著水準? ( 二 ) 兩者平均體重的差異是否達.5 顯著水準? (F.975(9,9)=4.3,t(.5;18)=.11) ( 一 ) H :σ1 = σ H 1:σ1 σ 7. F = = 1.66, F = 4.3 表,.48, 不拒絕虛無假設, 兩校體重之變異數差異未達顯著 6.4 ( 二 ) 在前一題針對兩獨立母體變異數的假設考驗, 因未能推翻虛無假設, 因而, 變異數同質性 的假設未被推翻, 在此, 則應選擇變異數相等的 t 考驗 H : µ 1 µ = H 1 : µ 1 µ 版權所有, 重製必究! 先行計算共用的變異數估計值 s P (1 1)(7. ) + (1 1)(6.4 ) 835. s P = = = 46.4 1 + 1 18 5-13

1 高普考重點題神 高(34 3) () t = = 1.313, t 表 = ±.11, 不拒絕虛無假設, 利用兩校這些六年級的學生樣本, 未能提 1 1 46.4( + ) 1 1 供充分證據足以結論, 兩校全體六年級學生平均體重的差異達顯著 溫馨小叮嚀 點兩個母體參數差異顯著性的推論統計方面的考題, 在政府公職考試已經 " 缺席 一陣子, 事實上, 由於實務上推論統計的重要性要遠大於敘述統計 ; 而且, 以教育行政職類而言, 探討的核心議題與決策多環繞在不同教學方法之教學成效高低, 或是不同實驗處理下, 學生學習成就的差異, 因此, 特別是兩獨立母體平均數差異的顯著性檢定最可能是考試的重點方向 ( 當然, 相依樣本假設的 t- 考驗也應熟悉 ) 在選擇 t- 考驗前, 應先確認 變異數同質性 的假設不被違反, 而必須先進行 F- 考驗 此一例題提供了很好的練習與提醒! 十四 ( 一 ) 說明下列四種狀況, 研究者犯了第一或第二類型錯誤 (type I, type II error), 還是決策正確 H H μ 的真值研究者的決策 1 a. μ = μ 高 拒絕 H b. μ = μ 5 拒絕 H c. μ = μ 不能拒絕 H d. μ = μ -3 不能拒絕 H ( 二 ) 如果將 α 由.5 變更為.1, 那麼對第一類型 第二類型錯誤有何影響? ( 三 ) 樣本加大, 對第一類型 第二類型錯誤以及統計考驗力的影響又是如何上? ( 一 )a. 依 μ 的真值等於, 符合虛無假設的定義, 得以結論不拒絕虛無假設, 而決策卻是 拒絕 H, 研 究者犯了第一類型錯誤 b. 依 μ 的真值等於 5, 不符合虛無假設的定義, 虛無假設不為真, 得以結論對立假設, 決策為 拒絕 H, 研究者決策正確 c. 依 μ 的真值等於, 符合虛無假設的定義, 得以結論不拒絕虛無假設, 決策是 不能拒絕 H, 研究 者決策正確 d. 依 μ 的真值等於 -3, 不符合虛無假設的定義, 虛無假設不為真, 得以結論對立假設, 決策卻是 不能拒絕 H, 研究者犯了第二類型錯誤 ( 二 ) 如果將 α 由.5 變更為較嚴謹的.1, 研究結論較不易犯第一類型錯誤, 也就是 拒絕虛無假設的結論 為錯誤的機率較低 ; 但是, 相對的, 卻提高犯第二類型錯誤的機率 ( 三 ) 樣本加大, 通常因取得較接近母體的真實且充分資訊, 檢定結論犯第一類型或第二類型錯誤的機率都將降低 而正確拒絕錯誤的虛無假設的機率, 也就是統計考驗利的機率將大幅提高 十五 判斷多元共線性的指標有哪些? 進行多元廻歸分析時需要特別注意其 共線性 問題的是否存在與其嚴重性 版權所有, 重製必究!, 並妥善處理以期獲得正確的分析結論與預測 共線性 問題源自於自變數 ( 自變項 ) 間的相關性太高, 所造成廻歸分析之困擾 共線性 問題, 可以說是一個預測變項是其他自變項的線性組合, 以二個自變項 X 1,X 為例, 完全共線性代表的是 X 1 是 X 的線性函數,X 1 =a+bx, 若模式中, 有嚴重的共線性存在, 則模式之參數就不能完全被估計出來 自變數 ( 自變項 ) 間是否有共線性問題, 可由下列指標判斷 : 5-14

1 高普考重點題神 高1. 容忍度 (Tolerance) 容忍度等於 1-R, 其中 R 是此自變數與其他自變數間的多元相關係數的平方, 若 R 值太大, 代表模式中其他自變數可以有效解釋此自變數 容忍度的值界於 與 1 間, 若一個自變數的容忍度太小, 表示此變項與其他自變項間有共線性問題 ; 其值若接近, 表示變項幾乎是其他變項的線性組合, 此種情況下廻歸係數的估算值不夠穩定, 而廻歸係數的計算值也會有很大誤差. 變異數膨脹因子 (variance inflation factor, VIF) 點變異數膨脹因子為容忍度的倒數,VIF 的值愈大, 表示自變數的容忍度愈小, 愈有共線性的問題 3. 條件指標 (Condition index, CI) 在自變項相關矩陣之因素分析中, 特徵值可作為變項間有多少層面 (Dimension) 的指標, 若特徵值接近, 表示原始變項間有高的內在相關存在, 此組自變項間的相關矩陣就是一個 不佳的條件 (ill condition), 資料數值若稍微變動, 即可能導致係數估計的大波動 條件指標為最大特徵值與個別特徵值比例的平方根, 條件指標若在 15 以上, 表示可能有共線性問題, 條件指標若在 3 以上, 則表示有嚴重的共線性問題,CI 值愈大, 愈有共線性問題 十六 試說明抽樣分配的標準誤 估計標準誤 測量標準誤三者在使用時機 計算公式 與實際應用上的差異 高( 一 ) 抽樣分配為推論統計學的重要概念之一, 其為各種母體參數推論統計所依據之正確方法的基礎, 因為重複多次抽樣或實驗後, 每次樣本統計量的數值大小不一所形成的分配, 決定其抽樣分配型態 而抽樣分配的標準誤應用於對於母體參數真實值之信賴區間估計, 屬於抽樣誤差的成因之一 ; 也是檢定統計量的分母 以服從標準常態 Z- 分配的樣本平均數為例, 其計算公式為 : σ 上σ = X n ( 二 ) 估計標準誤為廻歸分析的一個專有名詞 其為判斷與評估廻歸模式之重要指標之一, 主要意義為衡量個樣本資料距離廻歸直線的離散程度, 也可作為因變項真正數值之信賴區間估計 其計算公式為: SS res SE = s 1 r = = MS = MSE est Y res n ( 三 ) 測量標準誤為心理測驗的重要概念 在真實分數模式 (True Score Model) 中, 實得分數為真正分數與誤差分數的合計, 然而, 實務上, 真正分數常為未知, 頂多只能以多次測驗所得, 含有誤差分數之實得分數的平均數加以估計, 所以測量標準誤是實得分數與真正分數之間差異的標準差估計值, 其可作為個人真正分數信賴區間估計之計算 其計算公式為: SE meas = s 1 r x XX 版權所有, 重製必究! 5-15