3 變異係數與相關係數 甲 變異係數例子一 : 設某次段考, 高三某班的國文成績的算術平均數與標準差分別為 80 分 0 分 ; 英文成績的算術平均數與標準差分別為 60 分 0 分 ; 雖然國文與英文的標準差相等, 如果我們得到結論是國文與英文成績的差異程度一樣, 顯然不合理 現在我們比較兩科的標準差與算術平均數的比值 : 國文科 : 0 80 8, 英文科 : 0 60 6, 從這兩科的比值來看, 我們可以認為英文成績的差異會比國文成績的差異大 例子二 : 同時測量一張桌子的長度 0 次,0 次長度的算術平均數為.7 公尺, 標準差為 0.04 公尺, 若我們改變單位將公尺改為公分, 算術平均數為 7 公分, 標準差為 4 公分, 若我們比較兩個標準差 0.04 公尺與 4 公分, 雖然 0.04<4, 但是若我們得到這兩筆資料的差異程度不同, 這就會鬧笑話了! 但是我們比較這兩筆資料標準差與算術平均數的比值 : 0.04.7 4 7, 這就可以呈現出這兩筆資料的差異程度相同 比較兩組或兩組以上的資料之差異時, 通常採用一種相對的測度值作為比較的標準 因此無論兩筆資料的單位與取值範圍是否相同, 若用算術平均數為基準, 以標準差相對於算術平均數的比值來比較, 就可以比較離散程度, 比值愈大表示資料間的差異也愈大 變異係數 CV 的定義 : S X 變異係數的定義 :CV 00%,S X 為標準差, 代表算術平均數 CV 的意義是計算標準差相對於算術平均數的百分比 百分比越大, 代表資料越分散 [ 例題 ] 某校高三有兩班, 甲班學生身高平均值為 68.5 公分, 標準差為 7. 公分 ; 乙班學生身高平均值為 59.6 公分, 標準差為 4.8 公分 試問那一班學生身高較懸殊? [ 解法 ]: CV 甲 7. 68.5 00%4.7% CV 乙 4.8 59.6 00%3.0% CV 甲 >CV 乙 甲班學生身高差異較乙班大 ~3~
練習 第一次月考, 甲 乙兩班數學的平均成績分別為 80 分 70 分, 標準差分別為 9 分,8 分, 試問那一班的同學之程度比較平均? As: 甲班 練習 某次數學考試, 統計結果如下表 : 試求 : 全部 00 人的平均成績 X 為多少分? 那一班的程度比較平均? 用數據說明 3 全部 00 人的標準差 S 為多少分? 至小數第三位再四捨五入 As:67 分 乙班 39.9 分 甲班 乙班 平均成績 70 分 65 分 標準差 0 分 8 分 人數 40 人 60 人 乙 相關係數通常身高很高的人, 體重不會太輕, 物理成績高的學生, 數學成績通常也不會很低, 不管是身高 體重或是物理 數學成績, 我們如何來衡量這兩個資料間的關係呢? 可否由身高來預測體重, 或是由數學成績來預測物理成績呢? 散布圖 scatter plot: 設高三某班 0 位同學身高與體重成績的資料如下表所示 : 學生編號 3 4 5 6 7 8 9 0 身高 X 公分 68 7 70 66 74 67 69 65 70 68 體重 Y 公斤 56 60 57 54 66 57 56 55 59 60 將兩個變數的數值資料數對畫在坐標平面上, 以表明它們的分布情形的圖形, 稱為散布圖, 散布圖上的點稱為樣本點 身高體重散布圖 體重 公斤 90 70 50 30 50 55 60 65 70 75 80 身高 公分 ~3~
散布圖與相關程度 : 某種新藥的用量 X 毫克數 與藥效期間 Y 天數 的關係, 經調查後得到資料如下表 : X 3 3 4 5 6 6 7 8 8 9 Y 9 5 9 4 6 8 4 畫出此資料的散布圖 : 計算用藥的平均值 5.9 毫克, 藥效期間平均值 5. 天, 若在散布圖中加畫 5.9,5. 兩直線, 則可將全圖分成四個區域 : 由上圖可以看出, 除了 6,4 一點外, 其餘的點都在右上區或左下區, 這表示絕大多數的情形, 若用藥超過平均值, 則藥效期間亦超過平均值, 反之亦然, 換句話說, 用藥量與藥效期間同時為增或同時為減, 兩者之間是有某種程度的相關性 一般而言, 如果在散布圖中以 為新的橫軸, 為新的縱軸, 則可將全 圖分成四個象限, 在第一三象限內的點,, 的值為正,; 在第 二四象限內的點,, 的值為負, 若資料內的樣本點,,, 中, 計算 的值 : a 若 >0, 則表示 X 與 Y 的變動趨勢大致相同, 即同時為增或 同時為減, 我們稱兩者為正相關 ~33~
b 若 <0, 則表示 X 與 Y 的變動趨勢大致相反, 即此增彼減或 此減彼增, 我們稱兩者為負相關 c 根據散布圖, 有時可以大概判斷出兩個變數 X Y 之間的相關情形 : 正相關 : 負相關 : 零相關 : [ 例題 ] 就下列圖形說明變量 X Y 的相關情形 : [ 解法 ]: A 完全正相關 B 完全負相關 C 零相關 D 零相關 E 低度正相關 F 完全曲線相關 ~34~
練習 3 下列有關兩變數 X 與 Y 的 8 個散布圖中 那些圖形較接近正相關? 那些圖形較接近負相關? 3 那些圖形較接近零相關? As:AEFG CDG 3B 3 相關係數 correlato 的引進散布圖呈現兩個變數之間相關的方向 型式 強度 其中直線相關尤其重要, 因為直線是最簡單的型態, 但是光用眼睛看, 並不容易判斷出相關的強度, 如下圖, 兩個散布圖畫的是同一組數據, 只是兩個圖形的坐標選取之範圍不同, 因此使得右圖看起來似乎有較強的直線相關 所以只要我們改一改散布圖上坐標軸的刻度或範圍, 或是點和點之間的空白處大小, 眼睛就可能受騙 所以得定義一個能夠衡量兩個變數直線相關強度的統計量, 這就是相關係數 ~35~
a 相關係數的定義 : 衡量兩個變數直線相關的程度的統計量 相關係數定義如下 : 對於兩組數據 X Y X Y 定義相關係數 r 其中 S, S 標準化資料 [ 說明 ]: 根據之前的討論, 我們知道 的正負表示相關程度的正負 然而當資料數據增加時, 亦即樣本數 增加時, 相對應的和 將隨之變大或變小, 為了消除這個影響的因素, 將 加以規範化, 而引進以上的定義 4 相關係數的性質 : a- r 相關係數 r r [ 代數的觀點 ]: 根據柯西不等式 : 若設 a a a,b b b 為 個實數, 則 a +a + +a b +b + b a b +a b + +a b 將 視為 a, 視為 b, 即可得到 r r [ 向量的觀點 ]: 若令 A,,,, B,,, 則 r A B A B cosθ r 此處的 cosθ 是一個抽象的概念 ~36~
b 相關係數與單位無關 : 若設 * a+b, * c+d,,,,, 其中 a,b,c,d 為給定之常數, * * 則當 bd>0 時,rr, 當 bd<0 時,r r [ 證明 ]: 設 A,,,, B,,, A * * *, * *,, * *, B * * *, *,, * 因為 * a+b, * c+d, 所以 * * b, * * d * a+b, * c+d A * b A, B * d B r * A* B * A * B * b A d B b A d B bd bd A B bd A B bd r * * 當 bd>0 時,rr, 當 bd<0 時,r r c 正的 r 值顯示變數之間有正相關, 負的 r 值顯示變數之間有負相關,r 值若很接近 0, 表示變數之間有很弱的直線相關 r 時, 表示樣本點都落在斜率為正的一條直線上,r 時, 表示樣本點都落在斜率為負的一條直線上 d 相關係數會受少數極端觀測值得嚴重影響, 如下圖, 可以知道, 極端值對相關係數的影響 e 兩個變數之間有很強的相關, 也不一定代表兩者之間有因果關係 例如 : 統計世界各國平均每人電視機數 與人民的平均壽命 我們會得到很高的正相關, 即有很多電視機的國家, 人民的平均壽命較長 所謂的因果關係是 ~37~
指只要改變 的值, 就可以使 的值改變, 換句話說, 我們能否藉由運送一大堆的電視機來增加某些國家人民的平均壽命呢? 當然不行! 富國的電視機比窮國多, 而富國的人民平均壽命也比較長, 但這是因為他們有比較好的營養 乾淨的飲水及較佳的醫療資源 電視機和壽命長短之間並沒有因果關係 [ 例題 3] 一肥皂廠商欲推出一種新產品, 在上市之前以不同的單價 單位 : 十元, 調查市場的需求量 單位 : 萬盒, 調查結果如下 : 8 9 0 0 8 9 問, 的相關係數最接近下列那一個值? 84 學科 A 4 5 B 5 C0 D 5 E4 5 As:E [ 例題 4] 右圖為一班參加高中聯考成績,X 表示英文成績, Y 表示國文成績, 兩個變數的相關係數最接近下列那一個值? A B C0.75 D0.5 E0.5 As:C 00 80 60 40 0 Y 60 70 80 90 00 X [ 例題 5] 令 X 代表每個高中生平均每天研讀數學的時間 以小時計, 則 W74-X 代表每個高中生平均每週花在研讀數學以外的時間 令 Y 代表每個高中生數學學科能力測驗的成績 設 X,Y 之相關係數為 R XY,W,Y 之相關係數為 R WY, 則 R XY 與 R WY 兩數之間的關係, 下列選項何者為真? A R WY 74R XY B R WY 7R XY C R WY 7R XY D R WY R XY E R WY R XY As: E 90 學科 ~38~
練習 4, 平面上求樣本點,, 4, 4, 的相關係數 r?as:0 練習 5 調查八位同學某次數學及物理抽考的成績為 學生 A B C D E F G H 數學 93 35 57 74 45 76 53 87 物理 73 37 54 70 54 8 48 6 試求其相關係數 As:0.8 練習 6 如圖所示, 有 5 筆 X,Y 資料 試問 : 去掉哪一筆資料後, 剩下來 4 筆資料的相關係數最大? A B 3C 4D 5E As:4 89. 學科 Y D3,0 B,4 A,3 C4,5 E0, X 練習 7 有學生十人 甲 乙 癸, 其期考數學成績與該學期數學課缺課數, 如下表所示 : 學生 甲乙丙丁戊己庚辛壬癸 缺課數 3 3 4 3 5 6 3 0 成績 00 90 90 80 70 70 60 60 80 00 設兩者的相關係數為 r, 則 A- r -0.6 B-0.6<r<-0. C-0. r 0. D0.<r<0.6 E0.6 r As:A 86 自 練習 8 設 X Y 的相關係數為 r0.3, 且 X 4X+5,Y 6Y4 的相關係數為 r, 則 r? As:r 0.3 ~39~
丙 最小平方法如果散布圖顯示出兩個數量變數之間的直線相關, 我們會希望在散布圖中畫條直線, 來對這個直線相關做一個概述 最小平方法就是一種找出這樣的直線之方法, 找出來的直線稱為最佳直線或迴歸直線, 利用最佳直線可以利用一個變數來解釋或預測另一個變數, 條件是它們之間的關係是可以解釋或預測的 最小平方法 : 例子 : 設樣本點,,,, 3, 3 3,3, 求兩實數 a,b 使得下列 D 值最小 :D ab + ab + 3 ab 3 [ 幾何解釋 ]: D 的意義就是各樣本點與樣本點做直線的鉛直線的交點之距離平方和, 所謂最佳直線 L:a+b 就是找到 a,b, 使得 D 的值最小 最小平方法 : 對於給定有限個樣本點,,,, 要求出一條直線 a+b 使 得誤差的平方和 E [ a + b ] 最小 這樣的直線 a+b 稱為最佳直線或迴 歸直線 求最佳直線 : X 給定 X Y 兩個變數, 如表所示 Y 和 E [ a + b ] 最小 L L, 欲找出 a,b 使得誤差的平方 ~30~
[ 方法一 ]: 定義 : S XX,S YY,S XY S XX S XY,S YY + + + ab a +ab +b a b + E [ a + b ] a +ab +b a b + a +ab +b S XX + a bs XY + +S YY + a +ab +b +b S XX a bs XY + +S YY + a+ b +b S XX a+b bs XY + S YY + [a+ b a+b + ]+S XX [b S XY S b+ S XY XX S ] S XY XX S +S YY XX a+ b +S XX b S XY S +S S XY XX S XX a + b 0 欲使 E 的值最小 S XY b S XY b 0 S,a S XY XX S XX S XX [ 方法二 ]: 將 X Y 兩個變數標準化化成 X Y, 其中 X X S,Y Y X S Y X Y 的平均數與標準差分別為 0 與 標準化後, 設最佳直線 L : a+b 誤差的平方和 E [ [ a + b ] a + b + a + b a + b + a a b +a +ab +b ] + ab 因為 X Y 的平均數與標準差分別為 0 與 + b ~3~
所以 0 b +a +b a + + b [ ] 當 a0,b 時,E 的值最小 另一方面,b X Y X S S S S X S X S Y 相關係數 r 最佳直線. r 再將 S X, S Y 代入上式 S Y r S X rs Y S X 最佳直線 L:a+b, 其中 b rs Y S X S XY S XX,a S XY S XX 由上式可知最佳直線必過點, 結論 : 給定 X Y 兩個變數, 如表所示 Y X L L, 將 X Y 兩個變數標準化, 化成 X Y, 最佳直線 L 為 r, 其中 r 為 X Y 的相關係數 若給定 X Y 兩個變數, 如表所示 Y X L L, 則 Y 對 X 的最佳直線 L:a+b 必通過點,, 其中 b rs Y S X S XY S XX,a S XY S XX ~3~
[ 例題 6] 高三某班有 0 位同學 編號,,,0, 其期末考成績與該學期上課時缺課數的統計資料如下 : 編號 3 4 5 6 7 8 9 0 缺課數 0 3 6 5 3 4 3 3 成績 95 75 55 55 65 65 75 85 85 95 試求這 0 個學生的缺課數 X 與期末成績 Y 的相關係數 求這 0 個資料變數 Y 對變數 X 的最佳直線方程式 3 根據這條最佳直線, 請預測缺課數為 7 時的成績為多少? As:0.93 757.863 343.56 [ 例題 7] 設有一隨機樣本包含 00 對父子體重, 的觀察資料, 且已算出下列的統計 量 單位為公斤 : 68, 69, 00 90, 00 試求 兩變數 X 與 Y 的相關係數 求變數 Y 對 X 的最佳直線方程式 As:0.5 69+0.5368 00 90, 040 ~33~
練習 9 設抽樣某班 8 位學生的數學成績 與英文成績, 結果如下 65, 70,S X 0,S Y 5,r0.8 請寫出英文成績 對數學成績 的迴歸式 若此班某位同學數學成績 65 分, 請預測此生的英文成績 As:44+0.4 70 分 練習 0 蒐集台灣地區 8 個地點的公告地價與市價 單位 : 萬元 坪 如下 : 公告地價 0 30 8 40 0 8 市價 5 8 40 0 7 39 5 試畫市價對公告地價的散布圖 試求市價對公告地價的相關係數 3 試求市價對公告地價的迴歸式 4 若某塊土地公告地價是每坪 8 萬元, 試利用上面的迴歸式預測其市價 As:0.966 36.6667+.8333 457.999 萬 練習 設某公司隨機抽樣 0 位員工的年齡 與血壓 的資料, 結果算出 0 0 450, 300, 50, 750, 5900 0 請問年齡與血壓的相關係數? 請寫出血壓對年齡的最佳直線方程式 3 此公司員工的年齡 50 歲, 請預測此員工的血壓是多少? As:0.4 03+0.6 333 0 0 ~34~
綜合練習 某班數學老師算出學生學習成績後, 鑒於學生平時都很用功, 決定每人各加 5 分 加分後沒人超過滿分, 則加分前與加分後, 學生成績統計數值絕對不會改變的有 A 算術平均數 B 中位數 C 標準差 D 變異係數 E 全距 88 自 人數 某年聯考甲乙兩科成績的直方圖如圖所示, 由於考生人數眾多, 成績分佈的直方圖可視為平滑的曲線, 則下列那些敘述是正確的? A 甲的算術平均數比乙的算術平均數大 B 甲的中位數比乙的中位數大 C 甲的全距比乙的全距大 D 甲的標準差比乙的標準差大 E 甲的變異係數比乙的變異係數大 87 自 分數 3 右圖表兩組數據, 的分佈圖, 試問其相關係數 r 最接近下列何值? A B0.5 C0 D-0.5 E- 88 社 Y 4 某班的 50 名學生參加一項考試, 考題共 00 題, 全為 5 選 的單選題 計分 法共有 X Y 兩種 : 某學生有 N 題放棄沒答,R 題答對,W 題答錯, 則 XR W 4, YR+ N 5, 試問下列敘述那些是正確的? A 同一班學生的 X 分數不可能大於 Y 分數 B 全班 X 分數的算術平均數不可能大於 Y 分數的算術平均數 C 任兩學生 X 的分數差之絕對值不可能大於 Y 分數的差之絕對值 D 用 X 分數將全班排名次的結果與用 Y 分數排名次是完全相同的 E 兩種分數的相關係數為 90 自 5 假設某班有 40 人, 最近兩次數學測驗每一位同學第一次成績都比第二次少 8 分, 那麼下列有關這兩次數學測驗成績的統計結果哪一個是錯誤的? A 全距相等 B 算術平均數相等 C 四分位差相等 D 標準差相等 E 正相關 O X 6 數學老師想把某次模擬考滿分 0 分的成績 X 作調整為滿分 00 分的平時成 績 Y, 以便登記成一次平時成績, 故 Y 5 6 X 現在模擬考的成績求得算術平均 數, 中位數 Me, 全距 D, 標準差 S, 數學與物理分數相關係數為 r; 若調整之 後, 各相對統計量為算術平均數, 中位數 Me, 全距 D, 標準差 S, 數學與物 ~35~
氧化物最大濃度 豪理分數相關係數為 r, 則下列何者正確?A 5 6 BMeMe CD 5 6 D DS 5 6 S Err 7 十位考生之國文與數學成績列表如下 : 考生編號 3 4 5 6 7 8 9 0 國文 89 65 76 69 8 57 66 7 78 66 數學 75 57 65 65 83 63 58 6 63 69 今已算出國文成績之標準差為 8.9 取至小數點第一位, 數學成績之標準差為 7.5 取至小數點第一位, a 設國文成績的平均為 X, 而變異係數為 CV, 數學成績的平均為 Y, 而變異係數為 CV, 則 ACV CV BCV <CV CX 7 DY 64 E X Y b 則此十位考生兩科成績之相關係數最接近 A-0.85 B0.5 C0.66 D0.78 E0.85 8 空氣品質會受到污染物排放量及大氣擴散等因素的影響 某一機構為了解一特定地區的空氣品質, 連續二十八天蒐集了該地區早上的平均風速及空氣中某特定氧化物的最大濃度 再繪製這二十八筆資料的散佈圖 見下圖, 現根據該圖, 可知 A 此筆資料, 該氧化物最大濃度的標準差大於 5 B 此筆資料, 該氧化物最大濃度的中位數為 5 C 此筆資料, 平均風速的中位數介於 45 與 50 之間 D 若以最小平方法決定數據集中直線趨勢的直線, 則該直線的斜率小於 0 5 0 克 立方公尺 5 0 5 9 指定甲 35 40 45 50 55 60 65 平均風速 公里 小時 ~36~
9 請排出下面 5 個散布圖中, 的相關係數的大小順序 0 右圖是一個航空公司旗下 架飛機的散佈圖, 橫軸座位數, 縱軸為單位小時飛行成本, 圖中的直線代表數據集中趨勢的直線 請問下列敘述那些是正確的? A 根據此圖可知飛機座位數與單位小時飛行成本二者之間的相關係數為負 B 圖中的直線斜率介於 0 與 0 間 C 單就座位數介於 50 及 350 間七架中型飛機而言, 圖中直線仍可視為代表該筆數據集中趨勢的直線 D 單就座位數介於 50 及 350 間七架中型飛機而言, 代表該筆數據集中趨勢的直線斜率為負值 如下表,為 9 位同學參加大考中心舉辦的學科能力測驗數學科成績,其中有兩位同學不願透露成績,但由老師所有資料可知, 9 位同學的平均成績為 分, 50 3 變異係數為 %,且已知 4 號同學的成績較 7 號同學好,求,? 9 座號 3 4 5 6 7 8 9 成績 3 3 某種新藥的用量 X 毫克數 與藥效期間 Y 天數 的關係, 經調查後資料如右表 : ~37~
3 a 若 X 與 Y 的相關係數為 k, 則 k by 對 X 的迴歸直線為 a+b, 則數對 a,b c 若醫生用藥量為 毫克, 試用迴歸直線預估藥效可達 天 3 右圖為兩變數,0 筆資料的散布圖, 試問下列敘述那些是正確的? 變數 55 50 45 40 35 30 5 0 0 4 6 8 0 4 6 8 0 變數 標準差 S A 變數 的中位數為 40 B 變數 的平均數不大於 50 C 變數 的標準差不大於 D 變數 與變數 為正相關 E 變數, 的最佳直線斜率為負的 CE CDE 3 C 4 ABDE 5 B 6 ADE 7 ac bc 8 CD 9 a>d>c>e>b 0 BD 4, 0 a4 b,3 c7 3 ABCE 綜合練習解答 ~38~