4 雙變量數據分析 甲 相關係數 通常身高很高的人, 體重不會太輕, 物理成績高的學生, 數學成績通常也不會很 低, 我們如何來衡量這兩個資料間的關係呢? 可否由身高來預測體重, 或是由數學成績來預測物理成績呢? 這是本節要探討的兩個主要問題 散布圖 scatter plot: 設高三某班 0 位同學身高與體重成績的資料如下表所示 : 學生編號 3 4 5 6 7 8 9 0 身高 X 公分 68 7 70 66 74 67 69 65 70 68 體重 Y 公斤 56 60 57 54 66 57 56 55 59 60 將兩個變數的數值資料數對畫在坐標平面上, 以表明它們的分布情形的圖形, 稱為 散布圖, 散布圖上的點稱為樣本點 散布圖與相關程度 : 某種新藥的用量 X 毫克數 與藥效期間 Y 天數 的關係, 經調查後得到資料如下表 : X 3 3 4 5 6 6 7 8 8 9 Y 9 5 9 4 6 8 4 計算用藥的平均值 =5.9 毫克, 藥效期間平均值 =5. 天, 若在散布圖中加畫 =5.9,=5. 兩直線, 則可將全圖分成四個區域 : 由上圖可以看出, 除了 6,4 一點外, 其餘的點都在右上區或左下區, 這表示絕大多 數的情形, 若用藥超過平均值, 則藥效期間亦超過平均值, 反之亦然, 換句話說, 用藥量與藥效期間同時為增或同時為減, 兩者之間是有某種程度的相關性 ~4~
一般而言, 如果在散布圖中以 = 為新 = 的橫軸,= 為新的縱軸, 則可將全圖分成四個象限, 在第一三象限內的點,, 的值為正,; 在第二四象限內的點,, 的值為負, 若資料 = 內的樣本點,,, 中, 計算 的值 : a 若 >0, 則表示 X 與 Y 的變動趨勢大致相同, 即同時為增或同時為減, 我們稱兩者為正相關 b 若 <0, 則表示 X 與 Y 的變動趨勢大致相反, 即此增彼減或 此減彼增, 我們稱兩者為負相關 c 根據散布圖, 有時可以大概判斷出兩個變數 X Y 之間的相關情形 : 正相關 : 負相關 : 零相關 : ~4~
[ 例題 ] 就下列圖形說明變量 X Y 的相關情形 : [ 解法 ]: A 完全正相關 B 完全負相關 C 零相關 D 零相關 E 低度正相關 F 完全曲線相關 練習 下列有關兩變數 X 與 Y 的 8 個散布圖中 那些圖形較接近正相關? 那些圖形較接近負相關? As:AEFH CDG 相關係數 correlato 的引進散布圖呈現兩個變數之間相關的方向 型式 強度 其中直線相關尤其重要, 因為直線是最簡單的型態, 但是光用眼睛看, 並不容易判斷出相關的強度, 如下圖, 兩個散布圖畫的是同一組數據, 只是兩個圖形的坐標選取之範圍不同, 因此使得右圖看起來似乎有較強的直線相關 所以只要我們改一改散布圖上坐標軸的刻度或範圍, 或是點和點之間的空白處大小, 眼睛就可能受騙 所以得定義一個能夠衡量兩個變數直線相關強度的統計量, 這就是相關係數 ~43~
~44~ 相關係數的定義 : 衡量兩個變數直線相關的程度的統計量 相關係數定義如下 : 對於兩組數據 X Y X Y 定義相關係數 r= = =, =, = 標準化資料 其中 為 X Y 的算術平均數 ; 為 X Y 的標準差 [ 說明 ]: 根據之前的討論, 我們知道 的正負表示相關程度的正負 然而當資料數據增加時, 亦即樣本數 增加時, 相對應的和 將隨之變大或變小, 為了消除這個影響的因素, 將 加以規範化, 而引進以上的定義 相關係數的性質 : a- r 相關係數 r= r =
根據柯西不等式 : 若設 a a a,b b b 為 個實數, 則 a +a + +a b +b + b ab+ab+ +ab 將 視為 a, 視為 b, 即可得到 r r br 值與相關程度 : 正的 r 值顯示變數之間有正相關, 負的 r 值顯示變數之間有負相關, r 值若很接近 0, 表示變數之間有很弱的直線相關 r= 時, 表示樣本點都落在斜率為正的一條直線上, r= 時, 表示樣本點都落在斜率為負的一條直線上 c 相關係數的絕對值 直線相關的強度 與單位變換無關 : 若設 * =a+b, * =c+d,=,,,, 其中 a,b,c,d 為給定之常數, 則當 bd>0 時,r=r *, 當 bd<0 時,r= r * [ 證明 ]: d 相關係數會受少數極端觀測值得嚴重影響, 如右 圖, 可以知道, 極端值對相關係數的影響 e 兩個變數之間有很強的相關, 也不一定代表兩者之間有因果關係 例如 : 統計世界各國平均每人電視機數 與人民的平均壽命 我們會得到很高的正相關, 即有很多電視機的國家, 人民的平均壽命較長 所謂的因果關係是指只要改變 的值, 就可以使 的值改變, 換句話說, 我們能否藉由運送一大堆的電視機來增加某些國家人民的平均壽命呢? 當然不行! ~45~
富國的電視機比窮國多, 而富國的人民平均壽命也比較長, 但這是因為他們有比較好的營養 乾淨的飲水及較佳的醫療資源 電視機和壽命長短之間並沒有因果關係 3 用 Ecel 計算相關係數 : [ 例題 ] 一肥皂廠商欲推出一種新產品, 在上市之前以不同的單價 單位 : 十元, 調查市場的需求量 單位 : 萬盒, 調查結果如下 : 8 9 0 0 8 9 問, 的相關係數最接近下列那一個值? 84 學科 A 4 5 B 5 C0 D 5 E4 5 As:E ~46~
~47~ [ 例題 3] 調查某國某一年 5 個地區的香煙與肺癌之相關性, 所得的數據為,, =,,3,4,5, 其中變數 X 代表每人每年香煙消費量 單位 : 十包,Y 代表每十萬人死於肺癌的人數 若已計算出下列數值 : 5 =35, 5 =366, 5 =84, 5 =05, 5 =09, 則 X 與 Y 的相關係數 r= 00 指定乙 參考說明 : 相關係數 r= = [ 答案 ]:0.875 [ 解答 ]: r= = 5 09 57 366 7 5 84 = 7 6 4 = 7 8 =0.875 [ 例題 4] 令 X 代表每個高中生平均每天研讀數學的時間 以小時計, 則 W=74-X 代表每個高中生平均每週花在研讀數學以外的時間 令 Y 代表每個高中生數學學科能力測驗的成績 設 X,Y 之相關係數為 RXY,W,Y 之相關係數為 RWY, 則 RXY 與 RWY 兩數之間的關係, 下列選項何者為真? A RWY=74RXYB RWY=7RXYC RWY=7RXY D RWY=RXY E RWY=RXY As: E 90 學科 練習, 平面上求樣本點,, 4, 4, 的相關係數 r=?as:0 練習 3 調查八位同學某次數學及物理抽考的成績為
學生 A B C D E F G H 數學 93 35 57 74 45 76 53 87 物理 73 37 54 70 54 8 48 6 試求其相關係數 As:0.8 Y 練習 4 如圖所示, 有 5 筆 X,Y 資料 試問 : 去掉哪一筆資料後, 剩下來 4 筆資料的相關係數最大? A B 3C 4D 5E As:4 89. 學科 練習 5 右圖為一班參加高中聯考成績,X 表示英文成績, Y 表示國文成績, 兩個變數的相關係數最接近下列那一個值? A B C0.75 D0.5 E0.5 As:C D3,0 B,4 A,3 00 80 60 40 0 C4,5 Y E0, X 練習 6 有學生十人 甲 乙 癸, 其期考數學成績與該學期數學課缺課數, 如下表所示 : 60 70 80 90 00 X 學生 甲乙丙丁戊己庚辛壬癸 缺課數 3 3 4 3 5 6 3 0 成績 00 90 90 80 70 70 60 60 80 00 設兩者的相關係數為 r, 則 A- r -0.6 B-0.6<r<-0. C-0. r 0. D0.<r<0.6 E0.6 r As:A 練習 7 設 X Y 的相關係數為 r=0.3, 且 X =4X+5,Y =6Y4 的相關係數為 r, 則 r =? As:r =0.3 乙 最小平方法 如果散布圖顯示出兩個數量變數之間的直線相關, 我們會希望在散布圖中畫條直線, 來對這個直線相關做一個概述 最小平方法就是一種找出這樣的直線之方法, 找出來的直線稱為最佳直線或迴歸直線, 利用最佳直線可以利用一個變數來解釋或預測另一個變數, 條件是它們之間的關係是可以解釋或預測的 ~48~
最小平方法 : 例子 : 設樣本點,=,,=, 3,3=3,3, 求兩實數 a,b 使得下列 D 值最小 :D=ab +ab +3ab3 [ 幾何解釋 ]: D 的意義就是各樣本點與樣本點對 軸鉛直線與直線交點之距離的平方和, 所謂 對 的最佳直線 L:=a+b 就是找到 a,b, 使得 D 的值最小 最小平方法 : 對於給定有限個樣本點,,,, 要求出一條直線 =a+b 使得誤 差的平方和 E=[ a b ] 最小 這樣的直線 =a+b 稱為 對 的最佳直線或迴歸直線 求最佳直線 : X 給定 X Y 兩筆數據, 如表所示 Y, 欲找出 a,b 使得誤差的平方和 E=[ a b ] 最小 ~49~
~40~ 將 X Y 兩筆數據標準化成數據 X Y, Y X, 其中 =, =,X Y 的平均數與標準差分別為 0 與 = =0, = = 標準化後, 設最佳直線 L : =a +b 誤差的平方和 E = b a ] [ = b a b a ] [ = b a + b a a = a b +a +a b +b 因為 X Y 的平均數與標準差分別為 0 與 = b +a +b = +a + [b ] 當 a =0,b = = = 相關係數 r,e 的值最小 故標準化資料 Y 對 X 的最佳直線 L 為. =r 再將 =, =, 代入上式, =r =ry X 對 的最佳直線 L:= ry X + 其中斜率 b= ry X, 且直線通過點, 再利用, 的定義, 可以得到 b= ry X =
結論 : 若給定 X Y 兩筆數據, 將 X Y 兩筆數據標準化成數據 X Y, 則 Y 對 X 的最佳直線 L 為 =r, 其中 r 為數據 X Y 的相關係數 X 若給定 X Y 兩筆數據,, Y 則 Y 對 X 的最佳直線 L:=a+b 必通過點,, 斜率 b= ry X = 3 利用 Ecel 求最佳直線 : 指令 :LINEST 功用 : 使用最小平方法計算最適合於觀測資料組的迴歸直線公式, 並傳回該直線公式的陣列 由於此函數傳回陣列值, 所以必須輸入為陣列公式 語法 : LINESTkow_'s,kow_'s,cost,stats 最佳直線 :=m+b m 的計算 :INDEXLINESTkow_'s,kow_'s,cost,stats, b 的計算 :INDEXLINESTkow_'s,kow_'s,cost,stats, ~4~
[ 例題 5] A,B,C,D 是四組資料的散佈圖, 如圖所示 利用最小平方法計算它們的迴歸直線, 發現有兩組資料的迴歸直線相同, 試問是哪兩組? A B A C 3 A D 4 B C 5 B D 009 指定乙 As:4 [ 例題 6] 抽樣學生十人 甲 乙 癸, 紀錄期考數學成績與該學期數學課缺課數, 如下表所示 : 試求出缺課數與數學成績的相關係數 設缺課數為, 數學成績為, 試求數學成績對缺課數的最佳直線 3 若阿杰缺了 0 堂課, 根據最佳直線的預測, 他的數學成績為多少分 As:0.8 8 04 3 4 分 ~4~
[ 例題 7] 某人進行一實驗來確定某運動之距離 d 與時間 t 的平方或立方成正比, 所得數據如下 : 為探索該運動的距離與時間之關係, 令 =logt,=logd, 即將上述數據 t,d 分別取以 為底的對數變換, 例如 :, 53.65 變換成為, 5.74 已知變換後的數據,,,,,9,9 之散布圖及以最小平方法所求得變數 對變數 的最適合直線 或稱迴歸直線 為 =a+b, 如下圖所示 : 試問下列哪些選項是正確的? 若 d=4.88, 則 3<logd<4 與 的相關係數小於 0. 3 由上圖可以觀察出 b>.5 4 由上圖可以觀察出 a> 5 由上圖可以確定此運動之距離與時間的立方約略成正比 As:4 008 指定甲 ~43~
練習 8 高三某班有 0 位同學 編號,,,0, 其期末考成績與該學期上課時缺課數的統計資料如下 : 編號 3 4 5 6 7 8 9 0 缺課數 0 3 6 5 3 4 3 3 成績 95 75 55 55 65 65 75 85 85 95 試求這 0 個學生的缺課數 X 與期末成績 Y 的相關係數 求這 0 個資料變數 Y 對變數 X 的最佳直線方程式 3 根據這條最佳直線, 請預測缺課數為 7 時的成績為多少? As:0.93 =757.863 343.56 練習 9 設抽樣某班 8 位學生的數學成績 與英文成績, 結果如下 =65, X Y =70,X=0,Y=5,r=0.8 請寫出英文成績 對數學成績 的迴歸式 若此班某位同學數學成績 65 分, 請預測此生的英文成績 As:=44+0.4 70 分 練習 0 設某公司隨機抽樣 0 位員工的年齡 與血壓 的資料, 結果算出 0 0 =450, 0 =300, 0 =50, =750, =5900 請問年齡與血壓的相關係數 =? 請寫出血壓對年齡的最佳直線方程式 3 此公司員工的年齡 50 歲, 請預測此員工的血壓是多少? As:0.4 =03+0.6 333 0 ~44~
練習 請利用 EXCEL 完成問題 : 976 年 Marc 和 Hele Borste 研究了日常生活的步調, 觀察城鎮的規模變大之後, 生活節奏是否變快 他們有系統地觀察了城鎮主要街道上徒步者步行 50 英尺所須的平均時間, 下表是他們蒐集的數據,V 代表步行 50 英尺的平均速率,P 代表城鎮人口, 請建立一個 logv 對 logp 的數據表 利用 Ecel 作出 中數據表的散布圖 3 若 P 與 V 的關係可以用 P=CV 來表示, 請估計 C 與 的值約為多少 ~45~
綜合練習 某校高三共有 300 位學生, 數學科第一次段考 第二次段考成績分別以 X Y 表示, 且每位學生的成績用 0 至 00 評分 若這兩次段考數學科成績的相關係數為 0.06, 試問下列哪些選項是正確的? X 與 Y 的相關情形可以用散佈圖表示 這兩次段考的數學成績適合用直線 =a+b 表示 X 與 Y 的相關情形 a,b 為常數,b 0 3X+5 與 Y+5 的相關係數仍為 0.06 40X 與 0Y 的相關係數仍為 0.06 5 若 X X X =,Y Y Y =, 其中 X Y 分別為 X Y 的平均數,SX SY 分 S X S Y 別為 X Y 的標準差, 則 X 與 Y 的相關係數仍為 0.06 007 指定甲 經濟學者分析某公司服務年資相近的員工之 年薪 與 就學年數 的資料, 得到這樣的結論 : 員工就學年數每增加一年, 其年薪平均增加 8 萬 5 千元 試問上述結論可直接從下列哪些選項中的統計量得到? 年薪 之眾數與 就學年數 之眾數 年薪 之全距與 就學年數 之全距 3 年薪 之平均數與 就學年數 之平均數 4 年薪 與 就學年數 之相關係數 5 年薪 對 就學年數 之迴歸直線斜率 009 指定乙 3 某班數學老師算出學生學習成績後, 鑒於學生平時都很用功, 決定每人各加 5 分 加分後沒人超過滿分, 則加分前與加分後, 學生成績統計數值絕對不會改變的有 A 算術平均數 B 中位 Y 數 C 標準差 D 變異數 E 全距 88 自 4 右圖表兩組數據, 的分佈圖, 試問其相關係數 r 最接近下列何值? A B0.5 C0 D-0.5 E- 88 社 乙 5 某班的 50 名學生參加一項考試, 考題共 00 題, 全為 5 選 的單選題 計分法共有 X Y 兩種 : 某學生有 N 題放棄沒答,R 題答對,W 題答錯, 則 X=R W 4,Y=R+N 5, 試問下列敘述那些是正確的? 甲 O A 同一班學生的 X 分數不可能大於 Y 分數 B 全班 X 分數的算術平均數不可能大於 Y 分數的算術平均數 C 任兩學生 X 的分數差之絕對值不可能大於 Y 分數的差之絕對值 D 用 X 分數將全班排名次的結果與用 Y 分數排名次是完全相同的 E 兩種分數的相關係數為 90 自 X ~46~
6 假設某班有 40 人, 最近兩次數學測驗每一位同學第一次成績都比第二次少 8 分, 那麼下列有關這兩次數學測驗成績的統計結果哪一個是錯誤的? A 全距相等 B 算術平均數相等 C 四分位差相等 D 標準差相等 E 正相關 7 數學老師想把某次模擬考滿分 0 分的成績 X 作調整為滿分 00 分的平時成 績 Y, 以便登記成一次平時成績, 故 Y= 5 6 X 現在模擬考的成績求得算術平 均數, 中位數 Me, 全距 D, 標準差 S, 數學與物理分數相關係數為 r; 若 調整之後, 各相對統計量為算術平均數, 中位數 Me, 全距 D, 標準差 S, 數學與物理分數相關係數為 r, 則下列何者正確?A = 5 6 BMe=Me CD = 5 6 D DS = 5 6 S Er=r 8 已知以下各選項資料的迴歸直線 最適合直線 皆相同且皆為負相關, 請選出相關係數最小的選項 3 5 3 5 3 5 3 3 3 0 5 7 3 4 3 5 9 5 5 3 5 7 4 4 03 學科能力測驗 9 小明參加某次路跑 0 公里組的比賽, 下表為小明手錶所記錄之各公里的完成時間 平均心率及步數 : 在這 0 公里的比賽過程, 請依據上述數據, 選出正確選項 由每公里的平均心率得知小明最高心率爲 88 小明此次路跑, 每步距離的平均小於 公尺 3 每公里完成時間和每公里平均心率的相關係數爲正相關 4 每公里步數和每公里平均心率的相關係數爲正相關 5 每公里完成時間和每公里步數的相關係數爲負相關 05 學科能力測驗 0 十位考生之國文與數學成績列表如下 : ~47~
考生編號 3 4 5 6 7 8 9 0 國文 89 65 76 69 8 57 66 7 78 66 數學 75 57 65 65 83 63 58 6 63 69 今已算出國文成績之標準差為 8.9 取至小數點第一位, 數學成績之標準差為 7.5 取至小數點第一位, 則此十位考生兩科成績之相關係數最接近 A-0.85 B0.5 C0.66 D0.78 E0.85 空氣品質會受到污染物排放量及大氣擴散等因素的影氧化 5 響 某一機構為了解一特定物地區的空氣品質, 連續二十最大八天蒐集了該地區早上的平 0 濃均風速及空氣中某特定氧化度 物的最大濃度 再繪製這二豪克 5 十八筆資料的散佈圖 見下立圖, 現根據該圖, 可知方公 A 此筆資料, 該氧化物最 0 尺 大濃度的標準差大於 5 B 此筆資料, 該氧化物最 5 大濃度的中位數為 5 C 此筆資料, 平均風速的 35 40 45 50 55 60 65 中位數介於 45 與 50 之間 平均風速 公里 小時 D 若以最小平方法決定數據集中直線趨勢的直線, 則該直線的斜率小於 0 00 指定甲 請排出下面 5 個散布圖中, 的相關係數的大小順序 3 有 0 筆數據,,=,,,0, 其中平均 X=3,Y=4,X 與 Y 的相關係數 r=0.8, 且 對 的迴歸直線通過點,0, 試問下列哪些選項是正確的? X 與 Y 正相關 迴歸直線通過 3,4 3 迴歸直線的斜率為 0.8 4 迴歸直線通過 7,0 5X 的標準差小於 Y 的標準差 ~48~
4 右圖為兩變數,0 筆資料的散布圖, 試問下列敘述那些是正確的? 標準差 = A 變數 的中位數為 40 B 變數 的平均數不大於 50 C 變數 的標準差不大於 D 變數 與變數 為正相關 E 變數, 的最佳直線斜率為負的 5 某一個樣本共有 00 筆資料, 經計算已知如下資料 : 00 00 =500, 00 =8000, 00 =585000, =64800, =00743 ax=? Y =? bx =? Y =? c 相關係數 r=? d 求 對 的最佳直線方程式 e 若將每個 乘以 再加上 50, 每個 乘以 再加上 00, 可得新的數據, 求新的數據 的相關係數 6 下表是太陽系九大行星的週期與到太陽的平均距離 : 我們想建立一個數學模型來描述週期與平均距離間的關係 00 ~49~
行星 週期 天 平均距離 百萬英里 水星 88.0 36 金星 4.7 67.5 地球 365.3 93 火星 687.0 4.75 木星 433.8 483.80 土星 0760.0 887.97 天王星 30684.0 764.50 海王星 6088.3 79.05 冥王星 90466.8 3653.90 a 用 EXCEL 可以畫出平均距離對週期的散布圖 b 將周期 與平均距離 取對數, 令 Y=log,X=log, 用 EXCELX 畫出 X 對 Y 的 散布圖 c 利用 EXCEL 計算 X Y 的相關係數與最佳直線 d 利用上述的資料, 請找出周期 與平均距離 的關係 ~40~
綜合練習解答 345 5 3CE 4C 5ABDE 6B 7ACDE 85 945 [ 解法 ]: 0C 由每公里的平均心率得知小明最高平均心率爲 88 而非最高心率, 故錯誤 0000 計算總步數為 060, 因此每步的平均距離 060 公尺 < 公尺, 故正確 345 的選項, 先計算完成時間的平均為 4:44, 平均心率的平均為 70.4, 步數 的平均為 06 3 觀察數據, 完成時間 ><4:44, 平均心率大都 <>70.4, 判斷為負相關 故錯誤 4 觀察數據, 步數 ><06, 平均心率大都 ><70.4, 判斷為正相關 故正確 5 觀察數據, 完成時間 ><4:44, 步數 <>06, 判斷為負相關 故正確 CD a>d>c>e>b 345 4 ABCE 5a5,80 b7.7,8.8 c0.55 d=0.33+38.76 e0.55 ~4~
6a 民國前 通用格式民國前 通用格式民國前 通用格式民國前 通用格式民國前 通用格式數列 民國前 通用格式民國前 通用格式民國前 通用格式民國前 通用格式民國前 通用格式民國 通用格式民國 通用格式民國 通用格式民國 通用格式民國 通用格式 b 取對數後的散布圖 4 3 log 數列 0 0 3 4 5 6 log c ~4~
取對數後的散布圖 log 4 3 = 0.6659 + 0.69 數列 線性 數列 0 0 4 6 log Y=0.6659X+0.69, 相關係數 =0.99998,d =a. 0.669 a. 3 ~43~
X 給定 X Y 兩個變數, 如表所示 Y 使得誤差 e= [ a b ] 最小 最小平方法的誤差與相關係數 考慮此數是因為可以避免資料的數目對於誤差的干擾 將 X Y 兩個變數標準化化成 X Y, 其中 =, =, 欲找出最佳直線 L:=a+b ~44~
~45~ Y X X Y 的平均數與標準差分別為 0 與 0, 標準化後, 設最佳直線 L : =a+b 誤差的平方和 e= b a ] [ = b a b a ] [ = { b a + b ab a } = { a b +a +ab +b } 因為 X Y 的平均數與標準差分別為 0 與 所以 = =0 = { b +a +b } =a + [b ] + [ ] 當 a=0,b= = =r 相關係數時,e 的值最小 最小值 = [ ]= [ ]=r 上式說明了當 a=0,b=r 時,e 的最小值為 r 這說明了幾件事情 : 因為不管 a,b 取那些值, 誤差 e0 恆成立, 因此 r 恆成立 r 愈大, 誤差 e 愈小, 因此直線相關程度愈高 ; 反之, r 愈小, 誤差 e 愈大, 因此直線相關程度愈低