4 分析二維數據 重點整理 ~ 散布圖 座號 : 姓名 : 散佈圖若要觀察一組二維數據 (x, y ) (x, y ) (x, y ) 之相關性, 最直接的方法就是把數據標示在直角坐標平面上, 形成 個散佈的點, 這樣的圖形稱為 y 對 x 的散佈圖 直接看散佈圖上所有點的整體形象, 可以發現 X 與 Y 是否呈現某種函數關係 線性相關 (A) 正 負相關及零相關散布圖中, 當點的分布集中在直線 L 附近時, 稱 X 與 Y 為直線相關 () 當 L 的斜率為正時, 稱 X 與 Y 為正相關 ( 如圖 ), 也就是當 X 增加時, Y 也會有增加的趨勢 () 當 L 的斜率為負時, 稱 X 與 Y 為負相關 ( 如圖 ), 也就是當 X 增加時, Y 反而有減少的趨勢 (3) 若各點的散布, 上下左右均成對稱狀態, 或各點完全分布在平行 x 軸或平行 y 軸的直線上, 稱兩變量為零相關 ( 如圖 3) 圖 圖 (B) 線性相關之強弱散布圖中, 點的分布很接近直線時, 相關性就很強, 而當點在直線附近散布很廣時, 相關性就弱 圖 3 4 分析二維數據
基本例題 製作散佈圖調查 0 位運動員的身高與體重得到數據如下, 作出這組數據的散佈圖 身高 ( 公分 ) 8 8 84 90 85 86 87 88 9 85 體重 ( 公斤 ) 75 76 80 85 83 84 86 85 85 9 解 類題. 蒐集家福公司過去半年每個月的廣告費用 (X) 與銷售量 (Y) 的資料如右表, 試畫出銷售量對廣告費的散佈圖 As: 略 月份 廣告費 X 萬元 銷售量 Y 萬元 5 300 6 350 3 3 00 4 8 400 5 0 480 6 600 重點整理 ~ 相關係數 相關係數設有 筆同性質的資料 (X, Y):(x, y ) (x, y ) (x, y ), 則變數 X x y x x y y Y 的相關係數定義為 r =, 其中 x =, y = ( 稱為資料 x y 標準化 ), 即資料標準化 : ( x x)( y 若本班數學平均 70 分, 符號 r = 速記標準差為 5 分, 而阿信 阿 ( ) x y 法! 義的數學成績分別為 80 66 分的話, 則他們兩人的標準 ( x x)( y xy 化資料為 + 與.8! = ( = ) xx 標準化的意義, 乃是用 yy ( x x) ( y 距離中心 ( 平均值 ) 幾個標準 證明詳見 差 來描述資料的位置! 例題 3 xy x y = x x y y 4 分析二維數據
. 利用未標準化資料的相關係數公式, 計算 X 與 Y 兩種抽樣數據的相關係數 X 3 4 7 5 Y 5 40 5 35 55. 有 0 筆兩變數的資料 (x, y ), 若 0 0 y xy 基本例題 0 0 0 x x y = 0, = 3940, = 00, = 7600, = 4000, 求變數 x y 的相關係數 r 計算相關係數 解. 0.75. 8/5( 約 0.53). X 的平均數 x = 8 Y 的平均數 y = 30, 依公式需要整理如下表 : x y x x y y ( x x) y ( x x)( y y) ( y ) 3 5 5 5 5 65 5 4 40 4 0 6 00 40 7 5 5 5 5 35 3 5 9 5 5 5 55 7 5 49 65 75 40 50 00 600 90 ( x x)( y 90 9 由相關係數公式得 r = = = = 0.75 40 00 600 ( x x) ( y 總和 類題. 從全校學生隨機抽十位學生, 其身高與體重之資料如下表, 則 : () 畫出體重對身高之散布圖 () 求出身高與體重的相關係數 身高 x( 公分 ) 60 58 66 68 74 7 76 56 63 67 體重 y( 公斤 ) 5 56 54 60 58 64 68 48 54 56 As:.() 略 ()r = 0.848. 宗緯有 0 筆兩變數的資料 (x, y ), 已知 0 0 y xy 0 0 0 x x y = 0, = 3940, = 00, = 7600, = 4000, 則變數 x y 的相關係數為 As:0.63 4 分析二維數據 3
( x x)( y xy xy 試證明相關係數 r = = ( x x) ( y x x y y 證明 標準例題 3 ( x x)( y = ( x y x y y x + x y) = x y x y y x + x y= x y x y y x+ x y = x y x y ( x x) = ( x x x + x ) = x x x + x x x x x x x ( y = y y = + = 同理, 相關係數公式證明 重點整理 3 ~ 相關係數之性質 相關係數之性質 (A) 範圍 : r 可利用 柯西不等式 證明得知! 詳見例題 5! (B) 單位不變量 : 相關係數不受單位改變而影響! 例: 設 X Y 代表兩個變數, 且 r (X, Y) 代表兩者的相關係數, 若 U = ax + b,v = cy + d ( 即 X Y 經過線性轉換成 U V), r( X, Y) f ac 0 則 r( U, V) = + > r( X, Y) f ac < 0 (C) 與散布圖之關聯 () 全正 ( 負 ) 相關 : 所有散布圖上的點都落在同一條直線上, 此時 r = 或 ( 知道其中一個變數的值, 肯定 00% 能推測出另一個變數的值 ) () 相關性高低 : 散布圖上的點越接近某一條代表線 ( 非水平線或鉛直線 ) 時, 表示兩變數的關係越強, 此時相關係數越接近 或 ; 若離代表線越分散時, 兩變數的相關性越低, 此時相關係數越接近 0 4 分析二維數據 4
(3) 零相關 : 如果散布圖中的點呈現水平 鉛直地分佈, 代表兩變數無關! 另外, 若散布圖中的點大致呈現 圓形 ( 或 對中心上下 左右對稱 ), 則相關係數亦為 0( 或很接近 0)! 標準例題 5 相關係數之重要性質. 試證明 : 相關係數 r 值永遠介於 與 之間, 即 r. 已知兩變數 X Y 的相關係數 r (X, Y) = 0.8, 若 U = 3X + 且 V = Y + 5, 則 U V 的相關係數 r (U, V ) =? 解. 略. 0.8. 令 x = x x y = y y ( =,,, ), 由柯西不等式知道 : ( x + x +... + x )( y + y +... + y ) ( x y + x y +... + x y ) 重點整理 3 ~ 相關係數之性質 ( 續 ) x y ( x y ) ( x x) ( y [ ( x x)( y ] 意義完全相關高度相關中度相關低度相關無關 r 值 ± 0.7 r < 0.3 r < 0.7 0< r < 0.3 0 ( x x)( y ( x x) ( y 相關係數意義參考表 r 類題. 設 Y = ax + b, 求證 :() 若 a > 0, 則 r XY = () 若 a < 0, 則 r XY = ( 兩變數存在線性關係, 相關係數必為 或 ) As: 略. () 兩變數 X Y 的相關係數記為 r (X, Y), 若 a b c d R 且 ac < 0, 試證 : 若 U = ax + b,v = cy + d, 則 r (U, V ) = r (X, Y) () 若 X 與 Y 之相關係數為 0.86, 求 X + 3 與 3Y + 之相關係數 As: 0.86 4 分析二維數據 5
基本例題 6 相關係數之概念下列何者正確? (A) 設兩變數 X 與 Y 有 個變量且 Y = X 3, 則 X 與 Y 呈完全正相關 (B) 三變數 X Y Z, 且 X 與 Y 的相關係數為 0.3, 而 X 與 Z 的相關係數為 0.6, 則由此可知 X 與 Y 的相關程度較 X 與 Z 的相關程度高 (C) 兩變數是否為正相關或負相關可以從其散布圖中做初步的判斷 解 (C) (A) 完全負相關 (B) 相關係數的絕對值愈大, 相關程度愈高 類題. 如圖所示, 有 5 筆 (x, y) 資料, 試問去掉哪一筆資料後, 剩下來 4 筆資料的相關係數最大?(A) A (B) B (C) C (D) D (E) E As:(D) 重點整理 4 ~ 最小平方法與迴歸線 誤差 殘差 最小平方法 (A) 誤差統計學上, 預測是一件重要的事情, 若某兩個變數高度相關, 那我們可以經由得知某一個變數的值, 去推測另一個變數的值 例如, 人類的身高 (Y) 與體重 (X) 有高度的相關, 聽說男生的身高與體重大致呈現 Y = X + 00 的關係, 如果你得知某甲的體重是 65 公斤, 那就可以推測他的身高大約是 65 公分, 如果某甲的真實身高是 68 公分, 那我們就說這樣的預測其誤差為 68 65 = 3 公分! 上述 Y = X + 00 的說法是用什麼法得來的呢? 這就需要 殘差 及 最小平方法 的概念了! (B) 殘差當兩個變數具有高度相關時, 散布圖上的點會集中在一條 看不見 的直線附近, 我們要如何找出最能代表 ( 描述 ) 這組資料的這條直線呢?( 通常稱為 迴歸線 或 最佳直線 ) 假定資料為 (x, y ) (x, y ) (x, y ), 而這條直線為 y = a + bx, 則定義殘差為 e = y (a + bx ) ( =,,, ) e = y y, 即 實際資料 y 值 減去 相同 x 所對應之估計值 ( 統計學上記做 y ) 4 分析二維數據 6
(C) 最小平方法之概念對不同直線而言, 每筆資料都會有對應的殘差值, 若我們要求 找出一條直線使其殘差平方和最小, 則這個方法稱為 最小平方法, 而找出來的直線也就稱為 迴歸線, 換句話說, 迴歸線是一條直線 y = a + bx, 其中 a b 會使得殘差平方和最小, 也就 是 a b 滿足 D= e = [ y ( a+ bx )] 有最小值! 求 y 對 x 的迴歸線 ( 方程式 ) (A) 對一組資料 (x, y ) (x, y ) (x, y ), 以最小平方法求得的迴歸線 ( 即 最佳直線 ) 為 y = a + bx, 其中 a b 為 xy b = xx ( xx = ( x x), xy = ( x x)( y ) 證明見例題 8 a = y bx y (B) 迴歸線方程式亦可寫成 y y= r ( x x) 的形式( 點斜式 ), 其中 x r 為兩變數 x y 相關係數, x y 分別為其樣本標準差 xy y ( 意即 b = r =, 並稱 b 為迴歸係數, 也就是迴歸線的斜率!) 說明 重點整理 4 ~ 最小平方法與迴歸線 ( 續 ) xx x e y 基本例題 7 殘差 最小平方法之概念有同性質之 4 比資料 (X, Y):(, 3) (, 5) (3, 6) (4, 0), 則 () 畫出 y 對 x 之散布圖 ()L :y = + x,l :y = + x 哪一條直線較能代表 ( 解釋 ) 此組資料之關係? ( 用最小平方法作為判斷準則 ) 解 () 略 () L 4 分析二維數據 7
(x, y ) L :y = + x (a =,b = ) e = y y = y ( a+ bx ) xx 4 分析二維數據 8 L :y = + x (a =,b = ) (, 3) e = 3 ( + ) = 0 e = 3 ( + ) = 0 (, 5) e = 5 ( + ) = 0 e = 5 ( + ) = (3, 6) e 3 = 6 ( + 3) = e 3 = 6 ( + 3) = (4, 0) e 4 = 0 ( + 4) = e 4 = 0 ( + 4) = 4 4 e 0 + 0 + ( ) + = 0 + + + 4 = 8 標準例題 8 迴歸線方程式 ( 公式 ) 之證明試證明 : 一組資料 (x, y ) (x, y ) (x, y ), 以最小平方法求得的迴歸線 xy b = ( 即 最佳直線 ) 為 y = a + bx, 其中 a b 之值滿足下列方程組 : xx a = y bx [ 其中 = ( x x), = ( x x)( y ] xx xy 證 由最小平方法, 先計算殘差平方和 : a abx b x ay bxy y a ab x b ( xx x) a y b( xy x y) yy y D = e = [ y ( a + bx )] = ( a + abx + b x ay bx y + y ) = + + + = + + + + + + xx xy yy = ( a + abx+ b x ) + b a y b x y b + + y = a+ bx + b ya+ bx b + + y ( ) xx ( ) xy yy xx xy yy [( ) xy xy xy ] xx( ) xx xx xx xx [( ) xy xy ] xx( ) yy xx xx = [( a + bx) y( a + bx) + y ] + b b + = a+ bx y + b b = a+ bx y + b + + + xy 當 b= 且 y= a+ bx 時, 殘差平方和有最小值, 意即迴歸線可寫成 xx xy y = a + bx, 而 a b 之值滿足 b= 且 a= y bx yy
標準例題 9 下表是 5 位同學參加學測的數學與自然考科成績, 其中 X 為數學考科級分,Y 為自然考科級分, 考生 甲 乙 丙 丁 戊 數學級分 X 3 9 7 5 考試後發現, 考生戊在考自然時因腹痛提早交卷而影響其成績, () 若將戊的成績排除不計, 則其餘 4 位同學 X 與 Y 的相關係數為多少? 其相關程度如何? () 求甲 乙 丙 丁四名考生成績之 Y 對 X 的迴歸直線方程式 (3) 若戊生未發生意外狀況, 則依此迴歸關係, 預測其自然科成績應為幾級分? 解 () 0.8 () y = 3 + 0.8x 自然級分 Y 4 8 0 6 (3)5 級分 求迴歸線方程式並作預測 3+ + 9 + 7 4 + + 8 + 0 () 戊的成績不計,4 位同學的平均分數 x= = 0, y = =, 4 4 x x y y ( x x) ( y ) y ( x x)( y y) 甲 3 3 9 9 9 乙 丙 3 9 3 丁 3 9 3 總和 xx = 0 yy = 0 xy = 6 ( x x)( y 相關係數 6 6 r = = = = 0.8, 相關程度為高度正相關 0 0 0 ( x x) ( y ( x x)( y xy 6 4 () 因 b = = = =, xx 0 5 ( x x) 4 a= y bx= 0 = 3, 5 4 4 4 故 Y 對 X 的迴歸直線為 y = x+ 3 [ 或 y y = b( x x) y = ( x 0) y = 3+ x ] 5 5 5 4 4 X 為 5, 將 x = 5 代入迴歸線 y = x+ 3, 得 y = 5 + 3 = 5 5 5 即預測戊生的自然科成績為 5 級分 (3) 戊生的數學成績 ( ) 類題. 有五筆 (x, y) 資料如下 :(, ) (0, ) (, ) (4, ) (6, 3), 求 y 對 x 之迴歸線方程式, 並預測 x = 5 時所對應的 y 值 As:() y = 0.5 + 0.45x ().75 4 分析二維數據 9
. 下表為台灣地區某 8 個地點的公告地價與市價 ( 單位 : 萬元 / 坪 ), 試求 : () 市價對公告地價的迴歸式 公告地價 (x) 0 30 8 40 0 8 () 若某土地的公告地價為每坪 8 萬元, 請利用上題求得之市價 (y) 5 8 40 0 7 39 5 迴歸式預測其市價 As:()y = 6.67 +.83x ()44.57 萬元 標準例題 0 迴歸線斜率與 r 之關係 0 0 0 位同學 A B 二科成績為 (x, y ), =,,, 0 滿足 : x = 60, y = 70 0, x = 390, 0 y 適合直線為 0 = 50 及 xy = 40, 則相關係數 r =,y 對 x 的最 解 r = 0.776, 最適合直線 y = 7 0.634(x 6) x = x x,y = y y, x = 6, y = 7 X = [390 0 (60) 0 30 ] =,X =,Σx = 30 9 3 9 Y = 9 [50 0 (70) ] = 9 0,Y = 9 0,Σy = 0 9 XY = (40 0.60.70) = (40 40) =,Σx y = 9 9 9 9 r = x x y. y = 9 30 0 = 9 30. 0 = 0. 607 = 0.776 Y ŷ = y + r. (x x ) ŷ = 7 0.776. (x 6) 3 X ŷ = 7 0.634(x 6) y 對 x 的最適合直線 類題. 若有一組 (x, y ), =,,, 0, 算出標準差 X =, Y = 5, 若 y 對 x 做迴歸得最適合直線方程式為 y = 3x + 5, 則 x 與 y 的相關係數 r = As:0.6. 設有 0 筆 (x, y ) 的資料, x= 5, y= 3, 相關係數 r =, 且 y 對 x 的迴歸線過點 A (0, ), 則下列何者真? (A) x 組的變異係數不小於 y 組的變異係數 (B) 迴歸直線方程式為 y = 0. x + 4 分析二維數據 0
(C) 迴歸直線過 (0, 0) (D) x 組的標準差不大於 y 組的標準差 (E) 迴歸線的斜率為 As:(A) 正課本部分例題正 例題 4 計算下列二維數據的相關係數,並作出其散佈圖 As: 略 X 6 3 0 7 4 Y 0 4 6 8 例題 5 從一組 0 個二維數據 (x,y) 得到下列數據 : x j =60, 0 j= 0 0 j= 0 j= 0 y j =00, x j =400, j= y j =75000, x j y j =0000,求 X, Y 的相關係數 As: 3 j= 例題 8 某一新產品的價格與銷售量如下所示 : 價格 X 300 340 360 400 銷售量 Y 34 3 8 透過 Y 對 X 的迴歸直線預測價格為 35 時的銷售量 As: 47 3 3 習題 4 基本概念題. 求下列二維數據的相關係數 X 3 4 5 Y 5 8 9 6. 一組 0 個的二維數據滿足下列條件,求這組數據的相關係數 0 x j =00, j= 0 j= 0 y j =400, j= x 0 j =73600, j= 0 y j =98300, x j y j =84300 j= 4 分析二維數據
3. 一組 8 個的二維數據滿足下面的條件 : 8 x j =0, y j =40, XX =84, YY =68, XY =08, j= 8 j= 求 Y 對 X 的迴歸直線方程式,並推測 X=5 時 Y 的值 一般性問題 4. 利用最小平方法求下列二維數據所決定的迴歸直線方程式,並預測 x=5 時 y 的值 x 3 6 y 6 4 7 3 5. 虎克定律表示在彈簧的彈性範圍內,彈簧的伸長量 L 與吊掛物體的重量 F 成正比,透過實驗而得到下面的數據, 求 F 對 L 的迴歸直線方程式 F( 公斤 ) 5 0 5 0 5 L( 公分 ) 0 9 36 44 5 6. 為了解成人的身高與鞋子尺寸的關聯性而做抽樣調查,得到 9 位男性身高與鞋子的號數如下 : 身高 ( 公分 ) 9 80 80 8 78 78 75 77 78 鞋號 3 9 0 0 8 9 9 求身高與鞋號的相關係數 7. 汽車的耗油量與速度有關聯性,測試一重量為.8 噸的汽車,而得到下面的數據 : 速度 ( 公里 / 小時 ) 48 64 80 96 耗油量 ( 公里 / 公升 ) 7.7 8.4 6.9 6.7 5.3 求耗油量 P 對速度 V 的迴歸直線方程式,並預測速度是 90 公里 / 小時的耗油量 思考性問題 8. 利用最小平方法得到二維數據 (x,y ), (x,y ),, (x,y ) 的迴歸直線方程式為 y=x+ 5,另一組二維數據 (u,v ), (u,v ),, (u,v ) 是透過 u=3x+7, v=-4y+6 所得到,求 v 對 u 的迴歸直線方程式 答案 :. 約 0.35. 約 0.433 3. y= 9 7 x- 00 7, X=5 時, Y=5 4. y= 4 x+37 4, x=5 時, y= 46 7 5. F=35 54 L-5 3 6. 約 0.83 7. P= -3 30 V+4 4,約 6.59 公里 / 公升 8. v=- 8 3 u+ 4 3 4 分析二維數據
4 實力演練. 是非題 ( ). 設三變數 X Y Z, 且 X 與 Y 的相關係數為 0.3 而 X 與 Z 的相關係數為 0.6, 則由此可知 X 與 Y 的相關程度較 X 與 Z 的相關程度高 ( ). 設兩變數 X 與 Y 有 個變量且 Y = X 3, 則 X 與 Y 呈完全直線正相關 ( )3. 正相關與負相關可以從散布圖中清楚的比較出來. 若有 0 筆 (x, y ) 的資料相關係數為 r, 下列敘述何者為真?( 複選 ) (A) 當 r =, 則散布圖上所有點在一直線上 (B) 當 r = 0, 則散布圖上所有點必成一圓形 (C) 當 r = 0, 則表示無法由 x 值來預測 y 值 (D) 當 r =, 則表示無法由 y 值來預測 x 值 (E) 當 r =, 則迴歸線的殘差平方和必不為 0 y = 3x + 5 3. 高二某班期中考數學成績平均 60 分, 標準差 0 分 ; 英文成績平均 75 分, 標準差 5 分, 且兩科成績的相關係數為 0.45, 則 () 哪一科成績的差異性較大? 5 () 將全班數學成績加 6 分, 英文成績乘以 6, 則新的數學成績的標準差為, 新的英文成績的平均值為, 此兩科新成績的相關係數為 4. 六筆資料 (, ) (, ) (3, ) (, 3) (3, 3) (3, 5) 表 x 與 y 散布圖上的樣本點, 則 x 與 y 的相關係數 r =,x 對 y 的最適合直線為 5. 兩組變量 x 與 y, 每組均有 0 個數值資料, 得散布圖的樣本點 (x, y ), = 3 0 0, 已知 x =, y = 4, x = 3., y = 39.6, xy = 8, 0 0 則 () x 的標準差 X = () y 的標準差 Y = (3) x 與 y 的相關係數 r = (4) 3x 4 與 y + 5 的相關係數為 6. 宥嘉在上學期的五次平時測驗中, 複習功課的時數 x 與測驗成績 y 如下表 : x( 小時 ) 3 4 5 6 7 y( 分 ) 50 60 70 80 80 則 () 此兩組資料的相關係數為 ( 小數點後第三位四捨五入 ) () y 對 x 的迴歸直線方程式為 7. () 兩變數 X Y 的相關係數記為 r(x, Y), 若 a b c d R, 試證明 : 0 0 4 分析二維數據 3
+ r( X, Y) f a c> 0 rax ( + b, cy+ d) = r( X, Y) f a c < 0 () 若 X 與 Y 之相關係數為 0.6, 求 5X + 3 與 3Y + 之相關係數 8. 黃家有一條船, 其耗油率好像與船的時速有關, 假設今有如下的樣本資料 : 速度 X( 哩 / 時 ) 6 8 3 耗油率 Y( 加侖 / 時 ).3 4.8 7.5 9..0 () 試求耗油率 Y 對速度 X 的迴歸直線 ( 最適合直線 ) 為 () 如果船的速度是每小時 35 哩, 則可預估耗油率是每小時 加侖 9. 下圖中, 有五組數據, 每組各有 A B C D E F 等六個資料點 : 各組的相關係數由左至右分別為 r r r 3 r 4 r 5, 則下列何者為正確? 稍難! (A) r = r (B) r < r 3 (C) r 3 < r 4 (D) r 3 < r 5 (E) r 4 = r 5 As: 答 案. () () (3). (A)(C) 3. () 英文 ()0,6.5,0.45 4. 0.5, x = 7 + y [ 提示 :x 對 y 的最適合直線為 L:x x = r 4 4 x y (y y ) ] 5. () 0 () (3) r = 0.63 (4) 0.63 6. () 0.97 () y = 8 + 8x 7. () 略 () 3 0.6 8. () y = 0.535 + 0.338x ().4 9. (A)(B)(E) 0 3 4 分析二維數據 4