4- 二維數據分析 目標 首先能利用散布圖描繪出二維數據 與 以便觀察與理解 與 的直線相關的關聯性強度 ; 進而能利用 與 的標準化數據求出 與 的相關係數 並熟 悉相關係數的操作及相關係數的代數性質 ; 再者 能理解最適合直線的意涵 並利用數據 與 的相關係數 求出 對 的最適合直線 以便利用數據 的數值 預估對應的 值 定義. 散布圖 : 要了解兩個變數間是否有關 最直接的方法就是將 筆資料 L 畫在坐標平面上 所得圖形稱 應變數 對 自變數 的散佈圖 目的在於觀察 應變數 對 自變數 之間的相關性 有時資料很多或坐標不需要時 可以將之省略. 樣本點 : 散布圖上的點 稱為樣本點 註 : 畫出散布圖的目的在於先觀察出資料之間是否有一些比較明顯的關係存在 若有我們想要找出一條直線來推測出這兩個變數之間的變動規律 以衡量這兩個變數的關聯性 並推測出它們之間的關聯程度 若無顯著的一致性關係時 不要硬要討論它們之間的關聯程度 範例 班上 位同學的數學成績與物理成績如下表 : 數學成績 4 4 5 6 8 8 物理成績 4 5 65 6 85 5 將兩個變數的數值資料數對畫在坐標平面上 以表明它們的分部情形 此即散布圖 散布圖 物理成績 9 8 7 6 5 4 3 3 4 5 6 7 8 9 數學成績 9
類型. 正相關 : 負相關 : 完全正相關 : 完全負相關 :. 無直線相關 : 無直線相關 : 無直線相關 : 思考. 如果知道一個變數的數值時 相應的另一變數的數值的變異範圍 可以用來測量兩變數之間的關係 範圍越大 兩變數的關係越模糊 也就是兩變數之間的關聯性很低 表示兩者由不同的因素決定 也就是一變數變動時 另一變數不一定跟著改變 ; 範圍越小 兩變數的關係越明確 也就是兩變數之間的關聯性很高 表示兩者幾乎由同一因素決定 也就是一變數變動時 另一變數跟著改變. 二維數據 L 都可以在 平面上描畫出散布圖 圖中是一些不同的散布圖 : c d e 其中 都是左下右上的散布 表示 較大時 有偏大的趨勢 但 中的關聯性較 顯著 又 cd 都是左上右下的散布 表示 較大時 有偏小的趨勢 而 c 中的關聯性較 d 顯著 至於 e 中點的散布 沒有明顯趨勢 表示 與 的關聯性很低
說明. 將兩組數據 與 利用數對 L 繪入坐標平面上 以便顯示其相關程度與方向 稱為散布圖 散布圖中的各點 即樣本點 完全在一直線上或分布大致在一直線附近則數據 與 之間的相關為直線相關 相關也可以是曲線相關即散布圖中的各點全部在一曲線上或分布大致在一曲線附近 本文只討論直線相關的情況 直線相關的相關關係用來表現這些樣本點的變動規律 以衡量兩數據變動的一致性 來推測它們之間的相關程度 當兩數據之關聯很高 即表示一種數據變動時 另一種數據跟著改變 因此相關程度是了解數據之變動程度的一種方法. 在生活中常要分析兩個變數 與 之間的關係 若兩者之間存在正比或反比關係 並且在專業上可能存在聯繫 但不知兩者有無存在關係 這時要了解兩變數之間的密切程度 相關方向 可應用相關分析來解決 3. 相關分析不能用來當作建立因果關係的解釋 定義 相關 :. 正相關 : 當一個變數的數值增加時 另一個變數的數值有增加的趨勢. 負相關 : 當一個變數的數值增加時 另一個變數的數值有減少的趨勢 3. 完全相關 : 兩個變數的散佈圖所有點都在一條斜的直線上 4. 完全正相關 : 兩個變數的散佈圖所有點都在一條斜率為正的直線上 直線斜角小於 9 度 5. 完全負相關 : 兩個變數的散佈圖所有點都在一條斜率為負的直線上 直線斜角大於 9 度 6. 無關 零相關 : 兩變數之間沒有關係的 例如呈現圓形分布 水平線 垂直線 扁平形 全部散開形 7. 曲線相關 : 兩變數間的關係不是線性的 為二次形 雙曲線形... 等等 註 : 兩變數相關係數為零時 表示兩變數無直線相關而已 但可能有其他的曲線相關
思考 通常身高與體重會成正比 但是給你一組資料 應該如何來衡量這兩組資料間的 關係呢? 如何衡量相關程度的高低? 可否由身高來預測體重大約多少? 班上 位同學的數學成績與物理成績如下表 : 身高 公分 55 57 63 65 68 69 7 75 78 85 68.7 體重 公斤 45 5 53 55 57 59 63 75 79 83 6.9 畫出散布圖 : 散布圖 體重 8 6 4 5 6 7 8 9 身高 通常我們會畫出平均值 並表於圖形上如上圖 兩直線交點處即為兩變數平均數之處 即坐標點為 68.76.9 之處 此時若把身高的單位變化成為公分後 重新畫出一個散布圖後 並表於圖形如下圖 兩直線交點處即為兩變數平均數之處 即坐標點為 68.76.9 之處 散布圖 5 體重 5 5 5 身高. 你觀察同樣資料的兩個散布圖 你可能會覺得第二個散布圖中的資料比較集中 但實際上只是資料單位取的不同而已 所以我們希望有一個不受單位影響的統計量 來觀察兩個變數之間的相關性強弱. 又若不同單位 會影響統計量的大小時 是否統計量越大就表示相關性越大 則不是很客觀的 故希望能將資料標準化 而不受單位的影響 3. 在觀察相關時 我們也希望知道相關的正或負 所以上述畫出兩變數的平均線的目的 以就是希望能夠觀察出 兩變數之間是呈現正比或是反比 若資 料散布於以 當新原點 兩變數平均線當新坐標軸的第一象限或第三象限比較多時 我們大約可以知道是呈現正相關 若散布於第二象限或第四象線比較多時 我們大約可以知道是呈現負相關
目的 研究兩個變數的相關性 定義相關係數時 望能有以下性質 :. 相關性的方向 : 正相關或負相關. 相關性強度 3. 要與單位無關 4. 強度的範圍希望在 ± 之間 定義. 資料標準化 : 將資料標準化 化成平均數 標準差 : 變數 原始資料 平均值 標準差 標準化資料 ' ' 平均值 標準差. 相關係數 coelto coeffcet: ' ' 3
方法. 最小平方法 : 二維數據 L 中 可由散布圖約略得到 與 的關聯性 這種關聯性的強度可以適當量化 首先 令 分別表示 的標準化數據 µ µ 即 其次定義二次函數 et $ t$ et 是變數 t 的函數 它代表一種偏差值 以下我們要求 et 的最小值 將平方式展開 得 $ t $ $ $ t $ et t $ $ t $ 由於 µ µ 故 $ $ µ 得 $ 同理 $ $ $ $ $ $ $ 故 et t $ $ t t $ $ $ $ $ $ 當 t 時 et 有最小值 e $ $ 其中稱為數據 與 的相關係數 記為 不致混淆時 簡記為 $ $ $ $ 於是 函數 et 的最小值為 e [ ] $ $ µ µ 由於 µ µ µ µ µ µ µ µ µ µ µ µ 得 與 的相關係數 µ µ 4
定義. 相關係數 : 為了表示數據 與 的變動一致性的直線相關程度 我們用一條最適合這些樣本點 L 的直線來表示兩數據之間的關係 首先 我們將數據 與 標準化 得到標準化數據 $ $ 然後找一條直線 使得 $ $ [ ] 有最小值 這種方法就是最小平方法 當 $ $ $ 其中 $ µ µ µ µ 即當 µ µ $ $ [ ] 有最小值 這表示 : 當數據 變動一個標準差時 變動 個標準差 它用來表示兩數據的一致性 µ µ 為了表示一致性的程度 我們取 µ µ 時 稱 為 與 的相關係數 並用 來表示最適合這 個點的直線 在課文中 我們定義函數 $ $ et t 則當 $ $ e 為 et 中的最小值 此種說法就是 中 其中 $ $ $ $ 的一種簡單的表達方式 5
例題. 有 名學生 其性向測驗與成就測驗的分數 滿分 分 如下 : 學生編號 3 4 5 6 7 8 9 性向測驗 5 7 4 5 9 3 6 9 7 5 成就測驗 8 6 7 6 5 9 9 7 3 求這 名學生性向測驗與成就測驗的相關係數 解 : 設性向測驗為 L 成就測驗 L 作表如下 : 學生編號 µ µ µ µ µ µ 5 8 7 6 3 4 7 4 4 5 6 5 9 3 3 9 9 9 6 3 5 3 9 4 6 7 6 9 4 8 9 9 3 9 4 6 9 7 7 5 3 4 6 4 總和 6 7 36 4 4 4 故相關係數 36 4 5.63. 某校高三 位同學參加數學與物理競試後 他們的成績 L 分別表示第 位同學數學與物理的成績 經整理結果得 : 6 35 3 6 3 求 : 這 位同學數學與物理成績的相關係數 若每個人數學成績加 分 物理成績減 分 則相關係數為何? 解答 : µ 3 6 µ 3 6 4 µ µ 35 6 5 5 5 所以 數學與物理成績的相關係數為.84 4 88 每個人數學成績加 分 物理成績減 分後 µ µ 不會改變 L 所以 成績改變後的相關係數不變 其值仍為.84 6
性質. 在二維數據 L 中 若以常數 µ 代表 L 則平均偏差 標準差 為 µ 假設 的相關係數為 令數據 µ µ 即 µ µ L 若以 代表 則平均偏差定為 其中 ] [ µ µ µ µ $ $ e 故以 代表 的平均偏差 又由 知 得 故 於是 因此以 µ µ 代表 比單純用 µ 代表 更好 且 越接近 其平均偏差越小 代表性就越好. 數據 與 的相關係數 恆在 與 之間 即 恆成立 事實上 若欲使 $ $ et t 有最小值時 t 也在 因此 $ $ $ 時 et 之值最小 與 的相關係數與 與 的相關係數是一樣的 7
性質. 如果在散布圖中以 及 為新的橫軸與縱軸 即新原點為 則可依新坐標軸圖將圖形分成四個象限 對於第一象限或第三象限 內的點 而言 的值為正 ; 對於在第二象限或第四象限 內的點 而言 的值為負 當我們求出 的值時 若較大的 傾向伴隨較大的 且較小的 傾向伴隨較小的 則 將是正的 即 大於平均數 時 也有大於平均數 的 趨勢 ; 小於平均數 時 也有小於平均數 的趨勢 表示 與 兩變數的變動趨勢呈現正比關係 大部份資料分布在第一 第三象限 也就是會同時為增或同時為減 我們稱兩者為正相關 若較大的 傾向伴隨較小的 且較小的 傾向伴隨較大的 則 將是負的 即 大於平均數 時 有小於平均數 的 趨勢 ; 小於平均數 時 有大於平均數 的趨勢 表示 與 兩變數的變動趨勢呈現反比關係 大部份資料分布在第二 第四象限 也就是會一增一減或一減一增 我們稱兩者為負相關. 相關係數為正時 大部份資料分布在第一 第三象限 越靠近 ' ' 直線時 相關性越強 否則越弱 3. 相關係數大約是標準化資料 ' ' 相乘後乘積的平均 4. 5. ' ' 其中 稱 的樣本互變異數 利用科西不等式可得相關係數的範圍位於 與 之間 : 6. 相關係數與單位無關 即相關係數不因變數的單位與固定數的增減的改變而改變 其證明於下列性質 8
7. 平移伸縮對相關係數的影響 : s 試證明 : 若 L 則 t c d T s ' t ' c c s s t T t c c T d c d c > c < T d c d c c > ± c c < 故平移伸縮對於相關係數的絕對值不影響 只可能影響正負相關性 8. > 稱正相關 ; 稱完全正相關 < 稱負相關 ; 稱完全負相關 3 稱零相關或無相關 資料可能呈現很平均的散布狀態或在一水平或鉛直的直線上 當相關係數為零時 只能說兩變數缺乏機率上的線性關係 並未排除變數間有非線性的關係 即無相關並非不相關 4 時 所有資料幾乎都在一非水平或鉛直的直線上 9. 時 稱完全負相關 < 時 稱高度負相關 3 3 < 時 稱中度負相關 3 3 4 < < 時 稱低度負相關 3 5 時 稱零相關 6 < 時 稱低度正相關 3 7 < 時 稱中度正相關 3 3 8 < < 時 稱高度正相關 3 9 時 稱完全正相關 9
. 下列是 8 個散布圖 其中 正相關 的最適合直線的斜率為正數 負相關 的最適合直線的斜率為負數 正相關 負相關 3 完全正相關 4 完全負相關 5 無直線相關 6 無直線相關 7 無直線相關 8 無直線相關 問題.. 不同度量單位是否會影響到相關性強弱? 因為坐標選取不同而畫出同一組資料的不同散佈圖是否可能有不同的解 讀? 3. 資料散布在某一水平直線上或某一垂直直線上時是否稱完全相關? 4. 標準差較大是否表示相關性比較小呢? 5. 資料伸縮或平移是否影響相關性? 6. 平移伸縮對於平均數之影響為何? 7. 平移伸縮對於標準差之影響為何? 8. 9. 平移伸縮對於變異係數之影響為何? 平移伸縮對於相關係數之影響為何?. 對 對稱變換對於相關係數之影響為何?. 當兩變數呈現正相關時 是否表示此兩變數一定有實際上的解讀意義?
思考. 如下圖 於散布圖中 使用哪一條直線來形容此兩變數的關係比較好呢? 散布圖 5 4 3 9 8 7 6 3 4 5 6 7 8 9. 要找出此條心目中的理想直線時 要用何種標準去判斷 所取到的直線是好還是不好的 這就需要一種標準來決定誤差是大還是小 也希望處理誤差的過程當中 能夠有容易的代數方法來處理問題 3. 如果散布圖顯示出兩個數量變數之間的直線相關 我們會希望在散布圖中取一條直線 來對兩變數的關係做一個描述 最小平方法就是一種找出這樣的直線之方法 找出來的直線稱為最佳直線 最適合直線 或迴歸直線 利用迴歸直線可以利用一個變數來解釋或預測另一個變數 條件是它們之間的關係是可以解釋或預測的 定義. 直線 :. 觀察值 實際資料值 : 3. 擬合值 估計值 : ˆ 4. 殘差 : e ˆ 5. 殘差平方和 越小越好 : e ˆ 6. 標準化資料 : u 則 u
定義. 最適合直線 : 設二維數據 L 的相關係數為 令線性函 數 f µ µ 它在 坐標平面上的函數圖形是直線 µ µ 此直線稱為 對 的最適合直線 最適合直線的方 程式 也稱迴歸直線 可表為 µ µ 這是直線的點斜式 該直線過點 µ µ 斜率為 正負與 同 註 : 為最適合 個點 L 的直線 因此 求最適合這 個點 的 對 的直線方程式 ' µ µ 就是 即 ' µ µ 為 對 的最適合直線 性質. 一般而言 二維數據 L 中 以 f µ µ 代表 時 其平均偏差 圖中表示 的散布圖與 對 的最適合直線 平均偏差 表示各點 到最適合直線的平均鉛直距離偏差 當 越大 接近 時 就越小 表示點 L 集中在最適合直線附近 與 的直線關係較強 反之 越小 接近 時 就越大 表示點 L 偏離最適合直線 與 的直線關係較弱. 抽樣時 樣本數據有 個數對 L 時 利用最小平方法估計 β β 使得 已知時 可推測 的估計值 β 我們求 g β β [ ] 的最小值 可得到最適合直線方程式為 µ µ 其中 為 對 最適合直線的斜率 3. 對 的最適合直線必過 與 的平均數決定的點 µ µ 對 最適合直線也必過點 µ µ 但兩直線的斜率可能相同 也可能不相同
例題. 圖中是幾個散布圖 最適合直線及相關係數的例子 :. 在坐標平面上已知三點 P3 P 5 P33 4 試找一直線 使這 三點到該直線的鉛直距離平方和最小即求 使 [3 ] [5 ] [4 3 ] 之值最小. 解答 : [3 ] [5 ] [ 4 3 ] 9 6 5 6 8 3 3 6 6 9 4 4 5 6 9 8 4 6 3 4 4 5 5 3 4 4 5 5 3[ 4] 4 5 5 3 4 3[ 4] 3 3 3 4 取 使 4 且 3 則所求最小值為 故 3 即所求直線方程式為 3 例中所求的直線就是以那些點為數據時 對 的最適合直線 而題解中所用的方法稱為最小平方法 一般而言 二維數據 L 時 對 的最適合直線就是使點 P P L P 到一直線 鉛直距離平方和最小的直線 亦即使 [ ] [ ] L [ ] 之值達到最小的直線 3
方法一 標轉化資料後利用最小平方法 pcple oflest sque 求 u : 找得殘差最小即是求出最佳的的估計值 大學時可用微積分方法求之 u u u 則 但故 u u e ˆ e ˆ u u 且 u 最小時 殘差平分和最小 u u u u u 時有最小值即標準化後資料的最佳直線為 u 轉回資料故得原來 即 4
方法二 利用微積分方法求 : 找 得殘差最小 即是求出最佳的的估計值 e ˆ e ˆ 設 f f f 故 最佳直線為 即 即 5
結論 若將資料標準化後 所求得的最佳直線之斜率即為相關係數 問題. 若變數 與 的相關係數為零 是否最佳直線的斜率為零?. 若最佳直線的斜率為零 是否將資料標準化後之最佳直線的斜率也為零? 3. 若變數 與 原先為直線關係 即相關係數為 或 是否將資料標準化後之最佳直線斜率只可能為 或? 4. 若資料標準化後 兩變數呈現直線關係 問原本資料為何種關係? 定義. 迴歸直線 最佳直線 用於預測與估計 :. 對 的迴歸式 : 其中 3. 預測值 : 給定 h 則 的預測值為 ˆ h h 問題. 最佳直線必定經過資料平均數?. 將資料標準化後 所求得的最佳直線必定經過原點? 說明. 平均偏差 ' 的形式與標準差 µ 相同 但它們的意義不同 平均偏差是由最適合直線上各 的估計量 ' 與數據中 的差的平均 它的目的在判別最適合直線的代表性 也是判別兩變數 與 的直線相關強度的指標. 因為 ' 故平均偏差 ' 6