Itroducto Lecture 9. Regresso Aalyss 迴歸分析 前面所談的 大部份是 分佈 dstrbuto 比如 一組資料 來自某一個分佈 Fθθ 是 parameter 可以是一個 向量! 我 們可以根據 data 來對 Fθ 做一個描述 descrpto 比如 mea 是多少 varace 是多少 等等 以 Normal dstrbuto 為例 : θ N μ σ F 參數 θ μ σ 是 -dmesoal 你關心的是參數向量 θ? 即 mea μ? var ace σ 或者 你給出一個 cofdece terval; 或者 你檢定 θ θ 某個 θ 這些主要都在想要了解 F?? 值 是否成立 再者 在 ANOVA 中 不管是 oe-way 或 two-way 背後還是關 心幾組的 dstrbuto 是不是一樣 要看 dstrbuto 是否一樣 最簡單的看法是 : 先看 mea 一不一樣! 但是在 ANOVA 中 還可以引出一個問題 : 即不同的組 不同的 treatmet 甚至不同的 block 若有不同的 mea 即是代表 treatmet 或甚至 block 與 outcome varable 之間有一個 關係 存在 不同的 treatmet 引出不同的 outcome 平均值 ; 不同的 block 引出不同的平均 outcome 所以 以下便談談 關係 relatoshp
Regresso 兩個變數 比如 和 之間若有 不同的 值對應出不同的 值 這種情形 可能 存在 則我們常用一個方程式去描述這種對應關係 : f x 統計上 你看到的多是具有 radom error 存在的情形 這個 radom error 怎麼來的 有多大? 這種問題常無法回答 無論如何 上面的關係式常是 以如下的形式呈現 : f x ε ε 即是一個 radom error 我們的目標 便是根據 data 來猜測 f? 這時 data 是什麼呢? Data 就是 根據這 個 datasample sze 你能正確的描述出 f 嗎? 很困難 因為 f 是一個函數 你要正確地描述它 你必須把 所有可能的 值所對應出來的 f x 都描述正確 但這幾乎是不 可能的! 例如 f 如下圖 實線部份是 f 而 data 只是 6 個點 x 的部份 你只看到如上圖 b 的情況 根據圖 b 你怎麼可能把 f 從頭到尾都猜對?
[ cotued] 由上圖 b 你可以有兩個猜測法 比如說!: a 第一 你可以猜 與 的關係是 : y a bx 拋物線 然後根據 data 去 estmate a 和 b parameters b 第二 你可以猜 與 的關係是 : y a bx 直線 同樣根據 data 去 estmate a & b 根據 a & b 的 estmates 你可能可以得到對 和 之關 係之兩種估計 示下圖 a & b
[ cotued] 在 中 你等於把問題簡化了 即 你雖然不知道真正的答案 f 但你企圖把問題模式化 即給予一個模式 model; 或 者說 你把 f 參數化 parameterze 以粗略地求得 與 之 關係 v 求得這個參數化後之 fx 關係有一個好處 即你可以簡單地 對不同的 值預測其 值 但須注意其 有效範圍 及 可能誤 差! v b 之模式 y a bx 即稱為一個線性模式 lear model 或 lear regresso model
[cotued] v 你的 data 可能更複雜 : Z Z Z 而你建立如下之 model: a b cz 或者 再複雜一點 : 而你的 data 乃是 b b x b x L b x p p y y y x x x x x x x x 3 x 3 L 3 L L x p x x p p 共 個 data a b 的模式 叫一個 smple lear regresso model L L p p p 叫 multple lear regresso model
[cotued] Correlato a b 是對 - 關係的一種描述 其關心的是 與 之相對變化 即 b 之大小 你也可以關心 - 關係之 強度 這種強度 一般用 correlato 相關性 或 correlato coeffcet 相關係數 表示 其值一般 介於 和 之間 Several correlato type: see below for bvarate-ormal case. A smulated llustrato for correlato coeffcet.9.7.3 -.5-.8; based o 3 pars of observatos.
Regresso odel Smple Lear Regresso odel 即假設真正的 model 為 E 或 μ 意即 給定 時 的 期望值 為 而你看到的是 ε ε 為 radom error 且 ε E [ Q ] 稱為 regressor 或 depedet varable 常是可被控制的 稱為 respose 或 depedet varable 或 outcome varable
關於 Q E ε 是必須的 ; 若 E ε a 與 不可分辨 可以寫 E for some a 則 a * a 則仍變成 E ε * : * * ε Other assumptos 的測量沒有誤差 wthout measuremet error 若 的測量有誤差 則上面的 model 便叫做一個有 measuremet error 的 regresso model 或叫 measuremet error model 或叫 error--varable EIV model 這時問題較複雜 x 與 ε 沒有 關係 或者說 cov x ε 即 x 與 ε 之 covarace covarace 的定義為 : cov x ε E 故若 ε { x Ex ε Eε } E xε Ex Eε E 則 cov x ε E xε 彼此互相獨立 或 ε ε ε 彼此互相獨立 v ε ε ε 之 varace 均等於 σ equal varace v ε ε ε ~ N σ
圖形 Estmato 根據上圖之 data x 你可能得到一條如下之估計線 :
Estmato odel ad Data odel E Data L 說明 :odel 不是預先設下的 而是根據 data 的 長相 來決定的 如果畫出 - 的 scatter plot 散布圖 而得如下之 形式 patter: 你自然會覺得去 ft 一條直線 E 但是 如果 -data 的 patter 是這樣 : 是合理的 則你就該用別的 odel 了!
[Cotued] Least Squares LS ethod 前面所說的 這條線是怎樣得到的呢? 方法有很 多種 其中一種最有名的叫最小平方法 least square method: ε L ε ε [ ] L 是一個 總誤差 total error 的描述量 L
想法 : 如果 data 長得如下圖所示 : 你比較相信這些 data x 是從 l 這條線生成的 geerate 還是從 l? ANS: 當然是 l 但 l 是很容易被排除的 相較於 l 因為它跟 data 差太多 很容易判別 如果有另一條 l 如下 則你要選 l 還是 l 呢? 這時很難選了! 必須有一個 判據 crtero 才行! 對於你所可能考慮的任一條線 l 而言 data 或觀測值 observatos 與 l 的 縱垂距離 可以有正負號 叫 resdual 以 e 表示
[cotued] 把這些 resdual 的平方加總起來得 resdual sum of squares: e [ ] [ ] 於是 least squares method 的想法便是考慮這樣的 crtero; 你所得到的 乃是所有可能的 l 線中 使得 resdual sum of squares 為最小的 mmum! 意思是說 找到 值而 值 使得 L 為 mmum [ ]
[cotued] 解法 : 解 L L 這組方程式叫 ormal equatos Normal Equatos: [ ] [ ] L [ ] [ ] L Solutos: LL LL 式 得 ' L L 得 3 L L 解 3 式得 4 L LL
[cotued] 或分子分母同除以 : 5 LLLLL 或分子分母同乘以 : 5' L LL 將 5 或 5 代入 中 可得 直接由 解得 用這個式子即可! 將 5 代入
Geeral: odel Evaluato 模式之評估 模式之評估分兩部份 : 是迴歸係數之評估 是整個模式的適合性之評估 迴歸係數的評估 指的是迴歸係數的 顯著性 評估 意即迴歸係數 是否顯著地不等於 sgfcatly! 整個模式的適合性評估又包括兩部份 : a 模式的 配適程度 ftess fts b 模式的 診斷 dagostcs
H : v.s. H a : [ 單一參數 ] Idea: 如果 顯著地不為 則 對 才有解釋力 意即 的變化與 的變化是有關係的! 這時 不是重點 如果 則你看到的 data 便是 如上圖 沒有什麼 patter! ε ε
Test statstc Uder H var σ ~ N σ 裡有 σ [ ε ~ N σ ] 但 σ 為 ukow 要用一 個 代替品 裡時 記為 S S var σ 將這個估計子 σ 放入 ~ 結果是 t ν ν σ 在這裡 誤! σ var sample sze 參數個數 參數 : 叫做 的 stadard error 標準 Note: 的期望值與 cofdece terval a E true value;that meas the so obtaed least square estmator s ubased!! b 的 -α% 省略 但若此 CI 包含 則表 示不能 reect H :
Exteso L 對 ultple regresso E L 我們要做的是兩件事 : p p H H H : : : p 分別一個一個看 v.s. H H H a a a : : : p : 3 p H L 一起看! v.s. H : 至少有一個 a [ 至少有一個 可以解釋 ] p 對於 我們得到的是個別的 分別對 test 檢定統計量 t t t p L 之 對於 我們會得到一個 F 統計量 F a b : a p b p
R ;R-square R 值又稱判定係數 coeffcet of determato 是模式配適程度的一個指標 其定義及導出如下 : 可以證明第三項 則 : Total sum of squares: TSS SS RSS 是一個不變的東西 data 已知 是你估的 如果你定的模式不離譜 跟真正的 E 應該很接近 則 即表示來自於 model 的 sum of squares 剩下的 sum of squares 來自 radom error ε 故 是模式沒辦法解釋的部份 R 的定義為 TSS SS TSS RSS R
Resdual ad Resdual plot: predcted vs. resdual 稱為 resdual Resdual 裡涵有許多在 model fttg 背後未知的訊息 formato 比如 若模式正確 則 e 對 的 plot 應該呈現隨機 分佈的情形 沒有 patter ** 如果有 patter 則表示模式不正確 應重新考慮 這個 plot 就叫 resdual plot![ 其他還有很多 dagostc 的方法 ] [**: Ths ca be easly ustfed through matrx algebra ad calculatos ad s left as a homework.] Example: odel: model l_x5dtrsf dtrsf d_age x6 d_op d_iss d_gcs d_rts/clude selectob; R-square.35.6
The estmato of σ 設 model ε E Error term ε ~ N σ ε Resdual e 便形成用來 類比 σ ε 的量 考慮以下對 σ 的一個估計方式 : 這個估計式 estmator 是對 E σ σ σ 的一個 ubased estmator 亦即
Stadard error 標準誤 stadard error 是對估計式 estmator 之精確度 precso 的一個描述 [ fact the stadard error s the stadard devato of the samplg dstrbuto of the estmator] 一般即定為估計式之變異數之 平方根 以前文之 為例 標準誤等於 Var 但這個 stadard error 裡含有 σ 是 ukow 的 所以一般便對這個 給出一估計 將 σ 代入 Var 中 或即代入 Var 中 此時不寫 Var 而寫成 V a r 代表 Var 中仍 有未知的成分是用其估計式代入的 σ
矩陣運算 va matrx algebra 前述之估計方法若改用矩陣 matrx 的運算方式來表達 一切將變得更簡單 : ε ε ε ε ε ε 最小平方估計式 ' ' 而 ' Var σ
Predcto 當你估計出了 及 後 你可以針對任一 合理範圍內 之 值 來預測 值 Q 但是這又分成兩部份 : 因對一給定之 x p 可以有一個變動的範圍 其 varace 是 σ σ 可以用 σ 代替 我們可以預測兩樣東西 一是 的 mea 二是 的個別值 對於這 兩種情況 均說為 預測 p p O Q 所謂 合理的範圍 指的是 p 不能離 用來得到 的那些 x 值 以 { } 表示 太遠
cotued 更精確地說 應該是 給定 x p 利用 及 來預測 之 mea 或預測 之單一觀察值! 所謂預測 就是給出一個 -α % CI 我們可以使用矩陣運算符號很簡單地導出預測式 我們先給出其公式 : 預測 mea 預測單一的 y ± t x p x α σ x x Dervato: see the ext page! varace 預測 mea 時之 varaceσ y ± t 顯然 這裡多出了一個 章之 Appedx. x p x α σ x x σ! 這可以理解 其餘的部分請參看本
Example of SAS Code
Correlato: the bvarate ormal dstrbuto 與 兩個變數的相關強度可以用 correlato coeffcet 相關係數 來表示 先假設 是 otly ormal 聯合常態分佈 此時 固定任一 值來看 均是常態分佈 ; 相反的 固定任一 值 也均 是常態分佈 且假設其變異數分別為 σ σ Formulae: Bvarate Normal Dstrbuto Formulae: ultvarate Normal Dstrbuto There s a vector ad a symmetrc postve sem-defte covarace matrx Σ matrx such that has desty where s the determat of Σ. Note how the equato above reduces to that of the uvarate ormal dstrbuto f Σ s a scalar.e. a real umber. The vector μ these codtos s the expected value of ad the matrx Σ AA T s the covarace matrx of the compoets. Fgures: Bvarate Normal Dstrbuto ρ.3.6.9.
Pearso s correlato coeffcet 定義 ρ Cov Var Var Note: If the data s ot raked data stead of cotuously dstrbuted the Spearma s rak correlato s used. Defto of the rak correlato has the same mathematcal form but wth orgal ad replaced by raks.
與迴歸係數之關係 ~ σ ε ε N ε ε ε E σ σ ρ / / / / / / / [Note that R ρ smple regresso!!]
ultple Regresso 多變數迴歸 odel L ε ε ~ N σ p p L L p 乃是用來解釋 的可能結果 outcome 的一組解 釋變數 一位研究者 vestgator 應當儘可能地收集可以解釋 outcome 的解釋變數 s 遺漏了重要的 會使得估計結果有所偏差 based!
Estmato:Least Square LS ethod 令 p p L L 解 p L L 得 p L Testg 個別參數之檢定 : :.. : a or H s v or H ~ p t S Q 模式顯著性檢定 F-test: some for H s v H a p :.. : L 建構出一個統計量 F F ~ 分佈 b a F.. p b p a f d
Dagostcs 一個初步的診斷 dagostc 方式是做 對 e 的散佈圖 scatter plot: 如果前面關於迴歸的假設 Equal varace ormalty 為正確的 則 應與 e 為 ucorrelated 則其 scatter plot 應沒有什麼 patter 即 非常 radom 反之若呈現某種 patter 如上圖 是弓形 表示有 重要的 formato 遺漏了 或變數搜集不足 或變數函數形式不 對
R ;multple correlato coeffcet R 迴歸係數之解釋 表當 p 3 將變動 個單位 3 p L 固定時 變動一個單位 的 mea L 之意義仿之!
Cofoudg 干擾 當 true model 是 E L p p 而你卻遺漏 了一個重要變數 比如 p 時 則你將會 ft 如下之 model: E L b b b b p p 此時 你得到的估計式 LSE E b b 我們說此 bas 的大小為 將會是 based 的 即 E b 而 ea Square Error SE bas varace E b Var b * 所以 若 p 是一個重要的解釋變數而被你遺漏時 其他變數的參數估計會有 bas 產生 Q: 如何評估? 若 bas 很嚴重 我們稱 p 是 p- 與 之關係的一個干 擾因子 故 p 一定要納入迴歸模式中 以避免干擾.e.: 避免 bas
* SE E E E { b } { b Eb Eb } { b Eb } b Eb Eb Eb 又 E 3 { 3 } Var b E E 3 但 E 3 3 E E b E b Eb QE b Eb Var b bas
如果真正的 model 是 分部相關 partal correlato E L p p 比如 p 而你卻 ft E b b 根據你所相信的 model 只有 對 有解釋力 計算出 與 之 correlato coeffcet ρ 這個 事實上是 based 的 即它並非反映真正 為 ρ 的 與 之關係 如前 你並未 控制干擾 cotrol the cofoudg 要達到控制干擾: 做迴歸 即必須做 L ε p p ρ 求 correlato 即須求 L p 此時 即 L p 固定時 改變一個單位 之 mea 改變 ρ 幾個單位 而 即 p L p L 固定時 與 之 correlato 叫做 partal correlato coeffcet
用 regresso 做兩組 data 之 mea 之比較 設 ~ ~ N N σ μ σ μ LL LL 與 獨立 要看 μ 是否等於 μ :.. : μ μ μ μ a H vs H 可以這樣做 : Group Group Group Group 對上面 個 data L L 做 smple lear regresso 看 :.. : a H s v H 以圖形表示 如果 表示下兩組人之 mea 有差異如果 則表示上面的兩組人之 mea 沒有差異
用 regresso 作 oe-way ANOVA two-way 呢? 假設有 3 組人 : ~ ~ ~ 3 3 3 3 σ μ σ μ σ μ N N N LL LL LL 令 3 3 3 3 3 3 則 ': : 3 μ μ μ H H
Dummy Varable Techque 前兩節中對解釋變數的設定是一種 技巧 這種變數叫 dummy varable 啞變數 若定第 組人為 basele 基準組 代表的數便是第 組人與第 組人之關係 ; 3 代表的則是第 3 組與第 組 之關係 SAS-example for codg dummy varables:
odel-varable Iteracto 交互作用 E 當 叫 與 之間有 teracto Slope dummy 假設 只有兩種可能 : 則當 時 當 E E 固定 在 時 改變一個單位 E 改變 在 時 改變一個單位 E 改變 Iteracto 之意義 在不同之 值時 其對 的 解釋力 不同!
A two-varable example 給定 Table.. & Table..3 課本 設 ftted model 為 y 6..3 4.3.7 3.73. 5 3 且有一個 computer output 為 fgure..5 課本 問 : 如何描述 的 effect age? 如何描述 treatmet 的 effect? Age 與 treatmet 是否有 teracto?