一般線性迴歸模型 第十八章迴歸分析 資料 : (y i, x i1,, x ip ) i=1,.,n 模式 : Y i = β 0 + β 1 X i1 +.+ β p X ip + ε i, i=1,.,n 其中 Y i 為應變數 (dependent var.) β 0 β 1,, β p X ij ε ij 為截距 (intercept) 為係數為解釋變數 (independent var.) 為隨機誤差項 (error) 註解 : 線性迴歸模型意指其對參數為線性的方程式, 有 p 個解釋變數, 可為數量或質性變數 E(Y) = β 0 + β 1 X 1 +.+ β p X p 估計式 :Y= b 0 + b 1 X 1 +.+ b p X p reg 1
特殊模式 兩個自變數的一階模式 ; 如 : E(Y) =β 0 +β 1 X 1 +β 2 X 2 若 X 1 對平均反應的效應和 X 2 無關, 而 X 2 對平均反應的效應和 X 1 無關, 則稱此兩自變數無交互作用 (no interaction), 即自變數對反應變數的效應是可加的, 或無交互作用的 迴歸係數的意義 參數 β 1 : 經過 X 2 調整, 平均反應 (Y) 隨 X 1 之每一單位增加而改變的量 參數 β 2 : 經過 X 1 調整, 平均反應 (Y) 隨 X 2 之每一單位增加而改變的量 兩個自變數含交互作用項的一階模式 ; 如 : E(Y) =β 0 +β 1 X 1 +β 2 X 2 + β 3 X 1 X 2 reg 2
二次完全迴歸式 ; 如 : E(Y)=β 0 +β 1 X 1 + β 2 X 2 1 +β 3 X 2 + β 4 X 2 2 + β 5 X 1 X 2 E(Y) 為一曲面, 稱為 regression surface 或 response surface 多項式迴歸式 ; 如 : E(Y) =β 0 +β 1 X 1 + β 2 X 2 1 轉換變數迴歸式 ; 如 : E(log(Y)) =β 0 +β 1 X 1 +β 2 X 2 E(Y) =β 0 + β 1 log(x 1 ) + β 2 X 2 2 reg 3
變異數分析表 變異來源 SS df MS F p-value 迴歸 SS R p MS R F*=MS R / MS E p 誤差 SS E n-p-1 MS E 合計 SS TO n-1 註 : F* 值用於檢定 Y 與 X 諸變數是否有迴歸關聯 H H 0 1 : : 1 i 2... P 0 0 for some i p >α, 則結論為迴歸式不顯著 p <α, 則結論為迴歸式顯著 reg 4
判定係數 (coef. of determination, R 2 ) R 2 SS 1 SS SS SS 說明 : 1. SS TO 代表 Y 之總變異,SS R 代表迴歸式的變異 R 2 表示 Y 之總變異中由 X 1,,X p 解釋的比例 2. 0 R 2 1 3. R 2 值的大小通常代表迴歸式解釋程度的多少 評論 : 1. 增加 X 變數個數, 一定使 R 2 值增加 2. 高的 R 2 值並不一定表示配套的模式適合 3. 有些學者建議以 X 變數個數調整後的校正判定係數 ( R a2 ) 為比 較標準 R 2 1 SSE /( n p 1) SSTO /( n 1) reg 5
解釋變數相關性的影響 : 由簡單相關係數矩陣可以看出變數間相關性之強度 由檢定 H 0 : ρ= 0 vs. H a : ρ 0 決定變數間是否相關 ; 若 p- 值 < α, 結論為顯著相關 兩解釋變數的簡單相關係數相當大時, 則其迴歸結果有多元共線性的現象存在, 此時迴歸式的不準度性很高, 應做修正 (p483) 相關係數與判定係數 : 見例 18.3b 相關係數量測兩變數間單純的相關性強度 判定係數量測一變數與其他多個變數間的相關性強度 在一個自變數問題上, 判定係數是相關係數的平方值 reg 6
係數之顯著性與區間估計 : 檢定第 i 自變數 (X i ) 對依變數 (Y) 影響之顯著性 : H 0 : β i = 0 H a : β i 0 由 t-test 得到 p- 值, 若 p- 值 < α, 結論為經由其它變數 的調整後,X i 對 Y 部份效應 (effect) 顯著 Variable Label 係數之區間估計 : Parameter Estimates D F Parameter Estimate Standard Error t Value Pr > t Intercept Intercept 1 3.82668 0.58865 6.50 <.0001 age age 1-0.12565 0.08594-1.46 0.1694 high high 1 0.08903 0.02789 3.19 0.0078 β i 估計範圍在 b i ± t α/2;n-p-1 SE{b i } reg 7
例 18.3b 研究某林區樹木之年齡 (X 1 ), 株高 (X 2 ), 以及單位面積上株數 (X 3 ) 對樹木直徑 (Y) 的影響 Data : p481 SPSS_ 相關性 : 分析 相關 雙變數選擇 Pearson 相關係數 SPSS_ 迴歸 : 分析 迴歸方法 線性指定依變數自變數 SAS_ 相關性 : 分析 多變量 相關角色 : 指定要分析的變數相關性 : v Pearson SAS_ 迴歸 : 分析 迴歸 線性角色 : 指定反應變數 (Y) 解釋變數 (X 1,,Xp) reg 8
變數間相關性 Pearson Correlation Coefficients, N = 15 Prob > r under H0: Rho=0 Age 1.00000 0.90793 <.0001 High 0.90793 <.0001 Treeno 0.12458 0.6582 Diam 0.58814 0.0211 Age High Treeno Diam 0.12458 0.6582 1.00000 0.17777 0.5262 0.17777 0.5262 0.76367 0.0009 0.58814 0.0211 0.76367 0.0009 1.00000 0.00347 0.9902 0.00347 0.9902 1.00000 age, high 對 diam 的影響較強 ;treeno 與 diam 相關性不顯著, age 與 high 相關性很強, 可能有多元共線性影響 reg 9
考慮三個自變數的迴歸分析 Variable Label Parameter Estimates D F Parameter Estimate Standard Error t Value Pr > t Intercept Intercept 1 4.33469 0.814 5.32 0.0002 age age 1-0.13272 0.0869-1.53 0.1549 high high 1 0.09306 0.0284 3.27 0.0074 treeno treeno 1-0.000837 0.000919-0.91 0.3820 high 的部份效應顯著 age 與 treeno 的部份效應不顯著 reg 10
考慮 age,high 自變數的迴歸分析 Parameter Estimates Variable Label DF Parameter Estimate Standard Error t Value Pr > t Intercept Intercept 1 3.82668 0.58865 6.50 <.0001 age age 1-0.12565 0.08594-1.46 0.1694 high high 1 0.08903 0.02789 3.19 0.0078 high 的部份效應顯著 age 的部份效應不顯著 reg 11
high 對 Diam 的迴歸分析 Root MSE 0.42695 R-Square 0.5889 Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept 1 3.59373 0.60940 5.90 <.0001 high 株高 1 0.05350 0.01240 4.32 0.0008 最終迴歸式 : 直徑 = 3.59 +.0535 ( 株高 ),R 2 = 0.589 (.0124) 每增高一單位, 直徑平均增加 0.0535 單位 括號內為標準誤 註 : 可由 Model selection method 中的逐步選擇 (Stepwise) 法選擇自變 數, 若此例使用 stepwise 法也會得到相同結果 reg 12
迴歸的模式配適性的檢定 ----- Lack-of-Fit F Test 判斷 X 與 Y 的關係式是直線或非直線 檢定前提一 : 對一或多個 X 水準有重複觀測值 (replicates) X x 1 x 2.. x c Y y 11. H 0 :Y i =β 0 + β 1 X i + ε i ( 直線關係 ) y 1k 檢定前提二 : 對觀測值 Y 的假設 :1 獨立,2 服從常態分佈, 3 有相同變異數 H 1 :Y i β 0 + β 1 X i + ε i ( 非直線關係 ). reg 13
ANOVA 表 變因 平方和 自由度 均方 F p-value 迴歸 SSR 1 MSR p1 誤差 SSE n-2 MSE 欠合 SSLF c-2 MSLF F* p2 純誤差 SSPE n-c MSPE 總計 SSTO 註 : p2 < 0.05, 則選用的模式欠合性顯著 SSE = SSLF + SSPE 使用軟體執行欠合性檢定 : 在 data 內增加一分組序號的分類變數 lof = 11..2 2.. 3.. Type I lof 的檢定即是欠合性的檢定 reg 14
dbp Exp 18.6.b 研究年齡與血壓之關係 (p428) Sum of Source DF Squares Mean Square F Value Pr > F Model 5 6305.705797 1261.141159 68.27 <.0001 Error 17 314.033333 18.472549 200 150 100 50 0 bp 0 20 40 60 80 Age bp Source DF Type I SS Mean Square F Value Pr > F age 1 6228.709640 6228.709640 337.19 <.0001 lof 4 76.996157 19.249039 1.04 0.4146 欠合性不顯著 ANOVA 表 變因 平方和 自由度 均方 F p- 值 迴歸 6229 1 6228 335 <.0001 誤差 391 21 18.6 欠合 77 4 19.25 1.04 0.4146 純誤差 314 17 18.47 總計 6620 reg 15
Root MSE 4.31514 R-Square 0.9409 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 85.50938 2.67183 32.00 <.0001 age 1 0.97989 0.05358 18.29 <.0001 由 Lack-of-fit test 得到 F = 1.04,p-value =.4146 > 0.05, 結論為在 α=.05 下, 直線模式適合 由迴歸得 : 血壓 = 85.5 + 0.98 ( 年齡 ),R 2 = 0.94, (.0536) 年齡增加一歲, 估計平均血壓增加 0.98 reg 16
Yield Exp 研究氮肥量與產量之關係 16 14 12 10 8 6 4 2 0 60 70 80 90 100 110 120 130 Amount of N Sum of Source DF Squares Mean Square F Value Pr > F Model 2 66.167 33.083 20.53 0.0004 Error 9 80.667 1.611 Source DF Type I SS Mean Square F Value Pr > F amount 1 15.12500 15.12500 9.39 0.0135 lof 1 51.04167 51.04167 31.68 0.0003 欠合性顯著 reg 17
邏輯迴歸模式 (Logistic Regression model) --- 以影響變因預估某狀況發生之機率 ( p487) 特性 : 依變數 (Y) 為二分類的反應數, 以 1 及 0 代表 假設 z ln ( odds ) β 0 β1x, odds 勝算 prob(y 1) prob(y 0) Model: Y i = E{Y i } + ε i E{Y } i p i 1 1 e z e 1 e z z, z 0 此 Model 稱為 logistic regression model 1 X i, i 1,..., n reg 18
二元變數交叉表與勝算比 (odds ratio) 皮膚過敏分析調查資料 皮膚過敏 (A) 無 (A-) 有 (A+) 性別女性 (F) 90 30 男性 (M) 40 10 勝算 (odds)= 發生率 / 不發生率 勝算比 : 二組勝算的比例 女對男皮膚過敏的勝算比 ( 風險 ) = 皮膚過敏的比例 有 % 男性皮膚過敏的比例 有 % 女性皮膚過敏的比例 有 % 女性皮膚過敏的勝算 = 男性皮膚過敏的勝算 = 2011_spring 統計量 19
Y 資料圖 迴歸式之圖 1.2 1 0.8 0.6 0.4 0.2 0 0 20 40 60 80 X 迴歸式 z e 1 pˆ, z ˆ ˆ z z 0 1x 1 e 1 e ( 估計發生率 ) reg 20
Exp 18.6.1 研究年齡與患 CHD 之關係 (p489) 年齡層 25 35 40 45 50 55 60 65 70 無病人數 9 14 9 9 7 4 6 4 2 有病人數 1 2 3 5 6 5 12 11 8 欲由年齡估計患病率 reg 21
SPSS_ 邏輯迴歸 : 分析 迴歸 二元 Logistic 指定反應變數共變數, 或分類變數方法 : 選 forward (Wald) 分類變數 : indicator SAS_ 邏輯迴歸 : 分析 迴歸 Logistic 角色 : 指定反應變數 ( 可選擇設定為 1 目標項 ) 數值變數分類變數次數變數統計值 : v logit reg 22
SAS 報表 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 29.7851 1 <.0001 Score 27.0896 1 <.0001 Wald 22.6152 1 <.0001 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-4.6486 0.9775 22.6171 <.0001 age 1 0.0881 0.0185 22.6152 <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits age 1.092 1.053 1.132 reg 23
(1) 因素影響的檢定 : Wald test 得 p- 值 < 0.05, 年齡的影響顯著 (2) 由最大概似估計得到由迴歸分析得到 z = - 4.65 + 0.0881 ( 年齡 ) 58 歲患病率估計 p 1 exp(4.65-0.0881 58) 0.6132 42 歲患病率估計為 0.279 (3) 勝算比 (odds ratio,or ) 或相對危險率之估計 : OR = exp(0.0881) = 1.092. 年齡增加一歲患 CHD 之勝算是原來的 1.092 倍 reg 24
Exp 18.6.3 研究不同空氣體積及傳遞速率是否引起血管收縮 (p498) Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 24.3214 2 <.0001 Score 17.5848 2 0.0002 Wald 9.0173 2 0.0110 Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1-9.5083 3.2208 8.7150 0.0032 air 1 3.8737 1.4229 7.4112 0.0065 trans 1 2.6402 0.9113 8.3942 0.0038 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits air 48.120 2.959 782.573 trans 14.016 2.349 83.621 reg 25
(1) 整體因素影響的檢定 : Wald test 得 p- 值 < 0.05, X1,X2 的影響顯著 (2) 由最大概似估計得到 z = - 9.51 + 3.87 X1 + 2.64 X2 發生率 pˆ 1 1 exp( z) (3) 勝算比 : X1: OR = 48.1, 經傳遞速率調整, 空氣體積增加一, 血管收縮之風險是原來的 48.1 倍 X2:OR = 14.0, 經空氣體積調整, 傳遞速率增加一, 血管收縮之風險是原來的 14 倍 reg 26
Exp 資料 Log_reg_Credit.xls 是百貨公司針對大學生信用度的調查資料, 選擇的因素有 : 性別 (gender) 主修領域(major) 年齡 (age) 成績(gpa) 及工作時數(hrs); 主修領域分為理院 (SCI) 商學院(BUS) 社會學院(SOC) 人文學院(HUM) 信用度 (risk) 分為 GOOD 及 BAD, 目的是找出影響學生信用度的因素, 變數預備 : 目標變數為 risk, 分為二類, 使用的機率模式為 binary logit 成績, 工作時數為數量變數 性別 主修領域為分類變數 reg 27
變數的量化方式 : Dependent Variable Encoding Original Value Internal Value BAD 0 GOOD 1 信用 good 是機率目標 Categorical Variables Codings Parameter coding Frequency (1) (2) (3) Major BUS 31 1.000.000.000 HUM 38.000 1.000.000 SCI 29.000.000 1.000 SOC 72.000.000.000 Gender FEMALE 97 1.000 MALE 73.000 以社會學院為標準 女性為 1, 男性為 0 reg 28
以 forwards 法選擇顯著因素, 各步驟整理表 : Variables in the Equation B S.E. Wald df Sig. Exp(B) Step 1 a HRS.592.097 37.107 1.000 1.807 Constant -4.966.879 31.949 1.000.007 Step 2 b GPA 1.965.716 7.533 1.006 7.138 HRS.679.117 33.448 1.000 1.971 Constant -11.948 2.915 16.797 1.000.000 Step 3 c Major 10.476 3.015 Major(1) 4.400 1.471 8.948 1.003 81.489 Major(2) -.067.942.005 1.943.935 Major(3) 3.855 1.473 6.846 1.009 47.210 GPA 3.182 1.034 9.465 1.002 24.104 HUM 與 SOC 之信用度無顯著差異 HRS 1.111.257 18.714 1.000 3.037 Constant -21.172 5.263 16.186 1.000.000 a. Variable(s) entered on step 1: HRS. b. Variable(s) entered on step 2: GPA. c. Variable(s) entered on step 3: Major. 係數估計值 因素顯著性 OR 估計值 reg 29
以 forwards 法選擇影響因素, 影響因素有 : Major, GPA, HRS 估計其信用度, 估計式為 Z = -21.2 + 1.11 HRS + 3.182 GPA + 4.4 BUS -.067 HUM+ 3.86 SCI pˆ 1 1 exp( z) 估計 sci 學生,gpa 為 2, 每週工作 10 小時信用 GOOD 的機率 z = 0.156,p = 0.54 gpa 對信用的影響 : 經 Major, HRS 調整後, 每多一分, 信用勝算為原來的 24 倍 reg 30
每週工作時數對信用的影響 : 經 Major, GPA 調整後, 每多做一小時, 信用勝算為原來的 3 倍, 每多做 5 小時, 信用勝算為原來的 257 倍 各主修領域同學的信用風險 : 經 GPA,HRS 調整後,BUS 之信用勝算為 SOC 的 82 倍, SCI 之信用勝算為 SOC 的 47 倍, HUM 之信用勝算與 SOC 的無顯著差異 reg 31