第三节 多元线性回归 一. 多元线性回归模型二. 回归参数的估计三. 回归方程的显著性检验四. 回归系数的显著性检验五. 多元线性回归的预测 1
多元线性回归模型 2
多元线性回归模型 ( 概念要点 ) 1. 一个因变量与两个及两个以上自变量之间的回归 2. 描述因变量 y 如何依赖于自变量 x 1, x 2,, x p 和误差项 ε 的方程称为多元线性回归模型 3. 涉及 p 个自变量的多元线性回归模型可表示为 β 0,β 1,β 2,,β p 是参数 ε 是被称为误差项的随机变量 y 是 x 1,,x 2,,x p 的线性函数加上误差项 ε ε 说明了包含在 y 里面但不能被 p 个自变量的线性关系所解释的变异性 3
多元线性回归模型 ( 概念要点 ) 对于 n 组实际观察数据 (y i ; x i1,,x i2,,x ip ),(i=1,2,,n), 多元线性回归模型可表示为 y 1 = β 0 + β 1 x 11 + β 2 x 12 + + β p x 1p + ε 1 y 2 = β 0 + β 1 x 21 + β 2 x 22 + + β p x 2p + ε 2 y n = β 0 + β 1 x n1 + β 2 x n2 + + β p x np + ε n 4
多元线性回归模型 ( 基本假定 ) 1. 自变量 x 1,x 2,,x p 是确定性变量, 不是随机变量 2. 随机误差项 ε 的期望值为 0, 且方差 σ 2 都相同 3. 误差项 ε 是一个服从正态分布的随机变量, 即 ε~n(0,σ 2 ), 且相互独立 5
多元线性回归方程 ( 概念要点 ) 1. 描述 y 的平均值或期望值如何依赖于 x 1, x 1,,x p 的方程称为多元线性回归方程 2. 多元线性回归方程的形式为 E( y )=β 0 + β 1 x 1 + β 2 x 2 + + β p x p β 1,β 2,,β p 称为偏回归系数 β i 表示假定其他变量不变, 当 x i 每变动一个单位时,y 的平均平均变动值 6
多元线性回归方方程的直观解释 二元线性回归模型 y ( 观察到的 y) 回归面 β 0 } ε i x 2 (x 1,x 2 ) x 1 7
多元线性回归的估计 ( 经验 ) 方程 1. 总体回归参数 是未知的, 利用样 本数据去估计 2. 用样本统计量 代替回归方程中的 未知参数 即得到估计的回归方程 是估计值 是 y 的估计值 8
参数的最小二乘估计 9
参数的最小二乘法 ( 要点 ) 1. 使因变量的观察值与估计值之间的离差平方和达到最小来求得 即 2. 根据最小二乘法的要求, 可得求解各回归参数的标准方程如下 10
回归方程的显著性检验 11
多重样本决定系数 ( 多重判定系数 R 2 ) 1. 回归平方和占总离差平方和的比例 2. 反映回归直线的拟合程度 3. 取值范围在 [ 0, 1 ] 之间 4. R 2 1, 说明回归方程拟合的越好 ; R 2 0, 说明回归方程拟合的越差 5. 等于多重相关系数的平方, 即 R 2 =(R) 2 12
修正的多重样本决定系数 ( 修正的多重判定系数 R 2 ) 1. 由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量, 为避免高估这一影响, 需要用自变量的数目去修正 R 2 的值 2. 用 n 表示观察值的数目,p 表示自变量的数目, 修正的多元判定系数的计算公式可表示为 13
回归方程的显著性检验 ( 线性关系的检验 ) 1. 检验因变量与所有的自变量和之间的是否存在一个显著的线性关系, 也被称为总体的显著性检验 2. 检验方法是将回归离差平方和 (SSR) 同剩余离差平方和 (SSE) 加以比较, 应用 F 检验来分析二者之间的差别是否显著 如果是显著的, 因变量与自变量之间存在线性关系 如果不显著, 因变量与自变量之间不存在线性关系 14
1. 提出假设 回归方程的显著性检验 ( 步骤 ) H 0 :β 1 =β 2 = =β p =0 线性关系不显著 H 1 :β 1,β 2,,β p 至少有一个不等于 0 2. 计算检验统计量 F 3. 确定显著性水平 α 和分子自由度 p 分母自由度 n- p-1 找出临界值 F α 4. 作出决策 : 若 F F α, 拒绝 H 0 ; 若 F<F α, 接受 H 0 15
回归系数的显著性检验 ( 要点 ) 1. 如果 F 检验已经表明了回归模型总体上是显著的, 那么回归系数的检验就是用来确定每一个单个的自变量 x i 对因变量 y 的影响是否显著 2. 对每一个自变量都要单独进行检验 3. 应用 t 检验 4. 在多元线性回归中, 回归方程的显著性检验不再等价于回归系数的显著性检验 16
回归系数的显著性检验 ( 步骤 ) 1. 提出假设 H 0 : β i = 0 ( 自变量 x i 与因变量 y 没有线性关系 ) H 1 : β i 0 ( 自变量 x i 与因变量 y 有线性关系 ) 2. 计算检验的统计量 t 3. 确定显著性水平 α, 并进行决策 t t α/2, 拒绝 H 0 ; t <t α/2, 接受 H 0 17
一个二元线性回归的例子 例 一家百货公司在 10 个地区设有经销分公司 公司认为商品销售额与该地区的人口数和年人均收入有关, 并希望建立它们之间的数量关系式, 以预测销售额 有关数据如下表 试确定销售额对人口数和年人均收入的线性回归方程, 并分析回归方程的拟合程度, 对线性关系和回归系数进行显著性检验 (α=0.05) 销售额 人口数和年人均收入数据 地区编号 销售额 ( 万元 )y 人口数 ( 万人 ) x 1 年人均收入 ( 元 )x 2 1 2 3 4 5 6 7 8 9 10 33.3 35.5 27.6 30.4 31.9 53.1 35.6 29.0 35.1 34.5 32.4 29.1 26.3 31.2 29.2 40.7 29.8 23.0 28.2 26.9 1250 1650 1450 1310 1310 1580 1490 1520 1620 1570 18
SUMMARY OUTPUT 一个二元线性回归的例子 回归统计 Mul 0.968159025 R Square 0.937331897 Adjusted R Squar0.919426725 标准误差 2.010050279 观测值 10 (Excel 输出的结果 ) 2 R 调整 = 1 (1 R n 1 n p 1 方差分析 df SS MS F ignificance F 回归分析 2 423.01789 211.50894 52.34978 6.1612E-05 残差 7 28.282115 4.0403021 总计 9 451.3 Coefficients 标准误差 t Stat P-value Lower 95% Upper 95% Intercept -38.8251694 8.4785911-4.579201 0.002546-58.873837-18.7765 X Variable 1 1.340693618 0.1433159 9.3548147 3.31E-05 1.00180562 1.679582 X Variable 2 0.022802293 0.0047542 4.7962172 0.001975 0.01156035 0.034044 S y = n i= 1 n ( y i 2 ) yˆ) p 1 2 19
一个二元线性回归的例子 ( 计算机输出结果解释 ) 1. 销售额与人口数和年人均收入的二元回归方程为 2. 多重判定系数 R 2 = 0.9373; 调整后的 R 2 = 0.9194 3. 回归方程的显著性检验 F = 52.3498 F>F 0.05 (2,7)=4.74, 回归方程显著 4. 回归系数的显著性检验 t β1 = 9.3548>t α2 =0.3646,; t β2 = 4.7962> t α2 =2.3646; 两个回归系数均显著 一个含有四个变量的回归 20
结 束