卫生统计学实习 何平平 北京大学公共卫生学院流行病与卫生统计学系 Tel: 82801619
实习六 数值变量资料的统计推断 ( 三 ) 第 237~249 页
一 直线回归 (linear regression) ( 一 ) 定义 : 用直线方程表达 X( 自变量,independent variable) 和 Y ( 应变量,dependent variable) 之间的数量关系 Yˆ = a+ bx ˆ Y : 是 Y( 实测值 ) 的预测值 (predicted value), 是直线上点的纵坐标 对于每一个 X 值, 根据直线回归方程都可以计算出相应的 Y 预测值 直线回归的重要应用之一 : 预测 (Prediction)
一 直线回归 (linear regression) ( 二 )b 和 a 的意义 a: 是回归直线在 Y 轴上的截距, 即 X=0 时 Y 的预测值 b: 是回归直线的斜率, 又称为回归系数 表示当 X 改变一个单位时,Y 的预测值平均改变 b 个单位
一 直线回归 (linear regression) ( 三 )b 和 a 的估计 最小二乘法 (the method of least squares): 各实测点到直线的纵向距离的平方和最小 b ( X X)( Y Y) = = ( ) XY 2 X X lxx l a = Y bx ( X Y) ( X X)( Y Y) XY 2 n 2 2 ( X ) ( X X) = X n =
一 直线回归 (linear regression) ( 四 )b 的假设检验 : b 为样本回归系数, 由于抽样误差, 实际工作中 b 一般都不为 0 要判断直线回归方程是否成立, 需要检验总体回归系数 β 是否为 0 H 0 :β=0 H 1 :β 0 方法一 :t 检验 t = b S b 两种方法等价, 方法二 :F 检验 F = MS MS 回归 剩余 F = t 只有当 β 0 时, 才能认为直线回归方程成立 ( 具有统计学意义 )
一 直线回归 (linear regression) ( 五 ) 直线回归方程的置信区间估计 1. 总体回归系数 β 的 95% 置信区间估计 b± t s 0.05/ 2, n 2 b s = s / l b YX xx s YX ˆ 2 ( Y Y) SS剩余 = = n 2 n 2 s YX 称为剩余标准差或者残差标准差 (the standard deviation of residual)
一 直线回归 (linear regression) ( 五 ) 直线回归方程的置信区间估计 µ Yˆ 2. 的 95% 置信区间估计 当 X=X 0 时, 以 95% 的概率估计 Y 的均数的置信区间为 Yˆ ± t s 0.05/ 2, n 2 Yˆ s Yˆ 1 ( X0 X) = syx + n l XX 2
一 直线回归 (linear regression) ( 五 ) 直线回归方程的置信区间估计 3. 个体 Y 值的 95% 容许区间估计当 X=X 0 时, 以 95% 的概率估计个体 Y 值的波动范围为 Yˆ ± t s 0.05/ 2, n 2 Y Yˆ s Y Yˆ 1 ( X0 X) = syx 1+ + n l XX 2
二 直线相关 (linear correlation) ( 一 ) 定义 描述具有直线关系的两个变量之间的相互关系 r: 相关系数,correlation coefficient 用来衡量有直线关系的两个变量之间相关的密切程度和方向 -1 r 1 r>0, 正相关 ;r=1 为完全正相关 r <0, 负相关 ;r=-1 为完全负相关 r 越大, 两变量相关越密切 ( 前提 :r 有统计学意义 )
二 直线相关 (linear correlation) ( 二 ) 相关类型 正相关 :0<r 1
二 直线相关 (linear correlation) ( 二 ) 相关类型 负相关 -1 r<0
二 直线相关 (linear correlation) ( 二 ) 相关类型 零相关 r =0
二 直线相关 (linear correlation) ( 二 ) 相关类型 零相关 r =0 曲线相关
二 直线相关 (linear correlation) ( 三 )r 计算 r ( X X)( Y Y) l = = 2 2 ( X X) ( Y Y) l XY l XX YY ( X X)( Y Y) XY 2 ( Y ) ( Y Y) Y n 2 = 2 2 ( X ) ( X X) = X n 2 ( X Y) = 2 n
二 直线相关 (linear correlation) ( 三 )r 的假设检验 r 为样本相关系数, 由于抽样误差, 实际工作中 r 一般都不为 0 要判断两变量之间是否存在相关性, 需要检验总体相关系数 ρ 是否为 0 H 0 :ρ=0 H 1 : ρ 0 t r = = s r r 2 1 r n 2 只有当 ρ 0 时, 才能根据 r 的大小判断相关的密切程度
二 直线相关 (linear correlation) ( 四 ) 相关与回归的区别和联系 1. 相关与回归的意义不同相关表达两个变量之间相互关系的密切程度和方向 回归表达两个变量之间的数量关系, 已知 X 值可以预测 Y 值 从散点图上, 散点围绕回归直线的分布越密集, 则两变量相关系数越大 ; 回归直线的斜率越大, 则回归系数越大 2.r 与 b 的符号一致同正同负 根据公式 : r l XY XY = l XX l YY b = l l XX 它们的符号取决于 l XY
二 直线相关 (linear correlation) ( 四 ) 相关与回归的区别和联系 3. r 与 b 的假设检验等价 r b t = = 2 1 r Sb n 2 意义 : 若 r 的假设检验拒绝 H 0, 认为 ρ 0, 则 b 的假设检验也一定会拒绝 H 0, 认为 β 0 若 r 的假设检验接受 H 0, 认为 ρ=0, 则 b 的假设检验也一定会接受 H 0, 认为 β=0
二 直线相关 (linear correlation) ( 四 ) 相关与回归的区别和联系 4. 可以用回归解释相关 2 SS r = SS 回归 总 r 2 称为决定系数 (coefficient of determination), 反映了回归平方和占总平方和的比例, 其越接近于 1, 回归直线拟和的效果越好 反映回归直线拟和效果的两个指标 : r 2 和 s YX r 2 越大, s YX 越小, 回归直线拟和效果越好
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 见第 237 页例 10-1 X: 体重指数 ;Y: 收缩压 (mmhg) 1. 绘制散点图 散点图
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 1. 绘制散点图 简单散点图
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 1. 绘制散点图 应变量 Y 自变量 X
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 1. 绘制散点图 散点图显示 : 收缩压与体重指数之间有线性相关趋势, 因此可以进一步做直线回归与相关
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 2. 直线回归与相关分析 Regression, 回归 Linear, 线性
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 2. 直线回归与相关分析 应变量 自变量
相关系数 r 决定系数 r 2 调整 r 2 SS 回归 SS 剩余 SS 总 自由度 MS 回归及 MS 剩余 F 值 P 值 F=t 2 截距 a 回归系数 b s b 标准化回归系数 t 值 P 值
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 3. 直线回归的预测及置信区间估计 给定 X=X 0, 预测 Y
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 3. 直线回归的预测及置信区间估计 回归 线性
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 3. 直线回归的预测及置信区间估计 应变量 自变量 统计 保存 ( 产生新变量, 保存在当前数据库 )
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 3. 直线回归的预测及置信区间估计 总体回归系数的置信区间估计
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 3. 直线回归的预测及置信区间估计 预测值非标准化 预测区间 Y 的均数 个体 Y 值
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 3. 直线回归的预测及置信区间估计 总体回归系数的 95% 置信区间 预测值 残差残差标准差
三 SPSS13.0 软件操作 ( 直线回归与相关 ) 例 1 3. 直线回归的预测及置信区间估计 X 0 Y 的预测值 Y 的均数的置信区间的下限及上限 个体 Y 值的容许区间的下限及上限
四 附录 :SPSS13.0 软件操作 (Spearman 等级相关 ) Spearman 等级相关是基于秩次的非参数相关分析 主要适用于以下情况 : 1. 对于数值型变量,X 及 Y 严重偏离正态分布 ; 2. 等级资料的相关分析
四 附录 :SPSS13.0 软件操作 (Spearman 等级相关 ) 例 2 见第 249 页例 10-11 X: 大骨节病阳性率 ;Y: 发硒 相关 两变量
四 附录 :SPSS13.0 软件操作 (Spearman 等级相关 ) 例 2 Pearson 相关系数 (r) Spearman 等级相关系数
四 附录 :SPSS13.0 软件操作 (Spearman 等级相关 ) 例 2 Pearson 相关系数 (r) P 值 Spearman 相关系数 P 值