Econometrcs 第三章 第三章 多元线性回归模型 多元线性回归模型 1
引子 : 中国汽车的保有量将会达到 1.4 亿辆吗? 中国经济的快速发展, 居民收入不断增加, 数以百万计的中国人开始得以实现拥有汽车的梦想, 中国也成为世界上成长最快的汽车市场 中国交通 部副部长在中国交通可持续发展论坛上做出的预 测 : 00 年, 中国的民用汽车保有量将比 003 年的数字增长 6 倍, 达到 1.4 亿辆左右 什么因素导致中国汽车数量的增长? 显然, 影响中国汽车行业发展的因素并不是单一的, 经济增 长 居民收入 消费趋势 市场行情 业界心态 能源价格 道路发展 内外环境, 都会使中国汽车行业面临机遇和挑战
怎样分析多种因素的影响呢? 分析中国汽车行业未来的趋势, 应当具体分析这样一些问题 : 中国汽车市场发展的状况如何?( 用销售量观测 ) 影响中国汽车销量的主要因素是什么? ( 如收入 价格 费用 道路状况 能源 政策环境等 ) 各种因素对汽车销量影响的性质怎样?( 正 负 ) 各种因素影响汽车销量的具体数量关系是什么? 所得到的数量结论是否可靠? 中国汽车行业今后的发展前景怎样? 应当如何制定汽车的产业 政策? 很明显, 只用一个解释变量很难分析汽车产业的实际发展, 简 单线性回归模型不能解决多因素问题的分析, 还需要去寻求有 更多个解释变量情况的回归分析方法 3
多元线性回归模型 本章讨论 : 将简单线性回归的的研究方式推广到多元的情况 多元线性回归模型及古典假定 多元线性回归参数的估计 多元线性回归模型的检验 多元线性回归预测 4
( 一 ) 多元线性回归模型及古典假定 1 多元线性回归模型的意义 一般形式 : 对于有 K-1 个解释变量的线性回归模型 Y 1 注意 : 模型中的 样本容量为 n 偏回归系数 : j 3 (j=1,,---k) 是偏回归系数 控制其它解释量不变的条件下, 第 j 个解释变量的单位变动对被解释变量平均值的影响, 即对 Y 平均值 直接 或 净 的影响 5 3 k k u ( 1,, n)
多元线性回归中的 线性 指对各个回归系数而言是 线性 的, 对变量则可以是线性的, 也可以是非线性的例如 :Cobb-Douglas 生产函数 Y AL K u 取对数 lny ln A ln L ln K lnu 这也是多元线性回归模型, 只是这时变量为 lny lnl lnk 6
多元总体回归函数 条件期望表现形式 : 将 Y 的总体条件期望表示为多个解释变量的函数, 如 : E( Y, 3, k ) 1 3 3 ( 1,, n) 注意 : 这时 Y 总体条件期望的轨迹是 K 维空间的一条线 k k 个别值表现形式 : 引入随机扰动项 u Y E( Y, ) 3 k 或表示为 Y 1 3 3 k k u ( 1,, n) 7
多元样本回归函数 Y 的样本条件均值可表示为多个解释变量的函数 Yˆ ˆ ˆ ˆ ˆ 1 3 3 k k 或回归剩余 ( 残差 ): ˆ e Y Y 其中 Y ˆ ˆ ˆ ˆ e k 1 3 3 k 1,, n 8
多元线性回归模型的矩阵表示多个解释变量的多元线性回归模型的 n 组样本观测值, 可表示为用矩阵表示 1 1 31 3 1 1 1 u Y k k 3 3 1 u Y k k n kn k n n n u Y 3 3 1 n k kn n k k n u u u Y Y Y 1 1 1 1 1 1 1 1 1 n 1 n k1 nk Y β u 9
矩阵表示方式 总体回归函数 E( Y) = β 或 Y = β +u 样本回归函数 其中 : Y,Y,u,e ˆ ˆ β, β ˆ Ŷ = β 或 都是有 n 个元素的列向量 是有 k 个元素的列向量 ˆ Y = β +e ( k = 解释变量个数 + 1 ) 是第一列为 1 的 n k 阶解释变量数据矩阵, ( 截距项可视为解释变量总是取值为 1) 10
3 多元线性回归中的基本假定 假定 1: 零均值假定 E( u ) 0 ( =1,,---n) 或 E(u)=0 假定 和假定 3: 同方差和无自相关假定 : Cov( u, u j ) E[( u Eu )( u j Eu j )] E( uu j ) 或 Cov( u, u ) E( uu) I j 假定 4: 随机扰动项与解释变量不相关 Cov(, )=0 k=,3,----k k u 0 (=j) ( j) 11
假定 5: 无多重共线性假定 ( 多元中增加的 ) 假定各解释变量之间不存在线性关系, 或各个 解释变量观测值之间线性无关 或解释变量观测值矩阵 的秩为 K( 注意 为 n 行 K 列 ) Rank()= k 即 (') 可逆 假定 6: 正态性假定 Rank(')=k u ~ N(0, ) u ~ N( 0, I) 1
( 二 ) 多元线性回归模型的估计 1. 普通最小二乘法 (OLS) 原则 : 寻求剩余平方和最小的参数估计式 即 求偏导, 并令其为 0 即 mn : e ˆ ( Y Y ) mn : e [ Y ( ˆ ˆ ˆ ˆ )] 1 3 3 k k ( e ) 0 ˆ j ˆ ˆ ˆ ˆ Y ( 1 3 3 k k ) 0 ˆ ˆ ˆ ˆ Y ( 1 3 3 k k ) 0 ˆ ˆ ˆ ˆ k Y ( 1 3 3 k k ) 0 mn : e mn : mn : ( ˆ) ( ˆ e e Y - β Y - β) e e 0 0 ke 13 0
用矩阵表示的正规方程偏导数因为样本回归函数为两边左乘根据最小二乘原则则正规方程为 ˆ β = Y 0 0 0 1 1 1 1 1 1 e n kn k k n k e e e e e e ˆ Y = β +e ˆ Y = β + e e = 0 e 0 14
OLS 估计式 由正规方程 多元回归中 β ˆ = Y ( ) kk, ˆ -1 β = () Y 是满秩矩阵其逆存在 只有两个解释变量时 : 注意 : ˆ Y ˆ ˆ ˆ ˆ 1 3 3 ( y x )( x ) ( y x )( x x ) 3 3 3 ( x )( x3 ) ( x x3 ) ( y x )( x ) ( y x )( x x ) 3 3 3 ( x )( x3 ) ( x x3 ) x y 为 Y 的离差 对比 简单线性回归中 ˆ Y ˆ 1 xy ˆ x 15
OLS 回归线的数学性质 ( 与简单线性回归相同 ) 回归线通过样本均值 Y ˆ ˆ ˆ ˆ k 1 3 3 k ˆ 估计值 Y 的均值等于实际观测值的均值 Y ˆ Y n Y 剩余项 e 的均值为零 e e n 0 被解释变量估计值 Y 与剩余项不相关 ˆ e Cov( Yˆ, e ) 0 或 ( eyˆ ) 0 e 解释变量与剩余项不相关 Cov( j, e ) 0 (j=1,,---k) 16
OLS 估计式的统计性质 1 线性特征 ˆβ 是 Y 的线性函数, 因定值的矩阵 无偏特性 ( 证明见教材 P80) 3 最小方差特性 在 K ˆ -1 β = () Y E( ˆ ) K -1 ( ) 所有的线性无偏估计中,OLS 估计 是非随机或取固 具有最小方差 ( 证明见教材 P101 或附录 3.1) K ˆK 结论 : 在古典假定下, 多元线性回归的 OLS 估 计式是最佳线性无偏估计式 (BLUE) 17
3 OLS 估计的分布性质 基本思想 : ˆβ 是随机变量, 必须确定其分布性质才可能进行区间估计和假设检验 u 是服从正态分布的随机变量, 决定了 Y 也是服从正态分布的随机变量 ˆβ 是 Y 的线性函数, 决定了也是服从正态分布的随机变量 ˆβ 18
ˆβ 的期望与方差 ˆβ E( β ˆ) = β 的期望 ( 由无偏性 ) ˆβ 的方差和标准误差 : 可以证明的方差 协方差矩阵为 ( 见 P81) Var -Cov( βˆ ) Var( ˆ ) j SE( ˆ ) j c c ˆβ ( ) jj c jj 1 这里的 1 ( ) c 11 c1 c 1k 1 c1 c ck ( ) ck1 ck c kk ( 其中 jj 是矩阵中第 j 行第 j 列的元素 ) ˆ 所以 ~ N(, c ) j j jj (j=1,,---k) 19
4. 多元线性回归模型的极大似然估计 对于多元线性回归模型 由于 其中 : u N (0, ) 易知 (1,,,, ) 3 k Y u 1 3 3 k k Y N ( β, ) Y 的随机抽取的 n 组样本观测值的联合概率 ( 似然函数 ) 为 : L( βˆ, ) P( Y, Y,, Y ) 1 ( ) 1 ( ) n n 1 n n e e n 1 ˆ ˆ ˆ ˆ [ Y ( 1 3 3 k k )] 1 ( Y-βˆ ) ( Y-βˆ ) 0
对数似然函数为 ( ) ( ) 1 ( Y - β ˆ ) ( Y - β ˆ ) * L Ln L nln 对对数似然函数求极大值, 也就是对 求极小值 因此, 参数的极大似然估计为 β ˆ = () -1 Y 结果与参数的普通最小二乘估计相同 ( Y - βˆ ) ( Y - βˆ ) 1
5 随机扰动项方差 的估计 一般未知, 可证明多元回归中估计为 :( 证明见 P103 附录 3.) ˆ e n k 或表示为 ˆ n 的无偏 ee k ˆβ 将作标准化变换 : z k ˆ ˆ k k k k SE( ˆ ) c k jj ~ N(0,1)
未知时的标准化变换 因 是未知的, 可用代替去估计参数的 标准误差 : ˆβ 当为大样本时, 用估计的参数标准误差对 β 作 标准化变换, 所得 Z 统计量仍可视为服从正态分 布 当为小样本时, 用估计的参数标准误差对 ˆβ 作标 准化变换, 所得的 t 统计量服从 t 分布 : ˆ ˆ * j j j j t ~ t( n k) ^ SE( ˆ ) ˆ c jj j ˆ ^ 3
扰动项方差 由对数似然函数 求极大值 : 的极大似然估计 多元线性回归极大似然估计下随即扰动项方差的 估计为 : 可以证明 ˆ 却具有一致性 L( βˆ, ) 1 ( ˆ ) ( ˆ ) 1 e Y-β Y-β n n ( ) ( Y - βˆ ) ( Y - βˆ ) n n e 的极大似然估计量不具无偏性, 但 * n 1 L ( Y - βˆ ) ( Y - βˆ ) 4 4
由于 给定 6. 回归系数的区间估计 或或表示为 ˆ ˆ * j j j j t t n k ^ SE( ˆ ) ˆ c jj j, 查 t 分布表的自由度为 n-k 的临界值 ˆ * j j P[ t ( n k) t t ^ ( n k)] 1 SE( ˆ ) ^ ~ ( ) P[ ˆ t SE( ˆ ) ˆ t SE( ˆ )] 1 j j j j j P[ ˆ t ˆ c ˆ t ˆ c ] 1 j jj j j jj j ( ˆ t ˆ c, ˆ t ˆ c ) j j ( nk ) jj j ( nk ) jj ^ t ( n k) ( j 1k ) 5
( 三 ) 多元线性回归模型的检验 1 多元回归的拟合优度检验 多重可决系数 : 在多元回归模型中, 由各个解释 变量联合起来解释了的 Y 的变差, 在 Y 的总变差中占 的比重, 用表示 与简单线性回归中可决系数的区别只是 Yˆ 不同 多元回归中 R 多重可决系数可表示为 ESS ( Yˆ Y ) TSS RSS R 1 TSS ( Y Y ) TSS ( 注意 : 红色字体是与一元回归不同的部分 ) r Y ˆ ˆ ˆ ˆ ˆ 1 3 3 k k e y 6
多重可决系数的矩阵表示 TSS ( Y Y ) YY ny R ESS TSS 可用代数式表达为 ˆ x y ˆ ˆ 3 x3 y x y R y k k 特点 : 多重可决系数是模型中解释变量个数的不减函 数, 这给对比不同模型的多重可决系数带来缺陷, 所以需要修正 βˆ Y YY ESS ( Yˆ Y ) βy ny ny ny ˆ 7
运用可决系数时应注意 : 在多元回归中, 可决系数只是说明列入模型的所有解释变量对被解释变量的联合的影响程度, 不说明模型中每个解释变量的影响程度 如果回归的主要目的是经济结构分析, 不能只追求高的可决系数, 而是要得到总体回归系数可靠的估计量 可决系数高并不一定每个回归系数都可信任 如果研究的主要目的只是为了预测被解释变量的值, 不是为了正确估计回归系数, 一般可考虑有较高的可 决系数 8 8
修正的可决系数 思想 : 可决系数只涉及变差, 没有考虑自由度 如果用自由度去校正所计算的变差, 可纠正解释变量个数不同引起的对比困难 回顾 : 自由度 : 统计量的自由度指可自由变化的样本观 测值个数, 它等于所用样本观测值的个数减去对观测值的约束个数 9
可决系数的修正方法 总变差 TSS Y Y) y 自由度为 n-1 解释了的变差 ESS 自由度为 k-1 ( ( Yˆ Y) 剩余平方和 RSS ( Y Yˆ ) e 自由度为 n-k R 修正的可决系数为 e ( n k) 1 e 1 n n 1 1 1 (1 R ) y ( n 1) n k y n k 30
修正的可决系数与可决系数 R R 的关系 已经导出 : R 1 (1 R ) n 1 n k 注意 : 数 可决系数 R R 有可能为负值 必定非负, 但所计算的修正可决系 解决办法 : 若计算的 R 0, 规定取值为 0 R 31
回归方程的显著性检验 ( 检验 ) 基本思想 : 在多元回归中包含多个解释变量, 它们与被解释变量是否有显著关系呢? 当然可以分别检验各个解释变量对被解释变量影响的显著性 但为了说明所有解释变量联合起来对被解释变量影响的显著性, 或整个方程总的联合显著性, 需要对方程的总显著性在方差分析的基础上进行 检验 3
(1) 方差分析 在讨论可决系数时已经分析了被解释变量总变差 TSS 的分解及自由度 : TSS=ESS+RSS 注意 : Y 的样本方差 = 总变差 / 自由度即 ( ) TSS Y Y ˆ Y n1 n1 显然,Y 的样本方差也可分解为两部分, 可用方差分析表分解 33 33
方差分析表 总变差 TSS= 自由度 n-1 模型解释了的变差 ESS= 自由度 k-1 剩余变差 RSS= 自由度 n-k 变差来源平方和自由度方差 归于回归模型 ESS= k-1 归于剩余 RSS= n-k ( Y Y) 总变差 TSS= n-1 ( Yˆ Y) ( Y) Y ( Y Yˆ ) ( Yˆ Y) ( Y Yˆ ) 基本思想 : 如果多个解释变量联合起来对被解释变量的影响不显著, 归于回归的方差 应该比 归于剩余的方差 显著地小 ( 即这应是大概率事件 ) 34 ˆ ( Y Y) /( k 1) ˆ ( Y Y) /( n k) ( Y Y) /( n 1)
() 检验 原假设 : H 0 : 3 k 0 ( 所有解释变量联合起来对被解释变量影响不显著 ) 备择假设 : H1 : j ( j 1,, k) 不全为 0 建立统计量 ( 可以证明 ): ES S ˆ ~ ( k 1, n k) RSS n k Y Y n k 给定显著性水平, 查 分布表中自由度为 k-1 和 n-k 的临界值 值计算 值 ( k 1) ( Y Y ) /( k 1) ˆ ( ) ( ) /( ) ( k 1, n k), 并通过样本观测 35
36 检验方式 如果计算的 值大于临界值 ( k 1, n k) ( 小概率事件发生 ) 则拒绝 H 0, 说明回归模型有显 著意义, 即所有解释变量联合起来对 Y 有显著影响 如果计算的 值小于临界值 ( k 1, n k) ( 大概率事件发生 ) 则不拒绝 H 0 : 3 k 0 : 3 k 0, 说明回归模型没 有显著意义, 即所有解释变量联合起来对 Y 没有显著影响
(3) 可决系数的显著性检验 拟合优度检验与对线性回归的总体显著性的 检验是从不同原理 出发的两类检验, 但二者有内在联系 : 拟合优度检验 从已估计的模型出发, 检验对样本观测值的拟 合程度 总体显著性的 检验 从样本观测值出发, 检验模型总体线性关 系的显著性 检验与多重可决系数有密切关系 : 二者都建立在对被解释变量变差 分解的基础上, 实际上 统计量也可通过可决系数去计算 : 可以看出 : 当 R =0 时,=0 ; 当 R =1 时, ; 当 R R ( k 1) n k R (1 R ) ( n k) k 1 1 R 越大时, 值也越大 37
修正的可决系数与 检验的关系 由方差分析可以看出, 统计量与修正的多重可决系数都建立在对被解释变量变差分解的基础上, 而且都与自由度有 关 二者关系 : R n 1 1 n k ( k 1) R (1 R ( k 1) ) ( n k) 与 R 同方向变化, 检验等价于对 R 0 的显著性检验 38
3 各回归系数的假设检验 (t 检验 ) 注意 : 在一元回归中 检验与 t 检验等价, 且 ( 见教材 P87 证明 ) 但在多元回归中, 检验显著, 不一定每个解释变量都对 Y 有显著影响 还需要分别检验当其他解释变量保持不变时, 各个解释变量 对被解释变量 Y 是否有显著影响 方法 : 原假设 备择假设 H 0 : j 0 H1 : j 0 t (j=1,, k) 统计量 t 为 : ˆ ˆ * j j j t t n k ^ SE( ˆ ) ˆ c jj j ~ ( ) 39
对各回归系数假设检验的作法 给定显著性水平 α, 查 t 分布表的临界值为 著 * * 如果 ( 小概率事件发生 ) 显著的 ( n k) * 如果 t ( n k) t t ( n k) ( 大概率事件发生 ) 就不拒绝 H 0 : j 0, 而拒绝 H1 : j 0 即认为 所对应的解释变量 对被解释变量 Y 的影响不显 j t t ( n k) 或 t t ( n k) 就拒绝 H 而不拒绝 H1 : j 0 0 : j 0 即认为 所对应的解释变量 对被解释变量 Y 的影响是 j 讨论 : 在多元回归中, 可以作 检验, 也可以分别对每个回 归系数逐个地进行 t 检验 检验与 t 检验的关系是什么? j j t 40
( 四 ) 多元线性回归模型的预测 1 被解释变量平均值预测 (1)Y 平均值的点预测方法 : 将解释变量预测值代入估计的方程 : 多元回归时 : 或 Y ˆ ˆ ˆ ˆ ˆ 1 3 3 K k Yˆ βˆ 注意 : 预测期的是第一个元素为 1 的行向量, 不是矩阵, 也不是列向量 (1 3 k ) 41
()Y 平均值的区间预测 基本思想 : ( 与简单线性回归时相同 ) 由于存在抽样波动, 预测的平均值 Yˆ 不一定 等于真实平均值 E ( Y ), 还需要对 E Y ) ( 作区间估计 为了对 Y 作区间预测, 必须确定平均值预测值 Yˆ 的抽样分布 必须找出与和 E( Y ) Yˆ 都有关的统计量, 并要明确其概率分布性质 4
区间预测的具体作法 ( 回顾简单线性回归 ) 简单线性回归中 E( Yˆ ) E( Y ) 1 Var Y ( ) ˆ ( ) [ ] n x ˆ 1 ( ) SE( Y ) n x 1 当未知时, 只得用 ˆ e ( n ) 代替, 这时 Var(Y ) 1 n ˆ ˆ ( ) x 43
区间预测的具体作法 ( 多元时 ) 多元回归时, 与预测的平均值 Y 和真实平均值 EY ( ) w 都有关的是二者的偏差 : w ˆ Y E( Y ) w 服从正态分布, 可证明 1 E( ) 0 Var( w ) ( ) w 用 ˆ e ( n k) 代替, 可构造 t 统计量 ˆ * w ( ) Y E( Y ) E w t ~ t( n k) ^ 1 SE( w ) ˆ ( ) ˆ ' 44
或者 Yˆ 服从正态分布, 可证明 E( Yˆ ) E( Y ) Var( Yˆ ) ( ) 1 ' 即 标准化 t ˆ 1 ' { ( ), ( ) } Y N E Y * Yˆ ( ˆ ) ˆ ( ) E Y Y E Y SE( Yˆ 1 ) ( ) ~ N(0,1) 当用 ˆ e ( n k) 代替 时, 可构造 t 统计量 Yˆ ( ˆ ) Yˆ E( Y ) E Y t ~ t( n k) ^ 1 SE( Yˆ ) ˆ ( ) 45
区间预测的具体作法 给定显著性水平 α, 查 t 分布表, 得自由度为 n-k 的 临界值 1 或 1 t ( n k), 则 ^ ^ ˆ P{[( Yˆ t SE( w )] E( Y ) [( Y t SE( w )]} P{[ Yˆ t ˆ (`) ] E( Y ) [ Yˆ t ˆ (`) ]} 1 1 46
被解释变量个别值预测 基本思想 : ( 与简单线性回归时相同 ) 由于存在随机扰动的个别值 为了对 Y 的个别值 的影响,Y 的平均值并不等于 Y 作区间预测, 需要寻找与预测 值 Yˆ 和个别值有关的统计量, 并要明确其概率 分布性质 Y u Y 47
个别值区间预测具体作法 已知剩余项是与预测值 Yˆ 和个别值都有关的变量 e Y Yˆ 并且已知 e E( ) e 服从正态分布, 且多元回归时可证明 e 0 1 ' ( ) [1 ( ) ] Var e 当用 ˆ e ( n k) 代替 时, 对 标准化的变量 t 为 : e ( ) ˆ E e Y Y t ~ t( n k) ^ 1 SE( e ) ˆ 1 ( ) e Y 48
个别值预测具体作法 ( 续 ) 给定显著性水平 界值 t ( n k), 查 t 分布表得自由度为 n-k 的临则 ^ ^ ˆ P({[ Yˆ t SE( e )] Y [ Y t SE( e )]} 1 因此, 多元回归时 Y 的个别值的置信度 1-α 的预测区间的上下限为 Y Y ˆ t ˆ 1 1 ( ) 49
( 六 ) 案例分析 ( 书上中国税收模型自己看 ) 案例 1: 居民耐用消费品消费行为研究 ( 练习题 3.5) 提出问题 : 耐用消费品的消费是国内消费需求的组成部分, 在扩大内需促进经济增长中有重要作用 深入研究居民耐用消费品的需求和消费行为的变动情况, 分析各种主要影响因素与耐用消费品消费的数量关系, 对制定宏观经济及耐用消费品产业政策, 都有重要作用 研究范围 : 研究全国城镇居民的耐用消费品消费 理论分析 : 耐用消费品并非生活必需品, 居民对耐用消费品的消费是为了进一步提高生活质量 耐用消费品消费受多种因素影响, 随居民的可支配收入增加而增加, 随耐用消费品的价格的下降而增加, 随产品质量 售后服务 使用条件的改善而增加, 等等 50
建立模型 : 居民耐用消费品消费行为用城镇居民人均全年耐用消费品支出来表示 在各种影响因素中居民可支配收入和商品价格是影响耐用消费品消费的主要因素 设定模型为 Y u t 1 t 3 3t t 其中 :Y 城镇居民人均年耐用消费品支出 3 城镇居民年可支配收入 耐用消费品价格指数 ( 以 1987 年为 100) 51
收集数据 : 从 中国统计年鉴 可得到 1991 年 001 年的有关数据 年份人均耐用消费品支出人均年可支配收入耐用消费品价格指数 3 Y( 元 ) ( 元 ) (1987 年 =100) 1991 137 16 1181.40 115. 96 199 14.56 1375.70 133. 35 1993 107.91 1501.0 18. 1 1994 10.96 1700.60 14. 85 1995 15.4 06.60 1. 49 1996 16.45 577.40 19. 86 1997 17.43 3496.0 139. 5 1998 53.4 483.00 140. 44 1999 51.07 4838.90 139. 1 000 85.85 5160.30 133. 35 001 37.6 545.10 16. 39 5
收集数据 ( 或表示为 ) 53
Evews 输出结果 ˆ e 54
参数估计 假设模型中随机项满足全部基本假定, 用 Evews 软件作 OLS 估计参数 得 Yˆ 158.5398 0.0494 0.9117 t t 3t (11 8071)(0 004684) ( 0 989546) t = (1 301564) (10.54786) (-0.91316) R =0.947989 R =0.934986 =7.90647 55
模型检验 : 1 经济意义检验: ˆ 0.0494 表示城镇居民年人均耐用消费品支出随可支配收入的增加而增加, 且 0<0 0494 <1, 此回归系数的符号 大小都与经济理论及人们的经验一致 ˆ 3 0.9117表示耐用消费品支出随耐用消费品价格的降低而增加, 这与经济理论和人们的经验也一致 统计检验: 拟合优度 : R 0.9480和 R 0.9350 表明样本回归方程较好地拟合了样本观测值 检验 : 对 H 0 : 3 0 已得到 =7 9065, 给定 : 0.05, 查表得自由度为 k-1=3-1= 和 n-k=11-3=8 的临界值 : 0.05 (,8) 4.46 因为 7.9065 (,8) 4.46 说明模型总体上显著, 居民可 0. 05 56 支配收入与价格联合起来对耐用消费品支出的影响显著
对于 t 检验 H 0, 由回归结果已知 SE( ˆ ) 0.04684 0 : t =10 5479, 给定 0.05, 查表得自由度为 n-k=8 的临界值 : t 0.306, 因为 t.5479 t (8).306.05 (8) 则拒绝 H 0 : 0, 说明居民可支配收入对耐用消费品支出确有显著影响 对于 H 0 : 3 0, 由回归结果已知 SE( ^3) 0. 9896 t =-0.913, 因为 t.913 0.913 t (8).306 则不能拒绝 H 0 : 3, 说明耐用消费品价格指数对城 镇居民耐用消费品支出并没有显著影响 0 10 0. 05 0 0. 05 ( 这说明用常规理论去说明该地区的耐用消费品消费有问题, 或模型有其他问题, 可能会有什么问题呢?! ) 57
经济预测 ( 作为示例, 暂不考虑 t 检验结果 ) 如果 000 年城镇居民家庭人均可支配收入达到 5800 元, 耐用消费品价格指数为 135, 对城镇居民耐用消 费品支出作预测 (1) 点预测 将 5800和 3 135 代入估计的模型 : Yˆ 158.5398 0.0494 5800 0.9117135 31.9803( 元 ) 58
() 区间估计 平均值区间预测 : 由估计结果已知 ˆ 0.176 ^ ˆ 1 Var[ Y E( Y )] ˆ ( ) 0.176 1,5800,135 11 33566.4 1433.54 33566.4 196859.3 4444459.405 1433.54 4444459.405 18741.9434 1 1 5800 135 ^ 0.176 0.3806155.5708 SE[ Yˆ E( Y )] 155.5708 1.478 59
平均值区间预测 ( 续 ) 给定 0.05 知 t 0.05 (8). 306, 平均值置信度 95% 预测区间为 : 即 ^ P{[( Yˆ t SE( w )] E( Y ) [( Yˆ t SE( w )]} 1 (31.9803.306 1.478,31.9803.306 1.478) ^ (93.180,350.7 46) 60
个别值预测区间 : ^ ^ ˆ 1 ( ) ( ˆ ' ) [1 ( ) ] Var e Var Y Y ^ 0.176 ^ (1 0.3806) 567.651 SE( e ) SE( Y Yˆ ) 567.651 3.8173 个别值置信度为 95% 的预测区间为 : ^ ^ ˆ P({[ Yˆ t SE( e )] Y [ Y t SE( e )]} 1 即 (31.9803.306 3.8173,31.9803.306 3.8173) (67.0576,376.9 030) 61
案例 : 天津市粮食销售量及影响因素分析 经济分析 : 天津市粮食销售体制改革中粮食销量逐年增长, 分析粮食销量的变化及原因 影响粮食销量的主要因素可能是人口数量 居民收入, 以及与粮食相关的肉 蛋 鱼虾销售量等 变量选择 : 被解释变量 Y 粮食年销售量 ( 万吨 ) 解释变量 : 常住人口 ( 万人 ) 人均收入 3( 元 ) 模型设定 : 肉销售量 4( 万吨 ) 蛋销售量 5( 万吨 ) 鱼虾销售量 6( 万吨 ) Y t 1 3 3 4 4 5 5 6 6 u t 样本选择 : 选天津市粮食销售体制改革前 1974 年 1987 年的有关数据为样本 数据收集 : 来源于 天津统计年鉴 (1988) ( 数据见下页 ) 6
63
估计参数 : 用 OLS 估计 64
估计结果 : 取 分析 : 样本回归方程的 Yˆ 3.496563 0.15330 0.073667 t (.11945) (1.944897) t t 3t.677589 3.453448 4.491117 (.19846) (1.40908) (.07719) R 0.97044 0.05, 查临界值表得 R 4t 5t 6t R 0.951968 5.53085 较大, 检验也十分显著 但是所有参数的 t 统计量均小于临界值 ( 不显著!) 4 5 的参数为正, 而 6 的参数为负, 如何解释? 为什么也出现这种奇怪结果!? t 0.05 (14 6).306 0.05 (6 1,14 6) 3.69 65
本章结束 Any Queston? 66