(完整word版)一元线性回归模型与多元线性回归模型对比
2024-06-08
来源:好走旅游网
一元线性回归模型 多元线性回归模型 总体回归函数 E(YX)01X YE(YX)01XE(YX1,X2Xk)01X12X2kXk 即E(YX)Xβ 即Y总体回归模型 (总体回归函数的随机表达形式) 样本回归模型 (样本回归函数的随机表达形式) 样本回归函数 YE(YX1,X2Xk)01X12X2kXkXβμ ˆe XβˆˆXe Y01ˆˆX ˆY01ˆˆXˆXˆXe 即YY01122kkˆˆXˆXˆX 即YˆˆY01122kk(X11,X12,X1k,Y1),ˆ Xβ给定一组容量为n的样本给定一组容量为n的样本(X21,X22,X2k,Y2),(Xi1,Xi2,Xik,Yi)(Xn1,Xn2,Xnk,Yn)则上述式子可以写成: , (X1,Y1),(X2,Y2),(Xi,Yi),(Xn,Yn)则,上述式子可以写成: 总体回归函数 E(YiXi)01Xi E(YiXi1,Xi2Xik)01Xi12Xi2kXik YiE(YiXi1,Xi2Xik)i01Xi12Xi2kXiki总体回归模型 YiE(YiXi)i01Xii 样本回归模型 样本回归函数 样本回归函数的离差形式 解释变量的个数(包括常数项) ˆˆXe Yi01iiˆˆX ˆYi01iˆx ˆiy1i2个: C,X 回归模型是正确设定的。 确定性假设。解释变量X是确定性变量,不是随机变量,在重复抽样ˆˆXˆXˆXe Yi01i12i2kikiˆˆXˆXˆX ˆYi01i12i2kikˆ yˆxβ,X2,Xk k+1个: C,X1 模型设定正确假设。 基本假定 假设1: 假设2: ,X2,Xk是非随机或固定的,且确定性假设。解释变量X1 中取固定值。: 各Xj之间不存在严格线性相关(无完全多重共线性)。 假设3: ① 样本变异性假设。对解释变量X抽取的样本观察值并不完全相同。 ② 样本方差趋于常数假设。 ①样本变异性假设。 各解释变量Xj在所抽取的样本中具有变异性。 ② 样本方差趋于常数假设。 随着样本容量的无限增加,各解释变量的样本方差区域一个非零的有限常数。 假设4: 随机误差项μ零均值、同方差、不序列相关假随机误差项μ零均值、同方差、不序列相关假设。 设。 随机误差项与解释变量不相关。 正态性假设。随机项服从正态分布。 随机误差项与解释变量不相关。 假设5: 假设:6: 正态性假设。随机项服从正态分布。 参数估计 一元线性回归模型 残差平方和达到最小,得到正规方程组,求得参数的普通最小二乘估计值: 多元线性回归模型 残差平方和达到最小,得到正规方程组,求得参数的普通最普通最小二乘估计(OLS) 最小二乘估计的离差形式) 随机干扰项的方差的估计量 -1ˆ(XβX)XY 小二乘估计值xyiiˆ12x-1xyi(普通ˆ(βxx)ˆ ˆˆˆˆ0Y1X0Y1X1kXk(普通最小二乘估计的离差形式) ˆ随机干扰项的方差2ei2nk1eenk1 ˆ2e2in2 最大似然估计(ML) 矩估计(MM) 参数估计值估计结果与OLS方法一致,但随机干扰项的方差的估计量与OLS不同参数估计值估计结果与OLS方法一致,但随机干扰项的方差ˆ2en2iˆ的估计量2ein2 参数估计量的性质 线性性、无偏性、有效性 2ˆ~N( )11 ,2xi线性性、无偏性、有效性 参数估计量的概率分布 ˆ~N( 00 ,Xinxi22 --- 2)样本容量n必须不少于模型中解释变量的个数(包括常数项),即nk1才能得到参数估计值,n-k8时t分布才比较稳定,能够进行变量的显著性检验,一般认为n30活样本容量问题 ---- 着至少n3k1时才能满足模型估计要求。如果样本量过小,则只依靠样本信息是无法完成估计的,需要用其他方法去估计。 统计检验 一元线性回归模型 多元线性回归模型 总离差平方和的分解 TSS=ESS+RSS R2总离差平方和的分解 TSS=ESS+RSS 拟合优度检验 ESSRSS1,(即总平方和中回归平方和的比例) TSSTSSR20,1对于同一个模型,R2越接近于1,拟合优度越高。 R21RSS(nk1)(调整的思路是残差平方和RSS和总平方和TSSTSS/(n1)R2ESSTSS,R20,1越接近于1,拟合优度越高。 各自除以它们的自由度) 为什么要对R进行调整?解释变量个数越多,它们对Y所能解释的部分越大(即回归平方和部分越大),残差平方和部分越小,R2越高,由增加解释变量引起的R2的增大与拟合好坏无关,因此在多元回归模型之间比较拟合优度, 是一个合适的指标,必须加以调整。 2R2就不目的:对模型中被解释变量与解释变量之间的线性关系在总体上是否成立做出判断。 原假设H0:β1=0,β2=0,…βk=0 备择假设:H1:βj(j=1,2,…k)不全为零 方程总体显著性检验 ------ 统计量的构造:F=RSS⁄(n−k−1)~F(k,n−k−1) 判断步骤:①计算F统计量的值 ②给定显著性水平α,查F分布的临界值表获得 Fα(k,n−k−1) ③ 比较F与Fα的值, ESS⁄k若F>Fα,拒绝原假设,认为原方程总体线性关系在1−α的置信水平下显著。 若F≤Fα,接受原假设,不能认为原方程总体线性关系在1−α的置信水平下显著。 目的:对模型中被解释变量对每一个解释变量之间的线性关系是否成立作出判断,或者说考察所选择的解释变量对被解释变量是否有显著的线性影响。针对某解释变量Xj, 原假设:H0:βj=0,备择假设:H1:βj≠0 最常用的检验方法: t检验 构造统计量:t=̂j−βjβ𝑆𝛽̂𝑗 ~ 𝑡(𝑛−𝑘−1) 判断步骤:①计算t统计量的值 ②给定显著性水平α,查t分布的临界值表获得 tα(n−k−1) 2变量的显著性检验 ③比较t值与tα的值, 2若t>tα,拒绝原假设,认为变量Xj在1−α的置信水平下通过显著性检验(或者2说,在α的显著性水平下通过检验),认为解释变量Xj对被解释变量Y有显著线性影响。 若t≤tα,接受原假设,在显著性水平α下没有足够证据表明Xj对Y有显著线性2影响。 ̂j与总体参数的真实值βj的接近程度。 目的:考察一次抽样中样本参数的估价值β̂j为中心的区间,考察它以多大的概率包含总体思路:构造一个以样本参数的估计值β参数的真实值。 ̂j−δ,β̂j+δ)包含参数真值βj方法:①预先选择一个概率α(0<𝛼<1),使得区间(β̂j−δ≤βj≤β̂j+δ)=1−α 的概率为1−α即P(β参数的置信区间 ̂j−②计算其中的δ(δ=tα×𝑆𝛽,从而求出1−α置信度下βj的置信区间:(β̂𝑗)2̂j+tα×𝑆𝛽tα×𝑆𝛽̂𝑗,β̂𝑗) 22掌握概念:置信区间 置信度 显著性水平 实际应用中,我们希望置信度越高越好,置信区间越小越好(说明估计精度越高)。 如何缩小置信区间? (1)增大样本容量n(以减小tα,并减小参数估计值的样本方差𝑆𝛽̂𝑗) 2(2)提高模型的拟合优度(以减小残差平方和,从而减小𝑆𝛽̂𝑗) (3)提高样本观测值的分散度(样本值越分散,cjj越小,𝑆𝛽̂𝑗越小)