在数量分析中.经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的.就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。这里主要讲的是多元线性回归分析法。
1. 多元线性回归的定义
说到多元线性回归分析前.首先介绍下医院回归线性分析.一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下.分析某一个因素(自变量)是如何影响另一事物(因变量)的过程.所进行的分析是比较理想化的。其实.在现实社会生活中.任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。
一元线性回归分析讨论的回归问题只涉及了一个自变量.但在实际问题中.影响因变量的因素往往有多个。例如.商品的需求除了受自身价格的影响外.还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。
因此.在许多场合.仅仅考虑单个变量是不够的.还需要就一个因变量与多个自变量的联系来进行考察.才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。
研究在线性相关条件下.两个或两个以上自变量对一个因变量的数量变化关系.称为多元线性回归分析.表现这一数量关系的数学公式.称为多元线性回归模型。
多元线性回归模型是一元线性回归模型的扩展.其基本原理与一元线性回归模型类似.只是在计算上更为复杂.一般需借助计算机来完成。
2. 多元回归线性分析的运用
具体地说.多元线性回归分析主要解决以下几方面的问题。
(1)、确定几个特定的变量之间是否存在相关关系.如果存在的话.找出它们
. .
之间合适的数学表达式;
(2)、根据一个或几个变量的值.预测或控制另一个变量的取值.并且可以知道这种预测或控制能达到什么样的精确度;
(3)、进行因素分析。例如在对于共同影响一个变量的许多变量(因素)之间.找出哪些是重要因素.哪些是次要因素.这些因素之间又有什么关系等等。
3. 多元线性回归分析 3.1多元线性回归分析的原理
回归分析是一种处理变量的统计相关关系的一种数理统计方法。回归分析的基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系.但可以设法找出最能代表它们之间关系的数学表达形式。 3.2多元线性回归模型及其矩阵表示
设y是一个可观测的随机变量.它受到p个非随机因索x1,x2,…,xp和随机因素的影响.若y与x1,x2,…,xp有如下线性关系:
y01x1pxp (1.1)
其中0,1,…,p是p1个未知参数.是不可测的随机误差.且通常假定
~N(0,2).我们称式(1.1)为多元线性回归模型.称y为被解释变量(因变量).xi(i1,2,,p)为解释变量(自变量).
称
E(y)01x1pxp (1.2)
为理论回归方程.
对于一个实际问题.要建立多元回归方程.首先要估计出未知参数0,1. …,p,为此我们要进行n 次独立观测.得到n组样本数据
(xi1,xi2,,xip;yi).i1,2,,n.他们满足式(1.1).即有
y101x112x12px1p1yxxx20121222p2p2 (1.3) yn01xn12xn2pxnpn. .
其中1,2,,n相互独立且都服从N(0,2).
式(1.3)又可表示成矩阵形式: YX (1.4) 这
里.Y(y1,y2,,yn)T.(0,1,,p)T.(1,2,,n)T.~Nn(0,2In).
In为n阶单位矩阵.
1x111x21X1xn1x12x1px22x2p xn2xnpn(p1)阶矩阵X称为资料矩阵或设计矩阵.并假设它是列满秩的.即rank(X)p1.
由模型(1.3)以及多元正态分布的性质可知.Y仍服从n维正态分布.它的期望向量为X.方差和协方差阵为2In.即Y~Nn(X,2In). 3.3参数的最小二乘估计及其表示
1. 参数的最小二乘估计
与一元线性回归时的一样.多元线性回归方程中的未知参数0,1,,p仍然可用最小二乘法来估计.即我们选择(0,1,,p)T使误差平方和
2Q()ˆiT(YX)T(YX)i1n(yi01xi12xi2pxip)2i1n
达到最小.
由于Q()是关于0,1,,p的非负二次函数.因而必定存在最小值.利
用微积分的极值求法.得
. .
nˆ)Q(ˆˆxˆxˆx)02(yi01i12i2pipi10nˆ)Q(ˆˆxˆxˆx)x02(yi01i12i2pipi1i11 nˆ)Q(ˆˆxˆxˆx)x02(yi01i12i2pipikki1Q(nˆ)ˆˆxˆxˆx)x02(yi01i12i2pipipi1pˆ(i0,1,,p)是i(i0,1,,p)的最小二乘估计.上述对Q()求偏导.这里i求得正规方程组的过程可用矩阵代数运算进行.得到正规方程组的矩阵表
示:
ˆ)0 XT(YX移项得
ˆXTY (1.5)XTX
称此方程组为正规方程组.
依据假定R(X)p1.所以R(XTX)R(X)p1.故(XTX)1存在.解正
规方程组(1.5)得
ˆ(XTX)1XTY
(1.6)
ˆˆxˆxˆx为经验回归方程. ˆ称y01122pp
2.误差方差2的估计
将自变量的各组观测值代入回归方程.可得因变量的估计量(拟合值)为
ˆ ˆ(yˆ1,yˆ2,,yˆp)2XY
ˆ[IX(XTX)1XT]Y(IH)Y称为残差向量.其ˆYX向量eYYnn中HX(XTX)1XT为n阶对称幂等矩阵.In为n阶单位阵.
ˆTXTY为残差平方和 称数eTeYT(InH)YYTY(Error Sum of Squares,简写为SSE).
由于E(Y)X且(InH)X0.则
E(eTe)E{tr[T(InH)]}tr[(InH)E(T)]
. .
2tr[InX(XTX)1XT]
2{ntr[(XTX)1XTX]} 2(np1)
ˆ2从而1eTe为2的一个无偏估计.
np13.4 逐步回归
当自变量的个数不多时.利用某种准则.从所有可能的回归模型中寻找最优
回归方程是可行的.但若自变量的数目较多时.求出所有的回归方程式很不容易的.为此.人们提出了一些较为简便实用的快速选择最优方程的方法.我们先根据“前进法”和“后退法”的思想.再详细介绍“逐步回归法”。 1.前进法和后退法
前进法:设所考虑的回归问题中.对因变量y有影响的自变共有m个.首先将这m个自变量分别与y建立m个一元线性回归方程.并分别计算出这m个一元回归方程的偏F检验值.记为{F1(1),F2(1),(1),Fm}.若其中偏F值最大者(为方便叙
述起见.不妨设为F1(1))所对应的一元线性回归方程都不能通过显著性检验.则可以认为这些自变量不能与y建立线性回归方程;若该一元方程通过了显著性检验.则首先将变量x1引入回归方程;接下来由y与x1以及其他自变量xj(j1)建立
m1个二元线性回归方程对这m1个二元回归方程中的x2,x3,做偏F检验.检验值记为{F2(2),F3(2),,xm的回归系数
(2),Fm}.若其中最大者(不妨设为F2(2))通过
了显著性检验.则又将变量x2引入回归方程.依此方法继续下去.直到所有未被引入方程的自变量的偏F值都小于显著性检验的临界值.即再也没有自变量能够引入 回归方程为止.得到的回归方程就是最终确定的方程.
后退法:首先用m个自变量与y建立一个回归方程.然后在这个方程中剔除一个最不重要的自变量.接着又利用剩下的m1个自变量与y建立线性回归方程.再剔除一个最不重要的自变量.依次进行下去.直到没有自变量能够剔除为
. .
止.
前进法和后退法都有其不足.人们为了吸收这两种方法的优点.克服它们的不足.提出了逐步回归法. 2. 逐步回归法
逐步回归法的基本思想是有进有出.具体做法是将变量一个一个得引入.引入变量的条件是通过了偏F统计量的检验.同时.每引入一个新的变量后.对已入选方程的老变量进行检验.将经检验认为不显著的变量剔除.此过程经过若干步.直到既不能引入新变量.又不能剔除老变量为止.
设模型中已有l1个自变量.记这l1个自变量的集合为A.当不在A中的一个自变量xk加入到这个模型中时.偏F统计量的一般形式为
FSSE(A)SSE(A,xk)SSR(xkA) (2.1) SSE(A,xk)nl1MSE(A,xk)如下逐步回归法的具体步骤:
首先.根据一定显著水平.给出偏 统计量的两个临界值.一个用作选取自变量.记为FE;
另一个用作剔除自变量.记为FD.一般地.取FEFD.然后按下列步骤进行.
第一步:对每个自变量xi(1im).拟合m个一元线性回归模型
y0ixi (2.2)
这时.相当于统计量(2.1)中集合A为空集.因此.SSE(A)SST.故
SSR(xiA)SSR(xi).MSE(A,xi)MSE(xi).对每一个i.计算
Fi(1)SSR(xi),i1,2,MSE(xi),m (2.3)
设
Fi1(1)max{Fi(1)}
1i1m
若Fi1(1)FE.则选择含自变量xi1的回归模型为当前模型.否则.没有自变量能
进入模型.选择过程结束.即认为所有自变量对 的影响均不显著.
. .
第二步:在第一步的选出模型的基础上.再将其余的m1个自变量分别加入
到此模型中个.得到m1个二元回归方程.计算
Fi(2)SSR(xixi1)MSE(xi1,xi),ii1 (2.4)
设
Fi2(2)max{Fi(2)}
ii1
若Fi2(2)FE.则选取过程结束.第一步选择的模型为最优模型.若Fi2(2)FE.则
将自变量xi2选入模型中.即得第二步的模型
y0i1xi1i2xi2 (2.5)
进一步考察.当xi2进入模型后.xi1对y的影响是否仍然显著.为此计算
Fi1(2)SSR(xi1xi2)MSE(xi1,xi2) (2.6)
若Fi2(2)FD .则剔除xi1.这时仅含有xi2的回归模型为当前模型.
第三步:在第二步所选模型的基础上.在将余下的m2个自变量逐个加入.
拟合各个模型并计算F统计量值.与FE比较决定是否有新变量引入.如果有新变量进入模型.还需要检验原模型中的老变量是否因这个新变量的进入而不再显著.那样就应该被剔除.
重复以上步骤.直到没有新的自变量能进入模型.同时在模型之中的老变量
都不能剔除.则结束选择过程.最后一个模型即为所求的最优回归模型。
. .
4. 多元线性回归分析实现过程 多元线性回归分析实现过程如下图:
建立模型 参数估计 模型检验 方差分析 模型预测 模型总结
5. 多元线性回归分析案例
利用多元线性回归分析研究此后影响中国人口自然增长的主要原因.分析全国人口增长规律.与猜测中国未来的增长趋势。
为了全面反映中国“人口自然增长率”的全貌.选择人口自然增长率作为被解释变量.以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。国名总收入.居民消费价格指数增长率.人均GDP作为解释变量暂不考虑文化程度及人口分布的影响。
通过对表1的数据进行分析.建立模型。其模型表达式为:
Yi1X1i2X2i3X3iui (i=1.2.,3)
其中Y表示人口自然增长率.X1 表示国名总收入.X2表示居民消费价格指数增长率.X3表示人均GDP.根据以往经验和对调查资料的初步分析可知.Y与
. .
X1.X2 .X3呈线性关系.因此建立上述三元线性总体回归模型。Xi则表示各解释变量对税收增长的贡献。µi表示随机误差项。通过上式.我们可以了解到.每个解释变量增长1亿元.粮食总产值会如何变化.从而进行财政收入预测。(如下图表1)
人口自然增长率(%。)Y 15.73 15.04 14.39 12.98 11.6 11.45 11.21 10.55 10.42 10.06 9.14 8.18 7.58 6.95 6.45 6.01 5.87 5.89 5.38 5.24 5.45 国民总收居民消费价人均GDP(元)X3 1366 1519 1644 1893 2311 2998 4044 5046 5846 6420 6796 7159 7858 8622 9398 10542 12336 14040 16024 17535 19264 年份 入(亿元)格指数增长X1 15037 17001 18718 21826 26937 35260 48108 59811 70142 78061 83024 88479 98000 108068 119096 135174 159587 184089 213132 235367 277654 率(CPI)%X2 18.8 18 3.1 3.4 6.4 14.7 24.1 17.1 8.3 2.8 -0.8 -1.4 0.4 0.7 -0.8 1.2 3.9 1.8 1.5 1.7 1.9 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 . .
利用上表中的数据.运用eview软件.采用最小二乘法.对表中的数据进行线性回归.对所建模型进行估计 从估计结果可得模型:
ˆ15.771770.000392X0.050364X0.005881X Y123从Y关于X1 X2 X3的散点图可以看出:Y和X1成线性相关关系;Y和X2成线性相关关系;Y和X3成线性相关关系。
模型估计结果说明.在假定其它变量不变的情况下.当年国民总收入每增长1亿元.人口增长率增长0.000392%;在假定其它变量不变的情况下.当年居民消费价格指数增长率每增长 1%.人口增长率增长0.050364%;在假定其它变量不变的情况下.当年人均GDP没增加一元.人口增长率就会降低0.005881%。这与理论分析和经验判断相一致。
. .
因篇幅问题不能全部显示,请点此查看更多更全内容