您的当前位置:首页正文

应用回归分析(第三版)何晓群_刘文卿_课后习题答案_完整版

2022-11-01 来源:好走旅游网
.. .. .. ..

第二章 一元线性回归分析

思考与练习参考答案

2.1 一元线性回归有哪些基本假定?

答: 假设1、解释变量X是确定性变量,Y是随机变量;

假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi)=0 i=1,2, …,n Var (εi)=2 i=1,2, …,n Cov(εi, εj)=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X之间不相关: Cov(Xi, εi)=0 i=1,2, …,n 假设4、ε服从零均值、同方差、零协方差的正态分布 εi~N(0, 2 ) i=1,2, …,n 2.2 考虑过原点的线性回归模型 Yi=β1Xi+εi i=1,2, …,n 误差εi(i=1,2, …,n)仍满足基本假定。求β1的最小二乘估计 解:

ˆX)2ˆ)2(YQe(YiYii1ii1i1nnnQeˆX)X02(Yi1iiˆi11 . 学习参考 .

.. .. .. ..

nˆ1得:

(XY)iii1n(Xi12i)2.3 证明(2.27式),ei =0 ,eiXi=0 。

ˆˆX))2ˆ)2(Y(Q(YiYii01i11nn证明:

ˆˆXˆ其中: Yi01i

即: ei =0 ,eiXi=0

ˆeiYiYiQ0ˆ0Q0ˆ12.4回归方程E(Y)=β0+β1X的参数β0,β1的最小二乘估计与最大似然估计在

什么条件下等价?给出证明。

答:由于εi~N(0, 2 ) i=1,2, …,n

所以Yi=β0 + β1Xi + εi~N(β0+β1Xi , 2 ) 最大似然函数:

. 学习参考 .

.. .. .. ..

L(,,2)nf(Y)(22)n/2exp{101i1ii22

n1Ln{L(0,1,)}ln(22)2222i1n[Yi(010,Xi)]2}i1n[Yi(010,Xi)]2ˆ就是β0,β1的最大似然估计值。 ˆ,使得Ln(L)最大的10同时发现使得Ln(L)最大就是使得下式最小,

nnˆˆX))2ˆ)(Y(Q(YiYii01i211

上式恰好就是最小二乘估计的目标函数相同。值得注意的是:最大似然估计是在εi~N(0, 2 )的假设下求得,最小二乘估计则不要求分布假设。

所以在εi~N(0, 2 ) 的条件下, 参数β0,β1的最小二乘估计与最大似然估计等价。

ˆ是β0的无偏估计。 2.5 证明0nXX1nˆˆ证明:E(0)E(Y1X)E[YiXiYi)

ni1Lxxi1nXiXXiX11E[(X)Yi]E[(X)(01Xi i)]

LxxLxxi1ni1nnnXiXXX11E[0(X)i]0(Xi)E(i)0LxxLxxi1ni1nn2.6 证明

ˆ)(1Var(0nX2Xi1niX1X2)()nLxx222 . 学习参考 .

.. .. .. ..

证明:

nXXXiX211iˆ)Var[(XVar()Y][(X)Var(01Xi i)] 0inLnLi1i1xxxxnXiXXiX22121X22[()2X(X)][]

nnLLnLi1xxxxxxn2.7 证明平方和分解公式:SST=SSE+SSR

nn证明: 2ˆ)(YˆY]2SSTYiY[YiYiii1i1

2.8 验证三种检验的关系,即验证:

(n2)r1r2ˆ2LxxSSR/11;(2)Ft2 2ˆSSE/(n2)ni1ˆYYi22i1nˆ)(YˆYˆ)YiYYiYiiii1n2ni12ˆˆ)YiYYiYii1n2SSRSSE(1)t证明:(1)

ˆLˆrLyyLxxrLyyn2rn2rxxt

22ˆSSE(Lxx(n2))SSE(n2)SSESSTˆLxx1r(2)

. 学习参考 .

.. .. .. ..

ˆˆxy)(yˆ(xx)y)(ˆiy)(SSR(yˆ1(xix))2ˆ12Lxx01i1i222i1i1i1i1nnnnˆ2LSSR/1F12xxt2

ˆSSE/(n2)1(xix)222.9 验证(2.63)式:Var(ei)(1)

nLxx证明:

ˆi)var(yi)var(yˆi)2cov(yi,yˆi)var(ei)var(yiyˆˆx)2cov(y,yˆ(xx))var(y)var(i01ii1i(xix)21(xix)221[]2[]nLxxnLxx22

1(xix)22[1]nLxxˆ(xx))Cov(y,y)Cov(y,ˆ(xx))Cov(yi,y1iii1in(xx)1n其中:Cov(yi,yi)(xix)Cov(yi,iyi)ni1Lxxi1

12(xix)221(xix)22()nLxxnLxxe2i2.10 用第9题证明证明:

ˆ2n2是2的无偏估计量

1n1n2ˆ)ˆ)E(E(yiyE(ei2)n2i1n2i121n1n1(xix)22var(ei)[1] n2i1n2i1nLxx1(n2)22n22.11 验证决定系数与F值之间的关系式

r2F

Fn2 . 学习参考 .

.. .. .. ..

证明:

SSRSSR1SSTSSRSSE1SSE/SSR1

n21SSR/(SSE/(n2))1Fn2Fn21Fr22.14 为了调查某广告对销售收入的影响,某商店记录了5个月的销售收入y(万元)和广告费用x(万元),数据见表2.6,要求用手工计算: 表2.6

月份 X Y 1 1 10 2 2 10 3 3 20 4 4 20 5 5 40 (1) 画散点图(略) (2) X与Y是否大致呈线性关系? 答:从散点图看,X与Y大致呈线性关系。 (3) 用最小二乘法估计求出回归方程。

计算表

X 1 2 Y 10 10 (XiX)2 (YiY)2 (XiX)(YiY) ˆ Yi6 13 ˆY)2 (YˆY)2 (Yiii(-14)2 (-7)2 (-4)2 (3)2 4 1 100 100 20 10 . 学习参考 .

.. .. .. ..

3 4 5 和15 均3 20 20 40 100 均20 0 1 4 和Lxx=10 0 0 400 Lyy=600 0 0 40 和Lxy=70 20 27 34 和100 均20 0 72 142 SSR=490 0 72 (-6)2 SSE=110 ˆ 1LxyLxx70ˆYˆX20371.7,0110 ˆˆX17Xˆ回归方程为:Y 01(4) 求回归标准误差

先求SSR(Qe)见计算表。 所以

ˆ

Qe1106.055.n23ˆ ˆ的置信度为95%的区间估计; (5) 给出0,1ˆ 的置信区间是 ˆ由于(1-)的置信度下,(ii查表可得 t/2(n2)t0.025(3)3.182ˆts)tsˆ,ˆi2i2iSˆ1ˆ2Lxx36.6671.915 10ˆ的95%的区间估计为:(7—3.182*1.915,7+3.182*1.915),即所以 1(0.906,13.094)。

1X2125ˆ()36.667()6.351 nLxx5102Sˆ0 . 学习参考 .

.. .. .. ..

ˆ的95%的区间估计为:(-1-3.182*6.351,-1+3.182*6.351), 所以 0即(-21.211, 19.211)。0的置信区间包含0,表示0不显著。

(6) 计算x和y的决定系数

^^

R2SSRSSR4900.817SSTLyy600说明回归方程的拟合优度高。 (7) 对回归方程作方差分析

方差分析表

方差来源 SSR SSE SST 平方和 490 110 600 自由度 1 3 4 均方 490 36.667 F值 13.364 F值=13.364>F0.05(1,3)=10.13(当n1=1,n2=8时,α=0.05查表得对应的值为10.13),所以拒绝原假设,说明回归方程显著。

(8)做回归系数β1的显著性检验H0: β1=0

ˆ/Sˆ7/1.9153.656 t11t值=3.656>t0.05/2(3)=3.182,所以拒绝原假设,说明x对Y有显著的影响。

. 学习参考 .

.. .. .. ..

(8) 做相关系数R的显著性检验

RR2SSR0.8170.904SST

R值=0.904>R0.05(3)=0.878,所以接受原假设,说明x和Y有显著的线性关系。

(9) 对回归方程作残差图并作相应的分析

残差图(略) .从残差图上看出,残差是围绕e=0在一个固定的带子里随

机波动,基本满足模型的假设ei~N(0, 2 ), 但由于样本量太少, 所以误

差较大. (10)

求广告费用为4.2万元时,销售收入将达到多少?并给出置信度为

95%的置信区间. 解: 当X0=4.2时,

ˆˆX174.228.4ˆY0010所以广告费用为4.2万元时, 销售收入将达到28.4万元. 由于置信度为1-α时,Y0估计值的置信区间为:

ˆtSˆˆtSˆYYY000YYYY200200

SYˆY001(X0X)211.44ˆ(136.667(1)

nLxx5102 . 学习参考 .

.. .. .. ..

所以求得Y0的95%的置信区间为: [6.05932 ,50.74068] 预测误差较大.

2.15 一家保险公司十分关心其总公司营业部加班的制度,决定认真调查一下现状。经过十周时间,收集了每周加班工作时间的数据和签发的新保单数目,x为每周新签发的保单数目,y为每周加班工作时间(小时)。见表2.7。

表2..7

周序号 1 825 3.5 2 215 1.0 3 4 5 480 1.0 6 920 3.0 7 8 9 670 3.0 10 1215 5.0 X Y 1070 550 4.0 2.0 1350 325 4.5 1.5 1、画散点图 散点图5.0每周加班工作时间小时4.03.02、由散点图可以看出, x与y之间大致呈线性关系。

. 学习参考 .

(2.0)1.0200400600800100012001400每周签发的新保单数目 .. .. .. ..

3、用最小二乘法求出回归系数

回归系数显著性检验表a模型1未标准化系数B标准误.118.355.004.000标准化系数β.949t.3338.509P值.748.00095% 回归系数的置信区间下限上限-.701.937.003.005(Constant)每周签发的新保单数目a. Dependent Variable: 每周加班工作时间(小时)由表可知:β0ˆ=0.00359 ˆ=0.118 β1y回归方程为: ˆ=0.118+0.00359x

ˆ 4、求回归标准误差σ方差分析表b模型1回归残差总和平方和16.6821.84318.525自由度189均方16.682.230F72.396P值.000aa. Predictors: (Constant), 每周签发的新保单数目b. Dependent Variable: 每周加班工作时间(小时) 由方差分析表可以得到:SSE=1.843

^SSE 故回归标准误差,=0.48。

n2^25、给出回归系数的置信度为95%的区间估计

回归系数显著性检验表a模型1未标准化系数B标准误.118.355.004.000标准化系数β.949t.3338.509P值.748.00095% 回归系数的置信区间下限上限-.701.937.003.005(Constant)每周签发的新保单数目a. Dependent Variable: 每周加班工作时间(小时)由回归系数显著性检验表可以看出,当置信度为95%时:

0的预测区间为[-0.701,0.937], 1的预测区间为[0.003,0.005].

^^ . 学习参考 .

.. .. .. ..

0的置信区间包含0,表示0不拒绝为零的假设。

模型概要b模型1R.949a决定系数.900调整后的决定系数.888估计值的标准误差.4800Durbin-Watson.753^^a. Predictors: (Constant), 每周签发的新保单数目b. Dependent Variable: 每周加班工作时间(小时)6、决定系数

由模型概要表得到决定系数为0.9接近于1,说明模型的拟合优度高。

方差分析表b模型1回归残差总和平方和16.6821.84318.525自由度189均方16.682.230F72.396P值.000aa. Predictors: (Constant), 每周签发的新保单数目b. Dependent Variable: 每周加班工作时间(小时)7. 对回归方程作方差分析 由方差分析表可知:

F值=72.396>5.32(当n1=1,n2=8时,查表得对应的值为5.32) P值≈0,所以拒绝原假设,说明回归方程显著。 8、对1的显著性检验

从上面回归系数显著性检验表可以得到1的t统计量为t=8.509,所对应的p值近似为0,通过t检验。说明每周签发的新保单数目x对每周加班工作时间y有显著的影响。

9.做相关系数显著性检验

^^ . 学习参考 .

.. .. .. ..

相关分析表每周加班每周签发的工作时间新保单数目(小时)1.949**.0001010.949**1.0001010每周签发的新保单数目每周加班工作时间(小时)Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N**. Correlation is significant at the 0.01 level (2-tailed). 相关系数达到0.949,说明x与y显著线性相关。 10、对回归方程作残差图并作相应分析

0.60000残差图0.30000从残差图上看出,残差是围绕e=0随即波动,满足模型的基本假设。

11、该公司预计下一

未标准化残差0.00000-0.30000-0.60000-0.90000200400600800100012001400每周签发的新保单数目周签发新保单X0=1000张,需要的加班时间是多少? 当x0=1000张时,y=0.118+0.00359*1000=3.7032小时 12、给出Y0的置信水平为95%的预测区间

通过SPSS运算得到Y0的置信水平为95%的预测区间为: (2.5195,4.8870)。

13 给出E(Y0)的置信水平为95%的预测区间

通过SPSS运算得到Y0的置信水平为95%的预测区间为:(3.284,4.123)。

. 学习参考 .

.. .. .. ..

2.16 表是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和学生的人均经费投入x(美元).

序号 y 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 x 序号 y x 序号 y x 19583 3346 18 20263 3114 19 20325 3554 20 26800 4542 21 29470 4669 22 26610 4888 23 30678 5710 24 27170 5536 25 25853 4168 26 24500 3547 27 24274 3159 28 27170 3621 29 30168 3782 30 26525 4247 31 27360 3982 32 21690 3568 33 21974 3155 34 20816 3059 35 18095 2967 36 20939 3285 37 22644 3914 38 24624 4517 39 27186 4349 40 33990 5020 41 23382 3594 42 20627 2821 43 22795 3366 44 21570 2920 45 22080 2980 46 22250 3731 47 20940 2853 48 21800 2533 49 22934 2729 50 18443 2305 51 19538 2642 20460 3124 21419 2752 25160 3429 22482 3947 20969 2509 27224 5440 25892 4042 22644 3402 24640 2829 22341 2297 25610 2932 26015 3705 25788 4123 29132 3608 41480 8349 25845 3766 解答:(1)绘制y对x的散点图,可以用直线回归描述两者之间的关系吗?

. 学习参考 .

.. .. .. ..

40000.0035000.0030000.00y25000.0020000.002000.003000.004000.005000.006000.007000.008000.009000.00x 由上图可以看出y与x的散点分布大致呈直线趋势。 (2)建立y对x的线性回归。

利用SPSS进行y和x的线性回归,输出结果如下:

表1 模型概要

R R2 调整后的R2 0.835 0.697 0.691 2323.25589 表2 方差分析表 随机误差项的标准差估计值 模型 平方和 自由度 和平均 F值 P值 1 回归平方和 6.089E8 1 6.089E8 112.811 .000a 残差平方和 2.645E8 49 5397517.938 . 学习参考 .

.. .. .. ..

总平方和 8.734E8 50

表3 系数表 非标准化系数 标准化系数 模型 B 标准差 回归系数 t值 P值 1 常数 12112.629 1197.768 .835 10.113 .000 对学生的人均经费投入 3.314 .312 10.621 .000 1) 由表1可知,x与y决定系数为r20.697,说明模型的拟合效果一般。

x与y线性相关系数R=0.835,说明x与y有较显著的线性关系。 2) 由表2(方差分析表中)看到,F=112.811,显著性Sig.p0.000,说明

回归方程显著。

3) 由表3 可见对1的显著性t检验P值近似为零,故1显著不为0,说明

x对y有显著的线性影响。

4) 综上,模型通过检验,可以用于预测和控制。

x与y的线性回归方程为:

ˆ12112.6293.314*x y

(3)绘制标准残差的直方图和正态概率图

. 学习参考 .

.. .. .. ..

图1 标准残差的直方图

理论正 态概率

观测值概率

图2 标准残差的正态概率P-P图

由图1可见标准化后残差近似服从正态分布,由图2可见正态概率图中的各个散点都分布在45°线附近,所以没有证据证明误差项服从同方差的正态分布的假定是不真实的,即残差通过正态性检验,满足模型基本假设。

第3章 多元线性回归

. 学习参考 .

.. .. .. ..

思考与练习参考答案

3.2 讨论样本容量n与自变量个数p的关系,它们对模型的参数估计有何影响?

答:在多元线性回归模型中,样本容量n与自变量个数p的关系是:n>>p。如果n<=p对模型的参数估计会带来很严重的影响。因为: 1. 在多元线性回归模型中,有p+1个待估参数β,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。

2. 解释变量X是确定性变量,要求rank(X)p1n,表明设计矩阵X中的自变量列之间不相关,即矩阵X是一个满秩矩阵。若

rank(X)p1,则解释变量之间线性相关,(XX)1是奇异阵,则

的估计不稳定。

3.3证明 ε的方差2的无偏估计。 ˆ2SSEn随机误差项p1证明:

n111ˆSSE(ee)ei2,np1np1np1i12E(e)D(ei)(1hii)2i2i1i1i1n1ˆ)E(E(ei2)2np1i12nnn2(1h)iii1n2(nhii)2(np1)

i1n3.4 一个回归方程的复相关系数R=0.99,样本决定系数R2=0.9801,我们能判断这个回归方程就很理想吗? 答:不能断定这个回归方程理想。因为:

1. 在样本容量较少,变量个数较大时,决定系数的值容易接近1,而此时可能F检验或者关于回归系数的t检验,所建立的回归方程都没能通过。

2. 样本决定系数和复相关系数接近于1只能说明Y与自变量X1,X2,…,Xp整体上的线性关系成立,而不能判断回归方程和每个

. 学习参考 .

.. .. .. ..

自变量是显著的,还需进行F检验和t检验。

3. 在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得 R2往往增大,因此增加解释变量(尤其是不显著的解释变量)个数引起的R2的增大与拟合好坏无关。 3.7 验证

ˆ*jLjjLyyˆ,jnj1,2,...,p2其中: Ljj(XijXj)证明:多元线性回归方程模型的一般形式为:

i1y01x12x2pxp

其经验回归方程式为

ˆˆxˆxˆy01122ˆxpp,

ˆyˆxˆxˆx, 又01122ppˆ(xx)ˆ(xx)ˆ(xx), ˆy故y111222pppˆ(xx)ˆ(xx)ˆ(xx), ˆiy中心化后,则有y111222ppp左右同时除以Lyyn(yy)ii1n2,

令Ljj(xijxj)2,i1,2,,n,j1,2,,p

i1Lˆiyˆ(xi1x1)yˆ(xi2x2)L221112LyyL11LyyL22LyyLpp(xipxp)ˆp

LppLyy样本数据标准化的公式为

xijxijxjLjj,yiyiyLyy,i1,2,,n,j1,2,,p

则上式可以记为

. 学习参考 .

.. .. .. ..

ˆyi1L11Lyyˆx2i1L22Lyyxi2ˆLpppLyyxip

ˆxˆx1i12i2ˆxpip则有

ˆjLjjLyyˆ,j1,2,j,p

F

F(np1)/p3.10 验证决定系数R2与F值之间的关系式:R2证明:

SSR/p,SSE/(np1)FSSESSRpnp1F

FSSEpSSRSSRFpFnp1R2SSTSSRSSEFSSEpSSEFpnp1F(np1)/pnp13.11 研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。数据见表3.9(略)。

(1)计算出y,x1,x2,x3的相关系数矩阵。 SPSS输出如下:

. 学习参考 .

.. .. .. ..

相关系数表yyPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N110.556.09510.731*.01610.724*.01810x1.556.09510110.113.75610.398.25410x2.731*.01610.113.75610110.547.10110x3.724*.01810.398.25410.547.10110110x1x2x3*. Correlation is significant at the 0.05 level (2-tailed). 1.0000.556r则相关系数矩阵为:0.7310.7240.5560.7310.7241.0000.1130.3980.1131.0000.547

0.3980.5471.000(2)求出y与x1,x2,x3的三元回归方程。

aCoefficientsModel1(Constant)x1x2x3UnstandardizedCoefficientsBStd. Error-348.280176.4593.7541.9337.1012.88012.44710.569StandardizedCoefficientsBeta.385.535.277t-1.9741.9422.4651.178Sig..096.100.049.284a. Dependent Variable: y 对数据利用SPSS做线性回归,得到回归方程为

ˆ348.383.754x17.101x212.447x3 y(3)对所求的方程作拟合优度检验。

. 学习参考 .

.. .. .. ..

Model SummaryModel1R.898aR Square.806AdjustedR Square.708Std. Error ofthe Estimate23.44188a. Predictors: (Constant), x3, x1, x2 由上表可知,调整后的决定系数为0.708,说明回归方程对样本观测值的拟合程度较好。

(4)对回归方程作显著性检验;

方差分析表bModel1回归残差总和平方和13655.3703297.13016952.500自由度369均方4551.790549.522F8.283Sig..015aa. Predictors: (Constant), x3, x1, x2b. Dependent Variable: y 原假设:H0:1230

F统计量服从自由度为(3,6)的F分布,给定显著性水平=0.05,查表得F0.05(3.6)4.76,由方查分析表得,F值=8.283>4.76,p值=0.015,拒绝原假设H0,由方差分析表可以得到

F8.283,P0.0150.05,说明在置信水平为95%下,回归方程显著。

(5)对每一个回归系数作显著性检验;

回归系数表aUnstandardizedCoefficientsBStd. Error-348.280176.4593.7541.9337.1012.88012.44710.569StandardizedCoefficientsBeta.385.535.277Model1(Constant)x1x2x3t-1.9741.9422.4651.178Sig..096.100.049.284a. Dependent Variable: y 做t检验:设原假设为H0:i0,

. 学习参考 .

.. .. .. ..

ti统计量服从自由度为n-p-1=6的t分布,给定显著性水平0.05,查

得单侧检验临界值为1.943,X1的t值=1.942<1.943,处在否定域边缘。

X2的t值=2.465>1.943。拒绝原假设。

由上表可得,在显著性水平0.05时,只有x2的P值<0.05,通过检验,即只有x2的回归系数较为显著 ;其余自变量的P值均大于0.05,即x1,x2的系数均不显著。

(6)如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程,并作回归方程的显著性检验和回归系数的显著性检验。 解:用后退法对数据重新做回归分析,结果如下:

aCoefficientsModel12(Constant)x1x2x3(Constant)x1x2UnstandardizedCoefficientsBStd. Error-348.280176.4593.7541.9337.1012.88012.44710.569-459.624153.0584.6761.8168.9712.468StandardizedCoefficientsBeta.385.535.277.479.676t-1.9741.9422.4651.178-3.0032.5753.634Sig..096.100.049.284.020.037.008a. Dependent Variable: y 选择模型二,重新建立的回归方程为:

ˆ459.6244.676x18.971x2 y方差分析表b模型1回归残差Total平方和12893.1994059.30116952.500自由度279均方6446.600579.900F11.117Sig..007aa. Predictors: (Constant), 农业总产值X2(亿元), 工业总产值X1(亿元)b. Dependent Variable: 货运总量Y(万吨) . 学习参考 .

.. .. .. ..

模型摘要改变统计量模型1RR Squarea.872.761调整后的R Square.692Std. Error ofthe Estimate24.081R SquareChange.761F Change11.117df12df27Sig. F Change.007a. Predictors: (Constant), 农业总产值X2(亿元), 工业总产值X1(亿元)对新的回归方程做显著性检验: 原假设:H0:120

F服从自由度为(2,7)的F分布,给定显著性水平=0.05,查表得F0.05(2.7)4.74,由方差分析表得,F值=11.117>4.74,p值=0.007,拒绝原假设H0.

认为在显著性水平=0.05下,x1,x2整体上对y有显著的线性影响,即回归方程是显著的。 对每一个回归系数做显著性检验:

做t检验:设原假设为H0:10,t1统计量服从自由度为n-p-1=7的t分布,给定显著性水平0.05,查得单侧检验临界值为1.895,X1的t值=2.575>1.895,拒绝原假设。故1显著不为零,自变量X1对因变量y的线性效果显著;

同理β2也通过检验。同时从回归系数显著性检验表可知:X1,X2的p值 都小于0.05,可认为对x1,x2分别对y都有显著的影响。 (7)求出每一个回归系数的置信水平为955D 置信区间 由回归系数表可以看到,β1置信水平为95%的置信区间[0.381,8.970],

β2置信水平为95%的置信区间[3.134,14.808]

. 学习参考 .

.. .. .. ..

aCoefficientsModel12(Constant)x1x2x3(Constant)x1x2UnstandardizedCoefficientsBStd. Error-348.280176.4593.7541.9337.1012.88012.44710.569-459.624153.0584.6761.8168.9712.468StandardizedCoefficientsBeta.385.535.277.479.676t-1.9741.9422.4651.178-3.0032.5753.634Sig..096.100.049.284.020.037.00895% Confidence Interval for BLower BoundUpper Bound-780.06083.500-.9778.485.05314.149-13.41538.310-821.547-97.700.3818.9703.13414.808a. Dependent Variable: y (8)求标准化回归方程

由回归系数表(上表)可得,标准化后的回归方程为:

ˆ*0.479x1*0.676x2* yˆ0,给定置(9)求当x01=75,x02=42,x03=3.1时的y的预测值y信水平95%,用SPSS软件计算精确置信区间,用手工计算近似预测区间;

ˆ0267.829(见由SPSS输出结果可知,当x0175,x0242,x033.1时,y上表),y0的置信度为95%的精确预测区间为(204.4,331.2)(见

ˆ02ˆ),手工计算得:下表),y0的置信度为95%的近似预测区间为(y(219.6,316.0)。

. 学习参考 .

.. .. .. ..

(10)结合回归方程对问题做一些简单分析。 答:由回归方程

ˆ459.6244.676x18.971x2 y可知农业总产值固定的时候,工业总产值每增加1亿元,货运总量增加4.676万吨;工业总产值固定的时候,农业总产值每增加1亿元,货运总量增加8.971万吨。而居民非商品支出对货运总量没有显著的线性影响。由标准化回归方程

ˆ*0.479x1*0.676x2*y可知:

工业总产值、农业总产值与Y都是正相关关系,比较回归系数的大小可知农业总产值X2对货运总量Y的影响程度大一些。

第4章 违背基本假设的情况

思考与练习参考答案

4.1 试举例说明产生异方差的原因。

. 学习参考 .

.. .. .. ..

答:例4.1:截面资料下研究居民家庭的储蓄行为 Yi=0+1Xi+εi 其中:Yi表示第i个家庭的储蓄额,Xi表示第i个家庭的可支配收入。 由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi的方差呈现单调递增型变化。

例4.2:以某一行业的企业为样本建立企业生产函数模型 Yi=Ai1 Ki2 Li3eεi 被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。

4.2 异方差带来的后果有哪些?

答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果:

1、参数估计量非有效 2、变量的显著性检验失去意义 3、回归方程的应用效果极不理想

. 学习参考 .

.. .. .. ..

总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。

4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。

答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由OLS求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。

加权最小二乘法的方法:

_ˆˆx)2ˆi)2wi(yiQwwi(yiy01ii1i1NNˆ=1ww(xii1Ni=1Nixw)(yiyw)___2(xx)iw_ˆxw0wyw1wwi21i2kxi22i1表示122kxixi1或ikxi,wimxim . 学习参考 .

.. .. .. ..

4.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。

答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数

wi ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为:

Qw(0,1,,p) wi(yi01xi1pxip)2

i1n (2)

ˆ,ˆ,,ˆ使式(2)加权最小二乘估计就是寻找参数0,1,,p的估计值0w1wpw的离差平方和Qw达极小。所得加权最小二乘经验回归方程记做

ˆˆxˆx (3) ˆwy0w1w1pwp 多元回归模型加权最小二乘法的方法:

首先找到权数wi,理论上最优的权数wi为误差项方差i2的倒数,即

wi1

2i (4)

误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中的作用。由(2)式求出的

ˆ,ˆ,,ˆ就是参数0,1,,p的最小方差线性无偏估加权最小二乘估计0w1wpw计。

一个需要解决的问题是误差项的方差i2是未知的,因此无法真正按照式(4)选取权数。在实际问题中误差项方差i2通常与自变量的水平有关(如误差项方差i2随着自变量的增大而增大),可以利用这种关系确定权数。例如i2与第j个

. 学习参考 .

.. .. .. ..

2自变量取值的平方成比例时, 即i2=kxij时,这时取权数为

wi12xij (5)

更一般的情况是误差项方差i2与某个自变量xj(与|ei|的等级相关系数最大

mm的自变量)取值的幂函数xij成比例,即i2=kxij,其中m是待定的未知参数。此

时权数为

wi1 (6) mxij这时确定权数wi 的问题转化为确定幂参数m的问题,可以借助SPSS软件解决。4.5(4.5)式一元加权最小二乘回归系数估计公式。

证明: 由 得:

ˆˆx)2ˆi)2wi(yiQwwi(yiy01ii1i1NNQ0ˆ0nQ0ˆ1ˆ1w(xii1ni1ixw)(yiyw)iiw(xxw)2

ˆyˆx0w1w4.6验证(4.8)式多元加权最小二乘回归系数估计公式。

证明:对于多元线性回归模型 y=Xβ+ε, (1)

E(ε)0,cov(ε,ε)2W,即存在异方差。设

WDD,w1D00, wn . 学习参考 .

.. .. .. ..

用D1左乘(1)式两边,得到一个新的的模型:

D1y=D1Xβ+D1ε,即y=Xβ+ε。

因为E(εε)E(D1εεD-1)D1E(εε)D-1D12WD-12I, 故新的模型具有同方差性,故可以用广义最小二乘法估计该模型,得

ˆ(XX)1Xy(XD1D1X)1XD1D1y(XWX)1XWy βw原式得证。

4.7 有同学认为当数据存在异方差时,加权最小二乘回归方程与普通最小二乘回归方程之间必然有很大的差异,异方差越严重,两者之间的差异就越大。你是否同意这位同学的观点?说明原因。

答:不同意。当回归模型存在异方差时,加权最小二乘估计(WLS)只是普通最小二乘估计(OLS)的改进,这种改进可能是细微的,不能理解为WLS一定会得到与OLS截然不同的方程来,或者大幅度的改进。实际上可以构造这样的数据,回归模型存在很强的异方差,但WLS 与OLS的结果一样。加权最小二乘法不会消除异方差,只是消除异方差的不良影响,从而对模型进行一点改进。

''4.8 对例4.3的数据,用公式eiw,绘wieiw计算出加权变换残差eiw制加权变换残差图,根据绘制出的图形说明加权最小二乘估计的效果。

''解:用公式eiw,分别绘制加权最小二乘估计后wieiw计算出加权变换残差eiw的残差图和加权变换残差图(见下图)。

. 学习参考 .

.. .. .. ..

根据绘制出的两个图形可以发现加权最小二乘估计没有消除异方差,只是对原OLS的残差有所改善,而经过加权变换后的残差不存在异方差。

. 学习参考 .

.. .. .. ..

4.9 参见参考文献[2],表4.12(P138)是用电高峰每小时用电量y与每月总用电量x的数据。

(1)用普通最小二乘法建立y与x的回归方程,并画出残差散点图。 解:SPSS输出结果如下:

aCoefficientsModel1(Constant)xUnstandardizedCoefficientsBStd. Error-.831.442.004.000StandardizedCoefficientsBeta.839t-1.88211.030Sig..065.000a. Dependent Variable: y 由上表可得回归方程为:

ˆ0.8310.004x y残差图为:

4.000002.00000普通残差0.00000-2.00000-4.0000001000200030004000x (2)诊断该问题是否存在异方差;

. 学习参考 .

.. .. .. ..

解:a由残差散点图可以明显看出存在异方差,误差的方差随着x的增加而增大。 b用SPSS做等级相关系数的检验,结果如下表所示:

CorrelationsSpearman's rhoxCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)Nx1.000.53.318*.02153absei.318*.021531.000.53absei*. Correlation is significant at the 0.05 level (2-tailed). 与自变量xi得到等级相关系数rs0.318,P值=0.021,认为残差绝对值ei显著相关,存在异方差。

(3)如果存在异方差,用幂指数型的权函数建立加权最小二乘回归方程; 解:SPSS输出结果如图:

. 学习参考 .

.. .. .. ..

Coefficients a,b Unstandardized Coefficients Model 1 (Constant) x a. Dependent Variable: y b. Weighted Least Squares Regression - Weighted by Weight for y from WLS, MOD_2 x** -1.500 B -.683 .004 Std. Error .298 .000 Standardized Coefficients Beta .812 t -2.296 9.930 Sig. .026 .000 由上述表可得,在m1.5时对数似然函数达到最大,则幂指数的最优取值为

m1.5。加权后的回归方程为:yˆw0.6830.004x。

计算加权后的残差,并对残差绝对值和自变量做等级相关系数分析,结果如下表所示:

. 学习参考 .

.. .. .. ..

rs0.321,P值为0.019<0.05,即加权最小二乘法没有消除异方差,只是消

除异方差的不良影响,从而对模型进行一点改进。

Correlations Spearman's rho x Correlation Coefficient Sig. (2-tailed) N abseiw Correlation Coefficient Sig. (2-tailed) N *. Correlation is significant at the 0.05 level (2-tailed). x 1.000 . 53 .321 * .019 53 abseiw .321 * .019 53 1.000 . 53

(4)用方差稳定变换y'y消除异方差。

y)后,用最小二乘法做回归,SPSS结

解:对应变量做方差稳定变换(y'果如下表:

Coefficients a Unstandardized Coefficients Model 1 (Constant) x B .582 .001 Std. Error .130 .000 Standardized Coefficients Beta .805 t 4.481 9.699 Sig. .000 .000 a. Dependent Variable: sqrty

ˆ0.5822+0.0009529x。 则回归方程为:yˆi,计算出残差的绝对值后,计算等级相关系数,见下表: 保存预测值yCorrelationsSpearman's rhoxCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)Nx1.000.53.160.25453eeii.160.254531.000.53eeii 其中rs0.160,P值=0.254>0.05,说明异方差已经消除。

. 学习参考 .

.. .. .. ..

4.10 试举一可能产生随机误差项序列相关的经济例子。

答:例如,居民总消费函数模型:

Ct=0+1Yt+ ε t t=1,2,…,n 由于居民收入对消费影响有滞后性,而且今年消费水平受上年消费水平影响,则可能出现序列相关性。另外由于消费习惯的影响被包含在随机误差项中,则可能出现序列相关性(往往是正相关 )。

4.11 序列相关性带来的严重后果是什么?

答:直接用普通最小二乘法估计随机误差项存在序列相关性的线性回归模型未知参数时,会产生下列一些问题: 1.

参数估计量仍然是无偏的,但不具有有效性,因为有自相关性时参数估

计值的方差大于无自相关性时的方差。 2. 3.

均方误差MSE可能严重低估误差项的方差

变量的显著性检验失去意义:在变量的显著性检验中,统计量是建立在

参数方差正确估计基础之上的,当参数方差严重低估时,容易导致t值和F值偏大,即可能导致得出回归参数统计检验和回归方程检验显著,但实际并不显著的严重错误结论。 4.

当存在序列相关时, 仍然是的无偏估计,但在任一特定的样本中,

 可能严重歪曲的真实情况,即最小二乘法对抽样波动变得非常敏感

5. 模型的预测和结构分析失效。

4.12 总结DW检验的优缺点。

答:优点:1.应用广泛,一般的计算机软件都可以计算出DW值;

. 学习参考 .

.. .. .. ..

2.适用于小样本;

3.可用于检验随机扰动项具有一阶自回归形式的序列相关问题。

缺点:1. DW检验有两个不能确定的区域,一旦DW值落入该区域,就无法判断。此时,只有增大样本容量或选取其他方法;

2.DW统计量的上、下界表要求n>15,这是由于样本如果再小,利用残差就很难对自相关性的存在做出比较正确的诊断;

3.DW检验不适应随机项具有高阶序列相关性的检验。

4.13 表4.13中是某软件公司月销售额数据,其中,x为总公司的月销售额(万元);y为某分公司的月销售额(万元)。

(1)用普通最小二乘法建立y与x的回归方程;

bModel SummaryModel1R.999aR Square.998AdjustedR Square.998Std. Error ofthe Estimate.09744Durbin-Watson.663a. Predictors: (Constant), 总公司月销售额xb. Dependent Variable: 某分公司月销售额y回归系数表aUnstandardizedCoefficientsBStd. Error-1.435.242.176.002StandardizedCoefficientsBeta.999Model1(Constant)总公司月销售额xt-5.930107.928Sig..000.000a. Dependent Variable: 某分公司月销售额y ˆ1.4350.176x 由上表可知:用普通二乘法建立的回归方程为y(2)用残差图及DW检验诊断序列的相关性;

. 学习参考 .

.. .. .. ..

1.以自变量x为横轴,普通残差为纵轴画残差图如下:

0.200000.10000残差0.00000-0.10000-0.20000120.0130.0140.0150.0160.0170.0180.0总公司月销售额x 从图中可以看到,残差有规律的变化,呈现大致反W形状,说明随机误差项存在自相关性。

2.以ei1(残差1)为横坐标,ei(残差)为纵坐标,绘制散点图如下:

. 学习参考 .

.. .. .. ..

0.200000.10000残差0.00000-0.10000-0.20000-0.20000-0.100000.000000.100000.20000残差1 由残差图可见大部分的点落在第一、三象限内,表明随机扰动项i存在着正的序列相关; 3.从下表

bModel SummaryModel1R.999aR Square.998AdjustedR Square.998Std. Error ofthe Estimate.09744Durbin-Watson.663a. Predictors: (Constant), 总公司月销售额xb. Dependent Variable: 某分公司月销售额y 可知DW值为0.663,查DW表,n=20,k=2,显著性水平=0.05,得dL=1.20,dU=1.41,由于0.663<1.20,知DW值落入正相关区域,即残差序列存在正的自相关。 (3)用迭代法处理序列相关,并建立回归方程。

1自相关系数10.6630.6685

2令ytytyt1,xtxtxt1,然后用yt对xt作普通最小二乘回归可得输出结果如下:

. 学习参考 .

.. .. .. ..

aCoefficientsModel1(Constant)x2UnstandardizedCoefficientsBStd. Error-.300.178.173.003StandardizedCoefficientsBeta.997t-1.68949.673Sig..109.000a. Dependent Variable: y2 ANOVAbModel1RegressionResidualTotalSum ofSquares13.133.09013.224df11718Mean Square13.133.005F2467.405Sig..000aa. Predictors: (Constant), x2b. Dependent Variable: y2 bModel SummaryModel1R.997aR Square.993AdjustedR Square.993Std. Error ofthe Estimate.07296Durbin-Watson1.360a. Predictors: (Constant), x2b. Dependent Variable: y2 可看到新的回归方程的DW=1.360.且1.18<1.360<1.40,因而DW检验落入不确定区域此时,一步迭代误差项的标准差为0.07296,小于t的标准差0.097

ˆt=-0.3+0.173xt,将yt=yt-0.6685yt1,xt=xt-yt对xt的回归方程为yˆt=-0.3+0.6685yt1+0.173xt-0.11570.6685xt1代人,还原为原始变量的方程yxt1

由于一步迭代的DW检验落入不确定区域,因而可以考虑对数据进行二步迭代,

也就是对xt和yt重复以上迭代过程。进行回归结果如下:

bModel SummaryModel1R.995aR Square.989AdjustedR Square.989Std. Error ofthe Estimate.06849Durbin-Watson1.696a. Predictors: (Constant), x3b. Dependent Variable: y3 . 学习参考 .

.. .. .. ..

ANOVAbModel1Sum ofSquares6.994.0757.069df11617Mean Square6.994.005F1491.093Sig..000aRegressionResidualTotala. Predictors: (Constant), x3b. Dependent Variable: y3 此时DW的值为1.696,查DW表,n=18,k=2,显著性水平=0.05,得dL=1.16,

dU=1.39, DW值大于dU,小于2,落入无自相关区域。误差标准项0.0849,

略小于一步迭代的标准差0.7296。

但是在检验都通过的情况下,由于一步迭代的r2值和F值均大于两步迭代后的值,且根据取模型简约的原则,最终选择一步迭代的结果,即:

ˆt=-0.3+0.6685yt1+0.173xt-0.1157xt1 y(4)用一阶差分的方法处理数据,建立回归方程;

先计算差分yt=yt-yt1,xt=xt-xt1,然后用yt对xt做过原点的最小二乘回归,结果如下:

c,dModel SummaryModel1R.990bR Square.981aAdjustedR Square.980Std. Error ofthe Estimate.07576Durbin-Watson1.462a. For regression through the origin (the no-intercept model), R Squaremeasures the proportion of the variability in the dependent variableabout the origin explained by regression. This CANNOT be compared toR Square for models which include an intercept.b. Predictors: x2c. Dependent Variable: y2d. Linear Regression through the Origin . 学习参考 .

.. .. .. ..

a,bCoefficientsModel1x2UnstandardizedCoefficientsBStd. Error.169.006StandardizedCoefficientsBeta.990t30.461Sig..000a. Dependent Variable: y2b. Linear Regression through the OriginANOVAc,dModel1Sum ofSquares5.325.1035.429bdf11819Mean Square5.325.006F927.854Sig..000aRegressionResidualTotala. Predictors: x2b. This total sum of squares is not corrected for the constant because the constant iszero for regression through the origin.c. Dependent Variable: y2d. Linear Regression through the Origin 由上面表,可知DW值为1.462>1.40=dU,即DW落入不相关区域,可知残差序

列et不存在自相关,一阶差分法成功地消除了序列自相关。同时得到回归方程为

ˆt=0.169xt, y将yt=yt-yt1,xt=xt-xt1,代人,还原原始变量的方程

yt=yt1+0.169(xt-xt1)

(5)比较普通最小二乘法所得的回归方程和迭代法、一阶差分法所建立回归方程的优良性。

ˆ0.6685,不接近于1,不适宜用差分法,另外由迭代答:本题中自相关系数法的F值及r2都大于差分法的值,故差分法的效果低于迭代法的效果;而普通最小二乘法的随机误差项标准差为0.09744,大于迭代的随机误差项标准差0.07296,所以迭代的效果要优于普通最小二乘法,所以本题中一次迭代法最好。

. 学习参考 .

.. .. .. ..

4.14 某乐队经理研究其乐队CD盘的销售额(y),两个有关的影响变量是每周出场次x1和乐队网站的周点击率x2,数据见表4.14。

(1)用普通最小二乘法建立y与x1、x2的回归方程,用残差图及DW检验诊断序列的自相关性;

解:将数据输入SPSS,经过线性回归得到结果如下:

Adjusted R Model 1 R .541(a) R Square .293 Square .264 Std. Error of the Estimate 329.69302 Durbin-Watson .745 Model Summary(b)

a Predictors: (Constant), x2, x1 b Dependent Variable: y

ANOVA(b)

Sum of Model 1 Regression Residual Total Squares df Mean Square F Sig. 2205551.678 5326177.036 7531728.714 2 49 51 1102775.839 108697.491 10.145 .000(a) a Predictors: (Constant), x2, x1 b Dependent Variable: y

. 学习参考 .

.. .. .. ..

aCoefficientsModel1(Constant)x1x2UnstandardizedCoefficientsBStd. Error-574.062349.271191.09873.3092.045.911StandardizedCoefficientsBeta.345.297t-1.6442.6072.246Sig..107.012.029a. Dependent Variable: y 由以上3个表可知普通最小二乘法建立y与x1、x2的回归方程,通过了r、F、t检验,说明回归方程显著。y与x1、x2的回归方程为:

y=-574.062+191.098x1+2.045x2

残差图ei(et)~ei1(et-1)为:

600.00000400.00000200.000000.00000ei1-200.00000-400.00000-600.00000-800.00000-800.00000-600.00000-400.00000-200.000000.00000200.00000400.00000600.00000Unstandardized Residual 从残差图可以看出残差集中在1、3象限,说明随机误差项存在一阶正自相关。

. 学习参考 .

.. .. .. ..

DW=0.745

查表得dl=1.46 du=1.63, 0ρ=1-0.5DW=0.6275

做变换:x1t’=x1t-ρx1(t-1), x2t’=x2t-ρx2(t-1)

yt’=yt-ρyt-1

建立yt’与x1t’, x2t’的回归方程,SPSS输出为:

bModel SummaryModel1R.688aR Square.473AdjustedR Square.451Std. Error ofthe Estimate257.85561Durbin-Watson1.716a. Predictors: (Constant), x2tt, x1ttb. Dependent Variable: ytt ˆ=257.86 DW=1.716>du 所以误差项间无自相关性。aCoefficientsModel1(Constant)x1ttx2ttUnstandardizedCoefficientsBStd. Error-178.77590.338211.11047.7471.436.629StandardizedCoefficientsBeta.521.269t-1.9794.4212.285Sig..054.000.027a. Dependent Variable: ytt 回归方程为:yt’=-178.775+211.11x1t’+1.436x2t’

还原为:yt-0.627y(t-1)= -178.775+211.11*(x1t-0.627x1(t-1)) +1.436*( x2t-0.627x2(t-1))

. 学习参考 .

.. .. .. ..

(3)用一阶差分法处理序列相关,建立回归方程。

R Model 1 R .715(b) Square(a) .511 Adjusted R Square .491 Std. Error of the Estimate 280.98995 Durbin-Watson 2.040 Model Summary(c,d)

a For regression through the origin (the no-intercept model), R Square measures the proportion of the variability in the dependent variable about the origin explained by regression. This CANNOT be compared to R Square for models which include an intercept. b Predictors: DIFF(x2,1), DIFF(x1,1) c Dependent Variable: DIFF(y,1) d Linear Regression through the Origin

ˆ=280.99 DW=2.040>du,所以消除了自相关性,a,bCoefficientsModel1DIFF(x1,1)DIFF(x2,1)UnstandardizedCoefficientsBStd. Error210.11743.6921.397.577StandardizedCoefficientsBeta.544.274t4.8092.421Sig..000.019a. Dependent Variable: DIFF(y,1)b. Linear Regression through the Origin 差分法回归方程为: yt-yt-1=210.117(x1t-x1(t-1))+1.397(x2t-x2(t-1)). (4)用最大似然法处理序列相关,建立回归方程。

用SPSS软件的自回归功能,analyze——>time series——>autoregression:

. 学习参考 .

.. .. .. ..

Iteration HistoryRegression Coefficients周演出场次x1周点击率x2191.0982.045210.8701.443211.0251.435012Rho (AR1).000.610.631Constant-574.062-489.203-487.097Adjusted Sumof Squares5326177.0363230345.6213228075.980aMarquardtConstant.001.001.000Melard's algorithm was used for estimation.a. The estimation terminated at this iteration, because the sum of squares decreased byless than .001%. Residual DiagnosticsNumber of Residuals52Number of Parameters1Residual df48Adjusted Residual Sum of3228075SquaresResidual Sum of Squares5326177Residual Variance66599.102Model Std. Error258.068Log-Likelihood-360.788Akaike's Information729.575Criterion (AIC)Schwarz's Bayesian737.380Criterion (BIC) Parameter EstimatesRho (AR1)RegressionCoefficientsConstantEstimates.631211.0221.436-487.145Std Error.11147.720.628241.355t5.6774.4222.285-2.018Approx Sig.000.000.027.049周演出场次x1周点击率x2Melard's algorithm was used for estimation. ˆ =0.631, ˆ=258.068,  (5)用科克伦-奥克特迭代法处理序列相关,建立回归方程

. 学习参考 .

.. .. .. ..

Autocorrelation CoefficientRho (AR1).632Std. Error.112The Cochrane-Orcutt estimation method is used.Model Fit SummaryR.689R Square.474AdjustedR Square.441Std. Error ofthe Estimate260.560Durbin-Watson1.748The Cochrane-Orcutt estimation method is used.Regression CoefficientsUnstandardizedCoefficientsBStd. Error211.13948.1521.435.634-479.341245.124StandardizedCoefficientsBeta.522.269周演出场次x1周点击率x2(Constant)t4.3852.263-1.956Sig.000.028.056The Cochrane-Orcutt estimation method is used. ˆ =0.632, ˆ =260.560 , DW=1.748。 (6)用普莱斯-温斯登迭代法处理序列相关,建立回归方程。

Autocorrelation CoefficientRho (AR1).631Std. Error.112The Prais-Winsten estimation method is used. Model Fit SummaryR.688R Square.473AdjustedR Square.440Std. Error ofthe Estimate258.066Durbin-Watson1.746The Prais-Winsten estimation method is used. ˆˆ =258.066 , DW=1.746。 =0.632, 

. 学习参考 .

.. .. .. ..

Regression CoefficientsUnstandardizedCoefficientsBStd. Error211.02547.7101.435.628-487.100241.353StandardizedCoefficientsBeta.521.269周演出场次x1周点击率x2(Constant)t4.4232.285-2.018Sig.000.027.049The Prais-Winsten estimation method is used. (7)比较以上各方法所建回归方程的优良性。

综合以上各方法的模型拟合结果如下表所示: 自回归方法 迭代法 ˆ ˆ 0ˆ' 0ˆˆ' ˆˆ' DW 1122ˆ 0.6275 —— -179.0 211.1 1.437 1.716 257.86 差分法 —— —— -481.7 0 —— 210.1 211.0 1.397 1.436 2.040 280.99 —— 258.07 精确最大似然 0.631 科克伦-奥克0.632 特 普莱斯-温斯0.631 登 -479.3 -487.1 —— 211.1 1.435 1.748 260.560 —— 211.0 1.435 1.746 258.066 由上表可看出:DW值都落在了随机误差项无自相关性的区间上,一阶差分法消除自相关最彻底,但因为=0.627,并不接近于1,故得到的方差较大,拟合

ˆ值进行比较,就可知迭代法的拟合效果最效果不理想。将几种方法所得到的好,以普莱斯-温斯登法次之,差分法最差。

4.15 说明引起异常值的原因和消除异常值的方法。

. 学习参考 .

.. .. .. ..

答:通常引起异常值的原因和消除异常值的方法有以下几条,见表4.10:

4.16 对第3章习题11做异常值检验。

研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。

(1)利用SPSS建立y与x1,x2,x3的三元回归方程,分别计算普通残差,学生化残差,删除残差,删除学生化残差,中心化杠杆值chii,库克距离Di,见下表:

从表中看到绝对值最大的学生化残差为SRE=2.11556,小于3,但有超过3的个别值,因而根据学生化残差诊断认为存在异常值。绝对值最大的删除学生化残差为3.832,对应为第6个数据,因此判断它为为异常值。第6个数据的中心化杠杆值为0.64,位于第一大,大于2ch=23=0.6,且库克距离为3.21位于第一10大,因而从杠杆值看是第6个数据是自变量的异常值,同时库克距离大于1,故第6个数据为异常值的原因是由自变量异常与因变量异常两个共同原因引起的。

. 学习参考 .

.. .. .. ..

编号 1 2 3 4 5 6 7 8 9 10 y X1 X2 X3 残差 学生化 残差 删除残差 删除学生化残差 Di chii 1626212624220 275 160 275 250 70 35 1.65 40 2.72 38 2.78 42 3.70 44 1.1.4.2.3.2 3.0 0 75 40 0 1 -15.474812.82495.34434 33.225425.197517.554520.00688.23435 5 0.62767 0.26517 1.75400 -2.11566 -1.17348 -1.16281 0.40935 1.06462 -28.35150 16.88057.22979 50.88273 -97.61523 -43.10665 -37.13868 11.18287 33.31486 0.1660 0.35418 0.14025 0.16079 0.09935 0.24 0.64187 0.49277 0.36129 0.16366 0.33883 -.89353 -0.87604 9 0.59277 0.0311 -5 0 0.24349 0.00620.00396 0.0000-3.83214 - -0.40874 3.21600.50110.28940 74 42 4 9 0 68 45 0 -0.09088 -.00433 2 5 66 36 0 9 -0 65 42 2 9 -5 0 -0 4 0 18.6954-0.11351 2.29383 0 1.22039 1 1.20606 0 0.37902 6 1.07911 0.01500 0.22158 (2) 删除第6组数据,然后做回归分析, 编号 1 2 3 4 5 7 8 9 160 70 35 1.0 -210 65 40 2.0 7.03274 265 74 42 3.0 -8.01315 240 72 38. 1.2 -7.36736 160 66 36 2.0 0.71258 275 70 44 3.2 2.08767 y X1 X2 X3 残差 删除学生化残差 260 75 40 2.4 12.50782 9.42586 -9.45592 27.95736 6.13591 学生化残差 1.31247 -0.75831 -.64493 1.53393 删除学生化残差 -1.44994 0.36355 0.34665 0.58638 0.03367 0.14278 -0.72098 0.07188 0.22222 -0.60244 0.02948 0.10976 1.88562 0.09461 0.24927 0.57840 0.38467 0.00749 0.61732 0.03708 0.54865 Di chii -23.06691 --12.01962 0.62911 275 78 42 4.0 14.09650. 2.62393 -17.26607 0.10566 -1.03859 0.17948 0.29224 . 学习参考 .

.. .. .. ..

10 250 65 42 3.0 -10.30176 14.26060 25.77938 0.27655 -1.03052 1.48152 1.76915 0.44322 0.33571 .由上表可知:删除第六组数据后,发现学生化残差的绝对值和删除化学生残差绝对值均小于3,库克距离均小于1,中心化杠杆值的最大值为0.61732<2ch=230.667 ,说明数据不再有异常值。 9所以可判断异常值的原因是由于数据登记或实际问题有突变引起的。

第5章 自变量选择与逐步回归

思考与练习参考答案

5.1 自变量选择对回归参数的估计有何影响?

答: 回归自变量的选择是建立回归模型得一个极为重要的问题。如果模型中丢掉了重要的自变量, 出现模型的设定偏误,这样模型容易出现异方差或自相关性 ,影响回归的效果;如果模型中增加了不必要的自变量, 或者数据质量很差的自变量, 不仅使得建模计算量增大, 自变量之间信息有重叠,而且得到的模型稳定性较差,影响回归模型的应用。 5.2自变量选择对回归预测有何影响?

答:当全模型(m元)正确采用选模型(p元)时,我们舍弃了m-p个自变量,回归系数的最小二乘估计是全模型相应参数的有偏估计,使得用选模型的预测是有偏的,但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差,所以全模型正确而误用选模型有利有弊。 当选模型(p元)正确采用全模型(m元)时,全模型回归系数的最小二乘估计是相应参数的有偏估计,使得

. 学习参考 .

.. .. .. ..

用模型的预测是有偏的,并且全模型的参数估计、预测残差和预测均方误差的方差都比选模型的大,所以回归自变量的选择应少而精。

5.3 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣? 答:如果所建模型主要用于预测,则应使用Cp统计量达到最小的准则来衡量回归方程的优劣。

5.4 试述前进法的思想方法。

答:前进法的基本思想方法是:首先因变量Y对全部的自变量x1,x2,...,xm建立m个一元线性回归方程, 并计算F检验值,选择偏回归平方和显著的变量(F值最大且大于临界值)进入回归方程。每一步只引入一个变量,同时建立m-1个二元线性回归方程,计算它们的F检验值,选择偏回归平方和显著的两变量变量(F值最大且大于临界值)进入回归方程。在确定引入的两个自变量以后,再引入一个变量,建立m-2个三元线性回归方程,计算它们的F检验值,选择偏回归平方和显著的三个变量(F值最大)进入回归方程。不断重复这一过程,直到无法再引入新的自变量时,即所有未被引入的自变量的F检验值均小于F检验临界值Fα(1,n-p-1),回归过程结束。 5.5 试述后退法的思想方法。

答:后退法的基本思想是:首先因变量Y对全部的自变量x1,x2,...,xm建立一个m元线性回归方程, 并计算t检验值和F检验值,选择最不显著(P值最大且大于临界值)的偏回归系数的自变量剔除出回归方程。每一步只剔除一个变量,再建立m-1元线性回归方程,计算t检验值和F检验值,剔除偏回归系数的t

. 学习参考 .

.. .. .. ..

检验值最小(P值最大)的自变量,再建立新的回归方程。不断重复这一过程,直到无法剔除自变量时,即所有剩余p个自变量的F检验值均大于F检验临界值Fα(1,n-p-1),回归过程结束。 5.6前进法、后退法各有哪些优缺点?

答:前进法的优点是能够将对因变量有影响的自变量按显著性一一选入,计算量小。前进法的缺点是不能反映引进新变量后的变化,而且选入的变量就算不显著也不能删除。后退法的优点是是能够将对因变量没有显著影响的自变量按不显著性一一剔除,保留的自变量都是显著的。后退法的缺点是开始计算量大,当减少一个自变量时,它再也没机会进入了。如果碰到自变量间有相关关系时,前进法和后退法所作的回归方程均会出现不同程度的问题。 5.7 试述逐步回归法的思想方法。

答:逐步回归的基本思想是有进有出。具体做法是将变量一个一个的引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入变量由于后面变量的应纳入而变得不再显著时,要将其剔除。引入一个变量或从回归防方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中只包含显著的变量。这个过程反复进行,直到无显著变量引入回归方程,也无不显著变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷,保证了最后得到的回归子集是最优回归子集。 5.8 在运用逐步回归法时,α进和α出的赋值原则是什么?如果希望回归方程中多保留一些自变量,α进应如何赋值?

. 学习参考 .

.. .. .. ..

答:原则是要求引入自变量的显著水平α进小于剔除自变量的显著性水平α出,否则可能出现死循环;若想回归方程多保留自变量,可以增大α进的值,使得更多自变量的P值在α进的范围内,但要注意,α进的值不得超过α出的值。

5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),

x5为社会消费总额(亿元),x6为受灾面积(万公顷)。据《中国统计年鉴》

获得1978—1998年共21个年份的统计数据,见表5.4(P167)。由定性分析知,所有自变量都与y有较强的相关性,分别用后退法和逐步回归法作自变量选元。

解:后退法SPSS输出结果:

. 学习参考 .

.. .. .. ..

aCoefficientsModel1234(Constant)x1x2x3x4x5x6(Constant)x1x2x3x5x6(Constant)x1x2x5x6(Constant)x1x2x5UnstandardizedCoefficientsBStd. Error1627.5782201.935-.604.163-.379.202-.199.539-.005.024.681.126-.006.0081133.739307.853-.626.125-.344.128-.223.511.662.092-.007.0071134.615299.949-.617.120-.383.089.662.089-.007.007865.929103.725-.601.119-.361.086.639.086StandardizedCoefficientsBeta-1.064-1.565-.130-.0193.775-.017-1.103-1.422-.1463.670-.019-1.087-1.5823.668-.018-1.059-1.4933.541t.739-3.708-1.872-.368-.2275.394-.8013.683-4.998-2.695-.4357.219-.9843.783-5.128-4.3107.405-.9558.348-5.057-4.2167.439Sig..472.002.082.718.824.000.436.002.000.017.669.000.341.002.000.001.000.354.000.000.001.000a. Dependent Variable: y 逐步回归法

aCoefficientsModel123(Constant)x5(Constant)x5x1(Constant)x5x1x2UnstandardizedCoefficientsBStd. Error715.30990.574.179.0041010.840136.027.308.048-.405.152865.929103.725.639.086-.601.119-.361.086StandardizedCoefficientsBeta.9941.706-.7143.541-1.059-1.493t7.89840.7397.4316.367-2.6658.3487.439-5.057-4.216Sig..000.000.000.000.016.000.000.000.001a. Dependent Variable: y 二者结果相同,回归方程为:

. 学习参考 .

.. .. .. ..

y=865.929—0.601x1-0.361x2+0.639x5

但是回归系数的解释不合理。

5.10 表5.5的数据是1968-1983年期间与电话线制造有关的数据,

各变量的含义如下:

x1——年份;

x2——国民生产总值(10亿美元); x3——新房动工数(单位:1000); x4——失业率(%);

x5——滞后6个月的最惠利率; x6——用户用线增量(%); y——年电话销量(百万尺双线)。

(1)建立y对x2~x6的线性回归方程。SPSS输出结果如下:

回归方程为:y=5922.827+4.864x2+2.374x3-817.901x4+14.539x5-846.867x6

其中x2、 x5的系数未通过检验。

(2)用后退法选择自变量。

. 学习参考 .

.. .. .. ..

后退法剔除P值最大的剔除x5,模型的参数均通过显著性检验。(显著性水平α=0.05),得回归方程为:

y=6007.320+5.068x2+2.308x3-824.261x4-862.699x6

模型表明年电话销量(y)与国民生产总值、新房动工数、失业率、用户用线增量有显著的线性关系。

(3)用逐步回归法选择自变量

逐步回归法引入x3,x5,x4进入回归模型,没有剔除变量,保留x3,x5,x4作为最终模型。回归方程为:

. 学习参考 .

.. .. .. ..

y=1412.807+3.440x3—415.136x4+348.729x5

模型表明年电话销量(y)与新房动工费、失业率、滞后6个月的最惠利率 有显著的线性关系。

(4)根据以上计算结果分析后退法和逐步回归法的差异

答:两个方法得到的最终模型是不同的,后退法首先剔除了x5,而逐步回归法在第二步引入了x5,说明两种方法对自变量选取的方法是不同的,这与自变量之间的相关性有关。相比之下,后退法首先做全模型的回归,每个自变量都有机会展示自己的作用,所得结果更值得信服。从本例看,x5是滞后6个月的最惠利率,对因变量的影响似乎不大。

第6章 多重共线性的情形及其处理

思考与练习参考答案

6.1 试举一个产生多重共线性的经济实例。

答: 例如有人建立某地区粮食产量回归模型,以粮食产量为因变量Y,化肥用量为X1,水浇地面积为X2,农业投入资金为X3。由于农业投入资金X3与化肥用量X1,水浇地面积X2有很强的相关性,所以回归方程效果会很差。再例如根据某行业企业数据资料拟合此行业的生产函数时,资本投入、劳动力投入、资金投入与能源供应都与企业的生产规模有关,往往出现高度相关情况,大企业二者都大,小企业都小。

6.2多重共线性对回归参数的估计有何影响? 答:1、完全共线性下参数估计量不存在;

. 学习参考 .

.. .. .. ..

2、近似共线性下OLS估计量非有效; 3、参数估计量经济含义不合理; 4、变量的显著性检验失去意义; 5、模型的预测功能失效。

6.3 具有严重多重共线性的回归方程能不能用来做经济预测?

答:虽然参数估计值方差的变大容易使区间预测的“区间”变大,使预测失去意义。但如果利用模型去做经济预测,只要保证自变量的相关类型在未来期中一直保持不变,即使回归模型中包含严重多重共线性的变量,也可以得到较好预测结果;否则会对经济预测产生严重的影响。

6.4多重共线性的产生于样本容量的个数n、自变量的个数p有无关系? 答:有关系,增加样本容量不能消除模型中的多重共线性,但能适当消除多重共线性造成的后果。当自变量的个数p较大时,一般多重共线性容易发生,所以自变量应选择少而精。

6.5 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造设计矩阵X才可能避免多重共线性的出现?

答:请参考第三次上机实验题——机场吞吐量的多元线性回归模型,注意利用二手数据很难避免多重共线性的出现,所以一般利用逐步回归和主成分回归消除多重共线性。如果进行自己进行试验设计如正交试验设计,并收集数据,选择向量使设计矩阵X的列向量(即X1,X2, Xp)不相关。

. 学习参考 .

.. .. .. ..

6.6对第5章习题9财政收入的数据分析多重共线性,并根据多重共线性剔除变量。将所得结果与逐步回归法所得的选元结果相比较。

附5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),

x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。由定性分析知,所有自变量都与y有较强的相关性,分别用后退法和逐步回归法作自变量选元。

解:逐步回归法

aCoefficientsModel123(Constant)x5(Constant)x5x1(Constant)x5x1x2UnstandardizedCoefficientsBStd. Error715.30990.574.179.0041010.840136.027.308.048-.405.152865.929103.725.639.086-.601.119-.361.086StandardizedCoefficientsBeta.9941.706-.7143.541-1.059-1.493t7.89840.7397.4316.367-2.6658.3487.439-5.057-4.216Sig..000.000.000.000.016.000.000.000.001a. Dependent Variable: y 回归方程为:

y=865.929—0.601x1-0.361x2+0.639x5

但是回归系数的解释不合理。

. 学习参考 .

.. .. .. ..

解:(1)分析数据的多重共线性。直接进行Y与四个变量的线性回归方程,并做多重共线性的诊断,由SPSS分析得相应输出结果如下: a方差扩大因子法,

由表1中VIF值, 可知x1,x2,x3,x5的方差扩大因子远大于10,这几个自变量之间存在很高的线性相关性,即回归方程存在严重的多重共线性。 b.特征根和条件数判定法。输出结果如表2:

表1

表2

. 学习参考 .

.. .. .. ..

其中最大的条件数k7=290.443,说明自变量间存在严重的多重共线性,这与方差扩大因子法的结果一致。其中x0,x2,x4,x5在第五行同时较大,表明其间存在多重共线性。 (2)消除多重共线性。

下面根据多重共线性剔除变量。先剔除VIF值最大的自变量x2,得:

aCoefficientsModel1(Constant)x1x3x4x5x6UnstandardizedCoefficientsBStd. Error-1503.1751546.931-.717.163-.801.467.029.017.487.078-.010.008StandardizedCoefficientsBeta-1.264-.526.1022.701-.026t-.972-4.391-1.7131.6956.238-1.177Sig..347.001.107.111.000.258Collinearity StatisticsToleranceVIF.004.003.085.002.616268.990305.76911.701609.0671.624a. Dependent Variable: y 从上表可以看出,VIF的值中,除了x6以外,其余的均大于10,故回归方程依然存在严重的多重共线性。继续剔除VIF值最大的自变量x5,得:

aCoefficientsModel1(Constant)x1x3x4x6UnstandardizedCoefficientsBStd. Error-3011.2042804.617-.075.2331.515.521.040.031.002.015StandardizedCoefficientsBeta-.131.995.141.007t-1.074-.3212.9091.286.167Sig..299.753.010.217.869Collinearity StatisticsToleranceVIF.006.009.086.652161.988112.77711.5731.533a. Dependent Variable: y 从上表可以看出,VIF的值中,除了x6以外,其余的均大于10,故回归方程还存在严重的多重共线性。继续剔除VIF值最大的自变量x1,得:

. 学习参考 .

.. .. .. ..

aCoefficientsModel1(Constant)x3x4x6UnstandardizedCoefficientsBStd. Error-2349.3381848.3401.351.096.032.019.003.014StandardizedCoefficientsBeta.887.113.009t-1.27114.1191.705.234Sig..221.000.106.818Collinearity StatisticsToleranceVIF.249.222.6734.0184.5091.485a. Dependent Variable: y 由上表可以看出,所有自变量的VIF值都小于10,故回归方程的多重共线性已经被消除。但自变量x6没有通过T检验,说明不显著,剔除x6后再做回归分析得:

aCoefficientsModel1(Constant)x3x4UnstandardizedCoefficientsBStd. Error-2358.8091798.7221.351.093.034.017StandardizedCoefficientsBeta.887.119t-1.31114.5051.939Sig..206.000.068Collinearity StatisticsToleranceVIF.249.2494.0184.018a. Dependent Variable: y 从上表可以看出,得到的回归方程为

ˆ1.351x30.034x42358.809 y回归方程的多重共线性虽然被消除,但是模型的自变量x4的t检验P值为0.068>0.05,说明在95%的置信度下x4对y的线性影响不显著。 模型只剩下x3,

aCoefficientsModel1(Constant)x3UnstandardizedCoefficientsBStd. Error1123.404112.0171.508.050StandardizedCoefficientsBeta.990t10.02930.316Sig..000.000a. Dependent Variable: y (3)所得结果与逐步回归结果比较。

对逐步回归选出的三个自变量做多重共线性的分析,得到:

. 学习参考 .

.. .. .. ..

aCoefficientsModel1(Constant)x1x2x5UnstandardizedCoefficientsBStd. Error865.929103.725-.601.119-.361.086.639.086StandardizedCoefficientsBeta-1.059-1.4933.541t8.348-5.057-4.2167.439Sig..000.000.001.000Collinearity StatisticsToleranceVIF.005.002.001188.019537.151971.012a. Dependent Variable: y 从上表可以看出,尽管用逐步回归的方法选出的自变量为x1,x2,x5,但是回归方程还是存在多重共线性。

但是根据多重共线性剔除变量后,模型只剩下x3,损失了很多信息,得到的模型 国家财政收入只与x3建筑业增加值有关,显然不符合建模的初衷。 (4)主成分回归法

标准化所有自变量,做主成分分析得输出结果如下:

由上表,第一个主成分包含有原始6个变量近85.546%的信息量,故只选此一个主成分。

Component Matrix(a)

主成分

Component1

. 学习参考 .

.. .. .. ..

Zscore(x1) Zscore(x2) Zscore(x3) Zscore(x4) Zscore(x5) Zscore(x6)

.991 .985 .983 .929 .990 .610

由上表得第一个主成分表达式为:

Z1=(0.991x1*+0.983x3*+0.929x4*+0.990x5*+0.610x6*+0.985x5*)/5.133,即:

Z10.193064x1*0.191896x2*0.191506x3*0.180986x4*0.192870x5*0.118839x6*作Y*与Z1的最小二乘估计,输出结果如下:

a,bCoefficientsModel1UnstandardizedCoefficientsBStd. ErrorREGR factor score1 for analysis 1.984.040StandardizedCoefficientsBeta.984t24.325Sig..000a. Dependent Variable: Zscore(y)b. Linear Regression through the Origin 得主成分回归的回归方程为:

Y*0.9840.193064x1*0.191896x2*0.191506x3*0.180986x4*0.192870x5*0.118839x6* x1 x2 x3 x4 x5 x6

N 21 21 21 21 21 21 Minimum 1018.40 1607.00 138.20 96259.00 2239.10 31890.00 Maximum 14599.60 33429.80 5262.00 124810.00 46405.90 55470.00 Mean 5473.9000 10351.7619 1510.2619 110744.0476 14964.0429 45293.5238 Std. Deviation 4597.02194 10778.83808 1712.26984 9211.51254 14452.56642 6967.40751 . 学习参考 .

.. .. .. ..

y 21 1132.30 9876.00 3400.4429 2608.15723

根据标准化的均值和标准差还原变量后最终方程为:

y= -6175.44+0.1078x1+0.0457x2+0.2870x3+0.0504x4+0.0342x5+0.0438x6

第7章 岭回归

思考与练习参考答案

7.1 岭回归估计是在什么情况下提出的?

答:当自变量间存在复共线性时,|X’X|≈0,回归系数估计的方差就很大, 估计值就很不稳定,为解决多重共线性,并使回归得到合理的结果,70年代提出了岭回归(Ridge Regression,简记为RR)。

7.2岭回归的定义及统计思想是什么?

答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其统计思想是对于(X’X)-1为奇异时,给X’X加上一个正常数矩阵D, 那么X’X+D接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。

7.3 选择岭参数k有哪几种方法?

答:最优k是依赖于未知参数和2的,几种常见的选择方法是:

. 学习参考 .

.. .. .. ..

1岭迹法:选择k0的点能使各岭估计基本稳定,岭估计符号合理,回归 ○

系数没有不合乎经济意义的绝对值,且残差平方和增大不太多; 2方差扩大因子法:c(k)(XXkI)1XX(XXkI)1,其对角线元○

cjj(k)是岭估计的方差扩大因子。要让cjj(k)10;

3残差平方和:满足SSE(k)cSSE成立的最大的k值。 ○

7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是:

1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这

样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;

2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随

着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;

3. 去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不

稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。

7.5 对第5章习题9的数据,逐步回归的结果只保留了三个变量x1,x2,x5,用y对这三个自变量作岭回归分析?

. 学习参考 .

.. .. .. ..

答: 附5.9 在研究国家财政收入时,我们把财政收入按收入形式分为:各项税收收入、企业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y(亿元)为因变量,自变量如下:x1为农业增加值(亿元),x2为工业增加值(亿元),x3为建筑业增加值(亿元),x4为人口数(万人),x5为社会消费总额(亿元),x6为受灾面积(万公顷)。据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,见表5.4(P167)。 解:(1)逐步回归法

aCoefficientsModel123(Constant)x5(Constant)x5x1(Constant)x5x1x2UnstandardizedCoefficientsBStd. Error715.30990.574.179.0041010.840136.027.308.048-.405.152865.929103.725.639.086-.601.119-.361.086StandardizedCoefficientsBeta.9941.706-.7143.541-1.059-1.493t7.89840.7397.4316.367-2.6658.3487.439-5.057-4.216Sig..000.000.000.000.016.000.000.000.001a. Dependent Variable: y 回归方程为:

y=865.929—0.601x1-0.361x2+0.639x5

但是回归系数的解释不合理。

从经济意义上讲,x1(农业增加值)、x2(工业增加值)的增加应该对y(财政收入)有正方向的影响,然而回归方程中两个自变量的系数均为负值,明显与实际的经济意义不相符。同时,三个自变量的VIF值均远大于10,说明回归方程

. 学习参考 .

.. .. .. ..

仍然存在较强的多重共线性,逐步回归的方法并没有消除自变量之间的多重共线性。

(2)岭回归法:

依题意,对逐步回归法所保留的三个自变量做岭回归分析。 程序为:

include'C:\\Program Files\\SPSSEVAL\\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /start=0.0/stop=1/inc=0.01. 岭迹图如下: RIDGE TRACE4.0000003.0000002.0000001.0000000.000000-1.000000-2.0000000.000000.200000.400000.600000.800001.000001.20000K计算结果为: . 学习参考 .

x1Kx2Kx5Kx1Kx2Kx5K .. .. .. ..

可以看到,变量x1、x2迅速由负变正,x5迅速减小,在0.01-0.1之间各回归系数的岭估计基本稳定,重新做岭回归。岭迹图如下:

先取k=0.08: 语法命令如下:

include'C:\\Program Files\\SPSSEVAL\\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /k=0.08.

运行结果如下:

. 学习参考 .

.. .. .. ..

得到回归方程为:

ˆ0.16x10.08x20.06x3738.84 y

再取k=0.01: 语法命令如下:

include'C:\\Program Files\\SPSSEVAL\\Ridge regression.sps'. ridgereg dep=y/enter x1 x2 x5 /k=0.01.

运行结果:

****** Ridge Regression with k = 0.01 ****** Mult R .9931857 RSquare .9864179

. 学习参考 .

.. .. .. ..

Adj RSqu .9840210 SE 329.6916494

ANOVA table

df SS MS Regress 3.000 134201841 44733947 Residual 17.000 1847841.9 108696.58 F value Sig F 411.5487845 .0000000

--------------Variables in the Equation---------------- B SE(B) Beta B/SE(B) x1 .0556780 .0615651 .0981355 .9043751 x2 .0796395 .0218437 .3291293 3.6458814 x5 .1014400 .0108941 .5621088 9.3114792 Constant 753.3058478 121.7381256 .0000000 6.1879205

回归方程为: y=753.3058—0.05568x1-0.0796x2+0.1014x5

从上表可看出,方程通过F检验,R检验,经查表,所有自变量均通过t检验,说明回归方程通过检验。

从经济意义上讲,x1(农业增加值)、x2(工业增加值)x5(社会消费总额)的增加应该对y(财政收入)有正方向的影响,岭回归方程中三个自变量的系数均为正值,与实际的经济意义相符。比逐步回归法得到的方程有合理解释。 (3)主成分回归

. 学习参考 .

.. .. .. ..

对原所有自变量做主成分回归,结果如下:

Total Variance ExplainedInitial Eigenvalues% of VarianceCumulative %85.54685.54611.56397.1092.80699.915.06099.975.02199.996.004100.000Extraction Sums of Squared LoadingsTotal% of VarianceCumulative %5.13385.54685.546.69411.56397.109.1682.80699.915.004.06099.975.001.02199.996Component123456Total5.133.694.168.004.001.000Extraction Method: Principal Component Analysis. aComponent Matrixx1x2x3x4x5x61.991.985.983.929.990.6102-.124-.134-.143.038-.123.790Component3.017.106.112-.367.067.0694-.048.003.035.009.001-.0015.014-.012.021.000-.022.000Extraction Method: Principal Component Analysis.a. 5 components extracted. 由于第一主成分的贡献率已达到85%以上,故只选取第一主成分,记作Z1: Z1=(0.991x1+0.985x2+0.983x3+0.929x4+0.193x5+0.610x6)/5.1331/2, 作Y与Z1的最小二乘估计,输出结果如下:

aCoefficientsModel1(Constant)Z1UnstandardizedCoefficientsBStd. Error3400.443136.4361149.09463.348StandardizedCoefficientsBeta.972t24.92318.139Sig..000.000a. Dependent Variable: y 根据上表得到y与第一主成分的线性回归方程为:

ˆ=3400.443+1149.094Z1, y . 学习参考 .

.. .. .. ..

将主成分回代为原自变量得最终方程为:

ˆ=0.1093 * x1+0.0463 * x2+0.2912 * x3+0.0512 * x4+0.0347 * yx5+0.0444 * x6-6313.397 各自变量的解释意义基本合理。

7.6 对习题3.12的问题,分别用普通最小二乘法和岭回归建立GDP对第二产业增加值x2和第三产业增加值x3的二元线性回归,解释所得到的回归系数。 解:(1)普通最小二乘法:

aCoefficientsModel1(Constant)第二产业增加值第三产业增加值UnstandardizedCoefficientsBStd. Error4352.859679.0651.438.151.679.244StandardizedCoefficientsBeta.775.226t6.4109.5442.784Sig..000.000.017a. Dependent Variable: GDP 根据上表得到y与x2,x3的线性回归方程为:

ˆ=4352.859+1.438x2+0.679x3 yˆ的数值应该大于1,实际上,x3的年上式中的回归系数得不到合理的解释. 3ˆ的数值应大于1。这个问增长幅度大于x1和x2的年增长幅度,因此合理的3题产生的原因仍然是存在共线性, 所以采用岭回归来改进这个问题。

(2)岭回归法:

程序为:

. 学习参考 .

.. .. .. ..

include'C:\\Program Files\\SPSSEVAL\\Ridge regression.sps'. ridgereg dep=GDP/enter x2 x3 /start=0.0/stop=0.5/inc=0.01.

ˆ(k)和ˆ(k)很不稳定,但其和大体上稳定,根据岭迹图(如下图)可知,23说明x2和x3存在多重共线性。取k=0.1,SPSS输出结果为:

Mult R .998145, RSquare .996294 Adj RSqu .995677,SE 2364.837767

ANOVA table

df SS MS Regress 2.000 1.80E+010 9.02E+009 Residual 12.000 67109492 5592457.7 F value Sig F 1613.140715 .000000

--------------Variables in the Equation---------------- B SE(B) Beta B/SE(B) x2 .907990 .021842 .489067 41.571133 x3 1.393800 .035366 .463649 39.410560 Constant 6552.305986 1278.903452 .000000 5.123378

. 学习参考 .

.. .. .. ..

RIDGE TRACE0.800000x2Kx3K0.7000000.6000000.5000000.4000000.3000000.2000000.000000.100000.200000.300000.400000.500000.60000Kˆ= 6552.306+0.908 x2+1.3938 得岭参数k=0.1时,岭回归方程为 yx3, ˆ=1.227与前面的分析是吻合的,其解释是当第二产业增加岭回归系数3值x2保持不变时,第三产业增加值 x3每增加1亿元GDP增加1.227亿元,这个解释是合理的。

. 学习参考 .

.. .. .. ..

7.7一家大型商业银行有多家分行,近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做定量分析,以便找出控制不良贷款的方法。表7.5(P206)是该银行所属25家分行2002年的有关业务数据。 (1)计算y与其余4个变量的简单相关系数。

(2)建立不良贷款y对4个自变量的线性回归方程,所得的回归系数是否合理?

(3)分析回归模型的共线性。

(4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性?

(5)建立不良贷款y对4个变量的岭回归。 (6)对(4)剔除变量后的回归方程再做岭回归。

(7)某研究人员希望做y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归,你认为这样做可行吗?如果可行应怎么做?

. 学习参考 .

.. .. .. ..

解:首先对数据标准化。

(1)计算y与其余4个变量的简单相关系数。

. 学习参考 .

.. .. .. ..

计算y与各自变量之间的简单相关系数,SPSS输出结果为:

CorrelationsZscore: 本Zscore: 本Zscore: 不Zscore: 各项年累计应Zscore: 贷款年固定资良贷款贷款余额收贷款项目个数产投资额1.844**.732**.700**.519**.000.000.000.0082525252525.844**1.679**.848**.780**.000.000.000.0002525252525.732**.679**1.586**.472*.000.000.002.01725.700**.00025.519**.0082525.848**.00025.780**.0002525.586**.00225.472*.0172525125.747**.0002525.747**.00025125Zscore: 不良贷款Pearson CorrelationSig. (2-tailed)NZscore: 各项贷款余额Pearson CorrelationSig. (2-tailed)NZscore: 本年累计应收Pearson Correlation贷款Sig. (2-tailed)NZscore: 贷款项目个数Pearson CorrelationSig. (2-tailed)NZscore: 本年固定资产Pearson Correlation投资额Sig. (2-tailed)N**. Correlation is significant at the 0.01 level (2-tailed).*. Correlation is significant at the 0.05 level (2-tailed). 由结果得到,Y与四个自变量的相关系数分别为:0.844, 0.732, 0.7, 0.519,且都通过了显著性检验,说明y与其余4个变量是显著线性相关的。同时也可以看出变量之间也存在一定的线性相关性。

(2)建立不良贷款对4个自变量的线性回归方程,所得的回归系数是否合理?

aCoefficientsModel1(Constant)各项贷款余额x1本年累计应收贷款x2贷款项目个数x3本年固定资产投资额x4UnstandardizedCoefficientsBStd. Error-1.022.782.040.010.148.079.015.083-.029.015StandardizedCoefficientsBeta.891.260.034-.325t-1.3063.8371.879.175-1.937Sig..206.001.075.863.067Collinearity StatisticsToleranceVIF.188.529.261.3605.3311.8903.8352.781a. Dependent Variable: 不良贷款y 由SPSS输出(如上表)可知回归方程为:

ˆ=0.04x1+0.148x2+0.015x3-0.029x4-1.022 y . 学习参考 .

.. .. .. ..

从上表可看出,方程的自变量X3、X4、X5未通过t检验,说明回归方程不显著,而且由实际意义出发,x4的系数不能是负的。所以所得的回归系数不合理。

. 学习参考 .

.. .. .. ..

(3)分析回归模型的共线性。

解:由上表可知,所有自变量对应的VIF全部小于10,所以自变量之间不存在共线性。但进行特征根检验见下表:aCollinearity DiagnosticsModel1Dimension12345Eigenvalue4.538.203.157.066.036ConditionIndex1.0004.7335.3788.28711.215(Constant).01.68.16.00.15Variance Proportionsx2(本年x1(各项贷累计应收x3(贷款项款余额)贷款)目个数).00.01.00.03.02.01.00.66.01.09.20.36.87.12.63x4(本年固定资产投资额).00.09.13.72.05a. Dependent Variable: y(不良贷款) 由这个表可以看出来,第5行中x1、x3的系数分别为0.87、0.63,可以说明这两个变量之间有共线性。

(4)采用后退法和逐步回归法选择变量,所得的回归系数是否合理?是否还存在共线性? 解:

ˆ=0.041x1+0.149x2-0.029x4-0.972 采用后退法(见下表),所得回归方程为yaCoefficientsModel12(Constant)各项贷款余额x1本年累计应收贷款x2贷款项目个数x3本年固定资产投资额x4(Constant)各项贷款余额x1本年累计应收贷款x2本年固定资产投资额x4UnstandardizedCoefficientsBStd. Error-1.022.782.040.010.148.079.015.083-.029.015-.972.711.041.009.149.077-.029.014StandardizedCoefficientsBeta.891.260.034-.325.914.261-.317t-1.3063.8371.879.175-1.937-1.3664.8141.938-2.006Sig..206.001.075.863.067.186.000.066.058Collinearity StatisticsToleranceVIF.188.529.261.360.268.531.3865.3311.8903.8352.7813.7311.8832.590a. Dependent Variable: 不良贷款y ˆ=0.05x1-0.032x4-0.443 采用逐步回归法(见下表),所得回归方程为y . 学习参考 .

.. .. .. ..

aCoefficientsModel12(Constant)各项贷款余额x1(Constant)各项贷款余额x1本年固定资产投资额x4UnstandardizedCoefficientsBStd. Error-.830.723.038.005-.443.697.050.007-.032.015StandardizedCoefficientsBeta.8441.120-.355t-1.1477.534-.6366.732-2.133Sig..263.000.531.000.044Collinearity StatisticsToleranceVIF1.000.392.3921.0002.5512.551a. Dependent Variable: 不良贷款y 所得X4的系数不合理(为负),说明存在共线性

(5)建立不良贷款y对4个变量的岭回归。

对y与全部变量做岭回归。

R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ X1 X2 X3 X4 ______ ______ ________ ________ ________ ________ .00000 .79760 .891313 .259817 .034471 -.324924 .05000 .79088 .713636 .286611 .096624 -.233765 .10000 .78005 .609886 .295901 .126776 -.174056 .15000 .76940 .541193 .297596 .143378 -.131389 .20000 .75958 .491935 .295607 .153193 -.099233 .25000 .75062 .454603 .291740 .159210 -.074110 .30000 .74237 .425131 .286912 .162925 -.053962 .35000 .73472 .401123 .281619 .165160 -.037482 .40000 .72755 .381077 .276141 .166401 -.023792 .45000 .72077 .364000 .270641 .166949 -.012279 .50000 .71433 .349209 .265211 .167001 -.002497 .55000 .70816 .336222 .259906 .166692 .005882

. 学习参考 .

.. .. .. ..

.60000 .70223 .324683 .254757 .166113 .013112 .65000 .69649 .314330 .249777 .165331 .019387 .70000 .69093 .304959 .244973 .164397 .024860 .75000 .68552 .296414 .240345 .163346 .029654 .80000 .68024 .288571 .235891 .162207 .033870 .85000 .67508 .281331 .231605 .161000 .037587 .90000 .67003 .274614 .227480 .159743 .040874 .95000 .66508 .268353 .223510 .158448 .043787 1.0000 .66022 .262494 .219687 .157127 .046373

由软件输出的岭迹图可以看出,变量x4的岭回归系数从负值变为正值。其他的变量都很稳定。说明x4变量与其他变量存在多重共线性,所以剔除变量x4

再用y与剩下的变量作岭回归。所得结果如下:

. 学习参考 .

.. .. .. ..

R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K

K RSQ X1 X2 X3 ______ ______ ________ ________ ________

.00000 .75964 .698331 .295891 -.065536 .02000 .75899 .647736 .300306 -.024703 .04000 .75755 .607949 .302710 .006875 .06000 .75574 .575733 .303774 .031943 .08000 .75377 .549026 .303916 .052255 .10000 .75175 .526452 .303409 .068986 .12000 .74972 .507060 .302439 .082951 .14000 .74771 .490172 .301133 .094736 .16000 .74571 .475288 .299581 .104772 .18000 .74375 .462036 .297852 .113383 .20000 .74181 .450130 .295992 .120819

剔除x4之后岭回归系数变化幅度减小很多,并且有下面的图可以看出k值,基本稳定。

. 学习参考 .

.. .. .. ..

RIDGE TRACEx10.600000Kx2K0.400000x3K0.2000000.0000000.000000.050000.100000.150000.20000K 参照复决定系数,当k=0.4时,=0. 75755仍然很大,

所以可以给定k=0.4,重新作岭回归。

Run MATRIX procedure:

****** Ridge Regression with k = 0.4 ***** Mult R .850373821 RSquare .723135635 Adj RSqu .683583583 SE 2.030268037 ANOVA table

df SS MS Regress 3.000 226.089 75.363 Residual 21.000 86.562 4.122 F value Sig F 18.28313822 .00000456

. 学习参考 .

.. .. .. ..

--------------Variables in the Equation---------------- B SE(B) Beta B/SE(B)

x1 .016739073 .003359156 .372627316 4.983118685 x2 .156806656 .047550034 .275213878 3.297719120 x3 .067110931 .032703990 .159221005 2.052071673 Constant -.819486727 .754456246 .000000000 -1.086195166 ------ END MATRIX ------

故作岭回归后的方程为

y=-0.819486727+0.016739073x1+0.156806656x2+0.067110931x3

(6) 对(4)剔除变量后的回归方程再做岭回归。

取k=0.4,作与x1、x4的岭回归

Run MATRIX procedure:

****** Ridge Regression with k = 0.4 ****** Mult R .802353780 RSquare .643771588 Adj RSqu .611387187 SE 2.249999551 ANOVA table

df SS MS Regress 2.000 201.275 100.638 Residual 22.000 111.375 5.062 F value Sig F 19.87906417 .00001172

--------------Variables in the Equation----------------

. 学习参考 .

.. .. .. ..

B SE(B) Beta B/SE(B)

x1 .025805860 .003933689 .574462395 6.560218798 x4 .004531316 .007867533 .050434658 .575951348 Constant .357087614 .741566536 .000000000 .481531456 ------ END MATRIX -----

可得岭回归方程为

y=0.357087614+0 .025805860x1+0.004531316x4 从实际意义来看,各个系数都能有合理解释。

(7)某研究人员希望做,你认为这样做可行吗?如果可行应怎么做? y对各项贷款余额、本年累计应收贷款、贷款项目个数这3个自变量的回归方程见(5)。方程中系数均能合理解释。由B/SE(B)这个近似t值可以

看出变量都是比较显著的。

所以作y对x1、x2、x3的岭回归是可行的。

. 学习参考 .

.. .. .. ..

主成分回归法:见做主成分分析下表,取前两个主成分,记为z1,z2,

Total Variance ExplainedInitial Eigenvalues% of VarianceCumulative %76.82276.82213.83890.6606.03496.6943.306100.000Extraction Sums of Squared LoadingsTotal% of VarianceCumulative %3.07376.82276.822.55413.83890.660.2416.03496.694.1323.306100.000Component1234Total3.073.554.241.132Extraction Method: Principal Component Analysis. aComponent MatrixComponentZscore(各项贷款余额x1)Zscore(本年累计应收贷款x2)Zscore(贷款项目个数x3)Zscore(本年固定资产投资额x4)1.950.767.916.8622-.029.627-.143-.3733-.082.120-.329.3344-.299.072.178.076Undefined error #11401 - Cannot open text file \"D:\\ProgramFiles\\SPSSEVAL\\en\\windows\\spss.err\": No sa. 4 components extracted. 其中:z1=(0.95x1+0.767x2+0.916x3+0.862x4)/3.073 Z2=(-0.029x1+0.627x2-0.143x3-0.373x4 )/0.554 建立y与Z1,Z2的回归方程

第8章 非线性回归

思考与练习参考答案

8.1 在非线性回归线性化时,对因变量作变换应注意什么问题?

答:在对非线性回归模型线性化时,对因变量作变换时不仅要注意回归函数的形式, 还要注意误差项的形式。如:

. 学习参考 .

.. .. .. ..

yAKLe, (1) 乘性误差项,模型形式为

yAKL(2) 加性误差项,模型形式为

对乘法误差项模型(1)可通过两边取对数转化成线性模型,(2)不能线性化。

一般总是假定非线性模型误差项的形式就是能够使回归模型线性化的形式,为了方便通常省去误差项,仅考虑回归函数的形式。

8.2为了研究生产率与废料率之间的关系,记录了如表8.15所示的数据,请画出散点图,根据散点图的趋势拟合适当的回归模型。 表8.15

生产率x(单位/周) 1000 2000 3000 3500 4000 4500 5000 废品率y(%) 5.2 6.5 6.8 8.1 10.2 10.3 13.0 解:先画出散点图如下图:

12.0010.00y8.006.001000.002000.003000.004000.005000.00x . 学习参考 .

.. .. .. ..

从散点图大致可以判断出x和y之间呈抛物线或指数曲线,由此采用二次方程式和指数函数进行曲线回归。 (1)二次曲线 SPSS输出结果如下:

Model SummaryR.981R Square.962AdjustedR Square.942Std. Error ofthe Estimate.651The independent variable is x. ANOVARegressionResidualTotalSum ofSquares42.5711.69744.269df246Mean Square21.286.424F50.160Sig..001The independent variable is x. Coefficientsxx ** 2(Constant)UnstandardizedCoefficientsBStd. Error-.001.0014.47E-007.0005.8431.324StandardizedCoefficientsBeta-.4491.417t-.8912.8124.414Sig..423.048.012 ˆ5.8430.087x4.47107x2 从上表可以得到回归方程为:y由x的系数检验P值大于0.05,得到x的系数未通过显著性检验。 由x2的系数检验P值小于0.05,得到x2的系数通过了显著性检验。 (2)指数曲线

Model SummaryR.970R Square.941AdjustedR Square.929Std. Error ofthe Estimate.085The independent variable is x. . 学习参考 .

.. .. .. ..

ANOVASum ofSquares.573.036.609df156Mean Square.573.007F79.538Sig..000RegressionResidualTotalThe independent variable is x. Coefficientsx(Constant)UnstandardizedCoefficientsBStd. Error.000.0004.003.348StandardizedCoefficientsBeta.970t8.91811.514Sig..000.000The dependent variable is ln(y). ˆ4.003e0.0002t 从上表可以得到回归方程为:y由参数检验P值≈0<0.05,得到回归方程的参数都非常显著。

从R2值,σ的估计值和模型检验统计量F值、t值及拟合图综合考虑,指数拟合效果更好一些。

. 学习参考 .

.. .. .. ..

8.3 已知变量x与y的样本数据如表8.16,画出散点图,试用αeβ/x来拟合回归模型,假设:

(1) 乘性误差项,模型形式为y=αeβ/xeε

(2) 加性误差项,模型形式为y=αeβ/x+ε。 表8.16

序号 1 2 3 4 5 解: 散点图:

x y 序号 6 7 8 9 x y 序号 x y 4.20 0.086 4.06 0.090 3.80 0.100 3.60 0.120 3.20 0.150 11 2.20 0.350 3.00 0.170 12 2.00 0.440 2.80 0.190 13 1.80 0.620 2.60 0.220 14 1.60 0.940 3.40 0.130 10 2.40 0.240 15 1.40 1.620 . 学习参考 .

.. .. .. ..

(1) 乘性误差项,模型形式为y=αeβ/xeε

线性化:lny=lnα+β/x +ε 令y1=lny, a=lnα,x1=1/x . 做y1与x1的线性回归,SPSS输出结果如下:

. 学习参考 .

.. .. .. ..

bModel SummaryModel1R.999aR Square.997AdjustedR Square.997Std. Error ofthe Estimate.04783a. Predictors: (Constant), x1b. Dependent Variable: y1ANOVAbModel1Sum ofSquares10.930.03010.960df11314Mean Square10.930.002F4778.305Sig..000aRegressionResidualTotala. Predictors: (Constant), x1b. Dependent Variable: y1aCoefficientsModel1(Constant)x1UnstandardizedCoefficientsBStd. Error-3.856.0376.080.088StandardizedCoefficientsBeta.999t-103.83069.125Sig..000.000a. Dependent Variable: y1 从以上结果可以得到回归方程为:y1=-3.856+6.08x1

F检验和t检验的P值≈0<0.05,得到回归方程及其参数都非常显著。

回代为原方程为:y=0.021e6.08/x (2)加性误差项,模型形式为y=αeβ/x+ε

不能线性化,直接非线性拟合。给初值α=0.021,β=6.08(线性化结果),NLS结果如下:

Parameter Estimates95% Confidence IntervalLower BoundUpper Bound.020.0235.9656.157ParameterabEstimate.0216.061Std. Error.001.044 . 学习参考 .

.. .. .. ..

ANOVAaSourceRegressionResidualUncorrected TotalCorrected TotalSum ofSquares4.458.0014.4592.467df2131514MeanSquares2.229.000Dependent variable: ya. R squared = 1 - (Residual Sum of Squares) /(Corrected Sum of Squares) = 1.000. 从以上结果可以得到回归方程为: y=0.021e6.061/x

根据R2≈1,参数的区间估计不包括零点且较短,可知回归方程拟合非常好,且其参数都显著。

. 学习参考 .

.. .. .. ..

8.4 Logistic函数常用于拟合某种消费品的拥有率,表8.17(书上239页,此处略)是北京市每百户家庭平均拥有的照相机数,试针对以下两种情况拟合Logistic回归函数。

(1)已知u100,用线性化方法拟合, (2)u未知,用非线性最小二乘法拟合。

解:(1),u100时,的线性拟合。对y11b0b1tu函数线性化得到:

111111ln()1.8510.264ln()lnb0tlnb1,令y3ln(),作y100y100y100y3关于t的线性回归分析,SPSS输出结果如下:

bModel SummaryModel1R.994aR Square.988AdjustedR Square.987Std. Error ofthe Estimate.16820a. Predictors: (Constant), tb. Dependent Variable: y3 ANOVAbModel1RegressionResidualTotalSum ofSquares39.839.48140.320df11718Mean Square39.839.028F1408.165Sig..000aa. Predictors: (Constant), tb. Dependent Variable: y3 aCoefficientsModel1(Constant)tUnstandardizedCoefficientsBStd. Error-1.851.080-.264.007StandardizedCoefficientsBeta-.994t-23.039-37.526Sig..000.000a. Dependent Variable: y3 . 学习参考 .

.. .. .. ..

由表Model Summary得到,R0.994趋于1,回归方程的拟合优度好,由表ANOVA得到回归方程显著,由Coefficients表得到,回归系数都是显著的,得到方程:ln(11)1.8510.264,进一步计y100算得到:b00.157,b10.768(u100)

ˆ回代变量得到最终方程形式为: y1

0.010.1570.768t最后看拟合效果,通过sequence画图:

由图可知回归效果比较令人满意。

(2)非线性最小二乘拟合,取初值u100,b00.157,b10.768: 一共循环迭代8次,得到回归分析结果为:

. 学习参考 .

.. .. .. ..

Parameter Estimates95% Confidence IntervalLower BoundUpper Bound86.74795.377.152.271.701.753ParameterubcEstimate91.062.211.727Std. Error2.035.028.012 ANOVAaSum ofSourceSquaresRegression60774.331Residual85.369Uncorrected Total60859.700Corrected Total15690.386MeandfSquares320258.110165.3361918Dependent variable: ya. R squared = 1 - (Residual Sum of Squares) /(Corrected Sum of Squares) = .995. R0.995>0.994,得到回归效果比线性拟合要好,且:u91.062,

b00.211,b10.727,

回归方程为:y110.211*0.727t91.062。

最后看拟合效果,由sequence画图:

. 学习参考 .

.. .. .. ..

得到回归效果很好,而且较优于线性回归。

. 学习参考 .

.. .. .. ..

8.5表8.18(书上240页,此处略)数据中GDP和投资额K都是用定基居民消费价格指数(CPI)缩减后的,以1978年的价格指数为100。 (1) 用线性化乘性误差项模型拟合C-D生产函数;

(2) 用非线性最小二乘拟合加性误差项模型的C-D生产函数; (3) 对线性化检验自相关,如果存在自相关则用自回归方法改进; (4) 对线性化检验多重共线性,如果存在多重共线性则用岭回归方法改进; (5) 用线性化的乘法误差项模型拟合C-D生产函数;

解:(1)对乘法误差项模型可通过两边取对数转化成线性模型。

lny=lnA+

lnK+

lnL

令y′=lny,β0=lnA,x1=lnK,x2=lnL,则转化为线性回归方程:

y′=β0+

SPSS输出结果如下:

模型综述表

bModel Summary x1+x2+

Model1R.997aR Square.994AdjustedR Square.993Std. Error ofthe Estimate.04836a. Predictors: (Constant), lnL, lnKb. Dependent Variable: lnY 为0.993,说明C-D生产函数拟合

从模型综述表中可以看到,调整后的

效果很好,也说明GDP的增长是一个指数模型。

方差分析表

. 学习参考 .

.. .. .. ..

ANOVAbModel1Sum ofSquares8.446.0518.497df22224Mean Square4.223.002F1805.601Sig..000aRegressionResidualTotala. Predictors: (Constant), lnL, lnKb. Dependent Variable: lnY 从方差分析表中可以看到,F值很大,P值为零,说明模型通过了检验,

这与上述分析结果一致。

系数表

aCoefficientsModel1(Constant)lnKlnLUnstandardizedCoefficientsBStd. Error-1.7851.438.801.056.402.171StandardizedCoefficientsBeta.861.141t-1.24114.3702.354Sig..228.000.028a. Dependent Variable: lnY 根据系数表显示,回归方程为:

尽管模型通过了检验,但是也可以看到,常数项没有通过检验,但在这个模型里,当lnK和lnL都为零时,lnY为-1.785,即当K和L都为1时,GDP为0.168,也就是说当投入资本和劳动力都为1个单位时,GDP将增加0.168个单位,这种解释在我们的承受范围内,可以认为模型可以用。 最终方程结果为:

y=0.618K0.801 L0.404

. 学习参考 .

.. .. .. ..

(2) 用非线性最小二乘法拟合加性误差项模型的C-D生产函数;

上述假设误差是乘性的,现假设误差是加性的情况下使用非线性最小二乘法估计。初值采用(1)中参数的结果,SPSS输出结果如下:

参数估计表

Parameter EstimatesParameterPabEstimate.407.868.270Std. Error.885.066.24395% Confidence IntervalLower BoundUpper Bound-1.4292.243.7311.006-.234.774 SPSS经过多步迭代,最终得到的稳定参数值为P=0.407,a=0.868,b=0.270

y=0.407K0.868 L0.270

为了比较这两个方程,我们观察下面两个图

线性回归估计拟合曲线图

. 学习参考 .

.. .. .. ..

非线性最小二乘估计拟合曲线图

. 学习参考 .

.. .. .. ..

我们知道,乘性误差相当于是异方差的,做了对数变换后,乘性误差转为加性误差,这种情况下认为方差是相等的,那么第一种情况(对数变换线性化)就大大低估了GDP数值大的项,因此,它对GDP前期拟合的很好,而在后期偏差就变大了,同时也会受到自变量之间的自相关和多重共线性的综合影响;非线性最小二乘法完全依赖数据,如果自变量之间存在比较严重的异方差、自相关以及多重共线性,将对拟合结果造成很大的影响。因此,不排除异方差、自相关以及多重共线性的存在。

(3) 对线性化回归模型采用DW检验自相关,结果如下:

模型综述表

bModel SummaryModel1R.997aR Square.994AdjustedR Square.993Std. Error ofthe Estimate.04836Durbin-Watson.715a. Predictors: (Constant), lnL, lnKb. Dependent Variable: lnY DW=0.715<1.27,落在自相关的区间,所以采用迭代法改进

将得到的数据再取对数,而后用普通最小二乘法估计,保留DW值

模型综述表

. 学习参考 .

.. .. .. ..

bModel SummaryModel1R.983aR Square.967AdjustedR Square.964Std. Error ofthe Estimate478.90271Durbin-Watson1.618a. Predictors: (Constant), Ltt, Kttb. Dependent Variable: Ytt 方差分析表

ANOVAbModel1RegressionResidualTotalSum ofSquares7.554.1327.686df22123Mean Square3.777.006F601.286Sig..000aa. Predictors: (Constant), lnLtt, lnKttb. Dependent Variable: lnYtt 系数表

aCoefficientsModel1(Constant)lnKttlnLttUnstandardizedCoefficientsBStd. Error-1.8591.470.755.054.465.180StandardizedCoefficientsBeta.852.156t-1.26514.0982.577Sig..220.000.018a. Dependent Variable: lnYtt 从模型综述表中可以看到,DW=1.618>1.45,认为消除了自相关;方差

分析表中可以看到F值很大,P值为零,说明模型通过了检验。

从系数表可得回归方程:

再迭代回去,最终得方程为:

Lnyt-Lnyt-1=-1.859+0.755(LnKt-LnKt-1) +0.465(LnLt-LnLt-1)

. 学习参考 .

.. .. .. ..

(4) 对线性化回归方程通过VIF检验多重共线性:

方差分析表

ANOVAbModel1Sum ofSquares8.446.0518.497df22224Mean Square4.223.002F1805.601Sig..000aRegressionResidualTotala. Predictors: (Constant), lnL, lnKb. Dependent Variable: lnY

系数表

aCoefficientsModel1(Constant)lnKlnLUnstandardizedCoefficientsBStd. Error-1.7851.438.801.056.402.171StandardizedCoefficientsBeta.861.141t-1.24114.3702.354Sig..228.000.028Collinearity StatisticsToleranceVIF.077.07713.03413.034a. Dependent Variable: lnY

多重共线性诊断表

aCollinearity DiagnosticsModel1Dimension123Eigenvalue2.997.0031.63E-005ConditionIndex1.00030.539429.012Variance Proportions(Constant)lnKlnL.00.00.00.00.09.001.00.911.00a. Dependent Variable: lnY

. 学习参考 .

.. .. .. ..

直观法:从模型综述表上可以看到,F值很大,而t值很小,这是多重共线性造

成的影响;

VIF检验法:从系数表上可以看到,VIF=13>10,也说明多重共线性的存在; 条件数:从诊断表上可以看到,最大的条件数是429,远远大于了100,所以

自变量之间存在较为严重的多重共线性。

利用岭回归改进:

R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K

K RSQ LNK LNL ______ ______ ________ ________

.00000 .99394 .860706 .141014 .05000 .99015 .646381 .330432 .10000 .98639 .577758 .375355 .15000 .98260 .539715 .390822 .20000 .97843 .513383 .395623 .25000 .97379 .492922 .395526 .30000 .96869 .475918 .392882 .35000 .96318 .461184 .388818 .40000 .95730 .448063 .383937

. 学习参考 .

.. .. .. ..

.45000 .95109 .436158 .378587 .50000 .94462 .425211 .372979 .55000 .93791 .415047 .367248 .60000 .93101 .405541 .361481 .65000 .92395 .396598 .355735 .70000 .91677 .388147 .350049

从岭迹图观察,当k=0.2时,变量基本趋于稳定

取k=0.2进行岭回归, SPSS输出结果为:α=0.479,β=1.127

. 学习参考 .

.. .. .. ..

从岭回归给出的结果来看,说明劳动力L较资金K对GDP的影响较大,而我国属于人口大国,就业人数对GDP的贡献不一定有显著的影响,相反,资金对GDP的影响按常理来说是非常显著的,这点普通最小二乘法给出了合理的解释,但是,岭回归在理论上很可信的。总之,影响统计的因素有很多,例如统计员的失误、国家政策等,造成函数系数的不稳定。

第9章 含定性变量的回归模型

思考与练习参考答案

9.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0-1型自变量,用SPSS软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解。出现这种情况的原因是什么? 答:假如这个含有季节定性自变量的回归模型为:

Yt01X1tkXkt1D1t2D2t3D3tt

其中含有k个定量变量,记为xi。对春夏秋冬四个季节引入4个0-1型自变量,记为

Di,只取了6个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则样

本设计矩阵为:

111(X,D)111X11Xk1X12Xk2X13Xk3X14Xk4X15Xk5X16Xk6100001000010000101001000

01βk12α34显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的“虚拟变量陷井”,应避免。

. 学习参考 .

.. .. .. ..

当某自变量xj对其余p-1个自变量的复判定系数Rj超过一定界限时,SPSS软件将拒绝这个自变量xj进入回归模型。称Tolj=1-Rj为自变量xj的容忍度

(Tolerance),SPSS软件的默认容忍度为0.0001。也就是说,当R2>0.9999时,自j变量xj将被自动拒绝在回归方程之外,除非我们修改容忍度的默认值。

而在这个模型中出现了完全共线性,所以SPSS软件计算的结果中总是自动删除了其中的一个定性自变量。

9.2对自变量中含有定性变量的问题,为什么不对同一属性分别建立回归模型,而采取设虚拟变量的方法建立回归模型?

答:原因有两个,以例9.1说明。一是因为模型假设对每类家庭具有相同的斜率和误差方差,把两类家庭放在一起可以对公共斜率做出最佳估计;二是对于其他统计推断,用一个带有虚拟变量的回归模型来进行也会更加准确,这是均方误差的自由度更多。

9.3 研究者想研究采取某项保险革新措施的速度y对保险公司的规模x1和保险公司类型的关系(参见参考文献【3】)。因变量的计量是第一个公司采纳这项革新和给定公司采纳这项革新在时间上先后间隔的月数。第一个自变量公司的规模是数量型的,用公司的总资产额(百万美元)来计量;第二个自变量公司是定性变量,由两种类型构成,即股份公司和互助公司。数据资料见表9.8,试建立y对公司规模和公司类型的回归。 表9.8

i 1

y 17

x1 151

公司类型 互助

22 . 学习参考 .

.. .. .. ..

2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

26 21 30 22 0 12 19 4 16 28 15 11 38 31 21 20 13 30 14

92 175 31 104 277 210 120 290 238 164 272 295 68 85 224 166 305 124 246

互助 互助 互助 互助 互助 互助 互助 互助 互助 股份 股份 股份 股份 股份 股份 股份 股份 股份 股份

解:对定型变量“公司类型”进行数量化处理:

引入虚拟变量x2:公司类型为“互助”时,x2=1,为“股份”时, x2=0。 则表9.5中数据转换成以下数据:

. 学习参考 .

.. .. .. ..

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

y 17 26 21 30 22 0 12 19 4 16 28 15 11 38 31 21 20 13 30 14

x1 151 92 175 31 104 277 210 120 290 238 164 272 295 68 85 224 166 305 124 246

公司类型

1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0

建立回归方程 y=b0+b1x1+b2x2+ε 用SPSS软件作线性回归,得到输出结果如下:

. 学习参考 .

.. .. .. ..

Model SummaryModel1R.946aR Square.895AdjustedR Square.883Std. Error ofthe Estimate3.221a. Predictors: (Constant), 公司类型, x1 R检验:拟合优度R2=0.883,接近1,说明回归拟合的效果较好。

ANOVAbModel1Sum ofSquares1504.413176.3871680.800df21719Mean Square752.20710.376F72.497Sig..000aRegressionResidualTotala. Predictors: (Constant), 公司类型, x1b. Dependent Variable: y F检验:F值=72.497,Sig.值为0,说明回归方程通过F检验。

aCoefficientsModel1(Constant)x1公司类型UnstandardizedCoefficientsBStd. Error41.9302.010-.102.009-8.0551.459StandardizedCoefficientsBeta-.911-.439t20.859-11.443-5.521Sig..000.000.000a. Dependent Variable: y T检验:回归系数通过t检验,回归方程为:

y= 41.930-0.102 x1-8.055 x2

说明:若引入虚拟变量x2,当公司类型为“互助”时,x2=0,为“股份”时, x2=1。 则回归方程为:

y= 33.874-0.102x1 + 8.055x2

结果分析:

(1)股份制公司采取保险革新措施的积极性比互助型公司高,原因可能在于股份制公司建立在共同承担风险上,所以更愿意革新;

. 学习参考 .

.. .. .. ..

(2)公司规模越大,采取保险革新措施的倾向越大:大规模公司的保险制度的更新对公司的影响程度比小规模公司大,因此大规模公司更倾向于比较更新措施和现有政策带来的效益,最终表现在采纳革新措施的时间间隔较短。

9.4.表9.9的数据是我国历年铁路里程数据,根据散点图观察在某时间点有折点,用折线回归拟合这个数据。

解:由散点图9(见下图)可看出在1995年(t=16)有折点,考虑由两段构成的分段线性回归,这可以通过引入一个0-1型虚拟自变量实现。 由散点图可知该折点为t=16,则引入虚拟自变量x,

0,t16 xt16,t16由SPSS输出的调整后的决定系数R20.980,说明拟合优度较好。

ˆ5.1830.055t0.106x 由输出的系数表可以得出回归方程为:y由SPSS输出方程分析表可知,F值为594.524,且P值约为零,说明回归方程非常显著;

系数表中回归参数对应的t检验P值都约等于零,说明回归参数均通过了显著性检验。因此,折线方程成立。

. 学习参考 .

.. .. .. ..

散点图 方差分析表

ANOVAbModel1Sum ofSquares11.113.20611.319df22224Mean Square5.557.009F594.524Sig..000aRegressionResidualTotala. Predictors: (Constant), x, tb. Dependent Variable: y 系数表

aCoefficientsModel1(Constant)txUnstandardizedCoefficientsBStd. Error5.183.049.055.005.106.012StandardizedCoefficientsBeta.589.450t106.30311.8599.065Sig..000.000.000a. Dependent Variable: y . 学习参考 .

.. .. .. ..

9.5 某省统计局1990年9月在全省范围内进行了一次公众安全感问卷调查,参考文献【10】选取了调查表中的一个问题进行分析。本题对其中的数据做了适当的合并。对1391人填写的问卷设计:“一人在家是否害怕生人来”。因变量y=1表示害怕,y=2表示不害怕。2个自变量:x1是年龄,x2是文化程度。各变量的取值含义如表9.10所示。 表9.10

是否害怕y 害怕 1 不害怕 0 年龄x1 16——28岁 22 29——45岁 37 46——60岁 53 61岁以上 68 文化程度x2 文盲 0 小学 1 中学 2 中专以上 3 现在的问题是:公民一人在家害怕生人来这个事件,与公民的年龄x1、文化程度x2有没有关系呢?调查数据见表9.11。

表9.11

序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 x1 22 22 22 22 37 37 37 37 5353 53 53 68 68 68 68 x2 0 1 2 3 0 1 2 3 0 1 2 3 0 1 2 3 ni 3 11 389 83 4 27 487 103 9 6 188 47 2 10 18 4 y=1 0 3 146 26 3 18 196 27 4 3 73 18 0 3 7 0 y=0 9 8 243 57 1 9 291 76 5 3 115 29 2 7 11 4 pi 0.12500 0.29167 0.37564 0.31548 0.70000 0.66071 0.40266 0.26442 0.45000 0.50000 0.38889 0.38542 0.16667 0.31818 0.39474 0.10000 其中,pi是根据(9.44)式计算的。

. 学习参考 .

.. .. .. ..

(1) 把公民的年龄x1、文化程度x2作为数值型变量,建立y对x1、x2的logistic

回归。

(2) 把公民的年龄x1、文化程度x2作为定性型变量,用0-1变量将其数量化,建

立y对公民的年龄和文化程度的logistic回归。

(3) 你对回归的效果是否满意,你认为主要的问题是什么? 解:(1) 先对

Pi进行逻辑变换,令piln(pi),则 1pipi01xi12xi2i

直接用SPSS进行y与x1、x2的logistic回归,输出结果如下:

ANOVAbModel1Sum ofSquares.5629.45910.020df21315Mean Square.281.728F.386Sig..687aRegressionResidualTotala. Predictors: (Constant), x2, x1b. Dependent Variable: ppi aCoefficientsModel1(Constant)x1x2UnstandardizedCoefficientsBStd. Error-.144.662-.006.012-.136.191StandardizedCoefficientsBeta-.137-.193t-.218-.510-.715Sig..831.619.487a. Dependent Variable: ppi ˆ=-0.144-0.006x1-0.136x2 由SPSS输出系数表结果得到回归方程:p 则还原后logistic回归方程为:

ˆ=pexp(0.1440.006x10.136x2)

1exp(0.1440.006x10.136x2)由方差分析表知F值=0.386,P值=0.687,大于5%,说明回归方程不显著;

. 学习参考 .

.. .. .. ..

由系数表知回归参数的t检验均没有通过,因为P值都大于5%,说明回归参数未通过显著性检验。

由于logistic回归模型存在异方差,所以采用加权最小二乘法重新拟合,权重:

inipi(1pi)

SPSS输出结果如下:

ANOVAb,cModel1Sum ofSquares8.39312.67621.069df21315Mean Square4.197.975F4.304Sig..037aRegressionResidualTotala. Predictors: (Constant), x2, x1b. Dependent Variable: ppic. Weighted Least Squares Regression - Weighted by wi a,bCoefficientsModel1(Constant)x1x2UnstandardizedCoefficientsBStd. Error.146.309.002.005-.331.116StandardizedCoefficientsBeta.086-.617t.472.398-2.858Sig..645.697.013a. Dependent Variable: ppib. Weighted Least Squares Regression - Weighted by wi ˆ=0.1460.002x10.331x2 由输出结果得到回归方程:pˆ=还原后的回归方程:pexp(0.1460.002x10.331x2)

1exp(0.1460.002x10.331x2) . 学习参考 .

.. .. .. ..

由方差分析表结果知:F值=4.304,P值=0.037,小于5%,说明回归方程显著; 由系数表知x1对应的回归系数相应的P值=0.697,大于5%,说明x1对应的回归系数没有通过检验,不显著;

x2对应的回归系数相应的P值=0.013,小于5%,说明x2对应的回归系数通过检显著

性验,且该回归系数为-0.331,,表明文化程度越高越不害怕。

(2) 把公民的年龄x1、文化程度x2作为定性型变量,引入6个0-1变量表示年龄x1

22,x12237,x13753,x153x11,x12,x130,x1220,x1370,x153

1,x201,x211,x22x21,x22,x230,x200,x210,x22

1) 直接进行y与6个虚拟变量的未加权的logistic回归,SPSS输出结果如下:

由方差分析表知F=2.472,P值=0.106,大于5%,说明回归方程不显著;且除了x12外,其它自变量对应的回归系数都没通过检验。

ANOVAbModel1Sum ofSquares4.7435.27710.020df41115Mean Square1.186.480F2.472Sig..106aRegressionResidualTotala. Predictors: (Constant), x13, x2, x12, x11b. Dependent Variable: ppi . 学习参考 .

.. .. .. ..

aCoefficientsModel1(Constant)x2x11x12x13UnstandardizedCoefficientsBStd. Error-1.044.417-.136.155.220.4901.273.490.969.490StandardizedCoefficientsBeta-.193.120.697.530t-2.505-.881.4492.6001.979Sig..029.397.662.025.073a. Dependent Variable: ppi 下面通过后退法选择变量对上述模型改进。 SPSS输出结果如下表:

ANOVAdModel1Sum ofSquares4.7435.27710.0204.6475.37410.0204.2745.74610.020df411153121521315Mean Square1.186.4801.549.4482.137.442F2.472Sig..106a23RegressionResidualTotalRegressionResidualTotalRegressionResidualTotal3.459.051b4.835.027ca. Predictors: (Constant), x13, x2, x12, x11b. Predictors: (Constant), x13, x2, x12c. Predictors: (Constant), x13, x12d. Dependent Variable: ppi . 学习参考 .

.. .. .. ..

aCoefficientsModel123(Constant)x2x11x12x13(Constant)x2x12x13(Constant)x12x13UnstandardizedCoefficientsBStd. Error-1.044.417-.136.155.220.4901.273.490.969.490-.934.326-.136.1501.163.410.859.410-1.139.2351.163.407.859.407StandardizedCoefficientsBeta-.193.120.697.530-.193.636.470.636.470t-2.505-.881.4492.6001.979-2.865-.9122.8382.097-4.8462.8572.110Sig..029.397.662.025.073.014.380.015.058.000.013.055a. Dependent Variable: ppi 后退法的过程中剔除了x11,x2,留下了x12,x13,但是x13对应的回归系数未通过检验,将其剔除,最后留下了x12;而且回归方程显著,

2) 加权回归:用后退法选择变量,由输出结果(如下)可知最后只留下了x2。

ANOVAe,fModel1Sum ofSquares9.97911.09021.0699.52611.54321.0698.87012.19921.0698.23812.83121.069df41115312152131511415Mean Square2.4951.0083.175.9624.435.9388.238.916F2.475Sig..106a234RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalRegressionResidualTotal3.301.058b4.726.029c8.989.010da. Predictors: (Constant), x13, x2, x11, x12b. Predictors: (Constant), x13, x2, x12c. Predictors: (Constant), x2, x12d. Predictors: (Constant), x2e. Dependent Variable: ppif. Weighted Least Squares Regression - Weighted by wi . 学习参考 .

.. .. .. ..

a,bCoefficientsModel1234(Constant)x2x11x12x13(Constant)x2x12x13(Constant)x2x12(Constant)x2UnstandardizedCoefficientsBStd. Error-.092.425-.344.118.263.392.379.389.376.402.131.258-.332.115.132.122.129.156.177.248-.334.113.089.109.220.240-.335.112StandardizedCoefficientsBeta-.641.490.737.570-.620.257.195-.623.173-.625t-.217-2.901.671.975.936.510-2.9021.086.826.713-2.950.820.915-2.998Sig..832.014.516.351.370.619.013.299.425.489.011.427.375.010a. Dependent Variable: ppib. Weighted Least Squares Regression - Weighted by wi 从上表可以看出,最后只保留了变量x2(P值小于0.05),回归方

ˆ0.220.335x2 程为:pModel SummaryModel1234R.688a.672b.649c.625dR Square.474.452.421.391AdjustedR Square.282.315.332.348Std. Error ofthe Estimate1.00408.98078.96870.95732a. Predictors: (Constant), x2, x13, x11, x12b. Predictors: (Constant), x2, x13, x12c. Predictors: (Constant), x2, x12d. Predictors: (Constant), x2 从模型概要表中可以看出模型四的回归方程的拟合优度不佳。 (3)对回归的效果不满意。变量x1在不同的回归方法下显著性不同,对该变量的显著性判定还有待改进。如果能获得年龄的准确值做Logistic回归的极大似然估计,可能会改进回归效果。

. 学习参考 .

因篇幅问题不能全部显示,请点此查看更多更全内容