目 录
摘要: .............................................................................................................................................. 1 关键词:........................................................................................................................................... 1 Abstract: ......................................................................................................................................... 1 Key words: ..................................................................................................................................... 1 引言 .................................................................................................................................................. 2 1 一元线性回归的思想及其应用举例 ........................................................................................... 4
1.1 一元线性回归模型 ............................................................................................................ 5 1.2 一元线性回归模型的检验 ................................................................................................ 6 1.3 一元线性回归模型举例 .................................................................................................... 7 2 多元线性回归模型的思想及其应用举例 ................................................................................. 10
2.1 多元线性回归的数学模型 .............................................................................................. 10 2.2 多元线性回归模型的检验 .............................................................................................. 11 2.3 多元线性回归模型应用举例 .......................................................................................... 12
2.3.1 研究问题的提出 ................................................................................................... 12 2.3.2 数据采集与多元回归分析 ................................................................................... 12 2.3.3 EXCEL作回归分析确定待定系数的值 ........................................................... 13 2.3.4 总结 ....................................................................................................................... 14
3 前进法、后退法、逐步回归法思想及其举例 ......................................................................... 15
3.1 前进法 .............................................................................................................................. 15
3.1.1 前进法回归分析的应用 ....................................................................................... 16
3.1.1.1 回归方程 .................................................................................................... 16 3.1.1.2 回归方程及系数检验 ................................................................................ 16
3.2 后退法 .............................................................................................................................. 16
3.2.1 后退法回归分析的应用 ....................................................................................... 17
3.2.1.1 回归方程 .................................................................................................... 17 3.2.1.2 回归方程及系数的检验 ............................................................................ 17
3.3 逐步回归法 ...................................................................................................................... 17
3.3.1 逐步回归分析的应用 ........................................................................................... 18 3.3.2 研究结果比较 ....................................................................................................... 19
致谢 ................................................................................................................... 错误!未定义书签。 参考文献......................................................................................................................................... 19 附录 ................................................................................................................................................ 20
多元回归分析的应用研究
摘要:回归分析方法是多元统计分析的各方法中应用最广泛的一种,也是数理统计中最成
熟最常用的方法,主要是研究变量间的相互依赖关系。首先,本文通过建立一元线性回归模型,阐述了一元线性回归模型的基本统计思想以及它在实际问题研究中的应用原理。然后,推广建立了多元线性回归,运用SPSS等统计软件建立了由熟料化学成分分析结果预测28d抗压强度的模型,来指导水泥生产配比的调整,其更好的论证了多元线性回归,最优回归模型的检验、评价及预测。最后,通过前进法、后退法、逐步回归法,阐述了各个方法的思想以及步骤,论证了在多元回归方法中,并不是所有的自变量都对因变量有显著影响这一思想,举例说明了各方法的优缺点,保证所有子集为最优回归子集。同时我们也看出线性回归模型在解决这类经济增长、预测问题上有很好的效果,其作用具有很好的参考价值。
关键词:一元线性回归;多元线性回归;前进法;后退法;逐步回归
Multiple Regression Analysis of Applied Research
Abstract:Regression
analysis method is the most widely used in various methods of
multivariate statistical analysis of a, is also the most mature and most commonly used method in mathematical statistics, mainly is the study of mutually dependent relationship between variables. First of all, through the establishment of a yuan linear regression model, this paper expounds the basic statistical idea of a yuan linear regression model and its application in the actual problem research principle.Then, established the multivariate linear regression, using the statistical software of SPSS was established by the clinker chemical composition analysis result prediction model of compressive strength, to guide the adjustment of the ratio of cement production, its better demonstrates the multiple linear regression, the optimal regression model of inspection, evaluation and prediction.Finally, through the former entered, regressive method, stepwise regression method, this paper expounds the different methods of thought and steps, demonstrated in multivariate regression method, and not all the independent variables on the dependent variable has a significant impact on the ideas, the advantages and disadvantages of each method is illustrated by an example, ensuring that all subsets of the optimal subset regression.At the same time we also see that the linear regression model to deal with the problem of this kind of economic growth, forecast has very good effect, its action has the very good reference value.
Key words:A
yuan linear regression;Multiple linear regression;Before the law;Back
method;Stepwise regression method
引言
回归分析是对客观事物数量依存关系的分析,是一种重要的统计分析方法,广泛地应用于各类社会现象变量之间的影响因素和关联的研究。由于客观事物的联系错综复杂,很多现象的变化往往受到两个或多个因素的影响。为了全面揭示这种复杂的依存关系,准确的测定现象之间的数量变动,提高预测和控制的准确度,就要建立多元回归模型进入深入、系统的分析。多元回归分析是研究多个自变量与某个应变量之间相关关系的一种常用统计方法。一般地,我们有定义1.1
y01122pp
称为多元线性回归模型,其中=0,D=2;2是未知参数。0,1,...,p 是p1个未知参数,0称为回归参数,0,1,...,p称为回归系数,y称为被解释变量,1,2p是p个可以精确测量并控制的一般变量,称为解释变量(自变量),为了区别,称(1.1)为理论回归模型。在回归模型中,因变量y和自变量x都是一维的,称它为一元回归模型;若x是多维,y也是多维,则称它为多重回归模型。
多元回归分析,是经济预测中常用的一种方法,通过建立经济变量与解释变量之间的数学模型,对建立的数学模型进行R、F、t检验,在符合判定条件的情况下把给定的解释变量的数值代入回归模型,从而计算出经济变量的未来值即预测值。对于回归模型中的解释变量,有两种处理方法:一种当作确定性变量处理,另一种当作随机变量处理,所得计算公式式相同。其一般步骤是:首先取得解释变量和响应变量的多次观测值,这些观测值可能是实验得到的,也可能是调查出的;然后根据这些数据确定经验公式的类型,建立数学模型,列出待估参数;再用这些数据进行拟合;最后作统计分析。数据拟合是计算方法的内容,它也能解决回归分析中的数据拟合,但回归分析与计算方法的数据拟合不同,计算方法的数据拟合只估计未知参数,而回归分析不仅仅估计参数,而且要对拟合的结果作统计分析。
就回归分析的发展而言,它自身的完善和发展至今是统计学家研究的热点课题。例如自变量的选择、稳健回归、回归诊断、投影寻踪、分位回归、非参数回归等模型仍有大量研究文献出现。在回归模型中,当自变量代表时间、因变量不独立并且构成平稳序列时,这种回
1它提供了一系列动态数据归模型的研究就是统计学中的另一个重要分支—时间序列分析。
的处理方法,帮助人们科学的研究分析所获得的动态数据,从而建立描述动态数据的统计模型,以达到预测、控制的目的。对于满足基本假设的回归模型,它的理论已经成熟,但对于违背基本假设的回归模型的参数估计问题近些年仍有较多研究。在实际问题的研究应用中,人们发现经典的最小二乘估计的结果并不总是令人满意,统计学家从多方面进行努力试图克服经典方法的不足。例如,为了克服设计矩阵的病态性,提出了以岭估计为代表的多种有偏估计。斯泰因(Stein)于1955年证明了当维数P大于2时,正态均值向量最小二乘估计的不可容性,既能够找到另一个估计在某种意义上一直优于最小二乘估计,从此之后人们提出许多新的估计,其中主要有岭估计、压缩估计、主成分估计、Stein估计,以及特征根估计。为了解决自变量个数较多的大型回归模型的自变量的选择问题,人们提出了许多关于回归自变量选择的准则和算法;为了克服最小二乘估计对异常值的敏感性,人们提出了各种稳健回归;为了研究模型假设条件的合理性及样本数据对统计推断影响的大小,产生了回归诊断;为了研究回归模型中未知参数非线性的问题,人们提出了许多非线性回归方法,这其中有利
用数学规划理论提出的非线性参数估计方法、样条回归方法、微分几何方法等;为了分析和处理高维数据,特别是高维非正态数据,产生了投影寻踪回归、切片回归等。近年来,新的研究方法不断出现,如非参数统计、自助法、刀切法、经验贝叶斯估计等方法都对回归分析起着渗透和促进作用。
就回归分析的应用而言,多元回归方法因其实用性及有效性,在现今社会越来越多的领域得到广泛应用。早些时候,苑玉风[11]应用多元回归分析和逐步回归分析,研究某种汽车发动机用球墨铸铁活塞环球化率的影响因素,并建立了相关关系。李金海在多元回归数学模型基础上,提出了多元回归方法的应用步骤。另外这一方法也被广泛的应用于预报各种气象参数,牛桂萍,黄祖英用多元回归分析做暴雨的长期预报,虽然误差较大,但他们同时指出有待于因子本身作进一步的改进。此外,多元回归分析方法也被越来越多的应用于预报各种自然灾害,王震宇等将这一方法用于滑坡预报,并用实例证明了能在一定程度上
15解决滑坡的预报问题。袁宇运用多元回归分析法,建立了化学污染面积,纵身与诸条件
16的关系,快速估算预测出突出性化学污染危害,并提前做出防范措施。索南仁欠也提出了水质污染的多元回归分析方法,这一方法的建立有助于我们更好地直观了解水质的最显著污染因素及在具体治污过程中,更有针对性地实施合理治污方案。对于太湖大面积的蓝藻事件,如果我们也应用这一方法,提前预测并做好防范工作,那污染所带来的危害及经济损失一定会有所减少。
由此看来,回归模型技术随着它自身的不断完善和发展以及应用领域的不断扩大,必将在统计学中占有更重要的位置,也必将为人类社会的发展起着它独到的作用。
1412131 一元线性回归的思想及其应用举例
一元线性回归是描述两个变量之间统计关系的最简单的回归模型。一元线性回归虽然简单,但通过一元线性回归模型的建立过程,我们可以了解回归分析方法的基本统计思想以及它在实际问题研究中的应用原理。
在实际问题的研究中,经常需要研究某一现象与影响它的某一最主要因素的关系。如影响粮食产量的因素非常多,但在众多的因素中,施肥量是一个最主要的因素,我们往往需要研究施肥量这一因素与粮食产量之间的关系;在消费问题的研究中,影响消费的因素很多,但我们可以之研究国民收入与消费额之间的关系,因为国民收入是影响消费的最主要因素;保险公司在研究火灾损失的规律时,把火灾发生地与最近的消防站距离作为一个最主要的因素,研究火灾损失与火灾发生地和最近的消防站距离之间的关系。
上述几个例子都是研究两个变量之间的关系,它们的一个共同点是:两个变量之间有着密切的关系,但它们之间密切的程度并不能有一个变量唯一确定另一个变量,即它们之间的关系是一种非确定性的关系。那么它们之间到底有什么样的关系呢?下面将举例说明。 用下表1-1数据做出销售额数据与广告额数据之间的散点图,并对其做一元回归分析。
表 1-1 产品销售额与广告额数据
1广告额(万元)
4894 4703 4748 5844 5192
产品销售额(万元) 广告额(万元)
6809 6465 6569 8266 7257
5511 6107 5052 4985 5576
产品销售额(万元)
7784 8724 6992 6822 7949
5086 7064 6647 9650
运用EXCEL。得出销售额与广告额之间的散点图如下图 1-1所示:
销售额与广告额的散点图1200010000y销售额(万元)y = 1.6324x - 1223.92R = 0.997980006000400020000010002000300040005000x广告额(万元)60007000
图1-1 销售额与广告额的散点图
由图1所示的趋势线和回归方程和拟合的R平方值得到销售额与广告额之间的一元回归直线方程为:
y1.6324x1223.9
11
拟合度为R20.9979,其拟合度非常高,拟合效果好,因此,该方程可以用于解释销售额的变化和销售额的预测。如每增加1万元的广告额,销售额将会增加1.6324万元。
1.1 一元线性回归模型
通过以上例子我们看出它只考虑两个变量间的关系,即x与y间的线性关系可以看做
是回归模型的特例,那么我们就可以定义一元线性回归模型的数学形式如下:
y01x 12
称为变量y对x的一元线性理论回归模型。
其中,0,1 是未知参数,0称为回归常数,1称为回归系数,y称为被解释变量(因变量),1,2,p是p个可以精确测量并控制的一般变量,称为解释变量(自变量),是随机误差,且~0,2
为了由样本数据得到回归参数0和1的理想估计值,使用普通最小二乘估计。 定义离差平方和为
0,1i1nyi01i2
13
为寻找参数0,1的估计值0,1,定义的离差平方和达到最小,则满足
0,1
yii01minyi01ini1n022,i1
14
对其分别求偏导数,并令其为零,则有012y01i0i00i1
n2yi01ii011i1nyx0n经整理其方程组得到0,1的最小二乘估计为xixyiyi112nxixi1
1n1n其中xxi,yyi得到其回归直线y01xni1ni1
1.2 一元线性回归模型的检验
(1)t检验,其检验回归系数的显著性。原假设为0:10 对立假设是1:10构造统计量为
t11
2Lxx2
n15
其中,
21nn2i1yiyi2是的无偏估计,Lxxixxi12当原假设成立时,其t统计量服从自由度为n2的t分布,给定显著性水平,当tt时接受0,认为y对x2的一元线性回归不成立。
(2)F检验。0:10,根据平方和分解式
yiyi1n12i1nyyi2i1n 16
yyii2简写为SSTSSRSSE 构造统计量FSSRSSE其中F服从自由度为1,n2的F分布,给定显著性水平,当
n2FF1,n2说明回归方程显著,x对y有显著的线性关系。
1.3 一元线性回归模型举例
某快餐店已经在全国建立了多家分店。 其成功的重要经验之一就是:店要建在学校附近。在新建立一家分店之前,管理层需要对这个新店的年销售额做出估计, 这一估计用于确定新建餐馆的规模。管理人员认为, 设在某校园附近餐馆的年销售额与该学校的人数有关。初步的看法是,设在规模大、学生人数多的学校附近的餐馆的年销售额高于设在规模小、学生人数少的学校附件的餐馆的年销售额。为研究新餐馆的年销售额y随当地学生人数x的变化规律,该快餐店收集了它的10个坐落在校园附近的销售分店的年销售额与其所在地学生人数的数据,这些数据如表1-2
表1-2 10个分店的年销售额及分店驻地学生人数
餐馆序号i
1 2 3 4 5 6 7 8 9 10
学生人数(1000人)xi 年销售额(1000人)yi
2 6 8 8 12 16 20 20 22 26
58 105 88 118 117 137 157 169 149 202
图1-2 学生人数与餐馆年销售额关系散点图 譬如,对第一个分店,xi2,yi58表示该店坐落在有2000名学生的一所学校附近,年销售额为5800元;第二分店附近的一所学校有6000名学生,它的销售额达105000元;余类
推。
以学生人数为横轴,年销售额为纵轴,将观察结果组成的数据对xi,yii1,2,.....,10在直角坐标系中描出相应的散点图。如图1-2,从图1-2可见,数据点大致落在一条直线附近,这显示x,y这两个变量近似地就有线性关系。
设随机变量y与变量x之间存在某种线性相关关系,这里,x是可以控制的(或可以观察的)变量,设
y01x;~0,2 17 其中,称为随机误差。未知参数0,1,都不依赖于x,式(1-1)称为一元线性回归模型。它描述了相依变量y(销售额)与一个独立变量x(学生人数)之间的线性关系。
按前述假设,(1-7)式等价于方程y01x,该式表示当x已知时,可以精确地算出数学期望y,由于表示不可控制的随机因素,通常就用y作为y的估计值, 由样本得到(1-7)式0,1的估计0,1则方程
y01x 18
为y关于x的估计回归方程或回归方程,其图形称为回归直线,式中y表示y的估计。 系数0,1 采用最小二乘法计算,这里我们用matlab的多项式拟合命令实现,其程序见附录1所示,得060.00,15.00
因此,用最小二乘法求得的估计回归方程是:y5x60
回归直线如图1-2所示,可以看到它与所有的数据点都很接近。
如果有充足的理由相信这个方程真实地反映了x与y之间的关系。对于给定的x的值,我们就能够预测出可以信赖的y的值,譬如,若一个新建的分店坐落在一所16000名学生的学校附近,那么有:y51660140
即,这家分店的年销售额会达到140000元。
变量x与y之间线性关系是统计意义上的,因此必须要对这种线性关系作统计检验。 假定x与y的回归具有y01x的形式。如果变量x与y之间确有这样的关系,即变量x的值对y的值施加了影响,则1不会为零。 因此,应该检验假设
0:10,1:10,(1)t检验
,2其中2 经推导可知,1的估计1服从正态分布,即′1:1121xxi1n而得无
22偏估计为SSE,SSE残差平方和,可以得出SSE1530,故,21530191.25
8n22于是21中的估计量就是S21nii122xx0.3367,故可使用t检验法对H0进行检验,检验
统计量
t11:tn2 19
S1当H0为真时,10此时t1:tn-2其的H0拒绝域是:
SS11t1-12n2
其中,1为显著性水平。当假设0:10被拒绝时,认为回归效果是显著的,反之,就认为回归效果不显著。
将表1-2中的数据带入,可以计算出S0.5803,且15而对0.01和自由度为
1n28的条件下,可以计算出临界值t0.9983.36现在
1S18.623.36,故在显著水
平10.99下拒绝H0,即认为10,认为回归效果是显著的。
(2)F检验
在回归模型中只有一个独立变量的情况下t检验和F检验产生同样的结论。 也就是说,若用t检验法拒绝了H0,改用F检验法同样会得到拒绝H0的结论。当H0为真时,统计量
yiyi1n2i1n
yyyyiiini122简写为SSTSSRSSE
其中F服从自由度为1,n2的F分布,将表2的数据带人,可以计算得SSR14200又知SSE1530且n28,所以通过计算可得F74.2484对于0.01,得出F1,811.2586 1由于FF11,8成立,故拒绝H0所获结论与t检验相同。由次,我们有充分的理由相信方程y5x60 真实地反映了y与x之间的关系。
由以上可以看到,通过一元回归模型很好的解决的该快餐店的销售额估计,从而使其扩
大经营有依可循,能有效的避免决策失误,减少经济损失,增大经济效益.可以说线性回归模型在解决这类经济增长、预测问题上有很好的效果。20
2 多元线性回归模型的思想及其应用举例
2.1 多元线性回归的数学模型
设随机变量y与一般变量1,2,...,p的线性回归模型为
y01122pp 21 其中,0,1,...,p 是p1个未知参数,0称为回归参数,0,1,...,p称为回归系数,,1,2,p是p个可以精确测量并控制的一般变量,称为y称为被解释变量(因变量)
解释变量(自变量),是随机误差,且
~0,2
称
y01122pp 22 为理论回归方程。
对一个实际问题,获得n组观测数据i2,i2,ip;yii1,2n则线性回归模型式可
y10111212p1p1y20121222p2p2以表示为 23 yn01n12n2pnpn写成矩阵形式为y其中
1y10y2 1y2 pnyn 24
111121p121222p1n1n2np对于多元线性回归方程未知参数0,1,...,p的估计与一元线性回归方程的参数估计原理一样,采用最小二乘估计,即寻找0,1,...,p的估计值0,1,2p即离差平方和最小。使其满足
0,1,2,pyii12i2pip01minyi01i12i2pipni1n02,,,i1 25
2,,对其分别求偏导数01p,并令其为0,
n002yi01i12i2pip0i10n2yi01i12i2pipi10i1111 26 n2yi01i12i2pipi2022i12n2yip0i01i12i2pipppi1p以上方程组经整理后,用矩阵形式表示的正规方程组'y0
移向得''y当'1存在时,即得回归参数的最小二乘估计为 '1'y 得出多元线性回归预测模型为y01122pp
2.2 多元线性回归模型的检验
对于多元线性回归方程的显著性检验与一元线性回归方程的显著检验既有相同之处,
也有不同之处。下面将介绍两种统计检验方法即F检验和t 检验。
(1)F检验,F检验是对整个回归方程的显著性检验,为此提出原假设
0:12p0
为建立对H0进行检验的F统计量,利用总离差平方和的分解
27
yiyyiyyiyni1222nni1i1简写为SSTSSRSSE则F统计量如下FSSR/p
SSE/n-p-1 在正态假设下,当原假设0:12p0成立时F服从自由度为p,np1的
F分布,于是,可以利用F统计量对回归方程的总体显著性进行检验。当FFp,np1时,拒绝原假设H0,认为在显著性水平下,y与1,2,p有显著的线性关系即回归方程是显著的,反之,当FFp,np1时,认为回归方程不显著。
(2)t检验,t检验是用来对每个回归系数是否有意义进行的检验。构造t统计量
tjjcjj
28
其中cjj是矩阵 '1主对角线的第j个元素,tj服从自由度为np1的t分布。当给定显著性水平,如果tjtnp1则认为j对y有显著影响,否则认为其线性效果
2不显著。
(3)R检验,R检验是用于检验回归方程对样本观测值的拟合程度,其计算公式为
R1-
yiyiyiyini1ni122 29
复相关系数R说明1,2,...,p这一组影响因素与y的相关程度,值越接近1,说明利用多元线性回归的效果越好。
2.3 多元线性回归模型应用举例
2.3.1 研究问题的提出
水泥熟料的28d强度在水泥生产中是一个关键性的指标,甚至可以说是水泥熟料质量好坏的结论性指标。由于其测量周期长,数据不能及时反馈给用户,同时企业又不能因为此项指标的缺失而拒绝发货,因此多数水泥企业出厂管理采用强度累计增长率即二元回归的方法预测水泥熟料强度。经过长期实践证明,累计增长率的方法确实可以作为预测水泥熟料强度的依据,但要做到水泥企业的精细化管理,其预测的准确程度还有待商榷。
影响水泥熟料强度的因素很多,如:矿物组成数量、化学成分、熟料的烧结状况、熟料矿物晶体的晶型等。累计增长率的方法完全忽略了这些关系,本文提及的多元回归分析强调化学成分与水泥熟料强度的关系,运用多元回归的方法预测水泥熟料的28d强度。众所周知水泥熟料的水化产物主要有4种,分别为:C3S、C2S、C3A、C4AF。其中对水泥熟料
2228d强度起主要作用的是C3S和C2S、C3A、C4AF对水泥熟料的影响较大。水泥熟料的
强度是其矿物组成物理特性的表现,直接获取水泥熟料水化产物的含量比较困难,但其化学成分通过化学分析的方法却能得到较精确的结果,水泥熟料的化学成分能间接反映其水化产物。fCaO、MgO是水泥熟料水化的有害成分,含量过高会影响水泥的安定性。因此本文选取水泥熟料中的CaO、SiO2、AL2O3、Fe2O3、Loss、fCaO、MgO化学成分的含量与水泥熟料28d强度进行多元回归分析。 2.3.2 数据采集与多元回归分析
选取生产工艺状况比较稳定、熟料全分析及物检数据准确度符合分析、检验要求、并具有代表性的若干组检验数据作为回归分析基础数据,原始数据应不少于20 组。
在此采集千业水泥公司6、7 月份熟料检验结果列于附录表2-1
根据常规熟料化学分析项目,建立多元线性回归分析的数学模型如下: YbX1CX2SX3ALX4FeX5LossX6f—CaOX7M
式中:Y为预测的熟料28d抗压强度MPa;C、S、A、F、Loss、fCaO、M分别表示熟料化学分析中CaO、SiO2、AL2O3、Fe2O3、Loss、fCaO、MgO的百分含量;b、1、2、3、4、5、6、7为待定系数。
2.3.3 EXCEL作回归分析确定待定系数的值
创建一个EXCEL工作表,并将所采集的数据组熟料化学分析及物检数据输入表中。然后将光标移到b列、回归系数行的单元格,单击“fx粘贴函数”打开粘贴函数中的“函数分类(C)”选择其中“查找与引用”,在“函数名(N)”中选择“INDEX”然后按“确定”,此时在编辑栏中出现“=INDEX()”。再在“=INDEX()”的括号内输入表格定位:(LINEST(I5:I30,B5:H30),8),此时编辑栏中显示=INDEX(LINEST(I5:I30,B5:H30),8),单击编辑栏的“√”即可得出b 的值。将光标移到x1下回归系数行的单元格,采用同样方法输入=INDEX(LINEST(I5:I30,B5:H30),7),,即可得出x1的数值,移动光标到相应系数下单元格,同样方法,只需将公式中最后一个数字依次改为“6、5、4、3、2、1”,即可依次得出
1、2、3、4、5、6、7的值。
在EXCCEL中可以方便地用所求公式对强度结果进行验算,将光标移到上面EXCCEL工作表的单元格J5,单击后单击“fx粘贴函数”打开粘贴函数中的“函数分类(C)”选择其中“全部”,在“函数名(N)”中选择“SUMPRODUCT”然后按“确定”,此时在编辑栏中出现“=SUMPRODUCT()”。再在“=SUMPRODUCT()”的括号内输入:“B5:H5,C2:I2”,然后再加上b即“+B2”,此时编辑栏中显示=SUMPRODUCT(B5:H5,C2:I2)+B2。单击编辑栏的“√”,即可得出6.17 的28d抗压强度预测值见表2-1。
将光标移到单元格J5 的右下角,当其变为黑十字时,按下鼠标左键,向下拖至单元格J30,即可得出所有相应的28d抗压强度预测值。将光标移到工作表的单元格K5,单击后在上方编辑栏内输入公式“J5-I5”即可得出6.17 的物理检测值和预测值的差,采用同样方法向下拖至单元格K30,即可得出所有相应的误差值。其统计分析结果见表2-1 其预测公式在SPSS中选择工具一数据分析一回归,9其输出结果见下表2-2,以及附录表2-3
表2-2 系数表
模型 1
(常量) x1 x2 x3 x4 x5 x6
非标准化系数 B
2.017 .687 .537 .878 -1.088 -1.497 .126
标准系数 试用版
.953 .661 .399 -.364 -.780 .170
标准误差
1.000 .011 .012 .026 .030 .021 .008
t
2.017 61.450 45.534 34.349 -36.399 -71.426 14.897
Sig. .059 .000 .000 .000 .000 .000 .000 .000
x7 .477 .011 .509 44.921
将所有结果保留2位有效数字,则水泥熟料28d强度预测公式(1)为:
y2.020.67x10.53x20.87x31.10x41.50x50.13x60.48x7
61.450 45.534 34.349 36.399 71.426 14.897 44.921
式中:每个回归系数下面括号中的数值是与其互相对应的t值.其中y为水泥熟料28d强度预测值,X1~X7分别代表水泥熟料中:CaO、SiO2、AL2O3、Fe2O3、Loss、fCaO、MgO 元素的含量。由以上回归方程可以看出,它与EXCEL所得到的回归系数值极匹配,所选取的回归方程准确性较好,在实际测量中结果也令人满意。 下面对模型进行检验。
(1)t检验根据显著性水平0.05,df26224,查t分布表,得t242.064
2通过统计软件计算处理得到
tb161.45t2.0642tb245.53t2.0642
tb436.39t2.0642 210
从以上可得三个回归系数的t检验均通过,同理x3,x5,x6,x7检验通过,所选择的自变量是影响28d强度的的主要因素。
(2)F检验通过计算机得到F1804.741,0.000根据显著性水平
0.05,df17,df218,查F分布表得F0.05(7,18)3.85,因为
F1804.741,0.000,F1804.741F0.053.85
所以,F检验通过,表明回归方程的回归效果显著。x1,x2,x3,x4,x5,x6,x7整体上对y有高度显著的线性关系。
(3)复相关系数R0.999,决定系数R20.999,由决定系数看回归方程高度显著。
本文所得的回归经验公式是建立在生产工艺较稳定,化学分析结果和熟料强度有较好的线性相关关系的基础上。采用此方法,对焦作千业水泥有限责任公司2007年6月17日至2007 年7月16日期间生产较为正常的熟料28d抗压强度进行了预测(见附录表2-1),与物检实际28d抗压强度相比,其绝对强度误差最大值为1.0MPa,绝对平均强度误差为0.438MPa,相关性很好,并且以水泥熟料水化机理、矿物组成与其强度的关系为依据,强调水泥熟料中化学成分对其强度的影响,选用多元回归的分析方法,打破传统累计增长率的预测形式、预测模型更加科学,具有指导水泥生产配比调整的意义。 2.3.4 总结
在多元线性回归分析中,我们知道回归方程中所包含的自变量越多,那么回归平方和SSR就越大,则剩余平方和SSE就越小,一般情况下剩余标准差也随之减少,回归方程效果越好,而精度也越高。4在“最优”回归方程中总希望包括尽可能多的自变量,特别是对因变量y 有显著影响的自变量不能遗漏。但回归方程所包括的自变量太多,也带来不利的一面,首先,若要求自变量多,则在预测时必须测定许多量,并且计算也不方便;其次,如果在回归方程中包括有对因变量y 不起作用或作用极小的自变量,那么剩余平方和SSE也不会由于自变量的增加而减少,相反由于SSE的自由度的减少,反而使剩余标准差增大,这就影响回归方程的精度;第三,由于存在着对因变量y影响不显著的自变量,以致影响回归方程的稳定性,使预测效果下降。因而,在“最优”回归方程中,又希望不包括对因变量y影响不显著的自变量。
综上所述,所谓最优回归方程,就是在回归方程中包括所有对因变量y有显著影响的自变量,而不包括对因变量y影响不显著的自变量的回归方程。最优回归方程的建立,是采取将自变量逐个引入的方法。引入自变量的条件是:该自变量的偏回归平方和经检验是所有自变量中最显著的。同时,每引入一个新变量后,要求对已引入的自变量逐个进行检验,将偏回归平方和变得不显著的自变量及时剔除。由于每步都作检验,因而保证了最后所建立的回归方程中所有自变量都是显著的。上述这种建立最优回归方程的理论和方法,称为逐步回归分析。
3 前进法、后退法、逐步回归法思想及其举例
3.1 前进法
前进法的思想是变量有少变多,每次增加一个,直至没有可引入的变量为止,具体做法是首先将全部m个自变量分别对因变量y建立m个一元线性回归方程,并分别计算这m个
11一元回归方程的m个回归系数的F检验值,记为 F 1 ,选其最大值记为 ,F21Fm111 F 1 31 jmaxF 1,F2Fm给定显著性水平,若F 1为了方便,设xj1,n2,则首先将xj引入回归方程,jF就是x1。
接下来因变量y分别与x1,x2,x1,x3x1,xm建立m1个二元线性回归方程,对这
2,m1个回归方程中x2,x3,xm的回归系数进行F检验,计算F值,记为F22,F32,,Fm选其最大者记为
2F j2maxF22,F32,,Fm 32
若F j2F1,n3,则接着将xj引入回归方程。
以上述方法接着做下去,直至所有的未被引入方程的自变量的F值均小于
F1,np1时为止。这时,得到的回归方程就是最终确定的方程。
2
每步检验中的临界值F1,np1与自变量数目p有关,在用软件计算时,我们实际使用的是显著性p值做检验。
3.1.1 前进法回归分析的应用
例4 现实生活中,影响一个地区居民消费的因素很多,例如,一个地区的人均生产总值、收入水平、消费价格指数、生活必需品的花费等。本例选取9个解释变量研究城镇居民家庭平均每人全年的消费性支出y,解释变量为:x1居民的食品花费,x2居民的服装花费,
x3居民的居住花费,x4居民的医疗花费,x5居民的教育花费,x6地区的职工平均工资,x7地区的人均GDP,x8地区的消费价格指数,x9地区的失业率。本例选取2009年《中国统计年鉴》我国的30个省、市、自治区(西藏地区失业率数据缺失,因此从样本中剔除西藏)2008年的数据,以居民的消费性支出(元)为因变量,以如下9个变量为自变量作多元线性回归。数据见附录,其中,自变量x1~x7单位为元,x9的单位为%。
对例题4城镇居民消费性支出y关于9个自变量做回归数据,用前进法做变量选择,取显著性水平0.05。 3.1.1.1 回归方程
从中可以看到,前进法依次引入x3,x4,x5,x6,x8,则城镇居民消费性支出y关于9个自变量的回归方程为
y54307.9312.699x32.424x43.028x50.2x6490.712x8 33 3.1.1.2 回归方程及系数检验
(1)回归模型的假设检验:从表中可以看出F94.811,其P值小于0.05,则说明居民消费性支出y的回归系数不为0,其回归模型有统计意义。
(2)偏回归系数的假设检验:表中t3.088,tt,则在0.05的显著性水平下,该各
2回归系数不为0.说明对各个自变量有显著影响。
(3)衡量线性回归模型优劣的标准R0.976,其复决定系数,R20.952Radj20.942表明:用样本量和模型中自变量的个数进行调整后,模型中自变量有94.2%的解释力比前四次回归都显著,这也说明了y与x3,x4,x5,x6,x8之间高度的线性相关关系。
3.2 后退法
后退法。是将全部自变量回归,然后对每个自变量做显著性检验,剔除最不重要的变量.
mm后退法其具体做法是对m个回归系数进行F检验,记求得的F值为F 1,选其最小,F2mFm者记为
mm FjmminF 1 34 ,F2mFm给定显著性水平,若F jmF1,nm1,则首先将xj从回归方程中剔除,为了方便,设xj就是 xm。
接着对剩下的m1个自变量重新建立回归方程,进行回归系数的显著性检验,像上面那样计算出Fjm1,如果又有F jm1F1,nm11,则剔除xj,重新建立y关于m2个自变量的回归方程,依此类推,直至回归方程中所剩余的p个自变量的F检验值均大于临界值F1,np1,没有可剔除的自变量为止,这时,得到的回归方程就是最终确定的方程。
3.2.1 后退法回归分析的应用
对例4城镇居民消费性支出y关于9个自变量做回归数据,用前进法做变量选择,取显著性水平0.10。 3.2.1.1 回归方程
后退法依次引入了x3,x4,x5,x6,x7,x8其最优回归模型如下:
y48040.9042.337x32.285x42.761x50.203x60.058x7431.530x8 35
x3:居住 ,x4:医疗保健,x5:教育,x6:平均工资,x7:人均GDP,x8:消费价格指数
3.2.1.2 回归方程及系数的检验
(1)回归模型的假设检验:从表中可以看出F=86.170,P0.10拒绝原假设,说明回归方程显著,其回归模型有统计意义。
x3,x4,x5,x6,x7,x8检验的结果,t值分别等于3.602,(2)偏回归系数的假设检验:表中y,3.121,3.014,2.683,8.397,1.738,3.502各自P值为0.002,0.005,0.006,0.013,0.000,0.096,0.002在显著性水平0.10,则拒绝原假设,该各偏回归系数均不为0,且x6对居民消费性支出y有显著影响。
(3)衡量线性回归模型优劣的标准:R0.978复决定系数为R20.957调整的复决定系数R20.946表明:用样本量和模型中自变量的个数进行调整后,模型中自变量有94.6%的解释力比前两次回归都显著,这也说明y与x3,x4,x5,x6,x7,x8之间高度的线性相关关系。
3.3 逐步回归法
逐步回归的基本思想是有进有出。具体做法是将变量一个一个引入,每引入一个自变量
后,对已选入的变量进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程剔除一个变量,为逐步回归的一步,每一步都要进行检验,以确保每次引入新的变量之前回归方程中只包含显著的变量17,这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是最优回归子集。
在逐步回归法中要注意的一个问题是引入自变量和剔除自变量的显著性水平值是不同的,要求引入自变量的显著性水平进小于剔除自变量的显著性水平出,否则可能产生“死循环”。
3.3.1 逐步回归分析的应用
表3-1的数据是1968—1983年间美国与电话线制造有关的数据,各变量的含义如下: ;x3新房东工数(单位:1000);x4失业率(%);x1年份;x2国民生产总值(10亿美元)
;y年电话线销量(百万尺双线)。 x5滞后6个月的最惠利率;x6用户用线增量(%)
表3-1 1968-1983美国与电话线制造数据
x1 1986 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983
x2 1051.8 1078.8 1075.3 1107.5 1171.1 1235.0 1217.8 1202.3 1271.0 1332.7 1399.2 1431.6 1480.7 1510.3 1492.2 1535.4
x3 1503.6 1486.7 1434.8 2035.0 2360.0 2043.0 1331.0 1160.0 1535.0 1961.8 2009.3 1721.9 1290.0 1100.0 1039.0 1200.0
x4 3.6 3.5 5.0 6.0 5.6 4.9 5.6 8.5 7.7 7.0 6.0 6.0 7.2 7.6 9.2 8.8
x5 5.8 6.7 8.4 6.2 5.4 5.9 9.4 9.4 7.2 6.6 7.6 10.6 14.9 16.6 17.5 16.0
x6 5.9 4.5 4.2 4.2 4.9 5 4.1 3.4 4.2 4.5 3.9 4.4 3.9 3.1 0.6 1.5
y 5873 7852 8189 7494 8534 8688 7270 5020 6035 7425 9400 9350 6540 7675 7419 7923
用spss做回归,其输出结果如附录表3-2所示:
(1)从输出结果表3-2可以看出,逐步回归的最优子集模型为模型3,回归方程为
y1407.5823.443x3415.366x4348.969x5 36
从回归方程可以看出,对1968—1983年间美国与电话线制造年电话线销量(百万尺双线)有显著影响的是x3新房东工数(单位:1000)、x4失业率(%)、x5滞后6个月的最惠利率,回归方程中x4失业率(%)的回归系数为负,即,失业率越高年电话销量越低,这
也符合实际情况。
(2)方差分析表,F7.689,P0.004表明回归方程显著,说明x3,x5,x4整体上在显著性水平0.05的情况下对y有显著影响。
(3)回归系数的显著检验。自变量x3,x5,x4对y均有显著影响。其中x4失业率(%)的P0.030最大,但仍在5%的显著性水平下对y高度显著,这充分说明在多元回归中不能
仅凭简单相关系数的大小而决定变量的取舍。
(4) 在输出结果可以看到逐步回归的选元过程。本例逐步回归法的选元过程依次将
x3,x5,x4引入回归模型,没有剔除变量,保留x3,x5,x4作为最终模型。相比之下,后退
法首先做全模型的回归,每个自变量都有机会展示自己的作用,所得结果更值得信服,说明两种方法对自变量重要性的认可是不同的,这与自变量之间的相关性有关联。 3.3.2 研究结果比较
从上面的例子可以得出前进法和后退法显然都有明显的不足。前进法可能存在这样的
问题,既不能反映引进新的自变量后的变化情况。因为某个自变量开始可能是显著的,但当引入其他自变量后它就变得不显著了,但是也没有机会将其剔除,即一旦引入,就是“终身制”的。这种只考虑引入而没有考虑剔除的做法显然是不全面的。我们在许多例子中会发现可能最先引入的某个自变量—当其他自变量相继引入后—会变得对因变量y很不显著。 后退法明显不足是,一开始把全部自变量引入回归方程,这样计算量很大。如果有些自变量不太重要,一开始就不引入,就可减少一些计算量;再就是一旦某个自变量被剔除,它就再也没有机会重新进入回归方程。
逐步回归的思想是有进有出,即吸收了前进法和后退法的优点,克服它们的不足,把两者结合起来,避免了前进法和后退法的各自缺陷,保证了最后所得的回归子集是最优回归子集。
参考文献
[1] 何晓群.回归分析与经济数据建模[M].北京:中国人民大学出版社,1997.
[2] 何晓群,刘文卿. 应用回归分析(第三版)[M]. 北京:中国人民大学出版社,2011. [3]王学民.应用多元分析[M].(第三版)[M].上海财经大学出版社,2009. [4]贾俊平.统计学[M].北京:中国人民大学出版社,2007.
[5]倪加勋,袁卫,易丹辉,蔡志洲.应用统计学[M].北京:中国人民大学出版社,1998. [6]陈汝栋,于延荣.数学模型与数学建模(第2版)[M].北京:国防工业出版社,2009. [7]刘满凤.数据、模型与决策案例集[M].北京:清华大学,2010.
[8]袁卫,庞皓,曾五一.贾俊平.统计学[M].北京:高等教育出版社,2009. [9]罗纳德.D.约克奇.SPSS其实很简单[M].北京:中国人民大学出版社,2010. [10]靳云汇,金赛男.高级计量经济学[M].北京:北京大学出版社,2011. [11]苑玉风.多元回归分析的应用研究[J]. 汽车科技,1996(4)
[12]李金海.多元回归分析在预测中的应用[J].河北工业大学学报,1996,(3):第15卷 [13]牛桂萍,黄祖英.用多元回归分析作暴雨的长期预报阴.陕西气象,1996(1) . [14]王震宇、孟陆波,滑坡预报的多元回归分析方法[J].中国地质灾害与防治学报,2003(9) [15]袁宇,多元回归分析法在突发性事故污染预测中的应用[J].辽宁城乡环境科技2002(03)
[16]索南仁欠,多元回归分析在水污染评价中的应用[J].青海师范大学学报(自然科学版),2000(4)
[17]白秀琴、李瑞阁,多元回归分析方法应用实证分析与比较[J].河南科学,2010:第28卷第9期
[18]孙振宇,多元回归分析与Logistic回归分析的应用研究[J].南京信息工程大学. [19]黄盛初、周心权、张斌川,安全生产与经济社会发展多元回归分析[J].煤炭学报,2005:第30卷第5期
[20]祁红光,基于多元回归数学模型的分析应用研究[J].湖南学院学报,2007:第28卷第2期
[21]Hoaglin C D,Mosteller F,Tukey W John. Understanding Robust And Exploratory Data Analysis[M]. 陈忠琏,郭德媛,译. 北京:中国统计出版社,1998
[22]王建武,赵刚,用多元回归分析预测熟料强度[J].应用研究,2013
附录
附录1
x=[2,6,8,8,12,16,20,20,22,26];
y=[58,105,88,118,117,137,157,169,149,202]; p=polyfit(x,y,1)
x1=linspace(min(x),max(x)); y1=polyval(p,x1) plot(x,y,'*',x1,y1)
得出p =5.0000 60.0000
附录2
表2-1 熟料检验结果及回归
表2-3 水泥熟料研究
模型汇总 标准 估调整 R 计的误模型 R R 方 1 .999a .999 方 .998 差 .0230 模型 1 回归 残差 总计 平方和 6.690 .010 6.700 Anovab df 均方 7 18 25 .956 .001 F 1804.741 Sig. .000a R 方更改 F 更改 df1 df2 Sig. F 更改 .999 1804.741 7 18 .000 更改统计量
模型
表3-2 系数表
非标准化系数 B
(常量) x3
(常量) x3 x5
(常量) x3 x5 x4
标准系数 t
Sig. .000 .050 .831 .004 .029 .465 .001 .003 .030
1
2
标准 误差 试用版
5160.392 1142.905 1.512 467.810 3.191 212.451 1407.582 3.443 348.969 -415.366
.704 2150.154
.913 86.630 1865.047
.782 92.175 169.052
1.133 1.211 -.587 1.050 .737 .498
4.515 2.147 .218 3.494 2.452 .755 4.403 3.786 -2.457
3
因篇幅问题不能全部显示,请点此查看更多更全内容