用以训练多个回归模型,包括Lasso回归模型,以及XGBoost回归模型,最终使用Stacking模型融合方案来预测房
价。在测试数据集中的表现模型融合优于单模型结果,所以最终使用模型融合方案来对房价做预测。通过#匕次房价
预测,旨在发现房屋价格的影响因素以及得到房屋预测模型用以将来迁移学习其他地域的房屋价格预测。关键词:模型融合;线性回归;房价预测;建模分析中图分类号:F299. 23 文献识别码:A
文章编号:2096 —3157(2020)19 —0120—03—、研究背景随着大数据时代的到来,具备大数据思想至关重要,人 工智能技术在各行各业的应用已是随处可见。在生产制造 业,人工智能技术可以极大地提高生产效率,节省劳动成本, 提升产品质量;在服务业,可以优化行业现有产品和服务,提
务⑹=舊 4■丈(為 Cr) — yY = (fiO — >) Xi更新过程可以理解成:目沿着梯度下降最快的方向进行 递减的过程。等式左边的0i表示更新之前的值,等式右边表示沿着梯
升其质量和劳动生产率;金融、医疗等领域,也因人工智能技
术的加入而愈发繁荣,人们的生活也因为其更加便利。房屋作为每个公民的必需品,在生活中的地位非常重 要,买房已成为人们谈论较多的话题,如何在合适的时间买
度方向减少的量,a表示步长,也称作学习速度,这个值需要 人工手动设置。0i ! =
— a —J (0) =
du— a(As(j7)— y) 口房卖房也成为了人们关注焦点,因此在这样的背景下,产生 了本次的房价预测相关问题。目前在房价预测领域主要体
不断更新Qi的值直到J(e)收敛,可以通过比较J(e)的前 后两个值是否有发生变化(继续下降),当没有发生变化时表
现在两个问题上:一是选择合适的数学模型来预测房价走 向,用以评估房价的变化;二是寻找引起房价变化的原因,国
示已经达到了最小值(可能是局部最小值)。2. XGBoost算法简介(1) 算法思想家可借此来帮助市场协调房价变化,公民可以根据时事来判 断入手时机。本文主要分析第一个问题,即选择合适的数学
XGBoost 是 BoostingE8][9][10]算法的其中一种。Boosting
模型来帮助预测房价。本文将从波士顿的房价数据为着手点,以该市的房屋的
算法的思想是将许多弱分类器集成在一起形成一个强分类 器。因为XGBoost是一种提升树模型,所以它是将许多树模 型集成在一起,形成一个很强的分类器。而所用到的树模型
相关属性来作为特征,筛选重要信息,并且将一些信息做适 当处理,最终用以预测该市的其他房屋价格。则是CART回归树模型。二、研究方法1.线性回归算法简介(1) 算法思想在统计学中,线性回归曲(Linear Regression)是利用称 为线性回归方程的最小平方函数对一个或多个自变量和因
该算法思想就是不断地添加树,不断地进行特征分裂来 生长一棵树,每次添加一个树,其实是学习一个新函数,去拟 合上次预测的残差。当我们训练完成得到k棵树,我们要预 测一个样本的分数,其实就是根据这个样本的特征,在每棵
树中会落到对应的一个叶子节点,每个叶子节点就对应一个 分数,最后只需要将每棵树对应的分数加起来就是该样本的
变量之间关系进行建模的一种回归分析raMo这种函数是一 个或多个称为回归系数的模型参数的线性组合。一元线性 回归,即只含有一个自变量的线性回归模型。预测值。(2) XGBoost模型介绍在了解了什么是XGBoost之后,那么如何能够学习这个 模型呢?答案是,所有监督学习模型都是如此:定义目标函 数并对其进行优化。首先,定义目标函数如下:obj =乞心,乂)+ £&(/;)(2) 模型求解(梯度下降法)梯度下降法,即利用沿着梯度下降最快的方向求偏导 数,得到损失函数的全局最小值时的参数0,涉及到偏导数、
学习速度、更新、收敛等问题:H[7] o首先对0赋值,这个值可 以是随机的,也可以是一个零向量;然后改变9的值,使得 J(e)按梯度下降的方向进行减少;当JO)下降到无法下降时
接下来驚目标函数玉希上,我们开始考虑每一棵树的 学习过程,由于不能够用一棵树完成最终的目标,所以我们 需要每一次在上一次的基础上做目标逼近。我们使用一个
为止,即JO)对0的导数为0时,比较JO)的值是否有变化。对损失函数J(0)求偏导,得到:加法策略:修复我们学到的东西,并一次添加一个新树。然120全国流通经济后我们有:卅=0= fi(^) = +九(1)夕严=/1(^) +九(1) =
+ /2(^)yT = £ 办(1)= y?~iy +兀(*)由公式討知,每一次更加逼近我们的目标值obj最小。
由于一般的模型会采用均方误差(MSE)来作为损失函数,所
以目标函数又变成了:obj® = J; (y —(旷〉+/;(1)))2 + ^>(兀)i=l
i=lobj® =丈[2®i)—卩)兀3)+兀(忑)2] +§(无)+/ = 1constant更一般的,我们不仅仅采用MSE来作为损失函数,还会 考虑将目标函数做泰勒二阶展开,以方便模型优化。3. Stacking融合模型介绍Stacking简单理解就是讲几个简单的模型,一般采用将 它们进行K折交叉验证⑶输出预测结果,然后将每个模型输 出的预测结果合并为新的特征,并使用新的模型加以训练。三、实验及结果1.实验过程(1)数据预处理我们采用Python中的Pandas来加载数据,并做数据展 示,训练数据展示如表所示。表
数据展示每一行就是一个房屋,每一列是房屋的属性或者价格。
一共包含有79列的房屋属性。由于房屋价格在做数据描述 时,能够发现其大致符合高斯分布⑸,所以我们加入了房屋
价格的平滑处理,我们最终得到训练集的特征大小为1460X
79,其中1460为房屋数目,79为特征数目,还有一列对应的 房屋价格label的数据。与此同时,也有1459 X 79大小的测
试集。(2)训练模型本项目中的模型训练,共采用三种方案来考虑。第一种
方案为线性回归。将相关特征作为输入,目的是为拟合一条 符合房屋价格分布的曲线。第二种方案为采用XGBoost算
法来做回归预测。第三种方案为采用两者综合,使用stacking 的集成方案来完成房价预测。回①归模型Lasso回归为在普通回归基础上添加了 L1正则化,增大 稀疏性的同时也增大了模型的泛化能力。在训练好该模型
后,查看相关模型参数如图1所示。这里分别摘取影响大小为前后10条的模型特征,由图1
可知,比较正相关的特征有GrLiveArea(生活区面积)。我们 也可以尝试绘制相关性系数矩阵来得到特征的有效性。我产业经济Coefficients in the Lasso ModelGrLivAreaNeighborhood_StoneBr
Neighborhood_Crawfor
Neighborhood_NoRidge
FunctionalJTyp
LotArea
Neighborhood_NridgHt
Exteriorlst_BrkFace
KitchenQual_Ex
OverallQual
SaleType_WD LandContour_Bnk
GarageCond_Fa
CentraIAir_N
MSZoning_RM
SaleCondition_Abnorml Neighborhood_Edwards
Condition2_PosN
MSZoning_C (all)
RoofMatl_ClyTile图1实验数据们使用fold为5的交叉验证方案,损失值为RMSE(均方根 误差)来确定模型的有效性,经过训练后,获取其RMSE为 0.128。说明该结果较好,但仍有一定的提升空间。② XGBoostXGBoost作为boosting算法的一种,因为其训练速度 快,泛化性强著称,在本项目中,使用其回归模型来做房价预 测。由于boost算法是按照决策树迭代更新的,所以根据迭
代次数查看训练和测试的RMSE图像后,训练迭代次数的增 长,训练集的RMSE逐渐减少,但是测试时的RMSE在迭代 90次左右后进入拐点,下降速率降低,所以采用迭代次数为 100次左右效果是最好的。③ StackingStacking集成方案为将数据提前拆分为两部分:第一部 分为初始模型训练,第二部分为二级模型训练。第一部分将
训练两个模型:Lasso回归模型与XGBoost回归模型。第二 部分数据将使用这两个模型做预测,得到的两个预测结果再 做线性拟合,得到二级模型。查看两个一级模型的相关性如图2 Stacking数据全国流通经济121金融在线新冠疫情下货币政策变化对建行业务的影响王彤
(中国建设银行股份有限公司甘肃总审计室,甘肃兰州730000)摘要:突如其来的新型冠状病毒在国内迅速蔓延,使得我国的宏观经济运行、企业生产经营和就业面临着更为艰
巨的挑战,我国监管部门迅速响应并修订相关政策,建设银行也及时分析机遇和挑战,在经营管理和成本计量工作中 早作准备。关键词:建设银行;货币政策;新冠病毒;信贷资源;资产配置中图分类号:F822. 0
文献识别码:A 文章编号:2096-3157(2020)19-0122-03相关政策,建设银行也及时分析机遇和挑战,在经营管理和 成本计量工作中早作准备。我国作为多目标制货币政策国家,在经历2019年全球
货币宽松与国内经济下行压力加大的背景下,货币政策实现 稳增长、稳就业、调结构、稳杠杆、稳通胀、稳汇率等多重目标 的平衡。但在2020年开年之际,突如其来的新型冠状病毒 在国内迅速蔓延,使得我国的宏观经济运行、企业生产经营
一、疫情期间货币政策汇总新冠肺炎疫情以来,我国采取“灵活适度”的货币政策应
对经济变化波动。一方面,央行通过专项再贷款、加大流动 性投放等措施确保疫情防控特殊时期银行体系流动性合理和就业面临着更为艰巨的挑战,我国监管部门迅速响应修订
由图2可以看出,两个模型在一定程度上是符合正相关的, 参考文献:[1 ]Tianqi Chen. A Scalable Tree Boosting System[D]. CN:
所以使用这两个模型来做线性拟合,是有意义的尝试。2.实验结果ACm,2016.[2 ]T Chen,C Guestrin. Regression shrinkage and selection
本文一共采用了三种方案来做房屋价格预测,分别是线 性回归、XGboost回归模型.Stacking集成方案,其中第三种
via the lasso [ D ]. united american: princeton university, 1996.方案为前两种的方案模型融合。最终结果显示,第三种方案
的平均RMSE为0. 113,低于前两种模型结果,是一个很好 的方案。[3] 李航.统计学习方法[M].北京:清华大学出版社,
2012:10.[4] 周志华.机器学习[M].北京:清华大学出版社,
四、研究结论与建议综上所述,本文采用了 Lasso线性回归、XGboost以及
2017;53.[5 ]Qcon 2017 feature engineering by Gabriel Moreira.两者的集成融合stacking模型,最终得到多项结果,也证明 了我们提出的融合模型效果最佳,也对测试集中的其他房屋
[6 ]Thomas M Cover,Joy A. Thomas. Elements of Informa
tion Theory. 2006.做出了预测,得到房屋的预测结果。与此同时,探索了多个 特征对房屋预测模型的影响,思考了大数据、人工智能在帮
[7 ] Christopher M. Bishop. Pattern Recognition and Ma
chine Learning. Springer—Verlag. 2006.[8 ]J H Friedman. Greedy Function Approximation: A Gra
dient BoostingMachine [_ EB/OL https://statweb.
助我们解决生活中的问题可能性。这次解决房价预测,也能 够迁移到国内的房价预测方案,该模型为将来国内城市的房
屋预测提供了模型基础。Stanford. edu/~jhf/ftp/trebst. pdf.[9 ]J H Friedman. Stochastic Gradient Boosting E EB/OL].
通过本次房屋预测模型的建立,能够得到影响房屋总价
值的不仅仅是房屋居住总面积这一个重量级特征,还有街道 https: //statweb. Stanford, edu/〜jhf/ftp/stobst. pdf.名称、装修完整度等其他影响特征,并且有些看起来不是很 重要的特征也能够影响房价,例如房屋类型、功能等。数据 帮助我们筛选出重要的特征,排除了一些“想当然”的结果,
[10]J H Friedman. Stochastic Gradient Boosting [ EB/OL].
https: //statweb. Stanford. edu/~jhf/ftp/stobst. pdf.能够更好地抓住事情的本质,这就是大数据辅助我们解决生 活中的事情的实际例子。作者简介:王景行,唐山市第二中学学生。122全国流通经济
因篇幅问题不能全部显示,请点此查看更多更全内容