姓名:林江鸿 学号:19020082202895
一.背景介绍
2009年是一个电影大年,大片云集,让观众目不暇接,而其中有一部电影格外引人瞩目,那便是现代电影技术集大成者,詹姆斯卡梅伦继泰坦尼克号之后又一部划时代大作——《阿凡达》。阿凡达的成功是有目共睹的,它在全世界创下了史无前例的27亿美元票房,获得专家和观众一致好评。而正因其巨大的票房,我
们选取他作为我们研究电影票房的案例就成了自然而然的选择。
二.变量选取
为了简化数据的复杂度,我们的研究仅对阿凡达票房全球前三十位的国家和地区进行(除美国外)。
综合考虑后,我们选取的变量如下 (X1)Total Dates:《阿凡达》在各国上映日期总和 (X2)Total GDP: 各国2009年的GDP总和 (X3)Average GDP:各国2009年的人均GDP (X4)Population:各国2009年的人口总和 (X5)HDI:各国2009年的人类发展指数
(X6)HDI*Population:人类发展指数和各国人口的对应乘积
注:人类发展指数(Human Development Index), 缩写为HDI,是由联合国开发计划署在《1990年人文发展报告》中提出的。人类发展指数与物质生活质量指数、社会进步指数等综合指标一样,是对传统的GNP指标挑战的结果。HDI由三个指标构成:预期寿命、成人识字率和人均GDP的对数。这三个指标分别反映了人的长寿水平、知识水平和生活水平。 具体数据见附录 三.回归分析
本次分析运用R软件来实现,构建线性回归模型 Y=C+C1*X1+C2*X2+C3*X3+C4*X4+C5*X5+C6*X6+u, 进行第一次拟合,结果如下
Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6, data = dat)
Residuals:
Min 1Q Median 3Q Max -29584651 -12383260 -4900063 6361622 49221934
Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) -1.536e+08 1.195e+08 -1.285 0.212 X1 3.454e+04 3.544e+04 0.975 0.340 X2 4.062e+01 4.715e+00 8.614 1.69e-08 *** X3 -3.549e+02 3.447e+02 -1.030 0.314 X4 -5.727e-03 1.607e-01 -0.036 0.972
X5 1.805e+08 1.393e+08 1.296 0.208 X6 3.168e-02 2.189e-01 0.145 0.886 ---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 23500000 on 22 degrees of freedom Multiple R-squared: 0.8788, Adjusted R-squared: 0.8457 F-statistic: 26.58 on 6 and 22 DF, p-value: 5.114e-09
可以看出,拟合效果还是不错的,但是仅有变量X2的t统计量比较显著,其余变量均不显著。为提高显著性,我们有必要在后面对其进行逐步回归。不过在那之前,我们先对本次拟合结果进行进一步分析。 方差分析:
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F) X1 1 3.1923e+15 3.1923e+15 5.7811 0.02506 * X2 1 8.3155e+16 8.3155e+16 150.5918 2.584e-11 *** X3 1 1.9792e+13 1.9792e+13 0.0358 0.85158 X4 1 3.2558e+14 3.2558e+14 0.5896 0.45073 X5 1 1.3712e+15 1.3712e+15 2.4833 0.12933 X6 1 1.1571e+13 1.1571e+13 0.0210 0.88622 Residuals 22 1.2148e+16 5.5219e+14 ---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
可以看出大多数F统计量并不显著。
再作残差对拟合值图, 正态 Q-Q, S-L图,Cook距离图与残差直方图
Residuals vs FittedNormal Q-Q23222223Residuals-2e+070e+002e+074e+0722Standardized residuals1.0e+08Fitted values2.0e+080.0e+00-1-2012-101Theoretical Quantiles21.5Scale-LocationCook's distanceStandardized residuals0.51.0Cook's distance2.02.5232221360.51.01.5160.00.0e+001.0e+08Fitted values2.0e+080.005101520Obs. number2530
残差的直方图Density0.0e+001.0e-082.0e-083.0e-08-2e+070e+002e+074e+07resid(result1)
四.逐步回归
对于上面得到的结果,我们并不满意,所以现在我们开始进行逐步回归分析。运用R软件我们得到
Start: AIC=990.39
Y ~ X1 + X2 + X3 + X4 + X5 + X6
Df Sum of Sq RSS AIC - X4 1 7.0086e+11 1.2149e+16 988.39 - X6 1 1.1571e+13 1.2160e+16 988.42 - X1 1 5.2467e+14 1.2673e+16 989.62 - X3 1 5.8545e+14 1.2734e+16 989.76 Step: AIC=988.39 Y ~ X1 + X2 + X3 + X5 + X6 Df Sum of Sq RSS AIC - X6 1 2.2110e+14 1.2370e+16 986.92 - X1 1 5.2427e+14 1.2673e+16 987.62 - X3 1 7.8260e+14 1.2931e+16 988.20 Step: AIC=986.92 Y ~ X1 + X2 + X3 + X5 Df Sum of Sq RSS AIC - X1 1 3.6243e+14 1.2732e+16 985.75 - X3 1 6.8011e+14 1.3050e+16 986.47 Step: AIC=985.75 Y ~ X2 + X3 + X5 Df Sum of Sq RSS AIC 此时再看拟合结果 Call: lm(formula = Y ~ X2 + X3 + X5, data = dat) Residuals: Min 1Q Median 3Q Max -31913318 -12789349 -6358051 5719955 50439403 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.237e+08 6.295e+07 -1.964 0.0607 . X2 4.276e+01 3.290e+00 12.995 1.28e-12 *** X3 -3.946e+02 2.784e+02 -1.417 0.1688 X5 1.567e+08 7.602e+07 2.061 0.0498 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 22570000 on 25 degrees of freedom Multiple R-squared: 0.873, Adjusted R-squared: 0.8577 F-statistic: 57.26 on 3 and 25 DF, p-value: 2.43e-11 各变量t统计值的显著性已基本达到要求,而拟合效果并未下降,顾取这个结果为最终拟合结果 Y=-1.237e+08+4.276e+01*X2-3.946e+02*X3+1.567e+08*X5 对结果的解读: 从拟合结果中可以看出票房最终与国家GDP总量和人类发展指数正相关,尤其是人类发展指数,是影响票房多少的关键因素。与GDP正相关是显而易见的,人们有了钱才会去看电影,这与看电影作为一个娱乐消费支出的本质是符合的,而与人类发展水平的高度正相关则告诉我们,比起金钱,人们精神水平的发展,社会文化水平的发展,对电影的市场大小有着更加巨大的影响。同时我们注意到票房与人均GDP存在负相关,这可以解读成一个国家的人口与票房之间必定存在着关系,并且影响幅度高过GDP的影响幅度,所以在票房随着人口增长而增长的同时,人均GDP确实下降的,于是体现出负相关性。 电影作为美国的一种重要出口商品,也是其传播美国文化和价值观的重要武器,电影已经成为一种不亚于制造业的产业,而电影工业的发展也会相应带动很多相关产业。比如《阿凡达》,大量地采用了先进的3D技术,是一部史无前例的巨作,因此获得了巨大的票房收入,《阿凡达》的票房能轻松突破了20亿美元,投资回报率高达400%,而目前国内连一些简单的3D电影都还不能制作,而《阿凡达》中山脉的原型就是取自我们国内的黄山(有说是张家界),在营销宣传方面更是差距巨大。深入研究《阿凡达》的成功之处,对于国内电影产业的发展具有重要意义。 参考文献: 百度统计, 联合国2009年人类发展报告 Fox票房统计 R软件相关教程 附录: 所用指令: dat=read.table(\"clipboard\result1=lm(Y~X1+X2+X3+X4+X5+X6,data=dat) summary(result1) opar <- par(mfrow=c(2,2), mex=0.6, mar=c(5,5,3,2)+.3) plot(result1, which=1:4); par(opar) hist(resid(result1),freq=F,main=\"残差的直方图\") x=seq(min(resid(result1)),max(resid(result1)),len=100) lines(x,dnorm(x,mean(resid(result1)),sd(resid(result1))),col=2,lwd=2) result2=step(result1) summary(result2) 所用数据: argentina australia austria belgium brazil china colombia czech republic denmark france germany hongkong india israel italy japan mexico netherland newzealand norway poland russia southkorea spain sweden switzerland taiwan turkey United kingdom Y 13468534 105779507 14124754 13576624 58218829 182238768 13620596 12469493 22889076 158261059 157564785 22923033 24216860 13097682 83498193 186753197 44229043 23686268 12587471 14221366 26135805 117103251 105485521 109992746 22187194 15743017 13634452 17564479 150025197 X1 142 262 213 179 121 64 114 569 142 102 332 136 51 171 219 305 101 157 276 135 191 367 227 577 212 52 129 492 296 X2 338700 1069000 432400 530600 1665000 4222000 249800 217200 369600 2978000 3818000 223800 1237000 188700 2399000 4844000 1143000 909500 135700 481100 567400 1757000 953500 1683000 512900 492600 393200 798900 2787000 X3 8214 47400 50098 47107 8197 3315 4985 21027 62625 46015 44660 30755 1070 28365 38996 38559 10234 52019 30049 95061 13798 11806 19504 35331 52789 67384 17040 10471 43785 X4 40913584 21262641 8210281 10414336 198739269 1338612968 45644023 10211904 5500510 64420073 82329758 7055071 1166079217 7233701 58126212 127078679 111211789 16715999 4213418 4660539 38482919 140041247 48508972 40525002 9059651 7604467 22974347 76805524 61113205 X5 0.866 0.97 0.955 0.953 0.813 0.772 0.807 0.903 0.955 0.961 0.947 0.944 0.612 0.935 0.951 0.96 0.854 0.964 0.95 0.971 0.88 0.817 0.937 0.955 0.963 0.96 0.944 0.806 0.947 X6 35431163.74 20624761.77 7840818.355 9924862.208 161575025.7 1033409211 36834726.56 9221349.312 5252987.05 61907690.15 77966280.83 6659987.024 713640480.8 6763510.435 55278027.61 121995531.8 94974867.81 16114223.04 4002747.1 4525383.369 33864968.72 114413698.8 45452906.76 38701376.91 8724443.913 7300288.32 21687783.57 61905252.34 57874205.14 因篇幅问题不能全部显示,请点此查看更多更全内容