收入分布曲线的线性正态插值函数拟合方法
2020-08-26
来源:好走旅游网
第29卷 第3期 2 0 1 2 年经 济 数 学 Vo1.29,NO.3 Sep.2 0 1 2 9月 JOURNAL OF QUANTITATIVE EC0NC)MICS 收入分布曲线的线性正态插值函数拟合方法 陈 涛,阮 敬 (首都经济贸易大学统计学院,北京 100070) 摘 要 用样本数据的分纽均值与总体方差为参数的正态函数作为插值基函数,构造出线性正态插 值函数曲线以拟合中国城乡居民收入的概率分布函数曲线,并论证了这样构造的线性正态插值函数存在 且唯一,此插值函数任意阶可微.利用拟合的正态插值函数曲线计算出拟合的函数面积估计值并与相应的 样本数据直方图面积做比较,进而得出正态插值函数拟合曲线面积与样本数据直方图的面积误差比率. 关键词 分组均值;插值基函数;线性正态插值函数;面积误差比率 中图分类号F222。F224,C82 文献标识码A The Fitting Method 0f Linear Normal Interpolation 1n ・‘ 1"8 T 1r、■ ・ ●1 J● UnCti0n t0r lnC0me J一,istrl bUtl0ln CHEN Tao,RUAN Jing (Department of Statistics,Capital University of Economics and Business,Beijing 100070。China) Abstract We constructed a linear norInal interpolation function to fit the income probability function curve of ruraI Chi na.This parametric interpolation basis function is based on the group means and population variance of the original sample da— ta.We proved that the linear normal interpolation function should exist and be unique,if the group means and population vari— ance of the sample data are the parametric normal interpolation based function.In addition,this interpolation function is the ar— bitrary order smoothness.We compared the estimated area between the fitted normal interpolation function and the correspond— ing histogram of the sample data,and the result shows that the area error ratio of normal interpolation function curve and the histogram of sample data are smal1. Key words group mean of sample data;interpolation basis function;linear normal interpolation function error ratio of area 情形,可以应用神经网络和支持向量机等方法 ], 引 言 近年来在经济研究领域中的一些热点问题,如: 经济增长、收入分配以及贫困缓解L1 等,都涉及了 对居民收入分配曲线的拟合问题.如何用一个解析 函数曲线比较精确的描述收入分配曲线成为学者们 而对于小样本的离散型数据,利用构造性的插值函 数做逼近 是曲线拟合的重要方法之一,尤其是随 着构造性代数几何 为代表的数学工具的出现和 计算机硬件计算能力的提高,使得以前无法求解的 一些插值问题 , 得以实现,也为曲线拟合问题的 发展带来契机. 一在很多经济研究课题中必须要解决的一个难点.而 在函数逼近的研究领域中,针对样本数量比较多的 般说来,用什么样的解析函数拟合曲线以及 如何评判拟合的好坏程度是曲线拟合问题所涉及的 * 收稿日期:2012-05 l2 基金项目:教育部人文社会科学研究规划基金项目(10YJA910001);北京市自然科学基金项目(9113020) 作者简介:陈涛(1977一),男,吉林长春人,讲师,博士 E—mail:chentao95@gmail.com 48一 经济数学 第29卷 两个基本问题.对于中国城镇居民收入的柱状图拟 合问题,由于其柱状图或具有偏尾及重尾的曲线图 像特征 “],用一般的插值方法对于此形态的曲 线进行拟合时效果并不好.如利用三次样条插值拟 代数流形上满足插值条件(1)的插值函数.为此本 文选取样本数据的分组均值与数据的总体方差为参 数的正态函数为插值基函数,构造出插值拟合函数, 其插值问题描述如: 对区间[a,6](==R上给定的M个互异节点 , z。,…,.7C 以及节点上的函数值Y E R,i一1,2,…, M 合时,会出现“龙格”现象,其插值函数曲线并没有呈 现中间凸、两边凹的大体形态特征,而单纯利用正态 分布函数拟合收入分配的函数曲线时也不能很好地 拟合出偏尾及重尾的形态特征l_1。 ,因此拟合效果 M,构造函数f一∑ f ,其中 z—l 都不够理想.本文提出的利用含给定参数的正态函 数为插值基函数的构造性插值方法是解决此类问题 的一个有效办法,特别是针对收入概率分布的曲线 拟合问题. 在传统的多项式插值理论中,当插值基选定 时,要求插值节点组为相应插值基的适定节点组, 即:插值节点不在由多项式插值基线性组合构造出 的低次代数流形上;本文则考虑更为一般的情形, 即:节点组可在由多项式插值基线性组合构造出的 低次代数流形上.因此,本文针对收入分配的函数曲 线的拟合问题,当插值节点处于一般情形时,研究如 何选取正态插值基函数中的参数以构造线性正态插 值函数,使拟合更加精确,具有重要的理论和现实 意义. 本文选取原始数据分组均值和总体方差为参数 的正态函数为基函数,构造线性的正态插值函数以 拟合分布函数.根据拟合的插值函数曲线计算出拟 合的函数面积估计值,与相应的样本数据直方图面 积进行比较,并得出正态插值函数拟合曲线面积与 样本数据直方图的面积误差比率.此外,拟合出的收 入分配函数中带有方差和均值参数,可以克服非参 数方法所拟合分配函数很难从经济意义角度解释的 固有缺陷,对于收入分配中进行收人不平等及经济 发展等因素解构的研究具有重要的意义. 2构造线性正态函数的插值方法 插值问题的一般提法:对区间[n,6] R上给 定的M个互异节点 ,z ,…,-zM以及节点上的函 数值Y E R,i一1,2,…,M,构造函数,∈C[a,6], 使之满足插值条件: f(x )一Y ,i一1,2,…,M. (1) 本文考虑一般情形下插值节点的分布,即:节点 组可在由一元多项式插值基线性组合构造出的低次 1 ( — .)2 f 一— e ,i===1,2,…M. (2) √2丁c 利用线性正态插值函数拟合中国城乡居民收入分配柱 状图,选取的参数 ,i一1,2,…M为M个给定的样本 数据分组均值, 为给定的样本数据的总体方差.确定 系数 ,i一1,2,…M使之满足插值条件: f(x )一Y ,i=1,2,…,M. (3) 称满足插值条件(3)的插值函数(2)为线性正态插 值函数. 为保证满足插值条件(3)的线性正态插值函数 有解,假定如上选择的参数 ,i一1,2,…M满足: /z < z<…< M,则有如下结论: 定理1若对于给定的M个样本数据的分组均 值 ,i一1,2,…M满足:/ll< 2<…< M,d为 样本数据的总体方差,则以 , ,…, 和口为参 数的正态函数作为插值基函数,构造满足插值条件 (3)的线性正态插值函数(2)存在且唯一. 证明 由于插值条件(3)中Y ,i一1,2,…,M, 为分组数据的频数(样本数大于零),故必]i。∈ {1,2,…,M},使得Y ≠0,因此,满足插值条件 (3)的线性正态插值函数由非齐次线性方程组: M ,厂,( )一Y ,i一1,2,…M (4) J一1 的解 , ,…, 西唯一确定.往证非齐次线性方程 组(4)存在唯一解. 注意到函数组{fl;i:1,2,…,M}有 1 (r— ,)2 fl一— e ,i一1,2,…M. 、/2 显然 ∈ [口,6],i—l,2,…M.由于 (f1,f2,…,fM)一 1 2 1 2 ; gMx ——==e 2口0(e 2 2,e 2 2,…,e 2一a2), 口 ̄/2丁【 而函数组(。等 ,。竽一 ,…,。了IZMx一豢) 的朗斯基(Wronski)行列式为 第3期 陈涛等:收入分布曲线的线性正态插值函数拟合方法 一49一 1 1 2 2 e 2 2, e 2a2, , ~2 e 一 2 , ; M ( ) 盯 ,,1 e 一 ,  ̄2x(丝)M 1 / , 2,; eO , …,M ( 6 )~e 2a2 / ; 一e—— ~2.1.  ̄・f 一—— 一; ・ ,L 一e——了~一—— 一Il (I ———£ l) 赢 一e 一 . (5) ≤ M由于 < z<…< ,故式(5)不等于零 的概念.令 因此函数组( , ,…,fM)线性无关.又因为插值 节点(or , ),i一1,2,…,M两两互异且满足:z ≠ ,,S 一∑ (“ 一32i), i≠J;i,J∈{1,2,…,M},故 (z1) sMf—r”厂(z) 一 [∑M 厂 (z)]d 一-, ( ) f2(or2) ● fM(z1) fM( 2) ● _厂1( 2) ● ∑(1-r一M ) ), ls,M—SM J : : : ’ 线性无关,即方程组(4)的系数矩阵 。2 ’ 。 d ’…’ 。 。 其中SM为直方图面积,s 为拟合的正态插值函数 曲线面积,称eM为拟合的面积误差比率.£M值越小 则认为曲线拟合的效果越好. 1 。 ‘ 2 1) ’ 1(x2 2) ’…’ 1 ‘ 2 M) 3 实证分析与计算结果 ; 1 ‘ M 1) 2 ’ ; 1 2) ’…, 1 …’ ; ‘ 。 M) 本文以2006年美国北卡罗莱纳大学、美国国家 营养与食品安全局及中国疾病预防控制中心实施的 营养调查(CHNS)结果中的农村居民人均年收人数 据为例(有效的样本共2956份),采用构造的线性正 满秩,因此方程组(4)存在唯一的非零解: …, , , .故满足插值条件(3)的线性正态插值函 M 数为: f一∑ f (z),且唯一. t=l 态插值函数对数据的频数分布直方图进行拟合.根 据分布数据的特征,选取的数据分组数为尼一7,则 满足插值条件(3)的插值节点数M一忌+1—8,此 证毕. 由定理1知{f ;i一1,2,…,M)(其中f 一 — :e 。 、/2丌 时样本频数分7组的直方图(见图1). 插值节点组为: {( ,y )l i一1,2,…,8}==={(80,O),(3 940.82, 2 5O6),(14 644.69,333),(26 622.16,74),(37 963.54, ,:1,2,…M,==1,,…i 2 M.)为线性无关函数集合 .)为线性无关函数集合 [n,6],i一1,2,…M.故满足插值条件 M 且_厂f∈ 24),(48 935.71。13),(60 405.99,5),(75 525.81,1)), (3)的线性正态插值函数 其中样本数据的分组均值 ( 1, 2,…, M)一(30,3 940.82,14 644.69, 26 622.16,37 963.54,48 935.71,60 405.99,75 525.81), f一∑ f ( )∈span{f ,f2,…, ) [a,6].为评价拟合程度,引入拟合面积误差比率 总体方差 一6 438.68. 50一 经济籁 聪 分组 图1 样本频数分7组的直方图 经过计算,求出线性正态插值函数的系数 ( , ,…, )一(——8.335×10 ,1.006× 1O 。一1.126×10。,1260×10 ,65293,1.873×10 , 14 980,61 204). 线性正态插值函数拟合的曲线(见图2)为 厂一耋( e ), 250o 2O00 1 500 糕 1 000 500 0 收入z 图2 线性正态插值函数拟合的效果图 由图2可以看出,构造的线性正态插值函数可 以很好地拟合具有偏尾及重尾形态的收入分配曲 线,也呈现出中间凸、两边凹的曲线图像特征.经过 计算,此时拟合的面积误差比率为:eM一0.003 84. 若利用构造的三次样条插值函数方法拟合相同的数 据(见图3),由图3可以看出,其拟合的效果并不理 想,甚至会出现错误.经过计算,利用三次样条插值 函数方法拟合的面积误差比率为eM一0.160 43.由 两种拟合方法得到的拟合面积误差比率知,对于收 入分配概率分布的直方图,利用线性正态插值函数 方法比三次样条插值方法拟合得更加精确. 数学 第29卷 2 2 籁1 1 收入z 图3 三次样条插值函数拟合的效果图 4 结 论 利用线性正态插值函数拟合方法可以很好地解决 一类收入概率分布曲线中具有偏尾及重尾形态曲线的 拟合问题,但前提是选取原始数据分组均值和总体方 差为参数的正态函数为基函数.本文提出利用线性正 态插值函数拟合方法进行曲线拟合的同时,也证明了 以原始数据分组均值和总体方差为参数的正态插值基 函数,构造出的线性正态插值函数存在且唯一.以2006 年的居民收入分配的数据直方图为例,利用构造线性 正态插值函数方法比三次样条插值函数拟合效果更 好,其拟合的面积误差比率在千分之四以内. 参考文献 [1]冯星光,张晓静.经济增长、收入分配与贫困规模变动相关性研究 [J].财经研究,2006,32(4):136—144. [2]林伯强.中国的经济增长、贫困减少与政策选择[J].经济研究, 2003,39(12):15—25. [3]David DOLLAR,Aart KRAAY.Growth is good for the poor[J]. Joumal of Economic Growth,2002,7(3):195—225. [4]尹文怡,范通让.离散数据拟合模型的研究与实现口].计算机工程 与应用,2008,44(31):227—228. [5]P J DAVIS.Interpolation and approximation[M].Mineola:Dover Publications.1963. I 6 l S L LEE,G M PHILLIPS.Construction of lattices for lagrange in— terpolation in p ective space[J].Constructive Approximation. 1991,7(1):283—297. r7]D COX,J LITTLE,D O’SHEA Ideals varieties and algorithms [M].New York:Springer-Verleg,1997. E8] M GASCA。T SAUER.On the History of multivariate polynomia1 interpolation[J].Journal of oCmputational and Applied Mathematics, 2000,122(1/2):23—25. [9] 陈涛.多元多项式插值的极小次数牛顿基[D].长春:吉林大学数学 所,2007. [10]威廉・D贝里著,吴晓刚主编.线性回归分析基础[M].上海:上海 人民出版,2011. [n]R GIBRAT.On Economic inequalities[J].International Economic Pa ̄rs,1957,4(7):53—7O. [12]阮敬.中国农村亲贫困增长测度及其分解[J].统计研究,2007,24 (11):54—58. [13]阮敬,詹婧.亲贫困增长分析中的Shapley分解规则口].统计研究, 2010,27(5):58—66. [14]朱岩,关士来.广义对数正态分布与收入分配[J].数量经济技术经 济研究,1991,7(6):67—7O.