在统计学中,数据分析可划分为描述性统计分析、探索性数据分析以及验证性数据分析。所谓描述性统计分析,就是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体的特征;探索性数据分析侧重于在数据之中发现新的特征;而验证性数据析,则侧重于验证或推翻已有的假设。 《数据分析》一书中介绍了数据描述性分析、非参数方法、回归分析等分析方法并介绍了常用数据分析方法的SAS实现过程。第一章介绍的数据描述分析是利用最基础的数理知识实现最简单的数据分析,包括对均值、方差、中值等的计算,数据分布图的勾画,对多元数据的相关分析等。这些简单的分析是复杂数据分析的基础。简单的数据分析在大多数情况下无法满足信息使用者的要求,这时,就需要对数据进行更深入的分析。
回归分析基于观测数据,建立变量间的适当以来关系,用以分析数据的内在规律,可用于预报、控制等问题。回归分析中要解决的问题有:参数估计、假设检验、模型选取等。模型的选取尤为关键,一个好的模型,既要较好地反映问题的本质,又要包含尽可能少的自变量。模型的选取有穷举法和逐步回归法两种。一个好的模型可以准确地预测应变量的值,在数据分析中起到重大的作用。该部分内容与上学期所学的《计量经济学》有诸多相同之处。数据分为三大类,即:截面数据、时间序列数据和虚拟数据。
第七章所介绍的时间序列分析正是对时间序列数据的普遍的处理方法。时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列。其中,AR序列、MA序列、ARMA序列是最基本的三种时间序列形式。时间序列分析旨在建立一个平稳的序列模型用以预测将来某一时刻的数据。平稳的时间序列满足序列的分布特征不随时间的变化而变化,宽平稳时间序列具体要求:有常数均值、常数方差、任何两点间的协方差只与两点间的间隔有关。
第八章介绍了Bayes统计分析,贝叶斯统计中的两个基本概念是先验分布和后验分布 。先验分布:总体分布参数θ的一个概率分布。贝叶斯学派的根本观点,是认为在关于总体分布参数θ的任何统计推断问题中,除了使用样本所提供的信息外,还必须规定一个先验分布,它是在进行统计推断时不可缺少的一个要素。他们认为先验分布不必有客观的依据,可以部分地或完全地基于主观信念。后验分布:根据样本分布和未知参数的先验分布,用概率论中求条件概率分布的方法,求出的在样本已知下,未知参数的条件分布。因为这个分布是在抽样以后才得到的,故称为后验分布。贝叶斯推断方法的关键是任何推断都必须且只须根据后验分布,而不能再涉及样本分布。
第九章所介绍的SAS软件体现了该软件在数据分析中的强大功能。SAS软件处理数据方便快捷,但要真正地利用好该软件发挥出其强大的功能,则还需要软件操作者拥有扎实的数据分析理论知识。
数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。数据分析可帮助人们做出更合理的判断,以便采取更适当的行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如:一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划,这对企业的发展是极具重要性的。基于数据分析的重要作用,它在日常生活中有着广泛的应用。
因篇幅问题不能全部显示,请点此查看更多更全内容