大数据挖掘及分析技术研究
吴胤霖 张必彦 曾科军 中国人民解放军92124部队摘要:介绍了大数据产生的背景和来源,针对人们对大数据进行挖掘和分析的迫切需求,提出了数据挖掘和分析的过程,阐述了数据挖掘和数据分析的几种方法,最后作了总结。关键词:大数据 数据挖掘 数据分析引言自计算机和互联网技术飞速发展以来,人们的工作、生活乃至思维方式都受到了巨大的影响。二十一世纪以来,互联网得到了快速建设,尤其是移动互联网和智能终端迅速普及,导致全世界数据量出现爆炸式增长,每年产生的数据量已达到ZB量级。如今,各行各业中己经开始积累着大量数据。可以断言,我们正处在一个大数据时代。国外的谷歌、亚马逊,国内的阿里巴巴、腾讯等企业投入了大量的人力和财力到大数据的挖掘和分析中,并从中获取了大量的机遇和财富。更多人希望从这些数据中获得机遇和财富,因此也意味着人们对数据挖掘和分析提出了更高的要求。数据挖掘就是从大量数据中发现隐藏信息和知识的过程。由于人们面对的数据量非常的庞大,数据的种类非常的丰富,因此,数据挖掘逐渐形成了一个学术领域。数据挖掘涵盖了多个学科的知识,包括数学、统计学、计算机科学、机器学习等等,在数据分析的过程中还会涉及到社会学、经济学、心理学等等。它的目的就是从大数据中发现知识、规律和趋势,为决策提供信息参考。数据挖掘技术近几年发展很快,其成果己被广泛应用于管理决策、市场分析、人工智能、国家安全和生产控制等领域。1 大数据挖掘及分析过程大数据挖掘及分析通常按照以下步骤进行:(1)明确问题。无论面对何种存储格式,何种类型的数据信息,首先要清晰的定义出问题,明确数据挖掘的目的;(2)数据预处理。在面对海量原始数据或者大型数据库时,为提高效率,首先要提取出需要进行挖掘的目标数据集,然后再对目标数据集进行预处理。数据预处理的内容通常包括检查数据的完整性、数据的有效性、量纲的转换复原、去除数据噪声、补全缺失数据,去除无效数据等工作。(3)数据挖掘。根据数据的类型、数据的特点以及数据挖掘的目的选择一种或多种恰当的算法,应用于经过预处理的数据集上,进行有目的、有效率的数据挖掘。(4)数据分析。对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。2 数据挖掘的主要方法目前较为常用的数据挖掘方法主要有以下6种:⑴神经网络方法。神经网络方法是在模拟人脑神经组织的基础上发展起来的方法,它具有自组织自适应性,适合并行处理和分布存储,拥有非线性映射能力和容错能力,非常适合用于数据挖掘。在对模型的预测中,该算法具有很强的优势,利用神经网络方法可以对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位时,速度快,同时描述也很简洁,在大规模数据处理时,这种方法的应用性很强。但是神经网络算法也有收敛速度较慢的缺点。⑵遗传算法。该算法是一种随机搜索算法,常用来解决最优化问题。学者们受到生物学里遗传、基因突变和杂交等现象的启发,从而发明了这种随机搜索算法。遗传算法具有隐含并行性、较好的收敛性和可扩展性等优势,从而在数据挖掘中得到了较为广泛的应用。但是,遗传算法也有编码复杂、训练时间长,而且可能得到的是局部最优解而非全局最优解等缺点。⑶粗糙集方法。粗糙集是1982年由波兰学者首先提出的一种建立在分类基础上的理论,它的诞生就是为了解决不精确和不确定知识的问题。粗糙集方法在处理不确定问题时不需要先验信息,而且能在保留信息的前提下有效的对知识约简,算法也比较简单。该方法可以和神经网络方法结合起来使用,能有效加快神经网络的收敛速数码世界 P.160
度。粗糙集方法在很多领域中已经得到了广泛应用,而且自身也处于不断发展之中。⑷模糊集方法。模糊集也是一种研究模糊现象的方法。它以模糊数学为基础,通过建立隶属函数来对问题进行模糊评判和分析。模糊集方法目前已经解决了很多传统理论无法解决的问题,并且取得了良好的效果。模糊集方法的主要缺点是在需要提高精度的时候,必然会降低决策速度,甚至在一些复杂的系统中无法取得满意的结果。⑸决策树方法。决策树是通过树状图来表示思考决策的过程,本质上决策树是用于处理无规则数据的分类规则方法。该方法特别适合处理大规模的数据,从中找到人们希望得到的有用信息。决策树描述比较简单,而且拥有较快的分类速度。但它也有对阈值比较敏感的缺点,学者们也正在致力于它的改进之中,以期获得更好的效果。⑹统计分析方法。统计分析指的是通过建立数学模型来研究数据、字段之间存在的关系和规律,从而得出有用的、定量的结论。它可以揭示数据中的逻辑关系和数量关系,对比分析、回归分析、结构分析、相关分析等都是较为常用的分析方法。3数据分析根据不同的分析任务可选择不同的数据分析方法。数据本身是冰冷的、枯燥的,要想让数据变得生动,易于分析,可以利用图形图像处理、计算机视觉等技术,通过把数据转化为图表、三维动画等形式来便于对数据加以进一步的分析,由于大数据的特点可以直观地呈现出来,因此人们可以更容易地从中获取更多有用的信息。当前,大数据分析可以利用Hadoop平台。Hadoop框架最核心的就是一个分布式文件系统(HDFS)和一个分布式计算系统(MapReduce)。HDFS可以让多台计算机协同工作,数据吞吐量大,而且具备较高的容错性。该系统对计算机硬件要求不高,它在大规模数据处理领域有广泛而深远的意义。MapReduce本质上是一种并行运算的编程模型,它通过映射和规约的思想来应对海量的数据处理和分析。MapReduce把复杂的任务分解成若干个简单的任务来处理,然后对前面的结果进行汇总。由于这种\"分而治之\"的思想,使得MapReduce擅长处理大数据。4结束语数据挖掘和分析技术多种多样,文中介绍了常用的一些方法。每种方法都有自己的优势,同时也有局限性。在实际应用中,需要结合实际情况,选择适合的一种方法或者把几种方法结合起来使用,才能取得满意的效果。参考文献[1]程学旗,靳小龙,王元卓.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889- 1908.[2]刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报(工学版),2014,48(6):957- 969.[3]杨舒林.智能分析技术发展现状及应用[J].中国公共安全,2015,08(14):207- 209.[4]刘正涛,王建东.Web 数据空间技术研究[J].计算机工程与应用,2012(7):12-17.第一作者简介吴胤霖(1979-),男,硕士,工程师,主要研究方向为数据处理.
因篇幅问题不能全部显示,请点此查看更多更全内容