浅析大数据关键技术
2023-01-15
来源:好走旅游网
浅析大数据关键技术 成峰辉(中国联合网络通信有限公司陕西省分公司) 【摘 要】大数据,是继云计算技术、物联网技术后又一热门信息技术,它的本质是从各种类型的数据中快速获取有价值信息的技术。 【关键词】大数据;关键技术 【中图分类 ̄lTP274 【文献标识码】A 【文章编号】1006—4222(2015)17—0005—01 根据大数据的特点和处理过程,大数据的关键技术一般 时还具备NoSQL的扩展性。 包括:大数据获取、大数据预处理、大数据存储、大数据分析、 5大数据分析及挖掘技术 大数据检索、大数据展现与应用。 (1)机器学习。机器学习(Machine Learning)是研究计算机 1大数据处理常见技术架构 怎样模拟或实现人类的学习行为.以获取新的知识或技能.重 目前常见的大数据处理技术架构有:MapReduce和 新组织已有的知识结构使之不断改善自身的性能。 Hadoop MapReduce分布式方法最先由谷歌设计并实现,包括 (2)数据挖掘。数据挖掘是从大量的、不完全的、有噪声 分布式文件系统GFS(Google File System)、MapReduce分布式 的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们 编程环境以及分布式大规模数据库管理系统BigTable。 事先不知道的、但又是潜在有用的信息和知识的过程。 Hadoop是谷歌分布式处理系统框架的开源实现.它在可伸缩 (3)模式识别。模式识别指对表征事物或现象的各种形式 性、健壮性、计算性能和成本上具有无可替代的优势。 的信息进行处理和分析,以对事物或现象进行描述、辨认、分 2大数据获取技术 类和解释的过程,是信息科学和人工智能的重要组成部分。 大数据获取包括数据采集和数据分享。大数据的采集是 (4)统计分析。对于大数据的统计分析主要利用分布式数 指利用数据库等方式接收RF1D射频数据、传感器数据等方式 据库,或者分布式计算集群来对存储于其内的海量数据进行 获得的各种类型的结构化、半结构化及非结构化的海量数据。 普通的分析和分类汇总等.以满足大多数常见的分析需求。 大数据分享通过数据集市和开放数据平台等方法实现。 (5)并行处理。大数据分析的三大挑战是数据量的膨胀、 3大数据预处理技术 数据深度分析需求的增长和数据类型不断多样化 大数据分 数据预处理就是对采集的数据进行清洗、填补、平滑、合 析采用MapReduce等并行处理方式,将海量数据进行分解并 并、规格化以及检查一致性等处理.并对数据的多种属性进行 分布存储.由数据挖掘系统并行处理。然后将多个局部处理结 初步组织.从而为数据的存储、分析和挖掘做好准备。 构合成最终的输出模式.实现海量数据挖掘。 数据清理包含遗漏值处理、噪音数据处理以及不一致数 6大数据检索 据处理 数据集成是把多个原数据中的数据结合、存放到一个 数据库实时检索。数据库实时检索是指在数据仓库或者 数据库中存储。数据变换主要过程有平滑、聚集、数据泛化、规 NoSQL等大数据存储平台上.或者多个不同结构的数据存储 范化以及属性构造。数据规约能够把握主要数据,加快分析速度。 平台之间快速、实时地查询和检索不同结构的数据 4大数据存储及管理技术 实时搜索引擎。实时搜索是对互联网上的大量数据和信 4.1分布式文件系统 息进行即时、快速搜索,实现即搜即得的效果。目前各大搜索 分布式文件系统将大规模海量数据用文件的形式保存在 引擎都在致力于实时搜索的实现 不同的存储节点中.并用分布式系统进行管理 典型的分布式 7大数据展现与应用技术 文件系统产品有GFS、HDFS(Hadoop分布式文件系统)以及分 目前,大数据重点应用在商业智能、政府决策、公共服务 布式数据库HBase 等领域。例如:商业智能技术.政府决策技术.电信数据信息处 4.2数据仓库 理与挖掘技术,环境监测技术。大规模基因序列分析比对技 数据仓库采用更适于数据查询的技术.以列式存储或 术,多媒体数据并行化处理技术,影视制作渲染技术,其他各 MPP(大规模并行处理)两大成熟技术为代表。列式存储将数 种行业的云计算和海量数据处理应用技术等 据按行排序.按列存储.将相同字段的数据作为一个列族来聚 合存储 数据温度技术可以区分经常被防问和很少被访问的 参考文献 数据。 [1]于薇.大数据”背景下的信息处理技术分析与研究【J].数字图书馆论 4.3非关系型数据库(NoSQL) 坛.2012(11 . [2】黄宜华.大数据研究的技术层面和主要研究内容[J1.南京大学,2012. NoSQL是区别于传统关系型数据库的数据库管理系统的 [31IBM发布大数据全球调研白皮书[M].移动通信,2013(5). 统称。与关系型数据库相比,NoSQL最大的不同是不使用SQL 作为查询语音,其数据存储可以不依照同定的表格模式,通常 收稿日期:2015—8—26 具备水平可扩展的特征 4.4 NewSQL NewSQL是改进后的SQL系统,是对各种新的可扩展/高 性能的SQL数据库的简称,可提供SQL独有的一些特性.同 羲 零;