分布式互联网流量监测模型的研究与实现
2020-12-26
来源:好走旅游网
维普资讯 http://www.cqvip.com 第36卷第8期 西安交通大学学报 VoI.36 №8 Aug.2002 2002年8月 JOURNAL OF XI AN JIAOTONG UNIVERSITY 文章编号:0253—987X(2002)08—0814—04 分布式互联网流量监测模型的研究与实现 张文杰,钱德沛,张兴军,许大炜,张 然 (西安交通大学电子与信息7-_程学院,710049,西安) 摘要:根据流量监测的数据特征,将流量数据划分为3类数据集,采用层次技术和分布式技术设计 了一个可扩展的流量监测模型,该模型在结构和功能上把流量监测系统分为3部分,繁重的数据分 析和数据表示可以从关键设备处分离出来,降低了监测系统在关键设备处的资源消耗.通过海量信 息系统测量平台的实现表明,该模型能有效地实现大规模互联网的流量监测. 关键词:因特网;测量模型;性能评价;流量监测;被动测量;可视化 中图分类号:TP393文献标识码:A Research and Implementation on Distributed Internet Traffic Monitor Model Zhang e,Qian Depei,Zhang XingjM ,Xu Dawei,ZhangRan (school of Electronics and Information Engineering,Xi an Jiaotong University,xi an 710049,China) Abstract:Facing the need of Internet traffic monitor,the tramC data iS characterized and three types are compartmentalized,then a distributed scalable traffic monitor model is designed.This model solves the architecture deficiency of current monitor systems.The traffic monitor system is divided into three parts,SO the heavy jobs on data analysis and visualization can be removed from the key nodes.As a result,its resource consume on the nodes can be reduced.The three-layer model iS discussed.The model has been implemented in a measurement platforrn,and it is found that the proposed model can realize traffic monitor for a large scale Internet. Keywords:Inter'net;measurement model;performance evaluation;traffic monitor; passive measurement;visualization 随着互联网应用日益广泛,网络性能测量的研 大量的测量工具软件,但在测量系统模型化方面所 做的工作比较少,每个研究项目自成体系.国内对网 络测量的研究多集中于小型网络范围,开发了一些 小型监测工具或监测系统,但这些单一的监测工具 在体系结构上有不足之处,如:对于每一个监测需求 都要部署一套监测工具,其规模的扩展性差,不能灵 究越来越重要.当前,国际上有关性能测量的研究项 目主要有NLANR的PMP和AMP[1l,UCSD/SD— SC的CAIDAc2_,Internet2中的Surveyor ̄ ,NSF 资助的NIMIc‘]和SLAC的PingERc ]等项目.虽然 这些项目在关键技术上取得了很大的成功,研制了 收稿日期:2002—01—04. 作者简介:张文杰(1970 ̄),男,博士生;钱德沛(联系人),男,教授,博士生导师. 基金项目: “九七三”国家重点基础研究资助项目(G1999032710);国家自然科学基金资助项目(69973036). 维普资讯 http://www.cqvip.com 第8期 张文杰,等;分布式互联网流量监测模型的研究与实现 活配置;需在每个关键设备处部署集流量采集、分析 和表示为一体的系统,监测系统占用大量的系统资 源,影响关键设备的性能;部署的测量工具只能监控 特定的业务类型,缺乏业务类型的扩展性. 本文致力于建立一个分布式互联网流量监测的 基础性平台,针对大规模互联网络的流量监测需求, 通过分析流量监测的性能指标和数据特征,设计了 一个分布式监测模型(DITM),该模型采用被动的 数据获取技术,通过对流量数据的分析和抽象,动态 地监测网络当前的流量状况和运行状态. 性能指标和性能数据分析 性能评价指标有分析性指标和实验性指标_6], 依据不同的测量需求定义和选取不同的指标,如吞 吐量、时延、连接数等.每个应用测量定义的性能指 标组成该应用测量的性能指标集P一{P ,尸2,…, ).下面按照性能数据所处的不同阶段,定义不同 的数据集. 性能指标数据集:性能测量最终形成性能指标 集尸中每个性能指标P 对应的性能数据集Fi,所 有这些性能数据的集合称为性能指标数据集,用符 号F表示.假设应用测量定义了 个性能指标,则 有F=F1,F2,…, . 原始性能数据集:直接由探针采集到的、未经过 抽象处理的网络性能数据叫原始性能数据.每个性 能评价指标有其对应的原始性能数据,探针的某个 数据采集进程采集的是某一个或多个性能评价指标 对应的原始性能数据,这些数据形成该数据采集进 程的原始性能数据集Q,有(]l (F U F2 U…U ).探针的所有数据采集进程获得的原始性能数 据集组成的集合叫作该应用测量的原始性能数据 集,用符号0表示.假设要完成对,z个性能指标的 原始性能数据的采集,需要m个数据采集进程,则 有O=O1,02,…, . 完备性能数据集:对原始性能数据初步分析抽 象,去掉原始性能数据中与性能评价无关的部分和 无用的部分,形成完备性能数据,这个过程叫性能数 据的完备化.完备化对原始性能数据集(]l初步分 析、抽象处理,形成一个或多个完备性能数据集,即 (]l (S USz U…US).完备性能数据是性能分析 的直接对象,性能指标直接从完备性能数据中抽象 提取.如果一组性能指标数据能直接从一组完备性 能数据中提取,这组完备性能数据就称为这组性能 指标的完备性能数据集,即S (F1 U F2 U…U ).所有完备性能数据集组成的集合叫作该测量 的完备性能数据集,用符号S表示.如果某应用有t 个完备性能数据集,则有S=S1,S2,…,S . 由上面数据集的定义,3种数据的包含关系如 图1所示,其中0 S F. 0:原始性能数据集;S:完备性能数据集;F:性能指标数据集 图1数据集关系图 实际测量中,()_S部分数据量很大,并且对应用 性能测量没有任何意义.S—F部分是冗余数据,虽然 对当前选取的性能指标没有重要意义,但它能反映 其他未被选取的网络性能,这对性能测量申请者直 接分析完备性能数据有参考价值.保留S—F数据能 保持性能测量的可扩展性,所以应该尽可能减少 ()-S在网络中的传输,完备化过程应尽可能降低S 的冗余性. 2 DITM模型 流量监测模型如图2所示,它是一个可扩展的 体系结构.对应性能数据所处的3个阶段,模型分为 3层:数据获取,数据存储与抽象,数据可视化. 2.1数据获取 模型中,监测系统是网络中专门配置的计算机 监测台I 数据中心 测量点 可 匪 视 化 _£ 服 FTP 务 器 厂\ 数据可梗化 面 l数据存储与抽象 数据获取 I数获.一据取 图2分布式流量监测模型 维普资讯 http://www.cqvip.com 西安交通大学学报 第36卷 系统,称为探针(Data Collector,DC).在每个测量点 插入探针,探针采用被动方式获取原始性能数据,形 成原始性能数据集,并对性能数据做最简单的初步 分析精简.本层采集的原始数据将传送到数据中心, 传送的方式有实时和非实时两种. (1)实时方式.探针可持续操作,但由于受探针 内部资源所限,所以这种方式不适用于需要对采集 数据做复杂的本地抽象加工或网络处于高负载时的 情况. (2)非实时方式.在探针交替启动数据采集和数 据发送两个阶段,首先执行数据采集,并做初步的本 地抽象,然后把数据发送到数据中心,再重新启动数 据采集.采用这种方式,本地所做的复杂分析可能会 耗费大量的时间. 2.2数据存储和分析抽象 整个监测过程会产生大量性能数据,模型中所 建立的数据中 t2,可存储这些数据.除了数据存储功 能以外,数据中心还具备数据分析功能,它对原始数 据做计算、分类、统计和重新构造等抽象化分析,提 取出能反映网络性能的数据集,抽象后的结果仍存 储在数据中心.数据的存储方式有数据文件和数据 库两种. (1)数据文件方式.这种方式对数据存取的程序 实现更接近于底层,实现方式灵活,有较高的存储效 率和存取速度,整个系统的资源开销小,它适合数据 结构简单、读写频繁且数据规模小的应用要求. (2)数据库方式.主要用于存储大规模数据,技 术成熟,支持软件和维护工具多,功能强大,可靠性 强,使用方便,程序实现比较简单. 2.3数据可视化 流量监测会生成大量的用于评价各种网络性能 指标的最终抽象结果,面对数量庞大的测量数据,很 难直接从中找出能反映重要事件的特征数据,特征 数据有可能在浏览时被忽略。因此,通过数据可视 化,用户可以定位重要事件所对应的特征数据,对网 络行为做更深入的分析. 在模型中,数据的可视化表示采用客户/服务器 模式,服务器端从数据中心提取要显示的数据集,并 构造成一定的媒体格式;客户端动态地读取数据,并 按照数据格式对数据作可视化显示.可视化工具比 较复杂,需要占用大量的系统资源,因此采用这种模 式可以把可视化任务单独放在客户端. 3 DITM的设计与实现 DITM系统是海量信息系统测量平台的一部 分,下面以国家基金委在北京建立的(2.5 Gb/s)高 速骨干网的流量监测为目标和背景,探讨DITM的 设计与实现. 3.1体系结构及测量点的部署 被动测量通过部署被动测量探针来实现,如图 3所示.探针被动监听网络流量,获取数据包头信 息,同时监控网络控制信息,如路由表的配置、路由 统计信息等. 被动测量获得的测量数据量很大,每天获取的 数据从几兆到上百兆,它随网络带宽和网络应用的 数量不同而不同.被动测量获得的是实际网络数据 和详细信息,通过对这些数据的分析抽象,可以得到 网络业务流量分布(比如类型、长度、流量来源等)、 拓扑结构、网络服务状态等网络行为信息和性能指 标. 图3被动测量系统体系结构 3.2建立数据中心和可视化服务器 数据中心建立数据库服务器系统,存储测量数 据,包括原始数据、完备数据和性能指标测量数据 集.从原始性能数据形成完备性能数据,并最终形成 性能指标数据的过程,是一个对数据进行分析与抽 象的过程.完备化过程是初步的分析过程,去掉原始 性能数据中大量的与性能测量无关的数据,形成完 备性能数据. 对一些简单的性能评价指标,如网络时延、丢失 率,可以直接从完备性能数据集中得到.另一些复杂 的性能评价指标,如拓扑结构、网络吞吐量,则需要 通过分析完备性能数据集中数据的时间和属性的相 关性,才能构造出其对应的性能指标数据集.数据挖 掘技术是数据的一种挖掘型的分析提取技术,它反 复使用多种数据挖掘算法,从观测数据中确定提取 维普资讯 http://www.cqvip.com 第8期 张文杰,等:分布式互联网流量监测模型的研究与实现 数据的规则和特征,发现数据之间隐含的相互关系, 它非常适合完备性能数据的分析与抽象. 以Web业务的监测为例,Web服务采用HT— TP协议.用户访问一次Web服务会生成一个HT- TP连接请求和多个HTTP数据传送请求,这些协 议数据包的seq域具有相关性.利用数据挖掘技术, 提取Web业务性能测量中的完备性能数据之间的 时间和seq域之间的相关性,可以构造出某一次用 户访问的持续时间、传送字节数、丢失率、吞吐率等 性能指标数据集. 根据数据文件和数据库系统2种存储方式的特 点,系统可采用2级存储策略:巨量的原始测量数据 存放在数据库系统中,数据库系统使用ORACLE; 抽象后的结果,其数据规模小,而且要被可视化部分 频繁地读取,但每次读取的数据量并不大,所以可采 用数据文件方式. 可视化服务器设置在数据中心,主要是向用户 提供Web服务和FTP服务.用户可通过浏览器动 态地观测网络性能状态图表,定位特征事件,通过 HTTP协议或FTP协议下载特征事件对应的数据 集,为流量监测的理论分析提供数据依据. 图4是某一时间段(9:30~10:30)在BUAA (北京航空航天大学)测量点访问THU(清华大学) Web服务器得到的一组流量监测统计结果,访问次 数是50次,性能评价指标选择吞吐率(B/s).从图4 可以看出,该时间段流量变化幅度比较大(最大为 55 ),这反映了服 一 噼10l o ——1 6——11——16——2—1—2—6— 31— 36——4 i—在 4O ) 务器访问性能不稳定. 4 结 论 本文分析了流量监测的数据特征,介绍了分布 式互联网流量监测模型(DITM)的研究与实现方 法.DITM是一种可扩展的层次结构模型为大规模 互联网流量监测提供了一个体系结构框架.模型以 数据流动所处的阶段分层,这种层次结构有以下优 点:各层次功能和结构相互独立,每个层次可以选用 最优的技术;层次间数据接口比较简单,各层易于实 现和维护,具有良好的扩展性和开放性;这种层次结 构易于实现主动测量和被动测量的统一. 参考文献: Eli McGregor A J,Braun H W,Brown J The NLA_NR network analysis infrastructure[J].IEEE Communica— tions Magazine,2000,38(5):122~128. [23 Huffaker B,Fomenkov M,Moore D,et a1.Measure- ments of Intemet topology in the Asia Pacific Region [A].INET’2000,Yokohama,Japan,2000. [3] Kalidindi S Surveyor:an infrastructure for Internet performance measurements[A].INEW’99,San Jose, 1999. [4]Paxon V,Mahdavi J,Adams A,et a1.An architecture for large-scale Internet measurement[J].IEEE Com— munications,1998,36(8):48 ̄54. [5]Mattews W,Cottrell L.The PingER prOject:active In— ternet performance monitoring for the HENP COiTlrnu— nity[J].IEEE Communications Magazine,2000,38 (5):13O~137. [63 Brown J A,McGregor A J,Braun H w.Network per— formance visualization:insight through animation[A]. PAM’2000[C].Hamilton,New Zealand:IETF,2000. 33~41. (编辑苗凌)