您的当前位置:首页正文

数字时代运维先行,智能运维标准应时而生

2023-06-15 来源:好走旅游网
AIOPS

数字时代运维先行,智能运维标准应时而生

智能运维国家标准工作组

摘 要:作为人工智能在运维领域的创新应用,智能运维已成为现代化数据中心应对复杂技术架构、严苛运行要求等一系列挑战的必然选择。顺应这一趋势,智能运维系列标准提供了一套全新的指导框架,本文重点解读了该系列标准的核心内容——以组织治理为引领、以场景实现为中心、以能力域构建为支撑所组成的智能运维能力框架。

关键词:智能运维;组织治理;能力域构建;场景实现

数字化转型背景下,组织创新、技术创新、融合创新、跨界创新等快速缔造形成了新一轮发展趋势,众多企业纷纷借此来实现质量变革、效率变革与动力变革。其间,数字技术在与企业业务深度融合的同时,也使得IT运维难度不断增加,依靠人力堆积的传统运维方式已愈发难以满足全新的IT运维要求,而引入更为先进的工具和手段,成为应对新时期诸多挑战的必然选择。在此背景下,数据中心逐步从以制度和流程为主驱动的传统模式,快速向以数据与算法为主驱动的智能运维阶段迈进。

帮助同业深入了解智能运维的实现路径,厘清建设思路、明确建设方向、掌握建设方法。

总体而言,智能运维如今尚处于初级发展阶段,其标准研制工作需遵循“循序渐进、框架先行”的基本原则。从概念上讲,“智能运维(Algorithmic IT Operations)”由Gartner在2016年率先提出,意指基于算法的IT运维。此后,随着人工智能技术的发展,2018年Gartner将其英文全称更改为Artificial Intelligence for IT Operations,表明人工智能在IT运维领域的应用。此后,智能运维的概念不断被补充完善,但作为一种全新的运维模式,仍需要融入更多要素去实现传统运维的转型升级。

在标准建设方面,系列国标的第1部分是通用要求,侧重于智能运维能力框架的构建。在此基础上,工作组聚焦于数据、算法、技术等三个核心能力要素,致力于为智能运维框架打造坚实的“地基”。其中,数据是支撑智能运维的基石,算法是挖掘数据价值的关键,技术是实现智能运维的手段,上述三种要素也同时构成了系列国标的第2、第3和第4部分。智能运维系列标准之间的关系如图1所示。

一、智能运维能力概述

当前,由于缺乏统一标准和框架指导,智能运维的实践应用效果参差不齐,诸多疑问亟待解开。为此,智能运维国家标准工作组(以下简称“工作组”)总结提出了智能运维领域的三大核心目标:一是解答什么是智能运维,即统一智能运维的定义;二是分析智能运维的能力水平,制定业界认可的智能运维能力评估框架;三是提炼成熟度评估模型,引导业界打造最佳实践。结合上述目标,工作组本着“从实践中来,到实践中去”的工作宗旨,开启了智能运维系列国标研制工程,以期能

86

FINANCIAL COMPUTER OF CHINA

Copyright©博看网. All Rights Reserved.场景实现特征力要素域

智能运维AIOps本栏目由新华三技术有限公司独家冠名信息技术服务 智能运维 第1部分:通用要求信息技术服务 智能运维 第2部分:运维数据治理信息技术服务 智能运维 第3部分:运维算法治理信息技术服务 智能运维 第4部分:运维技术图1 智能运维系列标准之间的关系二、智能运维能力框架解析

2021年9月,智能运维“以行促知”的阶段性成果——《信息技术服务 智能运维 通用要求》(以下简称《通用要求》)正式发布,智能运维能力框架作为其主要研究成果,核心大体可归结为“三驾马车”,即“以组织治理为引领、以场景实现为中心、以能力域构建为支撑”。智能运维能力框架如图2所示。

旨在打破原有职能团队间的“竖井”,消除数据壁垒,同时以组织治理为引领实现融合创新,进而高效应对各种错综复杂的环境。换言之,组织是保障智能运维可持续发展的重要力量。

举例来说,在构建智能运维模式的过程中,如果仍依赖各自为政的开发模式,没有将不同运维场景与共同用到的数据、技术等进行整合和沉淀,并实现能力共享,难免会出现大量重复建设,从而增加后续迭代的复杂度,甚至造成前台“烟囱林立”、后台支撑乏力的局面,此

1.以组织治理为引领

智能运维是基于数据和算法驱动的新型运维方式,

能感知组织战略会描述自学习会诊断可决策自执行自适应场景分析场景构建场景交付效果评估管理方针组织架构组织文化数据建模元数据管理数据采集数据加工数据存储质量管理数据服务数据安全数据探索特征提炼分析决策可视化安全可控接入管控安全管控过程管控执行管控相关方需求和期望人员技术过程数据算法资源知识图2 智能运维能力框架Copyright©博看网. All Rights Reserved.2022 . 07 中国金融电脑

87

AIOPS

后更是要面对需求与开发间的大量矛盾,最终落得“用不好、不好用”的差评。因此,智能运维建设首先应作为“一把手工程”,从组织层面进行统筹规划、统一建设。

从实践角度,智能运维是一项对创新性要求很高的工作,运维组织需打破传统思维墙,建立柔性工作团队等新型的协作机制,并引入灵活的创新人才激励措施,同时广泛地发动运维人员参与创意挖掘、需求沟通、开发测试和体验调优等活动;此外,还可通过开展竞品分析、创客演说等活动营造创新氛围,建立可跟踪的沟通反馈渠道来及时获得需求建议,进而不断强化内部协作和创新机制。换言之,“以组织治理为引领”即坚持以人为本、管理与技术并重的发展理念,逐步实现运维人员在智能化建设工程中的角色转换。

3.以能力域构建为支撑

能力域建设既是场景实现过程中的经验沉淀,也是后续打造更多场景的储备与支撑。在标准编制过程中,工作组提出了数据管理、分析决策、自动控制等三大能力域,并将其定义为智能运维场景建设的根基。一般情况下,运维数据主要用于监控和排障,经常被看作是一次性消费,并未得到足够的重视。但是,随着运维数字化程度的逐步提升,智能运维要求有高质量数据作为基础支撑,甚至数据质量还将直接决定运维智能化的最终水平。

一旦具备了高质量的运维数据,运维数据分析决策即成为了智能运维领域的重要课题,其实现方式既可以基于海量数据进行机器学习,也可以依靠运维专家的经验和知识获得。在此基础上,企业可以根据不同的场景需求对运行系统作出合理判断或结论,并驱动自动控制能力执行运维操作,进而构建形成智能运维“大脑”。

值得注意的是,如要将分析决策中得到的运维判断与各个工具、平台、流程有效联动,离不开强大的自动控制能力。从某种意义上讲,自动控制能力是大幅提升运维工作效率的关键,它相当于运维的“手”和“脚”,不仅可以替代人工执行大量重复性的日常运维工作,还有助于促进运维操作标准化,提高运维流程的可控性,最终将运维知识进一步固化和沉淀到数字系统中。

2.以场景实现为中心

传统运维通常是基于流程梳理来界定各类角色职责,进而打破运维职能团队的部门墙,推动运维活动有序、高效地开展。与之相比,智能运维通过将新一代信息技术,尤其是人工智能技术应用到运维领域,可替代部分重复繁琐的人工操作,同时为管理角色赋能,帮助其处理复杂的分析决策活动,而实现运维场景分析则是首要环节。

一般情况下,运维场景主要指一系列实现具体运维目标时所需的人员、活动与对象的组合。场景既是智能运维需求的起点,也是最终效果的体现,其通过智能特征宣示了与以往传统运维场景的区别。简言之,“以场景实现为中心”旨在表明智能运维应以运维为中心,而不是脱离运维单纯在技术上“闭门造车”。

举例来说,在场景实现过程中,应首先根据场景复杂度、技术实现难度、数据质量情况、资源支持情况、需求紧迫性等要素,明确场景构建的阶段和步骤,之后再采用列举、分析、归纳等方法,识别场景建设的运维角色、运维活动、运维对象、智能特征等内容,最后则是应设立可评估或可量化的指标体系,如故障发现准确率、平均故障修复时间等。

综上,本文所述标准编制过程整体遵循了“以行促知”的原则,后续,“知”的重要性将体现在对“行”的指导上。未来,在国标征求意见过程中,工作组还将重点开展“以知促行”工作,充分发挥标准的引领作用,通过开展应用试点,推动国内智能运维水平迈上新的台阶。

参考文献:

[1] 中国电子工业标准化技术协会.信息技术服务 智能运维 通用要求:T/CESA 1172-2021[S].北京: 中国电子工业标准化技术协会,2021.

栏目编辑:郑清源 ***********.cn

88

FINANCIAL COMPUTER OF CHINA

Copyright©博看网. All Rights Reserved.

因篇幅问题不能全部显示,请点此查看更多更全内容