Advertisement

基于人工智能的运营商故障分析能力提升研究

阅读量:

摘 要

传统的故障分析方法通过将运维经验和相关知识转化为故障处理指导方针或自动化脚本的方式进行操作,在针对特定类型故障时具有较高的效率和可靠性。然而这种做法存在明显的局限性即难以适应新型网络架构和组网模式的变化一旦需要更新现有的故障处理规则将会导致较高的适配和优化成本同时这些规则的更新周期往往较长影响了整体的响应效率。相比之下人工智能技术凭借其在大数据处理数据分析推理以及自适应学习等方面的显著技术优势能够在动态变化的网络环境中快速响应并根据实时数据调整算法参数从而提供更为精准可靠的故障诊断结果。基于这一背景我们重点研究如何借助人工智能技术来提升运营商对复杂故障事件的分析与处理能力以实现更高效的运维管理

0 1

概 述

在日常网络维护工作中,默认情况下故障分析被视为一项核心任务与关键环节。该过程所产出的结果不仅决定了故障处理的速度与效率,还对整体网络性能与运维成本产生了显著影响。如何能在海量实时告警数据中精准识别出具有代表性的关键性故障,并且实现"不多、不漏、不错"的目标一直是网络运维领域亟待解决的核心问题。传统的基于规则的告警处理手段(例如单网元告警数据合并,或者依据地域统计告警数量等)虽然操作简便,但在面对日益复杂的业务需求与更高水平的运维能力要求时,其适用性逐渐受到限制。特别是在需要执行非线性逻辑推理或特殊业务场景处理时,仅仅依靠基础规则框架往往难以满足实际应用需求,这使得相关算法研究成为一个极具挑战性的课题。鉴于此,本文重点探讨人工智能技术在大数据处理与自适应学习等领域的优势如何能够被有效利用以提升传统的人工智能系统性能

0 2

传统故障分析手段的弊端

传统故障分析方法主要采用基于白名单机制建立的主要次级关联和衍生关联(如表1所示)。对于基站退服现象以及射频单元出现断电问题时,在配置方面通常会设置2条主次相关联的规则。

表1 主次关联规则示例

图片

仅依赖主次关联规则可能会导致两个故障的产生。例如,在实际应用场景中,“其中一种可能的原因是射频单元发生断电导致基站陷入休眠状态”。未在派单阶段进行故障间的关联和归并,“这将导致更多的派单请求被发送出去”,从而增加额外的运维成本。传统的故障分析方法仍存在一些不足之处。

当新的故障模式呈现时,现有的规则未能及时更新,从而使得部分故障未能被迅速识别出来,并对其网络质量造成影响。

b)在实施过程中对规则进行调整与适应需要基于专家经验的支持。具体而言,在确保覆盖不同厂家的设备类型以及多个专业领域的应用前提下完成规则的优化与更新工作。然而由于该系统的测试阶段耗时较长且投入成本高昂因此整个调测与上线过程均较为复杂且周期拉长

c)多规则运行可能存在冲突,影响最终的故障分析结果。

0 3

整体设计思路

为了克服传统故障分析手段存在的局限性,本方案采用了AI技术作为解决方案.人工智能的关键在于机器具备自主学习能力.在这一领域,机器应掌握哪些核心技能[2-3]?当系统面临海量告警数据时,故障分析的本质在于对告警数据进行聚类分析,并准确识别出对应的故障点及其根本原因.这就要求我们从这些信息中提取关键特征,并将其转化为可供模型处理的基础数据.通过构建一系列特征维度,利用特定算法模型进行推理和预测,最终实现对复杂系统状态的有效判定与优化建议.

经过学习和训练后, 该系统被用来在实战中通过推理过程进行验证; 其整体设计思路如图1所示.

图片

图1 智能故障分析方案架构

在时间维度与空间维度的基础上对3至6个月的历史告警事件及网络拓扑数据进行切分(归类),开发一种基于贝叶斯理论与数据离散度分析相结合的频繁性挖掘AI诊断系统。该系统设计采用专家知识注入方式(即利用CT网络中设备间故障传递机制作为先验知识),并整合生成一张反映系统故障扩散路径的关键图表。这张图表能够帮助在推理阶段迅速定位新的告警背后的实际问题根源。同时它还具备对重复扩散、冲突现象以及循环扩散关系进行检测的能力。对于常规网络环境每周更新一次即可保证系统的稳定性;而对于设备组配置较为动态变化的场景则建议每日更新以适应快速变化的情况。

在推理态下构建实时监控体系时,在线处理技术可被有效应用以追踪并解析动态变化的异常事件。这些事件不仅会触发时空关系分析进而形成初步的异常模式识别结果,并通过结合预先建立的因果网络模型来深入挖掘潜在的问题根源。随后系统将整合上述分析结果形成完整的异常诊断方案以支持及时响应策略制定

训练态与推理态都建立在告警信息的准确性和系统拓扑结构的完整性之上。这些告警设置需满足以下主要限制条件。

规范化的告警数据管理必须遵循统一的标准格式,并涵盖以下核心要素:关键指标名称;唯一标识符编号;设备所属类别;网络单元标识;业务领域定位信息;管理区域位置信息;制造商品牌标识;事件触发主体或触发来源信息;物理机房位置信息;通信线路连接状态描述;网络运维负责人身份认定以及地理分布区域信息等详细参数。

b)告警时间一致性。

(a)不同网管和本系统之间的时间设置与实际时间同步。

(b)网元与网管之间的时间同步。

(c)本系统时间设置与实际时间的同步。

(d)告警从网管北向上报到本系统活动告警的入库时延小于30 s。

c)拓扑还原完整度大于95%(拓扑还原出来的链路/网络中实际链路数)。

d)网元机房关系完整度大于95%(机房信息准确的网元数/所有网元数)。

0 4

核心算法逻辑

如前所述,在机器学习体系中核心是提取有效的特征并加以利用。在CT领域中这些告警之间存在固有的关联性只有通过识别这些固有的关联性我们才能获取到有价值的信息进而获得高质量的特征数据。

a)时序一致性。由同一故障触发的一系列告警,其告警事件发生的时间点接近,可能具有内在联系。

b)空间相关性。网元/设备、机房以及邻近区域的拓扑对象触发的告警事件之间可能存在关联关系。

c)网络传导性遵循3GPP协议和TCP/IP协议规范运行,在各协议栈之间存在着警报关联现象。通过3GPP协议结合现网运维实践经验,在网元内部及网元间提取故障传播规律性特征;其中3GPP协议呈现出自下而上的影响特征:例如,在物理层面出现问题通常会导致链路、网络及业务层面呈现不同程度的症状;但若物理层面无异常情况下出现链路问题,则可能会影响到网络和业务层面;反之亦然则不成立的情况较为少见。此外,在不同专业领域间也存在着相互依存与相互制约的关系:例如无线基站设备因供电不足导致传输设备端口失效(接收不到信号),而传输设备出现供电中断则可能会影响多个无线基站的运行状态退服情况等具体实例可作详细阐述

本方案的核心理论支撑由上述3个关键特征构成。其中第3项特征尤其关键,在于将CT领域经验与AI算法模型进行有效结合,在此基础之上实现了人工智能在CT领域智能故障分析取得良好应用的重要基石(业界通用的智能告警关联技术主要基于前两个关键特征)。然而,在人工智能技术的学习过程中会不可避免地积累大量无用甚至错误的经验规则,这导致后续阶段专家进行标注的工作量显著增加。在构建AI算法模型时需提前融入CT设备运行机制的核心知识。

通过三种关联模式将各网元的故障信息挂在网络拓扑结构中,并利用图搜索算法对节点、连线及其走向进行信息展示;然后整合各类故障关联关系数据,并整合各类故障关联关系数据,并整合各类故障关联关系数据,并整合各类故障关联关系数据,并整合各类故障关联关系数据,并整合各类故障关联关系数据,并整合各类故障关联关系数据,并整合各类故障关联关系数据,并整合各类故障关联关系数据

在拓扑中,当某个节点发生告警时,则称该节点处于激活状态(亮起状态)。在指定的时间范围内,在这些被点亮的节点之间形成的最大的连通域中的所有告警事件构成了一个子拓扑(subtopo)。这个子拓扑代表特定时空范围内的全部告警事件集合,并且在相应的时间框架内这些告警事件的空间分布应尽可能覆盖最大的连续区域。

在挖掘过程中,子拓扑的发展过程遵循自底向上的特性。当多个子拓扑因某个节点被点亮而相互连接时,则需要对这些相连的子拓扑实施合并操作,以此保证始终维持着最大的连通区域。由此可知,在一定时间段内不断扩张的空间范围即构成了故障现象。具体而言,在空间维度上的边界即代表相应子拓扑所能达到的最大延展限度。

随着技术的发展不断扩张(也可能维持现状),它何时达到终点呢?首先,在时间维度上被两个因素所限:单步等待时长和整体等待时长。

单步告警间隔时间定义为一个子拓扑上相邻两条告警到达时间之间的间隔长度;而子拓扑的整体告警持续时间则是从第一条告警开始起到全部告警完成为止的时间总长度。这两者均设有各自的阈值标准:当子拓扑的单步告警间隔时间超过预设的单步超限阈值时,则认为该子拓扑已经完成;反之,在整体告警持续时间超过设定的整体持续阈值之前,则视为未完成。

图2展示了子拓扑单步等待时长的示意图。这些告警(A1至A7)是按时间顺序依次抵达同一子拓扑的。对于子拓扑1而言,在经历A2与A3之间单步等待时间超过单步超期时间的情况下,在完成对A2事件的处理后会立即关闭。而对于子拓扑2来说,则是在经历多次等待后发现整体等待时间已超出整体超期限制,并在此情况下,在处理完所有相关事件后也会关闭。

图片

图2 子拓扑单步等待时长示意

整体超期的主要受业务因素影响,例如设定为SLA(Service Level Agreement)。单步超期有两种判定方式:一种是通过直接指定经验值来判定,例如将所有故障统一设定为3分钟的等待时间;另一种则是利用机器学习技术对单步等待时长进行建模,并实时动态预测各个子拓扑的单步等待时长,从而判断故障是否属于单步超期情况。

基于专家经验设定的故障单步等待时长被固定为恒定值。然而这一方法的局限性在于难以兼顾多种不同的情况。值得注意的是单步等待时长短随不同的故障场景而有所变化其中在多数情况下能够快速完成任务例如某些故障可在3分钟内及时发出警报然而也有部分复杂的故障可能需要持续10多分钟甚至长达数小时才能完成处理过程这种差异的存在使得采用统一固定的等待时间参数存在一定的合理性边界条件必须根据具体的系统运行需求进行权衡最终决定的人工设置参数仅能尽力适应大多数故障的情况

基于历史数据进行分析, 利用机器学习方法确定单步超期, 该方法可有效规避单纯依据经验设定单步超期的不足之处。本文主要采用泊松过程作为模型基础, 按照这一思路对告警事件的时间间隔进行建模研究。其中, 该模型的输入参数为特定时间段内的历史告警记录数据, 输出结果则是一系列关于各类告警事件等待时间的概率分布模型。以某类典型告警Ai为例, 在分析其发生后的时间序列内各次后续告 alarm 的发生情况基础上, 建立相应的 Ai 故障后 waiting time 预测模型(见图3)。

图片

图3 告警等待时长预测过程

对于系统中的某一条告警事件A_{i,j}而言,在该事件发生后,在指定的时间窗口T_{tolerance}内,在融合拓扑结构下该网元节点及其n阶邻居区域内的后续触发告警事件会被整合到集合S_{i,j}中

遍历所有的j,得到告警Ai的泊松过程参数——强度(intensity)λ,λij=

图片

,λi=

图片

令Ai对应的时间间隔长度为wi,则在时间段[N(t),N(t)+wi]内,告警事件的发生次数遵循泊松分布规律:

图片

(1)

假设在wi时间内有告警发生的概率为α,则无告警发生的概率为1-α。所以,

图片

进一步,

图片

基于时空维度实现告警聚类。
通过图搜索方式完成故障传播图的叠加分析。
通过上述方法实现故障根源识别,并构建root cause incident graph(RIG)。

该时空流式聚类过程如图4所示,在实际应用中具有重要的研究价值。通过该算法实施后,在较短时间内即可完成 teller 数据的聚类并形成一个个独立的 teller 集合。针对这些已经被时空维度划分后的 teller 集合,在后续阶段需要利用故障传播机制构建对应的模型,并且通过建立基于拓扑关系的知识库,并结合先进的路径搜索算法来定位具体的技术节点位置(见图5)。

图片

图4 时空流式聚类示意

图片

图5 故障传播示意

用数学语言描述寻找根因网元的过程,具体如下。

a) 建立超拓扑HG,将其转化为无向图G。

b) 寻找G的所元件(component){̂

图片

},并按HG将其恢复成有向图{Ci}。

c) 定义跨域边集合CE={cej}。

d) 如果E(Ci)∩CE≠∅,则Ci∈Cc。

e) 如果E(Ci)∩CE=∅,则Ci∈Cs。

f) 对于所有的Ci∈Cc,寻找V(Ci,din=0)。

g) 如果V(Ci,din=0)≠∅,则为V(Ci,din=0)的Ci的根因节点。

h) 如果V(Ci,din=0)=∅,则说明一定存在双向边,按照i)处理。

V(C_i, din=0)=∅时,在该网络中选取所有双向边构成的子图Cidouble,并将其转换为无向图。

图片

图片

即为根因节点。

j)如果Ci∈Cs,则V(Ci)=∅,即无根因节点。

以图6为例展示了某智能故障分析实例,在此示例中左侧呈现了局部网络拓扑结构示意图右侧则明确了告警传播关系网络模型。当系统接收到告警信息后 通常情况下 我们应在10分钟内完成响应工作 而在采用传统诊断手段处理类似故障时 则通常需要超过30分钟才能完成整个分析流程

图片

图6 智能故障分析实例

0 5

智能故障分析应用效果

如前述,在处理过程中,故障分析的核心任务是实现告警的聚类、识别出故障点及其原因的有效判断。
为了量化评估智能故障分析的效果,则可设置两个关键指标:即

  • 故障聚类覆盖率
  • 根因识别准确率

故障集群覆盖率达到

图片

(2)

b)根本原因准确性。在计算根本原因准确性时,涉及异常根本原因的故障组应当由运维工程师进行反馈。对于实际操作中的准确性验证,在计算过程中应采用人工抽样检查的方式,并参考相关领域专家的专业意见进行辅助判断。

图片

(3)

经过实测分析显示,在N市实施的无线+IPRAN接入环组网方案中包含多达7800个及以上的4G网络设备,并采用多品牌组网策略。这套方案实现了对故障聚类的全面覆盖(覆盖率达到90%),并能精准识别根本原因(识别准确率高达93%),从而将日常维护工作量减少了约7%。具体而言,在某典型日志中所记录的具体告警数据统计结果与包含6930个有效故障案例的故障场景分布情况均可通过图2和图3进行详细呈现。

表2 告警统计实例

图片

表3 故障分类实例

图片

通过深入的数据分析研究发现,其中大部分根因问题源于基础数据存在缺失或准确性不足的情况,如在机房信息出现偏差的情况下,会导致同机房网络设备的故障原因判定出现偏差(约30%);此外,由于网络设备间拓扑关系数据缺失所引发的问题(约20%)以及告警响应延迟现象的存在(约10%)也会对最终结果产生影响.这些因素的存在将直接影响到最终的故障原因判定结果.此外,在某些新型组网场景中,现有算法模型可能无法完全适应新的网络环境需求,这种情况下,则需要结合专业专家的意见持续优化相关算法模型.

0 6

结束语

经过对传统故障关联技术的深入研究后发现,在面对新网络业务变化时表现出明显不足。本文提出了一种创新方法,在故障关联分析领域首次引入人工智能技术,并结合CT领域的专业知识作为第三维度的关键特征。显著提升了智能分析结果的准确度。此外,在实际应用中还存在因基础数据治理不完善导致的问题。针对这一问题,在后续工作中可以从两个方面着手:一方面优化和提升基础的数据治理工作;另一方面持续优化算法模型使其能够适应更多复杂的组网模式。

全部评论 (0)

还没有任何评论哟~