贝叶斯网络:故障诊断方法研究
一、概述
贝叶斯网络(Bayesian Network, BN)被用作一种强大的不确定性知识表达与推理工具,在各个领域中获得了越来越多的关注
贝叶斯网络遵循网络结构中的有向图模型来表示问题的状态及其关系,并整合自人工智能、概率理论、图论以及决策理论等领域的研究成果。
它采用了基于网络结构的有向图模型来表征各信息要素间的相互关联及其影响强度;通过节点变量来表征各信息要素;借助连接节点间的有向边来刻画各信息要素间的相互关联关系;以条件概率表的形式来表征各信息要素间的影响程度。
贝叶斯网络本质上是一种处理不确定性的因果关系模型,在面对不确定性问题时展现出强大的处理能力。它不仅能够实现多源信息的有效整合与综合,在多个领域都展现出独特的优势:其特性与故障诊断所需的需求存在内在的一致性,在错综复杂的联系关系上表现尤为突出;在涉及不确定信息的情况下,则能有效地完成知识表示及推理过程。
因此,在贝叶斯网络提出后不久即迅速得到故障诊断领域的广泛关注,并以其主要应用之一——故障诊断方法引起了学术界的浓厚兴趣
1、“贝叶斯网络”意义
在故障诊断领域中面临着众多不确定性挑战。特别是在航天器系统中各组件之间以及内部存在复杂的相互关联关系,并且其中充满了不确定的信息。当系统的部件数量较多时,基于模型的诊断方法通常会给出多个可能的解决方案,而由于难以对所有可能的解决方案进行测试验证,因此如何迅速且有效地区分这些可能的解决方案,从而能够迅速识别出故障部件具有重要的意义。
因此,在设备故障诊断领域所面临的主要挑战在于如何高效可靠地提取由不确定信息推导出的故障原因,并以此实现快速准确的维修操作。目前而言,在处理不确定性问题的过程中存在诸多挑战使得大部分诊断方法难以满足实际需求。而基于模型的方法虽然通过构建系统结构与行为模型来实现推理诊断但仍面临同样的局限性
贝叶斯网络是以概率关系为基础建立的一种有向图表示法;它不仅能够清晰地阐述系统的结构特征和运行机制;同时能够直观地展示系统模型的核心逻辑与关联性。
贝叶斯网络在处理复杂系统中不确定因素导致的故障方面表现出色,并被广泛认可为处理这类问题最有效的理论模型之一。
用于构建基于模型诊断的框架时
贝叶斯网络在故障诊断领域中被用来将影响结果的关键要素视为节点,在检测到特定的征兆信号出现后,则会基于各节点间的因果关联关系以及预先设定的概率模型进行分析推导,在这种情况下能够推演出可能存在的问题及其发生可能性,并最终得到诊断结论
与现有的神经网络、Petri 网等几种其他决策方法相比,基于贝叶斯网络的故障诊断方法特别适用于复杂故障情况、不确定性情况的描述,并具备并行推理和全局更新机制;其特点在于提供了一种直观的图形化表示形式,在故障诊断领域具有重要的理论价值和广泛的应用前景。
2、贝叶斯网络技术国内外研究现状
基于概率推理构建的贝叶斯网络可被视为贝叶斯方法的一种延伸方案,在面对数据缺失与不确定性问题时展现出显著的应用价值。该系统在处理复杂设备故障时表现出色,在多个领域中受到广泛关注
贝叶斯网络又被概率图模型(Probabilistic Graphical Model)所称,在不确定性知识表示与推理方面具有最前沿的地位。 自1988年Pearl首次提出以来已发展成为相关领域的重点研究方向
尽管贝叶斯网络模型如今提出的时间还不到几十年, 但其产生的根源却要追溯到1763年提出的贝叶斯理论, 这一理论乃是构建现代贝叶斯网络的关键性基础之一. 到20世纪初期, 遗传学家Sewall Wright便提出了有向无环图(DAG), 并将其发展成为经济学、社会学和心理学界广泛采用的一种因果关系表达工具.
上世纪中期,《决策树》发展出并用作描述决策分析问题的方式,并在随后演变为解决计算机辅助决策问题的方法之一》。《由于计算复杂度急剧上升》,在这一时期,《作为有向无环图的另一种替代形式——影响图(Influence Diagram)》成为提升决策分析效率的关键工具。《Pearl基于已有研究成果》,于《1988年》首次提出《贝叶斯网络理论框架》。《到上世纪9十年代》,随着高效推理与学习算法的成功建立,《贝叶斯网络》开始进入实际应用领域,并最先应用于《领域内的专业专家系统》中
目前, 贝叶斯网络领域的研究主要有以下三个方面:
- 基于贝叶斯网络的推理;
- 基于贝叶斯网络的学习;
- 基于贝叶斯网络的应用;
贝叶斯网络的推理过程大致可分为精确推理与近似推理两大类,在这一领域内学者们主要研究高效的计算方法。 当网络规模较小时,则倾向于采用基于图论优化的精确计算方法;而当网络规模较大时,则通常采用基于蒙特卡洛方法的模拟计算策略来处理复杂的概率推断问题。
基于贝叶斯网络的构建过程中,默认会涉及两个核心环节:参数估计与模型构建。针对不同特性的样本数据(即实例数据完备与实例数据不完备两种情况),这两个环节均涵盖了相应的研究内容。已有成果表明,在网络结构已知的前提下以及面对完备或不完全的数据集时(即实例数据完备与实例数据不完备两种情况),贝叶斯网络的学习问题已基本获得解决且相关算法趋于完善状态。然而,在面临实例数据不完整且网络结构未知的情形下(即实例数据不完备且网络结构未知的情况),贝叶斯网络的学习依然面临着诸多亟待解决的关键问题与挑战性课题。尽管如此,在实际应用中已有多种基于贝叶斯理论的方法已经对其他一些方法(如神经元网络与隐马尔可夫模型)形成了强有力的冲击,并获得了替代地位
基于贝叶斯网络的应用主要包括基于知识表达、软件工具研发以及实例运用等方面展开探讨。 前微软公司总裁 Bill·盖茨曾在《洛杉矶时报》发表文章指出:微软的成功源于其在贝叶斯网络研究方面的领先地位。 微软旗下产品如 Windows 2000 及 Office 系列等均已在多个领域实现了技术突破,并延伸至其他相关产品如孕产妇护理中心等,在这些系统中均采用了以贝叶斯网络为核心的智能系统进行研发与部署。 到目前为止 贝叶斯网络技术已成功应用于多个重要领域 包括工业设备故障检测(如通用电气公司的辅助涡轮诊断系统)、通信行业反欺诈系统设计(由美国电话电报公司主导)、模式识别技术(如伯克利分校语音识别系统)、航天工程领域设备故障诊断(美国航空航天局与罗克韦尔合作开发)、国防安全系统(如米特雷公司的武器反应控制系统)以及教育文化领域的人工智能辅助教学系统等
3、贝叶斯网络在故障诊断领域的应用
以贝叶斯网络决策模型为基础的故障诊断技术已在多个领域获得成功应用,在涉及燃气轮机等设备的卫星通讯设备中的应用非常广泛;集成电路制造过程中的问题处理能力显著提升;计算机网络系统的管理与故障处理也取得了显著成效;在航天推进系统中的fault detection能力得到明显增强;工业自动化打印设备的智能化水平进一步提高;汽车起动系统中的问题分析能力也有很大提升。
贝叶斯网络在故障诊断领域的典型案例包括英特尔公司微处理器故障诊断系统、美国通用电气公司的辅助汽轮机故障诊断系统、美国航空航天局与罗克韦尔公司联合开发的太空推进系统故障诊断系统、美国国家科学基金会研制的核电站状态评估系统以及惠普打印系统故障诊断决策支持系统等。西北工业大学傅军团队在柴油机动力装置领域中应用贝叶斯网络故障诊断模型,并充分运用观测数据并依据最优原则进行分析与研究,在提高诊断精度和速度的同时实现了专家知识的有效积累
这些实例展示了贝叶斯网络在处理复杂设备故障诊断问题时显示出显著的优势。不管贝叶斯网络在故障诊断领域中的哪种应用方法, 都通过描述与设备故障诊断相关的各种要素之间的关联性及其强度, 从而实现故障诊断决策的过程。
二、故障诊断常用的方法
系统故障诊断旨在识别系统的运行状态及异常情况,并基于此提供相应的诊断结果。该方法的前提条件是系统的正常检测。当系统出现故障时,则需对其类型、位置及其原因进行全面分析。最后将采取措施制定解决方案,并完成系统的恢复工作。

根据德国Disburg大学P.M.Frank教授提出的一种分类体系, 故障诊断将被划分为三个主要类别: 依赖信号处理的技术, 基于解析模型的分析以及以知识为基础的诊断方法。每种分类都有其侧重方向: 当所研究的对象具有明确数学模型时, 优先采用基于解析模型的分析; 面对难以建立系统动态数学模型的情况但又具备输入输出信号数据时, 可选择依赖信号处理的技术; 而当无法准确建立被控对象的定量数学模型时, 则应采用以知识为基础的方法进行诊断。这些分类方法本质上没有明显的优劣之分, 它们共同构成了故障诊断的重要组成部分并发挥了重要的作用
1、基于信号处理的方法
信号处理方法作为诊断领域的先驱之一被广泛应用, 其中关键的技术手段是基于阈值模型的建立. 系统输出的幅值、相位特征及其频率特性与故障之间存在密切的关系, 通过对这些关系进行建模分析, 可以用数学形式来描述. 当故障出现时, 通过对系统输出幅值、相位特征及频率特性的分析研究, 可以有效定位故障来源位置
以快速傅里叶变换为中心的经典信号处理方法在设备状态检修中发挥着重要作用。 傅里叶变换将瞬态信号的转换结果作为整个频域范围内的各个频率分量进行展示。 因此该方法不适于处理非平稳信号。
传统信号处理的主要方法有:
- 频谱分析:将时域信号转换为频域形式以揭示其本质特征的方法之一是频谱分析。例如,在傅立叶变换的基础上以频域的形式描述信号比时域描述更具简明清晰的优势,并能更深入地揭示信号的本质内容。特别是在快速傅立叶变换算法被广泛应用于这一领域之后其应用范围更加广阔因此通过傅立叶变换对信号进行幅值谱和功率谱的分析来认识其频谱结构是信号分析的主要手段。
- 相关分析:当信号受到强烈的随机干扰甚至淹没时相关分析是一种利用确定性信号规律性从干扰中分离出来或者通过计算信噪比求取通信系统特征参数及动态特性的方法。
- 细化谱分析:一种无需增加采样点即可提升频谱分辨率的方法称为细化谱分析目前最常用的是幅度调制细化方法。
- 时间序列分析:根据观测数据建立动态参数模型并利用该模型对动态系统过程进行模拟及预测控制的时间序列分析方法。
- 倒频谱(Cepstrum) 分析:倒频谱是通过对"对数功率谱"进行进一步的谱分析而得到的一种方法它能够突出功率谱图中的某些特征同时还能反映振动状态的变化情况利用其线性分离特性能够很好地实现源信号与系统特性之间的线性分离。
- 信息校核的方法:在多数控制系统的故障诊断中人们往往忽视了信息校核这一环节实际上被诊断对象的信息校核是一种简单有效的故障诊断方法因为只有正确获取了信息才能进行有效的过程监测错误的信息会导致错误结论因此可以通过物料平衡能量平衡等物理化学规律以及数理统计知识来进行信息校核当出现矛盾时一般意味着存在传感器故障或其他异常情况。
2、基于解析模型的方法
该研究主要依赖于解析模型,在故障诊断领域具有重要地位。 主要基于被 diagnosed 系统 measurement data 进行处理。 通过建立 reflect diagnostic object behavior 的 mathematical model 来计算相应的 feature characteristic values, 所涉及的主要 feature 包括 residual, parameter estimation 和 state estimation 等指标, 直接计算或经过 transformation 后将 measured 的 feature 数据与 normal 情况下的 result 对比分析, 用于实现 fault detection 和 separation 的 process.
一般而言, 基于解析模型的故障检测与分离技术包括两个阶段:
- 残差产生(Residua Generation):即通过合适的算法计算系统输入-输出之间的差异以生成残差信号的过程。
- 残差评价(Residua Evaluation):即合理选择判别函数并结合判别规则以评估故障出现概率的过程。
基于残差形成的不同原因, 基于解析模型实现故障检测与分离的方法可划分为状态估计法、等价空间法以及参数估计法三大类. 尽管这些方法各自在发展过程中逐渐形成, 但它们之间并非完全孤立, 而是存在密切关联. 等价空间法与观测器法在系统架构上具有相同的结构特性, 而参数估计法与观测器法之间的关系则体现为: 由观测器所得残差包含了参数估计所获得相关信息, 因此二者本质上实现了互补. 根据等价空间设计参数、观测器设计参数及分解设计参数之间的新型设计参数关系, 在此基础上提出了一种综合方案, 用于解决现有基于等效性原理及观测器原理实现残差发生器中的关键问题. 基于状态空间模型的设计中, 故障诊断系统主要可分为两类: 观测器法及滤波器法. 其中观测器法又可分为莱 unperron 方法、未知输入观测器方法、滑模观测器技术、模糊观测器方案以及反推(Backstepping)Observer 方法等多种实现途径.
3、基于知识的方法
基于知识体系的方法在当前研究领域中占据重要地位,并且在故障监测应用领域中占据重要地位。这些方法主要包含有两类:一类是基于特征量分析方法的故障监测技术;另一类是建立模型后进行分析的故障监测技术
其中基于征兆的方法侧重于研究故障表征与故障原因之间的映射关系这一问题无需构建系统工作的精确数学模型特别适合复杂系统的故障诊断工作。
而基于模型的方法必须对系统进行建模分析其精确度取决于具体需求设定该方法主要借助模型推理能力来进行故障诊断分析即通过模拟推理过程获得完整的故障集合从而有效提升诊断精度同时能够有效克服知识获取中的瓶颈问题又能一定程度上缓解知识库维护上的难题因此这种技术正逐渐受到深入关注和广泛研究
基于知识的方法主要有:
- 基于专家系统的故障诊断方案、
- 模糊逻辑的故障辨识策略、
- 基于故障树的系统可靠性分析技术、
- 神经网络驱动的动态系统健康评估体系
- 数据融合驱动的智能 fault diagnosis 方法
也有些将多种推理决策技术进行了融合,并发展出了多种集成型智能故障诊断体系。其中很多采用的是模糊逻辑或是基于概率的理论,并用于实现对不确定条件下问题的判断与处理。尽管如此,在实际应用中仍面临诸多挑战,在一定程度上满足了故障诊断的基本需求,并已在多个领域得到了应用实例。然而从整体来看,在处理不确定性和多源信息表达融合方面仍存在一定的局限性因此寻找更适合的方法就显得至关重要
三、基于模型的故障诊断方法
基于模型进行故障诊断的基础是建立了一个关于被诊断系统的行为模型。其核心推理逻辑在于寻找能够全面描述系统故障空间的有效方法。在实际应用中,我们构建了一个定量或定性行为仿真模型来全面描绘系统的故障可能性,并以一致性原则为基础判断检测方案的有效性。只有当系统中实际存在的故障集合与预期预测结果完全一致时才能判定该检测方案具有较高的可靠性。
基于认知的诊断方法关注系统的内在机制,并期望机器能够模拟专家解决问题的过程。这种方法强调知识的应用推理。基于深度知识的方法将故障诊断视为关键任务,并要求构建系统的结构、行为或功能模型。差异比较被视为该领域的关键思路:通过比较实际输出与预期输出来识别问题所在。若出现差异,则推断实际系统出现故障,并利用这些差异信息来寻找一致的状态假设以解决矛盾。
基于模型的诊断一般涉及三个阶段:包括诊断生成、诊断验证以及故障识别(如图2所示)。其中,在系统预期行为与实际观测结果不一致时其主要目标在于:根据推理理论推导出故障原因(即为后续步骤提供依据)。而对系统的不同异常情况进行分析则可以通过逻辑推理推导出多个可能的原因(即为后续步骤提供依据)。通过分析关键点的数据进行测试可以判断哪些潜在的原因能够合理解释系统差异进而帮助缩小可能故障范围(如输入端口或某些核心组件)。只有经过验证并能合理解释系统差异的因素才可能被视为真正的故障源(如软件错误或硬件损坏)。尽管经过验证仍可能存在多个候选因素因此可以通过收集额外信息进一步筛选排除不可能的情况从而确定最终故障源(如重新设置某些参数后观察系统反应)。(任务属于故障识别阶段)

基于描述的方式不同, 可将之划分为定量分析框架与定性分析框架. 定量分析方法又被称作解析型建模(Analytical Modeling), 它通过数学关系精确地刻画系统的输入输出特性, 故障诊断过程即为通过数学运算来推导故障模式. 然而, 定量分析方法主要针对特定单一状态进行建模, 若需完整描绘系统的运行机制则需构建多个相互关联的数学表达式. 相比之下, 定性分析方法则采用逻辑规则来定义系统的运行边界, 故障诊断过程主要依赖于逻辑推理机制. 从系统整体的角度来看, 定性分析方法能够揭示其因果关系机制及其行为特征.
1、定量模型诊断方法
定量模型诊断的基本概念在于采用解析冗余而非硬件冗余。通过分析生成器产生的偏差量来识别故障情况。当计算得到的偏差量等于零时,则判定系统处于正常状态。残差生成方法可分为两类:参数估计法和状态估计法
-
参数估计法
其核心观点是模型参数源自系统物理参数的组合。该方法通过输入输出观测数据推算模型参数进而推算出物理参数偏差及其统计特性以实现故障检测。其中最小二乘法与极大似然法最为常用。 -
状态估计法
用于状态量预测与更新的状态估计方法建立了一套完整的数学模型体系,在实际应用中通过构建动态系统的数学表达式实现了对未知量的有效推断。基于观测器获取的实际测量数据对被控对象的关键参数进行采集,并结合先验信息计算出系统各变量的状态估计值;这种方法有效地弥补了无法直接观测系统内部复杂动态的技术缺陷。其中观测器用于实时数据处理;Kalman滤波则通过概率统计方法优化预测精度;而等价空间方法则提供了理论分析框架。这些具体实例说明其应用领域及其重要性。
2、定性模型诊断方法
在实际应用场景中, 定量模型诊断技术往往受限于多种因素而无法实现, 其中, 在故障诊断方面, 无法通过解析模型进行准确描述; 此外, 系统知识属性属于定性的范畴; 同时, 系统具有高度复杂性
定性的方法可以解决这些问题, 其基础是定性模型和定性推理。
在专家系统和案例推理方法中同样包含定性推理技术。然而,在这些方法中所使用的专家知识仅限于对系统的表面认识,并未涉及系统的深层原理及其结构等复杂要素。因此无法识别超出知识库范围的故障类型。
于1987年左右, de Kleer、Williams和Reiter三人共同发展了基于质变量模型的独特故障诊断体系. de Kleer与Williams两人最先奠定了质变量模型故障诊断的基础,他们通过运用约束传播的方法,逐步构建了系统的候选方案.而Reiter的主要贡献在于系统地将冲突识别过程进行形式化处理,成功地将其转化为集合求解问题,从而构建了一个完整的框架.随后有越来越多的研究者加入这一领域,并结合其他分析手段,显著提升了质变量模型在故障检测中的应用效果.
定性模型方法可分为因果图、 故障树和定性物理三类。
因果图
诊断的本质是通过观察推断原因的过程。 系统间的因果关系可以用带符号的有向图(Signed Directed Graph, SDG)来描述,其中节点之间的有向边表示从原因节点到结果节点的过程扰动。 SDG通过利用存储在图上的信息来搜索可能的故障源,并有效地识别了系统扰动的根本原因。Iri 等最先将 SDG 应用于故障诊断中; Kramer 和 Palowitch 提出了基于规则的 SDG 技术。
-
故障树
故障树方法是由贝尔实验室于 1961 年提出的一种倒立树状的逻辑因果关系图, 以诊断对象最不希望发生的事件作为顶事件, 按照对象的结构和功能关系逐层展开, 直到不可分事件(底事件) 为止。 它的优点是能够实现快速诊断, 知识库很容易动态修改,并能保持一致性; 概率推理可在一定程度上被用于选择规则的搜寻通道, 提高诊断效率;诊断技术与领域无关, 只要相应的故障树给定, 就可以实现诊断。 缺点是由于故障树是建立在元件联系和故障模式分析的基础之上的, 因此不能诊断不可预知的故障; 诊断结果严重依赖故障树信息的完全程度。 -
定性物理
定性物理方法可以分为两类: 定性方程法和定性行为法。 前者需定义变量的定性值集合以及相应的定性运算, 进而将常微分方程转换成定性方程。 定性方程不如微分方程精确, 但可以对变量的变化趋势给出粗略直观、 大体准确的描述。 定性行为法是从常微分方程中抽象出定性行为, 包括定性仿真(Qualitative Simulation, QSIM) 和定性过程(Qualitative Process Theory, QPT) 两种。 Kuipers 在 1986 年提出了定性仿真理论, 认为系统结构由表示系统变量的符号和描述参数之间关系的约束构成。 系统的定性状态是由系统所有变量的定性状态构成的组合, 而系统的定性行为就是系统定性状态序列。 诊断的目的是求解定性状态序列, 从初始状态出发生成各种可能的后继状态, 进而通过一致性检查, 求得正确的后继状态, 重复这些步骤便得定性状态序列。 Forbus 于 1984 年提出了定性过程理论, 把物理过程视作由一些依次相连的进程, 每个进程由有关个体、 前提条件、 数量条件、 参数关系组成、 推理过程是从已知的进程集合中依次选出一些相关
进程用以描述整个物理过程。
三、
参考资料:
基于贝叶斯网络的故障诊断方法研究
