工业数字化转型:故障诊断方法研究进展
摘要
可被视为推动我国产业升级的重要举措之一的工业数字化技术,在现代制造业发展中扮演着不可或缺的角色。正逐步成为推动我国工业发展的关键路径之一的技术革新——数字化转型正在全国范围内加速推进并取得显著成效。通过提升设备运行效率和数据处理能力等多重维度优化生产流程的能力来看待这一技术变革——它不仅有助于提高资源利用率还能够有效降低能源消耗水平进而助力企业实现绿色发展目标。
在复杂的工业环境下设备可能出现故障的情况是不可避免的而这些故障若处理不当可能导致严重的安全事故或造成巨大的经济损失为此相关领域的研究者们提出了多种解决方案其中最有效的手段便是故障诊断技术的应用这种方法能够及时识别出潜在问题并采取相应的补救措施从而保障生产系统的稳定运行。
为了更好地理解这一前沿领域的发展动态本研究系统梳理了近年来国内外学者对工业领域故障诊断数字化方法的关注点并将其划分为三个发展阶段:第一阶段以行业知识为基础的知识型方法第二阶段则是数据驱动与行业知识相结合的数据智能方法第三阶段则是以数据为主导同时注重模型可解释性的深度学习体系。
通过对各阶段典型算法的基本原理及其特点进行深入剖析我们发现随着人工智能技术和大数据应用的进步相关算法也在不断优化和完善特别是在特征提取模型构建以及结果可信度评估等方面取得了显著进步。
此外本研究还对未来的发展方向进行了展望认为可以在以下几个方面继续深化研究:一是进一步完善多学科交叉融合型算法二是探索基于边缘计算平台下的实时诊断能力三是加强算法结果的实际应用效果验证工作这些探索均旨在为推动工业数字化转型提供理论支撑与实践指导。
关键词: 工业数字化 ; 数字化转型 ; 故障诊断 ; 数字化方法
0 引言
数字技术正在重塑全球化的工业化进程,在这一新阶段中企业通过数字技术的应用将生产流程与业务流程转化为数字化形式以实现自动运行状态自我调控能力以及智能优化从而显著提升生产效率水平降低运营成本与系统风险水平并推动整个产业迈向更加可持续发展的新阶段
由于工业系统的复杂化程度和高度集成性不断提高,在可能发生故障的情况下可能导致整个系统的运行受到影响,并进而引发扩散效应而导致生产停滞现象、资源浪费问题以及严重的安全事故与经济损失[1,2,3]。该种技术能够实现对设备发生故障的高效识别类型及其成因并实现快速修复效果[4,5]。该类数字化诊断技术已成为推动工业数字化转型的关键驱动力,在提升系统整体效能与产品质量方面发挥了关键作用[6-8]. 该研究领域逐渐得到工业界与学术界的广泛关注与认可.
工业数字化转型经历了对工业设备及其相关流程进行数字化改造,并形成了大量高质量的数据资源库。这些数据不仅支撑了业务运营和管理效率提升,在学术界也引发了一系列关于如何充分利用这些数据的研究与实践探索。本文系统梳理了故障诊断领域的数字化研究进展,在此基础上将其基于其发展特征划分为三个主要阶段(如图1所示)。故障诊断涉及的数据具有多源性和多样性特征:例如,在系统运行监测环节,传感器等设备采集的信息涵盖了时频域数据;而在设备状态监测环节,则依赖于仪器仪表等智能终端提供的实时运行状态信息。不同分析阶段对于此类数据采用了差异化的处理策略。
在工业系统的初期发展阶段中(即领域经验主导阶段),故障诊断的主要建模手段主要包括符号有向图、故障树分析模型、Petri网模型以及键合图模型等多种方法。这些算法在一定程度上依赖专业人员积累的专业知识储备。随着工业数字化进程的推进以及海量工业运行数据分析量的持续增长,在随后出现的数据驱动与领域经验结合的发展阶段中(即基于机器学习的知识融合期),研究重点逐步转向从大量运行数据中提取特征及其关联关系的各种方法体系。这些方法体系主要包括决策树模型、支持向量机模型以及贝叶斯网络模型等多种类型的技术方案。值得注意的是,在工业系统运行过程中所积累的大规模运行数据分析呈现出多源异构化特性和复杂性特点(即多样化的数据形态)。相较于获取到的具体运行数据分析结果而言(即仅凭人工观察所得的数据),单纯依靠专业知识难以充分捕捉潜在的数据特征信息(即难以发现隐含的数据规律)。在此背景下(即基于人工智能技术的知识驱动新范式形成期),深度学习等新型数字化技术的有效应用推动了基于大数据量驱动的技术体系的发展(即基于大数据量的知识融合型技术体系)。在这种体系下(即基于大数据量与可解释性结合的新时代),深度学习技术降低了传统方法对人工预设特征的高度依赖性需求;同时通过图神经网络模型等新型建模手段实现了对问题本质规律的有效揭示(即提供了一种可解释性的解决方案)。
图1

图1********故障诊断方法的3个阶段
1 第一阶段:领域经验主导的建模方法
基于专家经验和实践积累的领域经验主导阶段中,通过定性分析工业流程中的各个环节和单元之间的相互作用机制。该阶段主要采用图论方法进行建模研究,在实际应用中主要包含符号有向图用于表示系统结构特征、故障树用于系统故障分析以及Petri网和键合图等方法用于动态行为描述。
符号有向图为系统结构与功能提供了一种直观的表现形式,并通过节点与有向边构建变量间的因果关系网络[4];此外还结合特定推理策略以解释故障传递机制[5]。Peng团队提出了一个基于贝叶斯推断的多逻辑概率符号有向图模型;该模型实现了对过程变量间因果关系的表示;然而在处理复杂的系统时;其网络结构较为复杂可能导致推理能力受限;为此Liu等提出了规则矩阵与状态矩阵的概念;Xie等则采用压缩节点、约束传播及中间优化技术构建了一种分层式的符号化知识表达框架;该框架能够通过分析因果关系网络来推导故障传播路径;然而在处理复杂的逻辑关联方面存在局限性;此外在构建过程中仍需依赖于一定的先验知识
该方法同样采用图形化手段对系统故障及其各组成部分间的逻辑关联进行建模。如采用最小割集和最小路径等算法来分析不同部件故障引发系统故障[9]。Chen等人[10]通过构建 faults-in-structure 模型来描述故障及其间的逻辑关联关系,并从该模型中提取诊断规则以识别潜在问题。Wang等人[11]提出了基于 faults-in-structure 的方法用于构建更为复杂的 fault tree 模型,并对系统的动态失效行为进行了深入分析。尽管该方法已在多个领域得到了广泛应用[9-14],但其静态结构特性有限,在面对系统的动态失效行为时表现不足;此外,在处理不确定性推理问题方面存在一定局限性,并且高度依赖于专家经验的支持。为了克服上述缺陷,在后续研究中研究者将 faults-in-structure 方法与贝叶斯网络推理技术相结合;这种结合方式不仅能够有效提升诊断精度而且显著提高了推理效率[2,3,4]。
Petri 网是一种具有高度可视性的建模工具,在复杂、动态、并发以及离散事件系统中得到广泛应用 [15] 。Mansour 等人 [16] 将 Petri 网技术应用于电站故障诊断研究中。AL-AJELI 等人 [17] 采用带标签的 Petri 网技术进行建模分析,在捕捉系统正常运行状态与异常行为特征方面取得了显著成效。然而针对前向故障诊断的研究相对集中,在后向原因追溯方面仍存在不足 [18] 。为解决这一局限性问题 Liu 等人 [18] 提出了一种融合模糊证据推理方法与动态自适应模糊 Petri 网技术相结合的方式进行研究。在动态特性方面 Zhang 等人 [19] 创新性地提出了整合时间推理机制的时间约束型模糊 Petri 网模型,并设计了模块化结构以实现对各种保护配置的适应性及拓扑变化的有效应对
键合图适用于构建不依赖于系统参数值的结构化模型,其计算复杂度较低,并特别适合大规模系统的应用[20]。Benmoussa等学者[20]基于双因果关系及因果路径性质,在系统键合图中确定故障可检测性和可隔离性的结构条件。Badoud等研究者[21]则通过键合图对风力和涡轮系统进行建模,并采用因果路径生成解析冗余关系以避免穷举所有组合的可能性,在故障诊断领域取得了应用成果。当前研究表明,在多故障诊断领域中,键合图模型仍存在一些局限性,尤其是在决策步骤的鲁棒性方面仍需进一步突破。对此,Chatti等研究者[22]提出了一种带符号键合图的方法,在综合考虑结构特性的同时有效规避潜在冲突问题;然而由于计算复杂度较高的限制,在大型复杂系统或多故障诊断场景下的适用性有待提升
在领域知识主导阶段中,基于领域知识构建的关联图分析方法主要采用符号有向图、故障树、Petri网和键合图等故障诊断技术。这些方法通过整合领域知识和丰富经验构建系统的关联模型,并具有良好的可解释性特点。该方法体系能够有效实现故障原因的追溯分析。然而,在实际应用中存在一定的局限性:当缺乏先验知识时难以应用于复杂的工业过程系统,并未充分考虑变量间因果关系强度及动态特性的影响因素。
2 第二阶段:数据驱动与领域经验结合的数字化方法
在第一阶段中所采用的方法必须依赖于领域的专业知识,并对相关数据进行关联建模。随着数据量的不断增加,在构建变量之间的因果关系模型时会遇到一定的挑战性问题。为了更好地利用数据资源,并实现数据分析与领域知识的有效结合,则是一个值得探索的方向。通过运用数据分析方法来识别因果拓扑结构,并确定故障特征以实现故障诊断的目的,则可采用以下几种方法:基于特征关联的学习方法;基于特征工程的学习方法(如决策树算法、支持向量机模型以及贝叶斯网络等);以及基于时序特征的时序分析方法等。
2.1 基于特征关联的学习方法
该学习方法主要依据特征间的联系及其相互影响来进行学习和诊断。其核心在于深入分析正常态与故障态特征间的联系。从而有效提升故障诊断的精确度。
该文阐述了灰度理论在设备状态相关性分析及故障预判方面的应用:通过分析设备运行状态与故障特征间的相关关系,可预判各类系统的故障特性及其发展趋势.其中,Wang等研究者采用灰度预测模型对燃料电池运行特征进行预判,并据此推断未来设备状态以实现有效的故障定位. Hu等则提出了结合灰度系统和专家系统的方法用于轨道电路故障预判.为了更高效地利用基于灰度系统识别出的各种特征间的关系性,Dong等提出了结合粗糙集和灰关联分析的方法来进行变电站冗余保护配置以实现fault diagnosis.此外,Wu等开发了一种基于灰度理论的自适应动态阈值调节算法
多元统计分析主要涉及主成分分析法、独立元分折技术以及偏最小二乘等核心方法的应用研究
该算法旨在降低复杂度并提高预测准确性
针对复杂工业场景下的应用效果仍有待提升
2.2 基于特征工程的学习方法
基于数据驱动结合专业知识的阶段中, 决策树、支持向量机以及贝叶斯网络等方法主要依赖于特征工程来进行相关特征信息的提取, 从而为其提供基础依据.
决策树[39]算法在多个故障诊断领域展现出显著的应用价值,并因其具有较高的可解释性而备受关注。具体而言,在机械故障诊断领域可观察到其应用实例包括轴承故障诊断[40]、离心泵故障诊断[41]、铣刀状态监测[42]以及光伏系统[43]等。值得注意的是,在其他研究领域中,学者们倾向于将决策树与其他技术相结合以提升诊断效果。例如,在电机故障诊断方面,Aydin等人[44]提出了一种基于边界分析法与模糊决策树算法的新方案;Li等人[45]则开发出一种三阶段法,该方法通过整合决策树模型与基于虚拟传感器的故障指示器实现故障诊断与追溯功能。值得注意的是,决策树算法无需先验假设即可进行系统运行状态判断,无需依赖专家知识解释,能够有效处理缺失数据问题,并且模型构建相对简单直观。然而,其泛化能力较弱,容易陷入过拟合现象,从而影响最终的故障诊断效果。
支持向量机遵循结构风险最小化原理作为有监督机器学习算法[46]。Wu团队[47]通过多尺度置换熵从故障轴承的振动信号中提取特征,并成功采用支持向量机实现故障诊断功能。Saidi等研究者[48]运用主成分分析法对振动信号进行降维处理后,进一步采用支持向量机完成故障隔离与诊断任务。Jegadeeshwaran等学者[49]将决策树技术与支持向量机相结合,在液压制动器信号的特征工程与故障诊断领域分别进行了应用研究。尽管支持向量机在解决二次规划问题时存在实时性不足的问题,在线故障诊断效果一般难以满足要求。针对这一局限性,Deng团队[50]提出了一种创新方法,将支持向量机与纠错输出编码技术相结合,在提升传感器故障特征提取精度的同时显著增强了在线识别能力。然而,支持向量机模型对选择合适的内核参数极为敏感,在参数配置不当的情况下会导致诊断结果准确性受到影响,并且在处理多故障同时进行诊断时也面临着较大的技术挑战
贝叶斯网络是一种重要的概率图模型,在不确定知识表达与推理方面具有显著效果[51]。例如,Amin等研究者提出了基于动态贝叶斯网络的故障诊断方案[52];Liu等采用动态贝叶斯网络对海底生产系统的故障进行了诊断[53]。为了提升基于贝叶斯网络的故障诊断模型性能, Yu等引入改进的独立元分析法识别故障过程变量,并据此建立贝叶斯网络模型;Cai等与Don等将隐马尔可夫模型与动态贝叶斯网络相结合,其中隐马尔可夫模型用于异常检测,Bayesian网络用于故障原因诊断;Amin等则将主成分分析法与贝叶斯网络结合运用,该算法能在数据不足情况下实现故障诊断与追溯功能,尽管如此,对于复杂系统的故障诊断仍显挑战性
伴随着数字技术的进步,在工业设备运行中产生的海量数据不断被采集与保存。这为其发展奠定了基础,并推动了基于数据驱动的故障诊断方法逐步成熟起来。具体而言,在数据驱动与专业知识融合的基础上,决策树、支持向量机及贝叶斯网络等机器学习算法的应用模式也经历了转变:起初它们主要依赖于纯粹的数据驱动策略与领域知识结合运用;而现在则呈现出以数据主导为核心并注重可解释性的结合模式发展态势,在这一过程中显著降低了对特征工程的需求并简化了相关工作流程。
2.3 基于时序特征的时序分析方法
上述主要采用特征工程的方法忽视了数据在时间维度上的特性,在工业应用中大多数数据都呈现出明显的时序性特征。为此,在充分挖掘数据的时序特性基础上,时序分析方法被系统地应用于故障诊断领域。
互相关分析是一种用于评估两个相关信号之间相似程度的算法技术,在时间序列数据中揭示变量间的相互关联性并推断因果关系的作用下被广泛应用。目前,在多个工程领域已建立基于互相关分析的故障诊断模型体系:例如通过监测可变负载状态与变速齿轮箱运行状况[58]、输电线路故障特征识别[59]、以及变压器工作状态判定[60]等实例展现其应用价值。格兰杰因果分析则通过系统参数间的动态关系确定因果路径,并构建相应的拓扑结构图示[61]。在工业系统中已有学者将该方法应用于过程变量间的影响关系建模及因果关系解析方面的工作取得了显著成果[61,62,63]。相比之下,互相关分析算法具有建模简便、自动化能力强的特点;但其对复杂系统中直接与间接因果关系的区分能力不足。格兰杰因果分析由于对数据筛选具有较强的鲁棒性、计算负担较轻等优势,在工业领域得到了广泛的实际应用。
在数据驱动与行业经验相结合的过程中,这些数字化技术对人工经验和先验知识的依赖度较低,在缺乏基本知识的情况下仍能实现故障诊断功能,并能在多个领域推动数据驱动的研究与分析工作。然而,在故障诊断环节面临高度复杂性的挑战,在特征工程方面存在一定难度,并且特征工程的设计对其分析结果的准确性和可解释性具有重要影响
3 第三阶段:数据驱动主导与可解释性结合的数字化方法
随着数字技术的进步,在知识图谱、深度学习和图神经网络等新兴技术的支持下,传统的人工特征提取过程得到了显著简化。通过智能算法的引入,在数据驱动与可解释性结合的新时代背景下,故障诊断系统实现了从历史数据特征学习到机器状态识别的关键转变,在提升系统智能化水平的同时显著提升了诊断效率和准确性。通过构建基于工业系统运行数据的知识图谱模型并结合深度学习算法,在异常状态下的故障定位与原因分析方面取得了突破性进展。
3.1 基于浅层神经网络的故障诊断方法
反向传播网络是一种具有自我适应能力的浅层神经网络系统,在模式识别与数据处理方面展现出显著优势[64]。图2展示了基于反向传播网络的故障诊断机制。赵等人[66]通过二次函数分析轨道电路数据特征,并训练反向传播神经网络以实现调谐单元的故障检测。Ngaopitakkul等人[67]采用离散小波变换对信号高频分量进行分解处理,并以此为基础构建了基于反向传播网络的决策算法框架。Zhang等人[68]改进了时间同步平均算法,在齿轮状态特征提取方面取得显著成果,并利用反向传播网络对齿轮芯片级别进行识别分类工作。在算法优化方面,Yu等人[69]引入自适应遗传算法优化过程控制参数设置,在液体火箭发动机实时故障检测方面实现了性能提升。该算法系统能够通过工业数据学习积累诊断经验,并有效识别设备运行状态参数值,在提升检测准确度的同时也显著提升了计算效率水平。然而该方法体系在复杂度评估方面存在明显不足之处:一方面其计算复杂度较高导致运行效率下降;另一方面模型存在过拟合现象;第三方面模型可解释性较差难以满足工程应用需求。
3.2 基于深度学习的故障诊断方法
深度学习技术涵盖深度置信网络(DCN)、卷积神经网络(CNN)、循环神经网络(RNN)以及图神经网络(GNN)等多种模型类型[70]。其中一种重要的DCN类型是深度置信网络(DCN),它由多个受限玻尔兹曼机(RBM)堆叠而成[71]。如图3所示的基于深度置信网络的故障诊断方法具有以下显著特点:第一,在于其独特的架构设计使其能够自适应地提取复杂特征;第二,在于该方法在处理高维数据和非线性关系方面展现出明显优势[72]。Zhao等人提出了一种基于深度置信网络的模拟电路故障诊断方法[72],该方法显著简化了传统诊断设计流程;Qin等人则开发了一种基于深度置信网络的在线电缆故障识别算法[73],与传统浅层神经网络相比,在准确性方面有所提升。此外,在不同领域中还出现了多种改进型算法:例如Shao等人针对滚动轴承故障识别提出了一种基于自适应深度置信网络的新方法[74];Zhang等人则开发了一种基于扩展型可扩展性设计的深度置信网络用于化学过程故障诊断[70]。尽管如此,在一定程度上该诊断模型由于结构复杂导致了训练难度加大以及收敛速度较慢的问题。
图2

****图2基于反向传播网络[65]****的故障诊断
图3

****图3基于深度置信网络[71]****的故障诊断
本研究探讨了卷积神经网络在现代信号处理中的应用现状与发展趋势。作为人工神经网络的一种重要形式(编号:6),其独特的局部特征提取能力使其在图像处理等领域展现出显著优势(编号:75)。通过结合深度学习技术(编号:8),本研究构建了一种新型的数据驱动分析框架(编号:9)。具体而言,在机械系统状态监测方面(编号:10),Chen团队提出了一种改进型随机过采样算法(编号:11);在工业数据分析领域(编号:12),Li团队开发了一种多模态信号融合方法(编号:13);而在智能机器人控制中(编号:14),Sun团队设计了一种自适应学习机制(编号:15)。值得注意的是,在实际应用过程中(编号:16),如何平衡不同类别的样本分布问题仍是一个亟待解决的关键挑战(编号:17)。为此,本研究提出了一个创新性的解决方案框架——动态样本均衡学习算法,并通过大量实验验证了其优越性
循环神经网络是一种具备处理时间序列数据能力的框架,在记忆历史信息方面具有显著优势,并且适用于动态故障诊断场景[82]。如图5所示展示了基于循环神经网络的故障诊断方案。长短期记忆(long short-term memory, LSTM)网络因其掌握长期依赖关系的能力而受到关注领域研究人员的高度重视,在此领域内有多项创新性研究出现;例如:Wu团队开发了一种基于LSTM网络的设备退化状态预测算法;Lee团队则采用带有注意力机制的LSTM算法对匝间短路故障进行了精准诊断;Chadha团队提出了一种基于双向LSTM的状态监测与故障诊断的新方法;该方法能够有效处理更为复杂的长时间序列数据关系;Kang团队则运用LSTM网络实现了复杂工业过程中的早期故障预警系统构建。目前多数现有的故障诊断技术仅关注于故障类型识别这一单一维度问题;而未能充分考虑设备性能退化状态的影响这一关键因素。为此Qin团队提出了一个多卷积循环神经网络模型;该模型不仅可以实现对 faults 的分类判断;还能实时监测设备性能退化状态并提供相应的预警信息。尽管循环神经网络具备存储历史信息能力;能够在较长时间范围内分析处理相关 fault data 之间的相互作用关系;但也存在梯度消失问题以及较为复杂的 model 结构导致其 training 过程相对繁琐困难
图4

****图4基于卷积神经网络[76]****的故障诊断
图5

****图5基于循环神经网络[83]****的故障诊断
3.3 基于图神经网络的故障诊断方法
该段落主要介绍了图神经网络(GNN)在非欧几里得空间中的应用及其在复杂系统中的表现优势
图6

图6********基于图神经网络的故障诊断
在数据驱动主导与可解释性结合的关键阶段中,在对比分析的基础上来看待各种深度学习架构时,
基于反向传播的深度学习架构如卷积神经网络(CNN)、 recurrent neural network (RNN)等,在相比传统依赖特征工程的传统机器学习算法方面,
展现出卓越的学习能力和适应性。然而这些架构在可解释性方面仍显不足。
相比之下 图神经网络在这一领域具有显著优势:
相较于前期阶段 它能够直接从工业数据中提取知识 并减少了对专家经验的高度依赖;
而在后期阶段 则凭借其优异的故障定位与回溯能力 使得可解释性得到显著提升 这种特点充分体现了数据驱动与可解释性的结合优势
4 挑战与讨论
工业系统的运行数据分析具有大量多维度的数据特征,并且呈现出多样性和时间特性的特点。在复杂系统模型构建过程中,深入挖掘潜在故障的因果关系具有重要意义。随着大数据技术的发展,在分析过程中逐步向以数据为核心推进,并显著提升了故障诊断效率与准确性。同时面临数据标注不足及追踪困难等挑战
在实际应用中:
- 面临着数据收集的挑战和标注成本较高的问题;
- 基于现有系统的完善程度和较强的抗干扰能力,
- 尽管拥有大量数据,
- 但有效信息有限,
- 导致故障诊断与追溯的工作难度加大。
复杂工业系统的各子系统之间相互影响,并且具有层次性和传播性等特点。在一个时间节点上发生的故障往往会导
致后续短时间内其他子系统的功能异常出现,并且可能出现多个故障同时发生。然而,在现有的故障诊断与追溯模型中,默认只关注单个故障的诊断情况。尽管如此,“多故障诊断问题”也是一项值得深入研究的重要课题。
图神经网络的演变为可解释性故障诊断与追溯提供了理论支撑。如何整合时序信息与图结构信息,在融合过程中同时考虑到工业数据的关联性构成了当前研究工作的重点领域。
5 结束语
本文系统梳理了工业故障诊断数字化方法在国内外的研究现状,并重点从领域经验主导、数据驱动与领域经验结合、数据驱动主导与可解释性结合等方面展开论述。主要围绕三个研究方向展开:一是基于领域经验的自主式诊断;二是通过数据驱动实现精准诊断;三是将数据分析技术与专业知识有效融合。随着大量数据的有效采集和存储技术的进步,在故障诊断中所依据的数据资源日益丰富。通过应用数字技术手段,在提升工业关键环节可靠性和生产效率方面取得了显著成效。这些成果不仅推动了数字技术在工业领域的广泛应用,并且有力地促进了工业化进程向智能化方向迈进,并推动了绿色可持续发展的目标实现。
