2.1.2 故障预测方法
故障预测用于确定故障是否即将发生,并估计故障发生的速度和可能性。诊断是事后分析,预测是事前分析。在实现零停机性能方面,预测比诊断更有效。当预测失败而发生故障时,需要进行故障诊断[2]。
目前,有两种主流的故障预测类型:①根据当前设备状况和过去运营情况,预测在发生故障(一个或多个故障)之前设备还剩多少时间,即预测设备的剩余使用寿命;②在某些情况下,特别是当一个故障或失效是灾难性的,例如核电站,根据当前设备状况和过去运营情况,预测设备在未来某个时间(例如下一个检查间隔)发生故障或失效的可能性,即预测未来某个时间段内的故障概率。实际上,在任何情况下,设备在下一次检查(或状态监测)间隔之前没有发生故障的概率都可以作为维护人员判断检查间隔是否合适的一个很好的参考。在故障预测的文献中,大多数的论文只讨论第一种类型的预测,只有少数论文涉及第二种类型的故障预测。
在预防性维护和预测性维护的技术体系中,故障预测是实现对象系统性能退化状态和剩余寿命预测的核心方法,不同研究机构和组织的分类方法不尽一致,最具典型的分类方法来自哈尔滨工业大学彭喜元教授,将故障预测方法分为4类:基于物理模型的故障预测方法、基于可靠性模型的故障预测方法、数据驱动的故障预测方法和融合模型驱动的故障预测方法[7]。本书结合移动互联网、大数据和人工智能等新一代信息技术的发展和应用,在上述故障预测分类方法的基础上,将当前基于大数据分析(如机器学习、深度学习等)的故障预测方法归入数据驱动的预测方法之中,形成了图2.3所示的故障预测分类方法。
图2.3 故障预测分类方法
(1)基于物理模型的故障预测方法
基于物理模型的故障预测方法是将状态监测数据和设备特定的机械动力学特征有效地结合来对剩余使用寿命和状态进行预测,常见模型包括失效物理模型、疲劳寿命模型、裂缝扩展模型、累计损伤扩展模型、随机损伤传播模型、裂纹诊断与预测方法等。RCMII决断图中故障模式影响分析和专家系统中基于故障树的推理也都是基于上述物理模型及专家经验而进行维护决策的。
基于物理模型的预测方法大多应用于飞行器、旋转机构等机械、电气系统中,或集中于材料、结构、机械部件等系统底层基础性单元或部件。对于复杂系统或过程,由于故障模式或失效机理相对复杂,其故障预测的模型化相对滞后。而且,基于物理模型的预测方法常用数学模型来描述设备的衰退行为,进而通过数学模型预测设备健康状态和剩余寿命,方法假设可操作数据和数学模型都是可得到的,然而,有时各种模型很难描述一个设备衰退的趋势与详细的建模过程,需要对设备进行停机处理,但这在设备的生产运转过程中是不允许的。
(2)基于可靠性模型的故障预测方法
基于可靠性模型的故障预测方法根据历史测试数据概论密度分布函数和寿命分布函数,计算产品的可靠度函数[8]。20世纪50年代初,开始了基于指数分布的寿命实验,许多军事标准(如美国军标MIL-HDBK217)与工业标准都是基于指数分布的假设制定的。20世纪60年代后,韦布尔分布与极值分布受到重视,用以描述老化、磨损等现象,如疲劳失效、真空管失效和轴承失效等;后来,伽马分布、对数正态与截尾正态分布用于拟合寿命时间及修理时间,大量的离散寿命分布也被使用,如0-1分布被用于描述开关、继电器等成败型元件的性状,二项分布被用于描述几个独立分布的成败型元件的性状,其他还有几何分布、负二项分布、泊松分布和离散韦布尔分布等。
在基于可靠性模型的方法中,系统的可靠性指标分为不可修系统和可修系统。不可修系统通过串联、并联、串并联、并串联、K-out of n(F)、冷储备、热储备、线性环修等过程进行建模;可修系统可以采用马尔可夫型可修模型、更新过程模型、马尔可夫更新型可修模型进行描述。然而,上述经典统计理论的框架都没有提及和考虑产品的实验环境、实验方式等统计问题的背景信息等先验信息。
1985年,随着贝叶斯分析方法的出现[9],将贝叶斯推断引入可靠性模型的分析过程形成了贝叶斯方法。贝叶斯方法将先验信息作为统计分析的重要信息来源,综合考虑当前的可靠性实验数据信息和先验信息,得到参数的后验分布,基于后验分布对问题进行评估和检验,可以提高预测精度。
基于可靠性模型方法的维护策略一般选用:①总费用最小的定时更换策略;②考虑可用度的维修策略。基于可靠性模型的故障预测方法是基于零部件历史失效数据的概论密度分布函数和寿命分布函数,因此,又可称为基于失效的可靠性模型预测。然而,该模型并不注重设备失效过程中的性能状态演化。
(3)数据驱动的故障预测方法
数据驱动的故障预测方法通过对象系统的状态监测,从历史数据中认识对象系统的健康/非健康行为,将原始监测数据转化为相关信息和行为模型,以此判断未来对象系统可能发生故障的概率、估计系统失效或到达寿命阈值的时刻。数据驱动的方法根据模型的不同可以分为基于退化过程模型的方法、基于机器学习的方法和基于深度学习的方法。
基于退化过程模型的方法常用数学模型来描述设备的衰退行为,并预测设备健康状态和剩余寿命,方法假定可操作数据和数学模型都是可得到的,比如经验模型方法(如贝叶斯方法、D-S证据理论、模糊逻辑、回归模型、自回归模型、高斯过程回归、时间序列模型等)、统计滤波方法(扩展卡尔曼滤波、粒子滤波)、马尔可夫模型/隐马尔可夫模型/隐式半马尔可夫模型、随机过程模型(泊松过程、伽马过程、维纳过程、逆高斯过程等)、灰色模型等。
与基于失效的可靠性模型对应,基于退化过程模型的预测模型通过选择与产品寿命和可靠性高度相关的物理变量,采用预测性维护策略,通过定量的数学模型描述其随时间的变化规律,来刻画产品或设备的失效过程[10]。建模过程如下:①失效机理分析;②退化量确定(物理的,如频率、振型、特征信息、图像、光谱、色谱、铁含量等;结构的,如刚度、阻尼、裂纹、尺寸、结构参数等;数学的,如各种统计量、特征值和特征向量);③退化实验设计与分析;④退化数据收集与处理(预处理,如剔除异常数据/平滑/特征识别;特征提取);⑤退化模型确定;⑥退化过程模型辨识;⑦失效阈值确定;⑧计算失效概率;⑨计算寿命分布。然而,这类方法的识别和训练过程耗时较长,也无法考虑相应的运行环境、历史状态、退化特性等复杂因素,常用于离线健康预测,不适合设备在线的健康预测。
基于机器学习的方法不需要故障演化过程或寿命退化过程的精确解析模型,直接对对象系统的各类可用数据进行分析,通过各种数据处理与分析方法(如多元统计方法、聚类分析、频谱分析、小波分析等),挖掘对象系统数据中隐含的健康状态或退化特征信息,对设备的失效时刻进行预测,获得设备的健康状态和剩余寿命。基于机器学习的方法研究和应用较为广泛的方法主要集中在计算智能、机器学习、统计信号处理等模型和算法,分为数据准备、数据处理、特征工程、建模、仿真等过程。这类方法具有两个比较大的缺陷,即非常慢的收敛性以及容易陷入局部最优解,由于数据驱动的原因,这些模型具有很高的计算复杂性,容易造成计算爆炸问题。
基于深度学习的方法解决了机器学习中特征的自动提取问题。机器学习起源于20世纪70年代到80年代的模式识别和数据挖掘算法[11],决策树、启发式和二类判别分析等算法的出现诞生了初级的智能程序。20世纪90年代初诞生了机器学习的概念,主要是从样本中进行学习的智能程序,包括(非)监督的训练、特征提取、建模算法、预测和分类等步骤。随着深度学习算法的出现,形成了统一的大数据预测分析框架,并产生了3种不同的分析策略:深度学习通过对数据的学习提高算法准确性;宽度学习通过模型结构的扩散提高了算法效率(可达1000倍);混合学习策略平衡了学习算法的准确性和效率,可以实现数据和模型结构的自适应学习过程。
(4)融合模型驱动的故障预测方法
信息融合是计算机科学、数学、智能算法以及管理领域等多学科的综合交叉,表示在面对同一监测对象时,各种传感器的监测信息以及监测信息的处理方法可以被综合应用,从而获得设备的全面监测信息。随着设备复杂性的提高,对设备性能要求逐步增加,对传感器的数量和种类要求也在增加,基于信息融合的方法得到了越来越多的关注。
信息融合方法利用了计算机智能与快速的运算能力,消除了数据信息间的差异,有利于数据处理质量的提高,也弥补了不同方法存在的不足,如多传感器融合(传感数据处理层面)、数据融合(数据特征层面)、决策融合(模型层面不同数据驱动方法的融合、数据驱动和物理模型的融合、模型驱动与数据驱动方法的融合等)。来自设备MRO运营网络中多传感器的监测信息,具有多样性、复杂性、信息容量大的特性,对于这类信息的处理不同于单个传感器信息的处理,模型和数据的融合及并行化需借助大数据分析方法进行研究。