行业的见解

1974年起成员

了解更多

归档内容:

工业:
N/A

应用程序:
N/A

开始使用基于人工智能的预测性维护

发布07/16/2021

作者:特约编辑克里斯汀·莱沃斯基

预测性维护并不是一个新概念。实现预测性维护的技术已经有很多年了。这样做的好处是众所周知的，特别是考虑到大多数行业的停机成本很高。尽管有这些观点，但应用一直滞后，特别是在终端用户社区。这不仅仅是一个资本支出的问题——数据捕获和记录/传输功能已经内置在许多组件中，例如具有电流和温度监测功能的驱动器或兼具数据记录器功能的HMIs。抛开安全问题不谈，症结往往在于缺乏将数据转换为可操作的信息的技能，以及将数据引入内部或与第三方服务处理相关的成本和时间。人工智能，特别是机器学习(ML)，为实现预测性维护和节省大笔资金提供了有效的工具。事实上，根据麦肯锡公司的数据，基于人工智能的预测性维护可以将可用性提高20%，同时降低25%的检查成本和高达10%的年维护费用。¹

预测性维护的主要挑战之一是梳理大量数据，只提取有意义的、可操作的信息。特别是考虑到工业物联网(IIoT)的快速增长，组织可能会发现自己数据丰富，但信息贫乏。ML是一种有组织的方法，用于提取见解，这些见解可用于在缺陷成为主要问题之前检测正在发展的缺陷，确定问题资产的剩余可用寿命(RUL)，允许在最小破坏性窗口期间安排修复，并进行根本原因分析以防止未来出现类似的故障。

人工智能的基础

某些类型的预测性维护建模可以通过相当简单的计算(甚至手工计算)轻松解决。ML的真正价值在于，它能够在复杂的机器动态和现实世界的操作环境中考虑到大量和不同类型的数据，从而更好地理解资产的操作和健康状况。

ML是一类被称为窄AI的应用程序的一部分。这是指为执行特定任务而编写和训练的函数。例如，您刚刚在网上银行会话期间与之交互的聊天机器人可能是一个狭窄的AI应用程序，它被设置为对特定的输入集提供特定的响应(并在其他请求的情况下提升为人类)。以同样的方式，ML可以通过统计模型运行传感器数据，以检测与正在发展的缺陷相对应的条件。“机器学习并不是真正意义上的智能，”RapidMiner(波士顿，马萨诸塞州)的数据科学家Scott Genzer说。“这只不过是我们几十年来一直在做的老式数学建模。不同的是，我们有计算能力来处理大量的数据，找到模式，在大量的噪音中找到信号，而过去我们只能用手来做。”

ML解决方案已经广泛部署在欺诈警报和预测性维护等用例中。相比之下，通用人工智能(包括流行文化的支柱——各种有感知能力的机器)极其复杂，很可能在未来一段时间内仍将是实验室里的珍品。

在监督机器学习中，算法操作在手动标记的训练数据集上创建模型。该模型可与生产数据一起使用，以返回结果或预测。

在ML中，一个或多个算法操作一组训练数据，旨在描述资产状况和性能、故障、维护过程、环境、故障或维护记录等因素。利用这些数据，该算法创建了一个描述复杂系统及其相互作用的数学模型。数据的组织方式是，有一个依赖的“目标”变量要进行预测，在这种情况下，要描述资产运行状况、剩余生命周期等。目标是当将新数据放入模型中时，模型将返回状态、预测等(参见图1)。

机器学习可以分为监督学习和非监督学习。在有监督的ML中，使用大量手动分类的数据，训练函数(模型)以定义的方式作用于新的输入。预测性维护的监督学习通常使用分类或回归来解决。在分类中，离散输入映射到离散输出;有了足够的正确类型的数据，模型就可以将资产划分为健康或不健康，或者将产品划分为可接受或不可接受(参见图2)。该模型可能返回一系列可能的结果。回归采用准连续的输入，如时间序列温度或振动数据，并以趋势的形式返回一个连续的输出值，可用于预测未来的函数。虽然分类可以用于确定资产是否存在可能导致计划外停机的缺陷，但回归将利用历史行为和当前数据来预测资产的剩余可用生命周期和估计的故障时间。

监督机器学习通常用于两个任务:分类(左)和回归(右)。在分类问题中，算法采用输入数据来产生离散的输出数据(例如，健康资产还是不健康资产?)在回归问题中，模型接受输入数据并产生一个可以用于预测的连续输出值(例如，这个资产多久会失败?)

在无监督ML中，算法处理未标记的数据，通过聚类(哪些信息属于一起?(参见图3)和相关性(什么事件一起发生?)考虑装瓶线。有监督的机器学习分类器可以检测到电机上的温度升高，并根据模型向维护人员发送警报，将其作为潜在的缺陷进行调查。一个无监督ML模型可能会发现，当机器在8月份包装更粘稠的液体时，该电机上的温度总是上升，所以可能根本没有发展缺陷。无监督ML可以发现意料之外的模式，从而获得有价值的见解。例如，当乔在运行机器时，温度可能不会上升那么多。现在，该公司不仅避免了对健康资产的不必要替换，而且还可以审查乔的技术，以潜在地发现一种方法来改善跨班次、生产线甚至设施的机器操作。

这两种方法对于预测性维护都很有用。有时一个可以用来通知另一个，例如当非监督学习模型所揭示的相关性被用于更新监督学习模型时。

从业务案例开始

ML在预测维护中最大的错误之一是直接投入到数据收集和模型构建中。为了成功，项目需要从业务理解开始。就成本和业务影响而言，痛点是什么?现在这个问题是如何解决的? ML将如何改进?目标是什么，例如，减少计划外停机，优化产品质量，提高吞吐量等?明确表达目标是实现目标的第一步。“人工智能是一种工具，而不是结果，”Augury(以色列海法)首席执行官萨尔·约斯科维茨说。“专注于您想要解决的用例，并决定您需要使用的最佳技术堆栈。”

一定要量化目标——不仅要定义成功，还要理解评估投资回报(ROI)的成本基础，这一点很重要。最后，不要忘记人为因素。从可能提供快速效益的简单项目开始将简化审批。Genzer说:“计算机方面并不难。“困难的部分是让工程师们接受，让经理同意，然后把它付诸生产。”

在聚类和无监督机器学习方法中，算法在未标记的数据中寻找相似点和不相似点。

了解数据

一旦建立了业务案例，下一步就是收集和调查可用的数据。当前数据可以用来回答业务分析期间确定的问题吗?是否有足够的细节和背景?在这里，OT需要与IT和数据科学家合作，阐明数据如何映射到物理现象，并确保输入来自整个组织的广度。例如，在增材制造中，运动控制对产品质量至关重要。因此，在运行过程中出现的波纹和不连续可以表明系统运动问题，可以追溯到组件的问题，即使传感器不能直接显示问题。

由于ML算法和模型的数据处理能力，数据可以——而且应该——来自各种各样的来源，只要它们是相关的。”当你拥有大量数据时，机器学习的效果最好。”Genzer说。“这绝对是黄金法则。储存成本很低。从大数据湖开始，从那里进行筛选。”

“数据不是免费的，但它比停机时间便宜得多，”通用电气研究院(GE Research, Niskayuna, New York)机器学习技术经理保罗·阿迪斯(Paul Ardis)说。“所以，如果我们考虑到权衡和决策过程，通常值得花时间、麻烦和成本来设计尽可能多的数据;即使我们不一定知道它会从失败模式的角度捕捉到什么。”

在离散自动化中预测维护的挑战之一是工业设备的建造要耐用。这意味着即使是较老的机器也有有限的故障历史，而新设计当然很少或没有。这对操作来说很好，但当目标是捕获关于退化和故障的机器行为的大量数据时，可能会出现问题。为了收集数据而把设备运行到故障是不现实的。幸运的是，还有其他选择。

历史记录:将机器状态和维护的历史记录数字化和格式化可能需要大量的时间和劳动，但这是绝对必要的。从零开始启动ML项目会浪费组织长期积累的所有专业知识和见解。将遗留记录移动到数字领域应该是项目一开始的主要优先事项。
开发数据:对于想要部署基于ml的预测性维护解决方案的oem来说，无论是作为客户的一项功能，还是作为维护其设备“车队”的一种方式，都可以从初始设计中获得数据。原型测试可以作为有效的从运行到故障，或者至少从运行到降级的练习。
代理建模:开发数据可能很有用，但很有限，特别是在将结论推广到其他资产的能力方面。解决方案是代理建模，这是一种简化计算机模拟的数据驱动过程。传统的计算机模拟是昂贵和耗时的，因为它们需要大量的训练，以接近真实的性能。在代理建模中，该过程从基线模型的模拟结果返回，生成“代理”模型，然后通过仅对有限的一组条件(而不是全面地)运行完整计算来训练该模型。“我们的目的是提出一个有效的模型，可以以合理的速度开发，以满足所需的任何处理阿迪说。
迁移学习:迁移学习通过找到一种方法来修改或映射来自类似资产的数据，为新资产构建训练集，甚至像特定制造批中的资产一样。它仍然需要少量的数据来理解实际的传输机制，但用户不再需要从头训练一个新的模型。阿迪斯说:“我们特别关注转导迁移学习，在这里我们有一些关于任务差异的信息。”“所以我们不只是试图匹配分布，而是非常明确地从基于物理的角度寻找我们应该从原始设计中期待的相同的关系，相同的连接类型。”

Yoskovitz说:“我们不需要为一个特定的泵建立和训练一个模型，因为我们之前已经见过2万多个泵。”“我们知道空化是什么样子，轴承磨损是什么样子。我们已经使用基于通用物理的方法建立了这些模型。”当然，为固定速度旋转资产构建标准诊断模型与为具有复杂动力学的定制机器构建标准诊断模型是截然不同的。在这里，从资产到资产的映射更加复杂。“为了异常检测，我们为特定的机器建立了一个基线，因为不同的配方会改变行为，从一个站点到另一个站点的环境会改变行为。我们为基线机器行为建立一个模型，并将其概念化到操作中。然后，如果出现任何问题，我们就可以检测到异常情况。”

考虑时间的问题

确保数据获取和处理足够快，以跟上被监视的工业过程和资产。这需要评估数据及其与物理实体的关系。

定义预测窗口:这是指从指示器到故障之间所经过的时间。换句话说，不仅要防止灾难性的故障，还要进行破坏性最小、成本最低的维修，需要多长时间的准备时间?现场更换的小型变速箱可能只需要几分钟的维修通知。更换位于工厂屋顶的定制千瓦级电机可能需要数天甚至数周的交货时间，既要订购新电机，也要租用起重机来移动它。什么样的数据和什么样的ML模型将交付这个?
定义目标窗口:即使在发生故障之前，机器性能也会开始下降。模型应该考虑到这一点。我们的目标不仅仅是继续生产产品或提供服务，我们的目标是生产可销售的产品并满足服务水平协议。
定义特征窗口:例如，如果我们正在跟踪记录平均值或FFT的特定类型的数据，该数据集覆盖的窗口是什么?

如果预测性维护解决方案不能提供足够快的结果，让用户及时采取行动，那么就没有一个好的商业案例来追求它。”一个模型的好坏取决于它在任何时间点的可用数据，”阿迪斯说。“更新模型以反映持续操作的最新感觉的能力——它是正常的还是趋势异常的?”-受到数据更新速度的高度限制。因此，问题不在于我们能够存储多少数据，而在于我们刷新数据流以确保我们能够采取行动的速度有多快。”相反，如果活动的时间框架较慢，基于ml的解决方案可能会根据需要进行过度设计(并且过于昂贵)。

数据准备

与大多数类型的计算机建模一样，在将数据应用于ML之前，需要对其进行准备。这不仅仅是简单的清理和格式化。考虑到涉及的庞大数量，需要将原始数据分解为满足特定业务问题的数据子集，或者对其进行处理以提供新的见解。这需要使用一系列被称为特性工程的技术，这对任何ML项目的成功都是至关重要的。Genzer说:“这实际上比建模更重要。”“你要努力找出哪些传感器和哪些部件最有意义。”

特征工程包括特征选择和特征生成:

特征选择是通过找出数据库中哪些列最相关，哪些列与目标变量更相关，从而缩小字段范围的过程。一个安装可能会生成一千个或更多的数据列，但其中只有少数列是识别正在开发的缺陷所必需的。
特征生成是一个组合列以创建更多有用属性的过程，例如通过添加一对列、将它们相乘等。

在特征选择和特征生成之间，可以创建一组优化的数据列，这些数据列将具有找到有意义模型的最佳能力。

特性工程是一个必要的步骤，但应该谨慎对待。Genzer说:“工程师们几乎本能地陷入的危险是，他们认为自己知道哪些列将驱动预测类。”“这对模型产生了偏见。你真的想让电脑找到什么它认为专栏是和有一个开放的思想。你需要运用一点判断力，因为你不希望它发现一些荒谬的东西，但我们不想限制计算机发现你可能不知道存在的信号的能力。”

建模

ML的重点是使用数据和算法来开发一个模型，该模型描述运行中的物理系统，并可用于新数据，以持续的方式提供可操作的见解。关于预测性维护的ML算法和模型的详细讨论超出了本文的范围。相反，我们可以关注一些大的问题。让我们从一个最常见的用户错误开始，这就是在捕获数据之前就对使用哪个模型有一个先入为主的概念。这会使过程倒退。关键是从数据开始，从业务问题开始，然后找到最满足标准的算法。

另一点要记住的是，构建一个模型不是一件一劳永逸的事情。通常，项目会产生多个模型，然后需要对这些模型进行评估，以确定哪个或哪个模型最有效地描述了系统。

阿迪斯说:“就人工智能中的机器学习而言，我们所做的很多工作都是同时探索大量潜在的模型。”“对于‘模型是什么?’因为答案是，‘我们能弄到的所有东西。’此外，我们还会考察共同处理这些问题的能力。”训练五个模型不一定有效，例如，确定一些相对有效的权重，然后将其设置为一个常数模型，在可预见的未来使用。更动态的方法可能提供更好的解决方案。他说:“我们能否建立一个机制，能够动态地选择哪些模型应该被纳入，哪些模型应该被排除，以及如何根据它们的表现，根据它们随时间推移提供的符合真实情况的信息，最好地重新平衡和利用它们?他问道。""

部分挑战在于，机器会随着时间不断变化;“正常的”运营在今天和明年看起来会有所不同。训练数据需要足够广泛，以显示某些进展。模型验证还需要测试模型是否具有足够的弹性，或者是否对初始数据集过拟合。阿迪斯说:“我们面临的挑战是让人们明白，有时最好是让一个训练成绩低10%，但经过验证的模型更有效地理解整个总体空间。”

特别是对于工程师和数据科学家来说，他们很容易陷入搜索的过程中，试图优化模型以提高分数的几分之一。这种类型的改进可能在概念上令人满意，但在业务环境中，更相关的问题是，更改是否可以节省资金或通过更高的吞吐量或产品质量提高盈利能力。Genzer说:“我认为根据回忆率或精确度来优化模型是错误的。”“最好是根据利润或亏损进行优化。建立这样的模型，要么节省最优化，要么利润最大化。”

部署

基于ml的预测性维护应用程序可以以多种方式部署。它们通常部署在通过web服务器访问的基于云的应用程序中，或者作为车间中的专用设备运行。

然而，部署并不意味着工作已经结束。任何有过精心策划的潘多拉频道的人，在他们不注意的时候，从播放约翰·李·胡克(John Lee Hooker)到贾斯汀·比伯(Justin Bieber)，都明白模型漂移或概念漂移的问题。最佳实践要求部署所选模型，然后基于新的训练集不断构建所谓的挑战者模型。挑战者模型应该在部署中模仿模型。如果没有，则可能意味着部署的模型存在问题，需要重新构建。这可能意味着初始条件可能发生了变化，因为(仍然正常的)机器发生了变化、环境条件发生了变化或操作需求发生了变化。再一次，这种情况需要一个价值判断:模型是否存在需要纠正的实际问题，还是模型不同，但资产仍在以期望的吞吐量生产出高质量的部件?