预测性维护，第4部分：如何使用诊断功能设计特征提取

Melda Ulusoy，MathWorks公司

了解如何使用Diagnostic Feature Designer提取时域和频谱特征，以开发预测性维护算法。

您可以从数据中提取数百个功能。你如何知道哪些特性对于训练机器学习模型是有用的？尽管这些模型可以处理高维特征集，但这些特征需要与众不同，以便模型能够做出准确的预测并有效地分离不同类型的组。在本视频中，我们将讨论如何使用三缸泵的诊断功能设计器提取有用的功能，并使用分类学习器训练机器学习模型以进行故障分类。

在本视频中，我们将为三缸泵设计一个预测性维护算法。我们将演示使用诊断特征设计器进行特征提取，并使用分类学习器训练机器学习模型。

让我们使用第2部分视频中介绍的三缸泵示例。我们要确保水泵安全正常地运转。但我们知道，随着时间的推移，它可能会出现这些故障。因此，我们希望设计一个预测性维护算法，以便及时检测故障并识别故障类型，因为这将帮助我们找出需要修复或更换的部件，并相应地安排维护。

我们从哪里开始？我们从第一泵收集数据并进行预处理它来清理噪音。在算法的下一步骤，我们提取与我们训练机器学习模型的数据功能。这些模型，然后帮助我们将不同的故障类型。这就是事情的挑战。为什么？因为有数以百计的功能，我们可以从数据中提取。那么，我们如何知道哪些功能选择？我们知道的是，机器学习模型默认情况下不聪明，如果我们不给他们提供有用的，特色鲜明训练，他们将无法准确地预测不同的故障类型。那么，我们如何确定一个特点是好还是坏？ In this video, we’ll try to answer these questions and give you insights into feature extraction.

让我们从工作流程的第一步开始。我们收集了来自不同故障情况下泵的流量和压力测量。这些被存储在合奏。在每一行中，有1.2秒长流和对应于不同故障类型的压力测量值和故障代码。该数据已经过预处理。因此，我们将使用诊断功能设计通过以下步骤与特征提取继续。我们通过导入数据到应用程序启动。一旦进口的，我们可以直观的信号。这里的所有测量什么样子的流量信号。在这些图中，不同的颜色对应不同的故障类型。 As you see here, there are no clear differences between different types of faults. That’s why we need to extract features which will help us set different fault types apart. This app lets us compute commonly used time- and frequency-domain features. We select the flow data and compute statistical time-domain features. These are features such as the mean, standard deviation, skewness, and kurtosis. Once the app computes the feature values, they are displayed on the feature table. The app also plots histograms for each feature. Before we discuss how we can interpret these histograms, we will extract some additional features by analyzing our data in frequency-domain.

为什么我们需要更多的功能？我们知道机器学习模型可以处理大量的特征，当使用许多特征训练时，它们可以做更好的预测。然而，只有当我们有有用的和独特的特征，能够唯一地区分不同的故障类型时，这才是正确的。为了更好地理解这一点，让我们看看我的同事Loren Shure在她的“什么是机器学习”中使用的示例？“视频。有三类卡片：狗、猫或鸟。你需要确定有助于区分不同动物的特征。然后使用这些特性训练一个模型，该模型确定某个对象是否被标记为狗、猫或鸟。一个很好的特征就是耳朵。为什么？因为它能立即把猫狗和鸟分开。然而，这一特点本身是不够的，因为可能有狗和猫的耳朵在大小和形状上看起来相似。因此，我们添加了其他功能，如嘴、鼻子和胡须。这些都是有用的和独特的特征，将有助于我们区分不同的动物。但是想象一下如果我们选择眼睛颜色作为特征会发生什么。狗、猫和鸟都可以有相同的眼睛颜色，因此这一特征在区分不同的动物时并不明显。这些特征会对我们的机器学习模型产生噪声，甚至会损害模型的性能，导致错误的预测。由于我们刚才讨论的内容，我们现在将提取一些额外的特征，然后我们将对所有提取的特征进行排序，以确定用于训练机器学习模型的最有用的特征。

到目前为止，我们只计算了泵数据的时域特征。但单凭这些特征可能不足以区分正常和健康的手术。上一个例子就是这样，单凭耳朵不足以区分不同的动物。我们知道泵有旋转部件，其数据是周期性的。因此，频域分析可以揭示正常运行和正常运行之间的一些显著差异，有助于我们更好地分离故障类型。所以，现在我们将继续提取额外的频域特征。为此，我们首先需要计算流量信号的功率谱。有参数和非参数选项来计算光谱。你可以试试看哪个最适合你的信号。在这里，当我尝试这些选项时，我们将使用自回归模型，我知道自回归模型工作得很好。在频谱图上，我们注意到与时域信号相比，不同类型的故障更容易分离。例如，我们可以很容易地将这些故障对应的红色和绿色曲线分开。

现在我们可以计算光谱特征了。这里列出了最常用的功能。这些特征包括谱峰、模态系数和带功率。在这里，我们不会保留整个频带，但我们会选择一个较小的范围，使其包括前五个峰值。为什么？因为在更高频率下的数据是有噪声的，而且很难区分光谱峰值。因此，当我们训练机器学习模型时，从这部分情节中提取的任何特征可能都不会有助于更好的分类。记住，如果我们不能选择有用的特性，我们可能会损害机器学习模型在做出正确预测方面的性能。

到目前为止，我们从流量数据中识别出时间和频率域特征。我对压力数据重复了同样的过程，在那里我提取了额外的特征。由于机器学习模型可以处理具有高维特征集的，因此具有许多特征是很好的。所有计算出的特征现在都列在左边，这里还有直方图。在这些图上，不同的断层类型用不同的颜色突出显示。理想情况下，我们希望有一个这样的情节。在这里，所有不同颜色的分布都是彼此分开的。如果我们的柱状图是这样的，我们可以很容易地区分不同类型的断层。但是它们看起来与这个相似，在不同的断层类型之间有很多重叠。由于这种重叠和大量的功能，我们很难仅仅通过查看这些图来判断最有用的功能。但是，此应用程序允许您对这些功能进行排序，以确定有助于我们有效分离不同类型故障的功能。

当我们点击“排名功能”时，应用程序使用单向方差分析计算所有功能的排名分数。方差分析的结果显示在右侧，而左侧的条形图显示了不同特征的标准化分数。对于机器学习模型的训练，我们将选择方差分析得分高的特征，而忽略得分低得多的特征，因为这些特征不会有助于模型的训练。当您提取特征来训练模型时，您会发现自己正在尝试不同的特征集，以查看哪个集最适合对故障类型进行分类。因此，在设计算法时，这些步骤可能是迭代的。

现在，我们已经准备好提取的特征导出到分类学习者训练机器学习模型。该应用程序进口的所有功能与故障代码一起。我们可以直观地显示不同的功能相对于彼此，看看他们是如何进行分类的故障。不同的故障代码被示为具有不同的颜色。现在，我们要训练所有可用的分类类型，它们被显示在左侧面板上。我们得到这个分类精度最高。为了评估该训练模型的性能，我们还可以看一下混淆矩阵昭示着我们准确和不准确的预测。我们看到，经过训练的模型估计大部分的故障类型的高精度。但也有它不好估计病例。其中的一个原因可能是对这些故障类型的正常和有故障的条件下的数据非常相似，因此硬彼此进行区分。 But it can be also due to the set of features we selected. As we mentioned before, this part of the algorithm is iterative. If we’re not satisfied with the performance of the trained model, we need to go back and select a different set of features and evaluate the performance of this new model.

在本视频中，我们看到了如何使用诊断功能设计器提取功能，以开发预测性维护算法。我们还讨论了如何使用分类学习器来训练机器学习模型。别忘了查看我们在本系列之前的视频和产品页面，以了解如何使用MATLAB和Simulink开发预测性维护算法。万博1manbetx