用户故事

奥克兰科技大学和奥克兰大学的研究人员用机器学习分析乳制品加工数据

挑战

确保新西兰牛奶加工厂持续生产高质量奶粉

解决方案

使用MATLAB对来自多个工厂的数据进行预处理和对齐,对数据进行分析和可视化,开发能够预测粉末功能特性的机器学习模型

结果

  • 识别和纠正的关键过程缺陷
  • 多个机器学习分类器在小时内进行评估
  • 大型数据集很容易处理;手动过程自动化

“当他们看到我们使用Matlab的效率以及如何迅速分析和绘制数据时,坐在行业伙伴和行业伙伴中,看着他们的下巴才能下降。我们的结果使他们能够确认他们缺乏证据的假设,并引发了新的进程改善思路。“

David Wilson,工业信息和控制中心

对三家粉末加工厂和6年数据的工厂过程变量进行主成分分析的3D图。分析表明,尽管生产相同规格的产品,每个工厂都存在于一个完全独立的操作空间中。s manbetx 845


工业信息与控制中心(I2C2)是奥克兰理工大学和奥克兰大学的联合研究机构。它的建立是为了改进新西兰乳制品和其他出口行业的过程模拟和控制。

在研究所的工业伙伴中,是该国最大的奶粉生产国的福特拉。在最近的一个项目中,我2C2研究人员开发了机器学习模型,帮助Fonterra优化产品质量和简化生产过程。

使用matlab.®和统计和机器学习工具箱™,研究人员分析了从新西兰跨越多种生产设施所收集的数据,以预测基于工艺条件的奶粉的功能性质。

“Matlab的广度是由我们用于统计分析的其他环境中的无与伦比的,”我联合主任David Wilson说2C2也是奥克兰理工大学电气与电子工程系副教授。“有了MATLAB,我们可以在单一环境中处理大量信息,而不需要将大量数据集从一个工具移动到另一个工具。”

挑战

奶粉的质量是通过其化学成分,如脂肪和蛋白质含量,以及物理和功能特性,如堆积密度和溶解度等来评估的。虽然化学成分已被现有的工业过程较好地调节,但确保功能特性的一致性已被证明是更具挑战性的。生产粉末的工厂在设计和年代上差别很大,通常使用的工艺设置也大不相同。因此,当生产一批质量参差不齐的粉末时,要确定哪里出了问题,以及何时可能出现问题。

通过设计和过程分析技术举措,部分通过食品和药物管理局的质量,我2C2研究人员开始分析来自三家不同加工厂的数百万行时间序列数据(包括温度和其他记录的过程变量,以及物理和功能特性的测量值),时间跨度为6年。从收集到的数据来看,原始数据是不一致的,也没有很好地对齐。在过程测量和产品值之间没有共同的参考,记录错误和仪器故障有时会导致数据丢失,不同数据集的时间戳以不同的格式。

然而,该团队需要使用该数据来确定当生产特定样品时植物运行的条件。然后,他们需要确定哪些异常情况导致不同质量的牛奶粉,并建议纠正这些条件的程序。理想情况下,在植物在运营时的校正而不是数小时或几天后,当相关实验室测试结果可用时,必须进行。

解决方案

2C2利用MATLAB对来自牛奶加工厂的数据进行预处理和对齐,并对数据进行分析和可视化,开发出能够预测奶粉功能特性的机器学习模型。

在Matlab工作,我2C2研究人员从Fonterra数据库中提取的加载过程数据。清洁和对齐数据涉及使用插值缺少数据的估计值,并通过解释以多种格式生成的时间戳来对齐不同的数据集。

一旦团队进行了干净的数据集,他们使用统计和机器学习工具箱,使用主成分分析(PCA)和部分最小二乘(PLS)回归来执行统计分析。该团队补充了Matlab 3D直方图,散点图和其他图表的多变量分析,以可视化结果并与Fonterra工程师分享他们的调查结果。

继续在MATLAB中,I2C2团队使用最小绝对收缩和选择算子(LASSO)方法实现了更高级的回归模型,并评估了各种机器学习分类器。

最初,分类器达到了小于50%的预测精度。这是因为培训数据仅包括牛奶粉处理参数显着变化时记录的几个数据实例。虽然较少数量的此类实例让运营人员高兴,但它没有提供足够的模型建筑数据。要纠正此问题,该团队在培训数据中提升了不合标准的样本,并下采样剩余的样本。

为了提高预测的准确性,他们使用重新采样的训练数据来评估其他分类器类型。通过Classification Learner应用程序,他们快速评估了20多个分类器,包括支持向量机、k近邻和各种决策树,包括推进树和袋装决策树。万博1manbetx他们最终发现,提高树木的效果最好,预测准确率接近95%。

2C2研究人员目前正在将自动图像处理集成到他们的分析工作流中。利用图像处理工具箱™,该团队分析了数千张奶粉颗粒的照片,计算了颗粒大小、凹凸度、圆度和其他形状因素,并将这些指标与奶粉的功能特性关联起来。

结果

  • 识别并纠正关键工艺缺陷。“在我们的伴侣的植物之一,一个旨在为牛奶粉添加关键成分的过程失败,植物管理人员无法确定这种失败的原因,”IT2C2奥克兰大学的博士后研究员。“我们在Matlab中进行的逐步分析使我们能够确定问题的原因,现在已经解决了。”
  • 多个机器学习分类器在小时评估。“通过分类学习者应用程序,一下子,我们能够尝试支持向量机器和其他几种分类器类型,以查看它的数据最好,”David说。万博1manbetx“因为我们几乎没有机器学习经验,所以它可能会带来我们的几个月。”
  • 大型数据集很容易处理;手动过程自动化。“过去我们用于多变量分析的工具未能处理我们的较大的数据集,但Matlab与他们没有问题,”贬值。“同样,在微软手动上创建我们与Fonterra共享的报告是不可能的®excel.®.通过MATLAB,我们自动化了这个过程,并从多个工厂和年份的数据中生成了数百张图表。”