用户故事

奥克兰理工大学和奥克兰大学的研究人员分析乳品加工数据和机器学习

挑战

确保一致的生产高质量的奶粉在新西兰的牛奶加工厂

解决方案

使用MATLAB进行预处理和从多个植物,对齐数据分析和可视化数据,开发机器学习模型能够预测粉的功能属性

结果

  • 关键过程识别和纠正缺陷
  • 多个小时的机器学习分类器评价
  • 轻松地处理大型数据集;手工流程自动化

“这是伟大的坐下来与我们的行业合作伙伴和观察他们的下巴下降当他们看到我们是多么富有成效的MATLAB和我们可以分析和图数据的速度有多快。我们的研究结果使他们证实假设他们缺乏证据,并引发了新的过程改进的想法。”

大卫·威尔逊、工业信息和控制中心
一个3 d的PCA分析植物过程变量在三个粉加工厂和6年的数据。

一个3 d的PCA分析植物过程变量在三个粉加工厂和6年的数据。分析表明,每个植物存在于一个完全独立的操作空间,尽管生产相同规格的产品。s manbetx 845


工业和控制中心(我的信息2C2)是一种联合研究所奥克兰理工大学的(AUT)和奥克兰大学的。成立改善过程模拟和控制在新西兰的乳制品和其他出口行业。

学院的工业伙伴之间是恒天然在中国最大的奶粉生产商。在最近的一个项目,我2C2研究人员开发了机器学习模型,帮助恒天然优化产品质量和简化生产流程。

使用MATLAB®和统计和机器学习工具箱™,研究者分析收集的数据从多个生产设施在新西兰预测奶粉的功能性质基于工艺条件。

“MATLAB的广度是我们无法比拟的其他环境用于统计分析,”大卫·威尔逊说我的主管2C2和副教授AUT电气和电子工程学系。“与MATLAB,我们使用大量的信息在一个环境中,而不需要将大型数据集从一个到另一个工具。”

挑战

奶粉质量评估它的化学成分,如脂肪和蛋白质含量,和物理和功能特性,如容重和溶解度虽然化学成分相对受现有的工业流程,确保一致的功能性质是更具挑战性。植物生产粉末相差很大在设计和年龄,和经常使用截然不同的过程设置。结果,当一批粉生产质量变量,确定出了什么问题,什么时候可以有问题。

动力部分由美国食品和药物管理局的质量设计和过程分析技术计划,我2C2研究人员着手分析数百万行时间序列数据(包括温度和其他记录过程变量,以及测量值的物理和功能属性),从三个不同的加工厂在六年的时间。收集,原始数据是不一致的和不一致的。之间没有共同的参考过程测量和产品价值,记录错误和仪器故障有时导致缺失的数据,和不同数据集的时间戳在不同的格式。

然而,团队需要使用这些数据来确定工厂操作的条件当一个特定的示例。然后他们需要确定哪些异常条件导致了不同质量的奶粉,并推荐程序纠正这些条件。理想情况下,修正必须让工厂在操作的时候,而不是几小时或几天后,相关的实验室测试结果。

解决方案

2C2用MATLAB进行预处理和从牛奶加工厂,对齐数据分析和可视化数据,开发机器学习模型能够预测奶粉的功能属性。

在MATLAB中工作,我2C2研究加载过程从恒天然的数据库中提取数据。清洁和调整所涉及的数据使用插值估算值缺失的数据,并调整不同的数据集通过解释生成时间戳以多种格式。

一旦团队一组干净的数据,他们使用统计和机器学习工具箱进行统计分析使用主成分分析(PCA)和偏最小二乘(PLS)回归。研究小组补充,多变量分析和MATLAB三维柱状图,散点图等图形可视化结果和与恒天然工程师分享他们的发现。

我继续在MATLAB,2C2团队实现更高级的回归模型使用至少绝对收缩和选择操作符(套索)方法,并评估各种机器学习分类器。

最初,分类器实现了预测精度小于50%。这是由于训练数据只包括几个实例的数据记录当奶粉工艺参数之间存在着显著的差异。而低数量的这种情况下随心所欲操作人员,它并没有提供足够的数据建立模型。为了纠正这个问题,团队upsampled不合格的样本训练数据和downsampled剩下的样品。

为了提高预测精度,他们使用的重新取样训练数据来评估其他分类器类型。分类学习者应用,他们迅速评估20多个分类器,包括支持向量机,再邻居,和各种各样的决策树,包括了树木和袋装决策树。万博1manbetx他们最终发现了树效果最好,几乎95%的预测精度。

2C2研究人员目前集成自动图像处理分析工作流。使用图像处理工具箱™,研究小组分析了成千上万的奶粉颗粒的照片,计算粒子大小、凸性、循环性和其他形状因素和关联这些指标与功能性质的粉末。

结果

  • 关键过程识别和纠正缺陷。“在我们的合作伙伴的一个工厂,这一过程旨在增加奶粉的主要成分是失败的时间,和工厂经理无法确定故障的原因,”尼克•德普瑞说我项目经理2C2奥克兰大学的博士后研究员。“我们在MATLAB进行逐步分析使我们确定问题的根源,现在已经解决了。”
  • 多个小时的机器学习分类器评价。“分类学习者应用,在一个下午我们能够试着支持向量机和其他几个分类器类型与我们的数据,看看哪个效果最好,”大卫说。万博1manbetx“因为我们没有与机器学习的经验,它可以让我们几个月。”
  • 轻松地处理大型数据集;手工流程自动化。“我们过去用于多变量分析的工具未能处理更大的数据集,但MATLAB没有问题,”德普瑞说。”同样,它是不可能手动创建报告我们与恒天然在微软®Excel®。MATLAB,我们自动化这个过程和生成成百上千的图表数据跨多个植物和年。”