康奈尔生物声学科学家开发高性能计算平台分析大数据

挑战

从海洋、田野、森林和丛林获得的大量声学数据中探测和分类动物的声音

解决方案

利用MATLAB、并行计算工具箱和MATLAB并行服务器开发高性能声学数据分析计算平台

结果

  • 节省了多年的开发时间
  • 分析时间从几周减少到几小时
  • 以前未处理的数据以天为单位进行分析

“使用MATLAB的高性能计算使我们能够处理以前未分析的大数据。我们将所学转化为对人类活动如何影响生态系统健康的理解,从而为人类在海洋和陆地上的行为提供负责任的决策依据。”

克里斯托弗·克拉克博士,康奈尔大学
生物声学研究项目用来收集大型须鲸和其他海洋哺乳动物数据的一种声学分析设备。照片由Dimitri Ponirakis提供。

30多年来,科学家们通过记录海洋、丛林、森林和其他自然环境中动物的声音来研究当地的动物种群。他们利用这些结果来评估人为噪音对自然环境的影响,监测濒危动物数量,并调查动物交流。被动声监测系统连续记录声音,产生tb级的数据。科学家往往无法处理哪怕1%的数据,因为他们缺乏必要的先进算法和处理能力。

康奈尔大学鸟类学实验室的生物声学研究项目(BRP)的科学家们用MATLAB分析了大量的声学数据®、并行计算工具箱™和MATLAB并行服务器™。该项目由美国海军研究办公室(Office of Naval Research)和美国国家海洋伙伴计划(National Oceanic Partnership Program)资助,由康奈尔大学(Cornell)的两位首席研究员领导:BRP高级科学家和主任克里斯托弗·克拉克(Christopher Clark)博士和BRP首席数据科学家彼得·杜根(Peter Dugan)博士。

“MATLAB和MATLAB并行计算工具为我们提供了动态改进和调整算法的灵活性,我们使用这些算法来处理我们的大型声学数据集,”克拉克博士说。“如果我们使用c++或类似的语言,我们就无法快速移动或探索更多场景。”

挑战

分析声学数据的研究人员必须应对天气、其他动物、附近的机械和车辆的噪音。动物声音在一个物种内的个体之间的可变性是一个更复杂的问题。噪声和变异这两个因素增加了误报和误报的数量,降低了检测算法的准确性。

处理BRP正在收集的数百tb的数据是另一个挑战。一个典型的项目需要处理多年的原始声学数据,这些数据可达10tb,记录在多个通道上。每个通道可能捕获数亿个事件——当数据被视为声谱图时突出的声音。在小的、高质量的样本上测试的算法,在应用于较大的、噪声较大的数据集时,其准确性往往要低得多。

最后,BRP分析工具必须服务于广泛的研究计划、环境和不断变化的需求。“对我们最初研究问题的回答通常会带来全新的探索途径,我们需要能够应对需求中的这些突然变化,”克拉克博士说。

解决方案

BRP数据科学家利用MATLAB开发了高性能计算(HPC)软件,用于自动处理声学数据。

他们开始了一个检测分类项目,通过收集他们想要检测的动物的音频片段,动物环境中的背景噪声片段,以及归档的声学数据的mat文件。在MATLAB中,他们开发新的或改进现有的算法,以检测与剪辑目录中类似的存档数据中的音频序列。

该算法使用了图像处理工具箱™和信号处理工具箱™支持的模式匹配、边缘检测、连通区域分析、卷积等技术,以及模糊逻辑工具箱™和深度学习工具箱™支持的机器学习技术。万博1manbetx

为了评估算法的准确性,研究人员使用统计学和机器学习工具箱™来计算接收者工作特征(ROC)和其他性能曲线。

在使用并行计算工具箱调试和优化小数据集上的算法后,科学家们使用MATLAB并行服务器在64个工作人员集群上对完整的存档数据集运行它们。

BRP团队开发了一个MATLAB接口,使研究人员能够指定算法、数据集和处理器数量。

BRP与Marinexplore和Kaggle社区合作赞助了一项全球竞赛,超过240名参与者提交了检测和分类北大西洋露脊鲸向上接触呼叫的算法。BRP利用他们的MATLAB HPC平台识别出最精确的算法,该算法将被用来帮助防止船只与鲸鱼相撞。

除了检测和分类算法,BRP还使用MATLAB进行噪声分析和声学建模,捕获和模拟海洋或陆地环境的时间和频率频散效应。

结果

  • 节省了多年的开发时间.杜根博士说:“一项对预计成本的研究表明,如果我们必须自己完成这项工作,将需要3年时间、100万美元和大量外部帮助来开发我们所需的高性能计算平台。”“利用并行计算工具箱和MATLAB并行服务器,我们只用了不到三个月的时间就开发出了这个平台。”

  • 分析时间从几周减少到几小时.“我们的一种算法用了19周的时间来处理90天的数据,”杜根博士说。“使用并行计算工具箱和MATLAB并行服务器,我们在8小时内完成了对集群的相同分析。”

  • 以前未处理的数据以天为单位进行分析.“一个数据集捕捉了10万小时的声音。它是如此之大,以至于我们之前只处理了不到1%,估计需要一年或更长时间才能处理剩下的,”杜根说。“在我们的MATLAB HPC平台上,我们在两天内使用不同的检测算法处理了6次数据。”

康奈尔大学是世界上提供MATLAB和Simulink校园访问的1300所大学之一。万博1manbetx通过校园范围许可,研究人员、教师和学生可以访问最新版本的产品的公共配置,以便在教室、家中、实验室或实地使用。s manbetx 845