Gabriele Bunkheila, MathWorks
越来越多的应用需要在时间序列和传感器数据上联合使用信号处理和机器学习技术。MATLAB®通过在单一环境中提供全方位的建模和设计功能,可以加速数据分析和传感器处理系统的开发。
在本次网络研讨会中,我们展示了一个分类系统的示例,该分类系统能够识别人类受试者所从事的身体活动,仅基于他或她的智能手机产生的加速度计信号。
我们介绍了MATLAB中常用的信号处理方法(包括数字滤波和频域分析),这些方法有助于从原始波形中提取描述特征,并展示了并行计算如何加速大型数据集的处理。然后,我们讨论如何以编程方式和交互方式探索和测试不同的分类算法(如决策树、支持向量机或神经网络)。万博1manbetx
最后,我们演示了如何使用MATLAB自动生成C/ c++代码来部署用于嵌入式传感器分析的流分类算法。
记录日期:2018年3月21日
欢迎参加本次使用MATLAB进行传感器数据分析的信号处理和机器学习技术网络研讨会。我叫Gabriele Bunkheila,是MathWorks公司产品管理团队的一员。我的背景是信号处理,这也是我在这里度过大部分职业生涯的领域,帮助工程科学家将MATLAB应用于他们自己的挑战。
在本次网络研讨会上,我将讨论一些标准MATLAB技术在研究问题和产品设计工作流程中的应用,这些研究问题和产品设计工作流程需要联合使用机器学习(例如,聚类或分类方法)在信号或时间序列上的应用,这意味着采样的一个值随着时间的推移而变化。
正如我们将看到的,这些问题的复杂性很大程度上源于对机器学习和信号处理领域知识的相当大的需求。这通常会带来挑战。无论你对信号处理、机器学习或两者都不熟悉,或两者都不熟悉,我希望这节课能帮助你理解MATLAB如何极大地加速这些问题的算法设计工作流。
我们也看到了一个不断增长的行业趋势,即将机器学习算法与单一处理一起推向嵌入式设备,并更接近实际的信号传感器。在这里,我将这类应用程序称为传感器数据分析或嵌入式分析。由于此类产品的开发带来了额外的工程挑战,我认为在会议结束时分配一s manbetx 845些时间来回顾MATLAB为这些类型的工作流提供的额外支持是有用的。万博1manbetx
这是我们要看的课程列表。我们将花相当多的时间回顾常用信号处理方法如何应用于准备或预处理信号以及提取描述性特征。我将展示如何在MATLAB中选择、训练和测试分类或模式识别算法,包括一些简单的方法来扩展计算密集型问题的性能。这样做将使我们有机会探索许多基本的MATLAB特性,从交互式应用程序到内部语言结构,这些特性使工作流的算法开发成为可能并加快了速度。
最后,我们将讨论MATLAB用于在线预测系统设计的一些功能,包括DSP功能的设计和仿真,以及从预测算法生成源代码,使其在嵌入式架构上运行。
我一会儿会回到幻灯片上。但这一小时的大部分时间我将讨论一个运行MATLAB的实际例子。你在这里看到的是用智能手机捕捉加速度计信号的三个组成部分。这些信号是由受试者在身体的固定位置佩戴智能手机并进行不同的体育活动产生的。我们正在运行一种算法,就好像它在实时信号上运行一样。但在这种情况下,我们使用标记的记录数据进行验证。
所以我们了解了基本事实。但我们也在尝试完全基于信号处理和机器学习方法来自动理解他们在做什么活动。正如你所看到的,大多数时候我们都能成功地猜出这个活动。
现在我想说一个简单的观点,这只是一个用加速度计数据走路的简单例子。但我将讨论的技术与广泛的应用程序和大多数类型的采样信号或时间序列相关。
为了说明我的观点,我收集了一个简短的示例列表,这些示例是我个人与MATLAB用户一起工作时遇到的,从广义上讲,它们使用相同类型的技术。这些已经在许多不同的行业中捕获了用例,如电子、航空航天、国防、金融、汽车。再说一次,这只是一个随机的例子列表。我们在这里讨论的技术的相关性要广泛得多。
在回到MATLAB之前,我将利用最后一张幻灯片回顾我们刚刚看到的不同例子。我们取来自智能手机的样本加速度的三个分量。我们预测受试者的身体活动是在六种不同的选择或课程中进行选择,步行,上楼,下楼,坐着,站着,躺着。
预测是通过分类算法完成的。分类描述了一种流行的机器学习算法。关键思想是猜测或预测一个新样本的类别,在这种情况下,是一个信号缓冲区,基于之前对类似数据的了解。它的工作方式是,首先,用大量已知或标记的案例来训练算法,优化其自由参数,以尽可能准确地识别那些已知的案例。
一旦经过训练,它就可以在未知的新数据上运行,以对新数据最有可能的类别进行猜测或预测。一般来说,训练阶段比测试或运行时阶段需要更多的数据和计算。因此,对于嵌入式应用程序,在主机系统或计算机集群上运行训练阶段并不罕见,但只是将固定的、预先训练好的算法部署到嵌入式产品上。
无论训练或运行时使用,分类器能够在这样的原始波形上工作是非常罕见的。在实践中,对于每个信号段或缓冲区,一旦你有办法从原始波形中提取有限的测量集,通常称为特征,选择使用什么特征的底线是,它们应该捕获同一类信号之间的相似性和不同类信号之间的差异。我们将花大部分时间来展示如何使用MATLAB来设计这两个大的算法步骤,从最初的探索阶段开始。
简单地说,完成类似任务或项目的一个关键部分是参考数据集的可用性。这将是在受控实验中获得的信号记录的集合,并仔细标记,以便知道信号并将其与正确的活动联系起来。在这个例子中,我借用了两个研究小组提供的一个很好的数据集,分别来自西班牙和意大利,可以在这张幻灯片上的地址找到。
我希望现在总体问题已经足够清楚了。让我们回到MATLAB。在接下来的内容中,我将假设您熟悉MATLAB的基础知识,包括脚本和函数以及基本的绘图和可视化。
为了向您介绍这个示例,我将使用一个由许多代码单元组成的脚本,这些代码单元可以独立执行。我将跳过第一个单元格,我在开始时使用它启动完整的应用程序。为单元格执行此操作将加载我的数据集的一部分并绘制它。
我们先不考虑如何加载数据或如何生成这个图。让我们来看看现有的数据。我们有一个矢量acc,它包含了一个物体在一段时间内垂直加速度的样本。数据集本身是30个不同受试者的3D加速记录。加速度是每秒50个样本。这就是采样频率变量fs的含义。我们还有时间向量t, acc的长度相同,这很好。
T和acc可以相互对应。图表显示,对于这个主题,我们有大约8分钟的样本。这里的时间间隔是有规律的。在某些应用中,情况可能并非如此,或者样品可能缺失。但请记住,MATLAB有很多技术来正则化和预处理这些类型的信号。
另一个明显需要注意的东西是另一个长向量actid,它是活动ID的简写,它告诉我们每个数据样本对应的活动是1到6之间的整数。我们可以通过查看剩余的变量acc标签来解释这些整数,因此1表示行走,2表示上楼梯,3表示下楼梯,等等。
所以这里的图看起来和我们的最终目标很相似,也就是在给定部分信号的情况下识别活动。但是记住,这是已知的,标签数据。我们只是将可用的信息可视化。我们想要做的是设计一种方法,可以从这些信息中学习,在没有之前知识的情况下根据新数据来猜测。
我们怎么做呢?所有第一次尝试,我们将尝试使用直观的方法。举个例子,在这个图中,你已经看到加速度波形确实看起来不同取决于活动。你可以看到几乎所有活动的平均值都在10左右,即g或9.8,而1更接近0。你猜怎么着?这是因为物体与引力场的方向不同。
其中有三个看起来相当静止——不奇怪——它们是坐着、站着和躺着,而其他三个似乎上下摆动得更多。我们可以从非常简单的方法开始,对连续的一部分样本进行统计测量不管它们在时间上是如何分布的。
例如,分别观察行走和铺设样本的分布,可以看到,仅仅计算与阈值比较的平均值(如你所见,这里是5)就会给我们一个很好的机会来区分两者之间的差异。类似的考虑,比如走路和站着,但在这种情况下,我们可能想测量标准差并将其与1或2米每秒方进行比较。
但如果我们必须弄清楚普通行走和上楼之间的区别呢?在这种情况下,均值和标准差或分布宽度看起来非常相似。在这里,你真正应该考虑的是一些更高级的分析,关于值是如何随时间变化的,看一些东西,比如,振荡的速率或形状。
一个直观的原因可能是因为人们下楼梯的速度比上楼梯快,或者不同活动的动作类型不同。这正是信号处理方法开始成为画面一部分的地方。
在此之前,让我先说明一下我刚才所做的事情。我只是随意地画了三个直方图,并快速讨论了它们的含义。如果你必须从头开始手工完成,即使只有这个任务也可能是一个相当困难的任务。但这类东西在MATLAB中可以作为单独的函数。因此,尽管使用了我的一个预先编辑的函数,将这两个图放在一个图形中,并赋予它们正确的颜色,但在其中,对直方图函数的一次调用,已经为我完成了所有的艰苦工作。
直方图相对于旧的历史被引入并发布了MATLAB的R 2014b。它提供了一种新的、更有效的绘制直方图的方法。
现在要分析随时间的变化,我们要关注由身体运动引起的加速度。可以合理地假设身体运动产生更快的变化,而重力的贡献通常几乎是恒定的。如果我有两个混合在一起的信号,我想把它们分开,那么一种常用的技术是数字滤波。
例如,在本例中,我们希望只保留比大约每秒一个周期快的振荡,这是平均每秒步数的粗略数字,并丢弃较慢振荡的贡献。使用正确的术语,这需要设计和应用到我们的数据一个适当的高通滤波器。我将在整个过程中重复这些想法。
现在设计和应用数字滤波器是困难的,除非你有合适的工具。设计阶段尤其需要相当多的数学知识和大量特定领域的知识。在MATLAB中,有许多不同的方法可以设计数字滤波器。例如,人们可以选择完全以编程方式来完成,这意味着只使用MATLAB commons或通过内置应用程序。
让我们先来看看后者会是什么样子。当你第一次处理一个问题时,使用应用程序通常是一个好主意。为此,我转到MATLAB工具条的“应用程序”选项卡,向下滚动到“信号处理和通信”应用程序组。在这里,我将选择过滤器设计和分析工具。对于更高级的过滤器设计,你可能还想尝试过滤器生成器应用程序。
过滤器设计和分析工具包含几个部分。例如,这个Filter Specifications窗格将帮助我们为过滤器指定正确的需求。在左边这里,我们开始定义我们想要实现的目标。在本例中,我将选择高通过滤器。但是你可以看到很多其他的选择也是可能的。
在这里,有一个更技术性的选择。如果你了解数字滤波器,你可能会知道FIR和IR的意思。这里列出的设计方法可能会引起很多人的共鸣。在这里,我将跳过细节。我会从这些IAR选项中选择一个。移到右边,我所需要做的就是使用上面的规范窗格捕获我的需求。
我要说的是我们使用的采样频率是50赫兹。我们想要保持不变;也就是说,我们要衰减1或0分贝。所有信号成分的振荡速度都超过每秒一次或1赫兹。让我们大方点,假设是0.8赫兹。然后这个fstop值左边的所有值,都至少被衰减了一个给定的dB数。我把这个设为,比如说,0.4赫兹相应地,这个stop设为60 dB。这意味着所有慢于每秒0.4次的振荡都将被滤波器减小1000倍。
最后,通过按设计,工具为我们做了所有的工作。最后我们得到了一个满足要求的过滤器。在这个应用程序中,我们有一组可用的分析工具来验证过滤器的行为是否符合预期。
例如,现在我们正在研究一个频率的边际表响应。如果我需要确认这是遵守规格,我可以覆盖一个规格蒙版。或者如果我想理解瞬态行为,通过按一个按钮,我可以很快地想象阶跃或脉冲响应。
一旦我的滤波器设计好了,我真正想做的是在MATLAB中把它应用到我的信号上。为此,我可以在两种方法中进行选择。我可以将过滤器导出到我的MATLAB工作区作为一个或多个变量。或者我可以生成一些MATLAB代码,通过编程脚本以交互方式实现我刚才所做的所有工作。
你在这里看到的代码是自动生成的,就像这个函数的头告诉我们的那样。然而,我完全可以决定单独使用类似的注释。为我自动生成这些信息还可以帮助我获得一些见解,以便下一次我可以更快地以编程方式设计我的过滤器。但更重要的是,这让我可以通过使用这个函数调用从自己的代码中快速实现筛选器。
我不打算放弃这个新函数,因为我的工作文件夹中已经有一个以前保存的版本,名为HP filter。回到我的脚本,你可以看到我用一行代码通过预设函数创建了一个过滤器。在下一行中,我对垂直加速度应用了过滤器。这就产生了一个新的信号,我们希望只找到身体运动的贡献。如果我执行这一节,我也在绘制新的滤波信号与原始信号的对比图。
在图中,我们可以看到新信号现在都以0为中心,正如预期的那样。这是理想的。由于滤波器的存在,出现了一些瞬态行为,这是完全正常的。
现在让我一次专注于一项活动。我该怎么做呢?有一个非常有效的MATLAB特性叫做逻辑索引,我可以用它来解决这个问题。看看这个。假设我想分离信号中的行走部分。活动类型存储在向量actid中。我在这里检查actid是否等于1。因为这里有两个工作部分,你只看时间小于250秒的时候。
这里的结果是一个与信号长度相同的向量,我可以用它来选择符合这些条件的样本。这是我们的工作段。我们可以放大并确认信号振荡相当有规律,几乎是周期性的。现在的问题是,我如何测量振荡的速度或者一些参数来量化这些振荡的形状或指纹?
一个很好的答案是通过观察信号的光谱表示,或者有人可以说通过计算它的FFT。比FFT好得多,这是一个相当低级的操作,这里正确的短语是功率谱密度,可以使用FFT和其他一些零碎。同样,我最好的选择是专注于我的目标,看看MATLAB是否可以简单地为我做这件事,就像这种情况一样。
在许多可用于估计信号功率谱密度的函数中,我使用的是威尔士方法,它非常流行。根据这里的代码,我得到了频谱。在x轴上,是采样频率的0到1/2,也就是50赫兹。在y轴上,我有分贝每赫兹或功率密度。那么图中值较高的区域很可能包含我要找的信息。
对于我们的信号来说,这种在0到10赫兹之间具有更高能量的峰值模式包含了大量可测量的信息。如果你上过突然信号理论课,你会记得周期性或几乎周期性信号的光谱。我们可以看到一个基频,大约在1赫兹左右,以及在该频率倍数位置上的许多次谐波。
至于从中提取信息,这些峰之间的频率距离就是时域振荡率。峰值的相对振幅描述了振荡的形状,有点像音乐信号中的音色。为了验证这些,我还会给你们看在上楼梯时在0到10赫兹范围内行走的频谱。
在这里,上楼梯会产生更慢更流畅的动作,因为这些峰中较慢的都被推到了左边。时域的平滑性导致基元右侧的峰值迅速减少,表明更软的时域过渡。如果这听起来很陌生,想想纯正弦波的频谱,与充满高频谐波的方波相比,正弦波的频谱中只有一个单峰。
一旦确定了特殊山峰携带的信息,我们就需要一种程序化的方法来测量它们的高度和位置。这是下一个问题。如何识别曲线上的峰值?与一些人的想法相反,这并非微不足道。信号处理工具箱提供了一个名为“查找峰值”的函数,该函数正是为此而构建的。
如果我们使用它时只提供原始光谱密度,那么它将返回在我的图中找到的完整的局部峰值集。但如果我们在定义我们想要的东西上花更多的精力,例如,它应该返回多少个峰,我们需要的峰突出度是多少,或者我们期望的相邻峰之间的最小距离是多少,那么结果就会更令人鼓舞。只需使用几行代码,我们现在就有了一个可以自动化的编程测量方法。它很好地描述了信号的特征。
在我一开始向你们展示的例子中,我使用了更多的信号处理测量来提取其他特征。但我认为,到目前为止,您已经了解了从信号中提取特征的探索性方法的一般精神。在这个阶段结束时,我所做的是将所有有用的测量值收集到一个函数中,以便对于每个可用的新信号段,我能够自动生成描述它的所有测量值或特征的集合。
让我快速给你们展示一下。对于这三个方向上的每一个加速度样本的新缓冲,我都在计算平均值,过滤重力贡献,计算均方根值,测量光谱峰值,以及其他一些事情。如果我看一下光谱特征子函数,你可以认出几分钟前的PWELCH和Find Peaks函数。
总的来说,这个函数对于每一个作为输入传递的新信号缓冲区都会返回66个高度描述性的特征。我真正喜欢它的地方在于,如果我计算不计注释和空行的代码行数,总共只有54行。这是66个特征的54行代码,或者每个特征的一行代码要少得多,我发现这表明MATLAB语言在理解和生产力方面是如何简洁的。
有了这些,我想我们现在可以说我们已经完成了探索性工作流程的一半。我们采用了一种方法,为每个给定的信号片段提取有限的特征集。我们现在需要设计一个分类器,能够学习如何将测量值(在本例中是66个特征集)与一个类或六个可用选项中的一个活动关联起来。
要使用分类器,我们首先需要将所有数据映射到新的基于特征的表示中。让我打开另一个脚本,快速向您展示我的意思。想象一下,我们首先重组了我们的数据,比如8分钟的样本乘以30个受试者,在大量等长的小缓冲区中,比如128个样本。我们现在要做的是,对于每一个缓冲区,我们调用特征提取函数来计算66个特征。我们最终得到了一个新的特征数据集,它的列数和特征的数量一样多,可用缓冲区的行数也一样多。
由于分类算法通常需要大量的数据来学习,从整个数据中提取特征可能需要很长时间。如果在这个探索阶段决定使用不同的特性,那么整个操作就需要重新开始。让我用一个小例子来说明我的意思。
让我们将这里的数据缓冲区数量减少到仅600并运行这个。我在循环之前启动一个计时器,然后立即停止它。当我的600个数据缓冲区一个接一个地转换成特征时,我们可以监视这个过程。这个过程大约在17秒后结束。让缓冲区的数量增加,这个会和那个线性增长。
现在想想这个。for循环中每个循环的计算都是相互独立的。因此,如果我们有更多可用的计算资源,我们就可以开始考虑在可用的计算节点上分配负担。我猜你们大多数人会认为这是一项艰巨的任务。所以让我来挑战这种看法。
我在这里要做的是将for关键字更改为parfor,确保启用了并行池,然后再次运行循环。缓冲区现在由后台运行的四个服务器MATLAB工作会话池异步处理。我只用了原来时间的一小部分就完成了。
实际的性能增益将根据特定的问题而变化。最重要的是,因为我的机器上安装了并行计算工具箱,所以我能够在本地打开大量的MATLAB worker,这些worker与我的机器上可用的内核数量相等。这里有四个核。但是对于集群这样的外部资源,这个数字可以随意增加。然后我就可以分发一个长for循环的独立迭代只需要把for改成parfor,就像parallel for。
一旦我们完成了,我们可以保存我们的特征数据集,并回到我们离开问题的地方。我们把问题留在了需要选择分类算法的阶段。现在我们有了可以继续研究的数据。当你需要分类器时,你可以在大量不同类型的算法中进行选择。MATLAB文档提供了一些关于哪种类型最适合于哪些问题的指导,但整个试错的过程可能会令人生畏,特别是如果你对机器学习总体上或具体地不熟悉,不熟悉合理数量的分类算法。
从2015a版本开始,为了解决这个问题,MATLAB有一个新的应用程序,叫做Classification Learner。你可以从Apps选项卡中选择它。但是让我用预设的特征数据加载它,并通过运行我的脚本中的公共分类学习者来打开应用程序。
首先,我加载我的数据,并选择右边的这个选项,以保留我的数据集的一部分进行验证。要知道,在加载脚本中的数据之前,我还会将其作为MATLAB表进行范围划分。这将允许工具将名称与我的特性关联起来,并为每个名称显示一些简单的统计信息。我的数据还包括每个可用特征向量的actid和活动标签。
当我点击右边的Import Data时,我便能够在2d功能空间中看到我的数据点。我可以选择66个特征中的哪一个用于x,哪一个用于y,并感受一下我的数据样本可分离性有多好。在这一点上,我们简单地开始从这个目录中选择不同的分类器算法,并使用这个按钮在我们的数据集中逐个训练它们。
你真的不需要知道这些算法是什么,它们是如何工作的,以及它们需要什么参数才能工作,因为这个工具会为你聪明地选择它们。如果你愿意,你可以用这个高级按钮来改变它们。我希望您可以看到,当训练完成时,该工具在每个所选选项旁边显示精度摘要,并以绿色突出显示精度最好的选项。
在这个阶段,您可能还需要更深入地了解分类器的性能。这个应用程序有一些可用的诊断选项,比如,混淆矩阵,它显示了我们的预测与数据集中的实际已知值的映射程度。例如,这里有一个完整的绿色对角线,在它之外没有实例,这将表明100%的预测准确性。
与MATLAB应用程序的许多其他情况一样,您可以将交互式探索性工作转换为一些代码,以编程方式自动化相同的步骤。在我们的脚本中,我们使用的是完全来自相同工作流的预设版本。这里有趣的是一个三行代码模式,包括选择分类器的设置、训练——注意这里的fit关键字——以及在新数据上运行它以返回预测的类。
我们可以在脚本中使用这个生成的函数来返回一个训练过的分类器,并将其用于新的未知特征向量。我现在还不会这么做,因为我还有些东西需要提一下。分类学习器提供了一种直观的方式来访问大量随统计和机器学习工具箱一起发布的传统分类器。
解决这个问题的另一种方法是神经网络。同样,在这种情况下,从头开始设计和训练一个网络将是非常复杂的。但是神经网络工具箱提供了应用程序和函数来快速入门,并仅用几行代码就设计出一个功能网络。
由于时间的关系,为了从不同的角度来看问题,让我来分享一下在这种情况下如何使用编程方法来完成相同的工作。在这里,我用一行代码在一个隐藏层中初始化了一个包含80个神经元的模式识别网络。然后我训练它,并在几行中返回测试集中的预测类。
如果你曾经接触过神经网络理论,那么你就会知道这些运算背后的数学复杂性是相当大的。想想在[听不清]网络架构中使用反向传播以及你可能需要为成本函数考虑的所有优化选项。在这种情况下,大多数完善的算法都可以使用,这样您就可以专注于解决特定的问题。当我执行这段代码时,我得到了一个监控训练进度的接口,同时也确认了网络的架构:隐层中有80个神经元,66个输入作为特征的数量,6个输出类。
当我们完成后,训练好的神经网络就可以在我的工作空间中使用了。同样,通过编程方法,我可以使用它在我的数据集的整个测试集部分上运行预测。正如我们之前所做的那样,我可以以编程方式生成诊断,就像在这个混淆矩阵的情况下一样。
这报告了大约92%的准确率,这是相当不错的,以及所有预测器类别如何匹配已知值的详细视图。举个例子,我们可以注意到很多人把坐和站混淆了,反之亦然。这是我们算法需要改进的地方。
现在让我回顾一下我们所取得的成就。我们能够训练和使用一个分类器,该分类器对用信号处理方法提取的高质量特征进行操作。我们解决了一个需要信号处理和机器学习两个领域的专业知识的问题,这个问题没有单一的解决方法,可能需要很长时间才能解决。相反,这只需要几次迭代。我使用了几个不同的应用程序和算法,它们都很容易使用,而不需要打开任何复杂的书籍,从头开始编写任何数学程序。一个显著的结果是信号处理函数能够在54行代码中提取66个特征。
现在我想用我们这节课的最后10分钟来考虑一些常见的工程挑战,稍微超出了我们到目前为止讨论的算法探索阶段。假设我们的最终目标是对一个新的加速度传感器发出的信号进行预测。在本例中,我们使用了一个现有的数据集。我们并没有问自己这些数据是如何收集来的。
总的来说,掌握相关数据可能是我们清单上的第一个问题。我经常与工程师交谈,他们认为要获取真实世界的信号并探索你的算法,你需要两种不同的工具,他们最终花费了相当多的时间在MATLAB和一些外部数据采集软件之间转换数据。但事实证明,MATLAB可以直接连接到许多传感器和数据采集设备。使用这种连接可以进一步加快你的发现周期。
因为我们的例子使用了来自智能手机的加速计和数据,我想我还应该包括两个免费支持包的参考,可以从MathWorks网站下载,它们允许将来自iOS和Android设备的传感器信号直接传输到MATLAB中。万博1manbetx
现在想想开发工作流的结尾,想象一下你的MATLAB算法必须在实时系统上实现;例如,在靠近加速度计本身的嵌入式设备上。在这种情况下,不仅最终的实时软件可能需要用C或c++重写,而且算法的实际功能也必须在最终产品中重新调整。
机器学习部分可能需要更简单。例如,嵌入式分类器通常离线预训练,然后在只进行在线预测的轻量级版本中实现。信号处理也可能会有更大的变化。例如,处理来自传感器的信号流的滤波器将不断接受新的样本,并相应地更新其内部状态。
如果原始的MATLAB模型没有考虑到这些影响,那么在最终实现中可能永远无法匹配原始模拟的性能,可能会影响实际最终产品的成功。
好消息是MATLAB不仅与初始信号分析和算法探索阶段相关;它们也可以用来模拟实时系统和生成可嵌入的源C代码。这些方面的细节超出了本次网络研讨会的范围。但是让我给你们一个在这个领域可能的想法。
最快的一点是分类器的部署。当我们训练和测试我们的神经网络分类器时,所有的事情都是通过一个我们称之为net的网络对象完成的。它具有丰富的功能。而且用于预测的实际数学代码可能很难找到。但是从我的对象网络中,我可以运行这个genFunction方法,并生成一个简单的预测函数,它只使用基本结构对需要实时发生的事情进行建模。
现在让我们看一下数字信号处理的建模。在左边,在extractSignalFeatures中。m我有我们之前回顾过的54行特征提取函数。这里使用的更多信号处理功能来自信号处理工具箱。这些在我们的探索阶段非常有价值。它们是数据分析任务的最佳选择。但它们并不是为了模拟实时系统的行为。这并不是我们最初把这些代码放在一起时所想到的。
比如,看看我们是如何过滤信号的。我的第一个考虑只是题外话。但它可能会帮助我们进入正确的心态。在这里,我们为每一个新的信号部分计算滤波系数,即使它们总是相同的。我们一次把所有的条目都拿进去。我们认为这是一个很长的手术。当我们这样做时,每次我们都假设从一个内部状态为零的干净历史记录的过滤器开始。
现在,为了进行比较,让我看看另一种对该过程建模的方法,该方法在头脑中具有实时实现。这是来自buffer。m的另一个函数特性。右边这个函数中的大部分信号处理来自DSP系统工具箱。这些对象是在系统设计和模拟的基础上开发的。它们用于信号分析可能不太实用。但是它们可以用来精确地模拟实时DSP系统。
如果我们只看过滤器进行比较,这是一个内部结构概念的过滤器对象。你可以看到,只要在MATLAB中创建一个,就可以通过获取完整的数据类型规范来获得更好的准确行为;例如,对于一个定点实现。
对象保持其内部状态,并声明为持久性。所以退出和重新进入这个函数会发现它还是之前的状态。所以,如果需要,它甚至可以一次取一个样本。它仍然会像预期的那样运行。
至于系数,它们只在这个持久变量初始化时第一次调用这个函数时计算。然后在运行时通过对每个新的数据缓冲区调用step方法来使用它们。作为一个副作用,这个过滤器运行非常高效,因为它只初始化了一次。从第二次开始,它只执行严格必要的计算来处理输入。这些特性使它非常适合在信号设计和仿真的上下文中与流信号一起使用。这个新系统模型的第一个优点,正如我们现在所称的,是通过模拟,我们可以在早期验证嵌入式系统的算法设计,并检查行为是否符合预期。
我相信这个可视化现在看起来很熟悉。这就是我在这节课一开始介绍我们的例子时展示给你们的。这里的动态模拟提供了不同的视角。例如,我可以在从一个活动到另一个活动的过渡中检查预测的稳定性。或者在另一个应用中,我可能需要像在示波器上那样分析信号,例如,使用触发器和标记。
这是一个时间范围。但是其他类型的可视化也是可能的——显然,包括使用频谱分析仪在频域进行可视化。但我们现在不考虑这个。
如果我们看一下生成模拟的代码,我们将再次遇到在新特征提取函数中看到的许多编程实践。因此,例如,我们在每次迭代中使用一个带有新数据进程的while循环。这个代码对象是我们从连续在线可视化中使用的。在while循环中,我们只是使用前面已经看到的step方法的相同简单构造不断地插入更多数据。
在这个循环的开始,我们以类似的方式使用一个文件读取器对象来递增一个数据文件,而不需要在内存中加载一个潜在的巨大文件,也不需要对源数据进行任何复杂的索引。我们只是在开始时传递文件名,并在每次迭代时获得一帧新的样本。
这里我还使用了一个缓冲区来帮助我操作一个比系统在一次迭代中可能接收到的更长的数据窗口,所有这些都包装在一个单独的对象中,以隐藏在索引中,并通过相同的步骤接口使用。在循环的中间,你可以看到我们用新的DSP模型和轻量级神经网络分类器模拟的预测函数。
除了在线模拟系统的能力之外,拥有DSP处理组件和部署的神经网络的实时模型的第二个实质性优势是,我们现在可以从它们自动生成源C或c++代码。可以在嵌入式产品、嵌入式原型中使用,或者仅仅作为与下游软件工程团队共享的参考。
关于这个还有很多要说的,包括直接生成定点或目标优化c的能力,但我只向你们展示它是如何工作的。虽然你第一次也可以通过一个专用的内置应用程序来完成这个工作流程,但总的思想是,通过这个简单的通用代码原,我们可以将MATLAB函数预测活动从信号缓冲区转换为完全等效的开放C函数,没有附加库。生成的C是完全开放的。在本例中,我没有对生成的代码进行优化。但是有很多特性可以做到这一点,包括生成所有定点代码的能力。
好的。我想我们已经看到了我计划给你们看的所有东西。现在让我回到幻灯片上。我将后退一步,回顾我们在这个演示的各个部分中所做的工作以及我使用的功能和工具。
信号分析是使用事实上的标准内置函数为我们节省大量时间的第一个领域。信号处理工具箱是所有这些有用功能的来源。想象一下,从头开始执行所有这些公式,更不用说查找它们并试图理解它们了。并行计算工具箱让我们通过简单地将for循环更改为parfor循环来分发计算密集型的for循环。额外的并行计算选项可用于将我们使用的框架扩展到更大的架构,包括计算机集群和云。
统计和机器学习工具箱不仅允许我们测试大量的分类器,还可以在分类学习者应用程序中快速探索和比较不同的选项。我觉得这大大加快了我们的发现周期。在探索了一些传统的分类器之后,我们还使用神经网络工具箱创建了一个用于模式识别的公共网络拓扑结构,训练它并测试它。我们还生成了该网络的轻量级预训练版本,它使用C热电生成引擎完全支持的基本MATLAB结构捕获运行时计算。万博1manbetx
我们已经巩固了信号处理算法的基础,我们使用DSP系统工具箱中的对象数量来建模我们算法的实时实现。我们在线模拟了我们的系统,该系统使用的对象可以促进存储在磁盘上的长信号的数据流。我们使用优化的范围来处理流信号的连续可视化,类似于如何用台式仪器可视化现实世界的信号。
作为一个副作用,我们的在线建模工作使我们的算法在模拟中执行起来更加有效,并且使它们可以生成C或c++源代码,可以直接部署到嵌入式处理器上。这就是我们使用MATLAB Coder的地方。
MATLAB Coder是一个热电生成引擎,可以将MATLAB算法转换为完全开放的C或c++源代码。关于MATLAB Coder可以做什么,特别是生成可嵌入的源代码,有很多要说的。所以我想我应该向你们推荐一个很好的介绍性网络研讨会,在我们的网站上有预先录制的格式,叫做“MATLAB to C Made Easy”。
关于传感器数据分析的信号处理和机器学习技术,本次网络研讨会已经结束。我希望这对强调一些你们还不熟悉的MATLAB功能是有用的。我将在接下来的几周内提供我使用的代码,以便您可以按照自己的节奏查看示例。
如果你不得不忘记我今天提到的所有内容,我希望你至少能记住以下三个关键观点。首先,我们的开放式项目通过提供广泛的内置功能而成为可能,包括信号处理和机器学习。这让我们能够快速尝试不同的选项,而无需从头开始执行任何数学运算。
这幅图的补充部分是MATLAB环境本身,从基本的可视化功能到生成可重用代码的内置应用程序,不断使用一种语言,使得在几行代码中就可以轻松实现高级功能。
最后,它带您游览了一组MATLAB功能,用于将抽象思想转换为实时算法实现。我们将信号处理算法转化为详细的DSP系统模型,可以随着时间的推移进行模拟。根据这些,我们生成了可以在嵌入式平台上重新编译的C源代码。
您也可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。