使用域知识和转换来提取和优化原始数据的功能

特征工程是将原始数据转换为机器学习使用的功能的过程。特征工程很困难,因为从信号和图像中提取特征需要深度域知识并找到最佳功能,即使您应用自动方法,即使您应用自动方法也是一个迭代过程。

功能工程包含以下一个或多个步骤:

  1. 特征提取生成候选功能
  2. 功能转换,映射功能使其更适合下游建模
  3. 功能选择识别在降低模型大小和简化预测的同时在建模数据时提供更好的预测力的子集。

例如,体育统计数据包括游戏等数字数据,每场比赛的平均时间和得分,都被玩家分解。在此上下文中的特征提取包括将这些统计数据压缩成导出的数字,如每游戏的点或平均时间进行分数。然后,特征选择成为您是否使用这些比率构建模型的问题,或者原始统计数据是否仍然有助于模型更准确的预测。

用于信号和图像数据的手动特征提取需要信号和图像处理知识,尽管自动化技术如小波变换证明非常有效。即使您对信号数据应用深度学习,这些技术也是有用的,因为深神经网络在原始信号数据中未揭示结构揭示结构。从文本数据中提取特征的传统方法是将文本建模为一袋单词。现代方法应用深度学习,以编码单词的背景,例如流行的单词嵌入技术Word2vec.

特征转换包括流行的数据准备技术,例如归一化以解决特征规模的大差异,还可以聚合来总结数据,过滤以去除噪声,以及维卡等维度减少技术,例如PCA和因子分析。

MATLAB支持许多特征选择方法万博1manbetx®。有些基于重要性的重点,这可能是与响应相关的基本。一些机器学习模型在学习算法期间估算特征重要性(“嵌入式”特征选择),而所谓的基于过滤器的方法推断出单独的特征重要性模型。包装选择方法使用选择标准迭代地添加和删除候选功能。下图概述了特征工程的各个方面,以指导从业者寻找其机器学习模型的表现特征。

基本功能工程工作流程。

深入学习已知用于将原始图像和信号数据作为输入,从而消除了特征工程步骤。虽然适用于大型图像和视频数据集,但在应用深度学习到较小的数据集和基于信号的问题时,功能工程仍然仍然至关重要。

关键点

  • 特征工程对于应用机器学习至关重要,以及对深度学习的应用来说也是相关的。
  • 小波散射从信号和图像数据提供良好的功能,无需手动功能提取
  • 诸如特征转换和选择之类的其他步骤可以产生适合部署到硬件约束环境的更准确但较小的特征。

例子

通过应用中实施的最小冗余最大相关性(MRMR)算法来排序特征FSCMRMR.如图所示,Matlab在Matlab中的功能会产生良好的分类功能这个例子。重要性分数大幅下降意味着您可以自信地确定用于模型的功能的阈值,而小滴表示您可能必须包括许多其他功能,以避免产生的模型的准确性损失。

MRMR仅适用于分类问题。回归,邻里分量分析是一个很好的选择,在matlab中提供FSRNCA

也可以看看:特征提取功能选择聚类分析小波工具箱