统计和机器学习工具箱

统计和机器学习工具箱

使用统计学和机器学习分析和建模数据

开始:

探索性数据分析

通过交互式图形和描述性统计的统计绘图探索数据。通过聚类识别模式和特征。

可视化

使用概率图、箱形图、直方图、分位数图和用于多元分析的高级图(如树状图、双图和安德鲁斯图)直观地探索数据。

使用多维散点图来探索变量之间的关系。

描述性统计

使用一些高度相关的数字,快速理解和描述潜在的大数据集。

使用分组平均数和方差探究数据。

聚类分析

通过使用k-means, k-medoids, DBSCAN,层次和光谱聚类,高斯混合和隐马尔可夫模型对数据进行分组,发现模式。

将DBSCAN应用于两个同心圆组。

特征提取和降维

将原始数据转换为最适合机器学习的功能。反复探索和创建新功能,并选择能够优化性能的功能。

特征提取

利用稀疏滤波和ICA重建等无监督学习技术从数据中提取特征。还可以使用专门的技术从图像、信号、文本和数字数据中提取特征。

从移动设备提供的信号中提取特征。

特征选择

自动识别在数据建模中提供最佳预测能力的特征子集。特征选择方法包括逐步回归、序列特征选择、正则化和集成方法。

NCA有助于选择保留大部分模型精度的特征。

特征变换和降维

通过将现有的(非分类的)特征转换为新的预测变量来降低维度,在新的预测变量中可以删除描述性较差的特征。特征转换方法包括PCA、因子分析和非负矩阵分解。

PCA可以将高维向量投影到低维正交坐标系上,并保留其大部分信息。

机器学习

使用交互式应用程序或自动机器学习(AutoML)构建预测分类和回归模型。自动选择特征,识别最佳模型,调整超参数。

训练、验证和调整预测模型

比较各种机器学习算法,包括浅神经网络,选择特征,调整超参数,评估许多流行的分类和回归算法的性能。使用交互式应用程序构建并自动优化预测模型,并使用流数据逐步改进模型。通过应用半监督学习减少对标记数据的需求。

模型的可解释性

提高黑盒机器学习模型的可解释性,通过使用固有可解释性模型,如生成可解释性模型(GAM),或通过应用已建立的可解释性方法,包括部分依赖图、个体条件期望(ICE)、局部可解释性模型不可知论解释(LIME),和沙普利值。

莱姆在局部区域建立复杂模型的简单近似。

自动机器学习(AutoML)

通过自动调整超参数、生成和选择功能和模型以及使用成本矩阵解决数据集不平衡问题,提高模型性能。

使用贝叶斯优化高效优化超参数。

回归和方差分析

使用线性和非线性回归、混合效应模型、广义线性模型和非参数回归,将连续响应变量建模为一个或多个预测因子的函数。使用方差分析将方差分配给不同的来源。

线性和非线性回归

从许多线性和非线性回归算法中选择多个预测器或响应变量对复杂系统的行为进行建模。拟合具有嵌套和/或交叉随机效应的多层次或层次化、线性、非线性和广义线性混合效应模型,以执行纵向或面板分析、重复测量和增长建模。

与回归学习者应用程序交互拟合回归模型。

非参数回归

使用支持向量机、随机森林、浅神经网络、高斯过程和高斯核,无需指定描述预测器和响应之间关系的模型,即可生成精确的拟合。

使用分位数回归确定异常值。

方差分析

将样本方差分配给不同的来源,并确定变异是否发生在不同的群体内部或群体之间。使用单向、双向、多方向、多元和非参数方差分析,以及协方差分析(ANOCOVA)和重复测量方差分析(RANOVA)。

使用多路方差分析测试组。

概率分布和假设检验

根据数据拟合分布。分析样本间差异是否显著或与随机数据变化一致。根据各种分布生成随机数。

概率分布

拟合连续和离散分布,使用统计图评估拟合优度,计算概率密度函数和累积分布函数超过40种不同的发行版本

使用Distribution Fitter应用程序交互式地适合发行版。

随机数生成

从拟合或构造的概率分布生成伪随机和准随机数字流。

以交互方式生成随机数。

假设检验

对一个、成对或独立的样本进行t检验、分布检验(卡方、Jarque-Bera、Lilliefors和Kolmogorov-Smirnov)和非参数检验。检验自动校正和随机性,并比较分布(两样本Kolmogorov-Smirnov)。

单侧t检验中的拒绝区域。

工业统计数据

统计分析效果和数据趋势。应用工业统计技术,如定制设计的实验和统计过程控制。

实验设计(DOE)

定义、分析和可视化定制的DOE。创建并测试如何操作数据输入的实际计划,以生成关于它们对数据输出的影响的信息。

应用Box-Behnken设计来生成高阶响应曲面。

统计过程控制(SPC)

通过评估过程的可变性来监控和改进产品或过s manbetx 845程。创建控制图,评估工艺能力,执行量具重复性和再现性研究。

使用控制图监控生产过程。

可靠性和生存分析

通过执行Cox比例风险回归和拟合分布来可视化和分析有和没有审查的失效时间数据。计算经验危险,幸存者,和累积分布函数,以及核密度估计。

失效数据作为“审查”值的一个例子。

大数据、并行化和云计算

将统计和机器学习技术应用于内存不足的数据。通过集群和云实例上的并行化,加快统计计算和机器学习模型训练。

用高数组分析大数据

使用带有许多分类、回归和聚类算法的高数组和表,在不改变代码的情况下,在不适合内存的数据集上训练模型。

使用并行计算工具箱或MATLAB并行服务器™加速计算。

云计算和分布式计算

使用云实例加速统计和机器学习计算。在MATLAB Online™中执行完整的机器学习工作流。

在Amazon或Azure云实例上执行计算。

部署、代码生成和Simulink集成万博1manbetx

将统计和机器学习部署到嵌入式系统,使用C代码加速计算密集型计算,并与企业系统和Simulink模型集成。万博1manbetx

代码生成

生成可移植和可读的C或c++代码,用于推断分类和回归算法,描述性统计,和概率分布使用MATLAB Coder™。使用Fixed Point Designer™以降低精度生成C/ c++预测代码,并在不重新生成预测代码的情况下更新已部署模型的参数。

两种部署路径:生成C代码或编译MATLAB代码。

与仿真软件的集成万博1manbetx

将机器学习模型与Simulink模型集成,以便部署到嵌入式硬件或用于系统仿真、万博1manbetx验证和验证。

与应用程序和企业系统集成

部署独立的统计和机器学习模型,MapReduce或Spark™应用程序;作为web应用程序;或者是微软®Excel®使用MATLAB Compiler™的插件。构建C/ c++共享库,Microsoft .NET程序集,Java®Python类,®软件包使用MATLAB Compiler SDK™。

使用MATLAB编译集成一个空气质量分类模型。