统计和机器学习工具箱

使用统计学和机器学习分析和建模数据

下载免费试用版

查看定价

统计和机器学习工具箱™ 提供用于描述、分析和建模数据的函数和应用程序。您可以使用描述性统计、可视化和聚类进行探索性数据分析；将概率分布拟合到数据；为蒙特卡罗模拟生成随机数，并执行假设测试。回归和分类算法允许您进行推断使用分类和回归学习器应用程序以交互方式，或使用AutoML以编程方式，从数据中创建预测模型。

对于多维数据分析和特征提取，工具箱提供了主成分分析(PCA)、正则化、降维和特征选择方法，使您能够识别具有最佳预测能力的变量。

工具箱提供了监督、半监督和非监督机器学习算法，包括支持向量机(svm)，增强决策树，万博1manbetxk-means和其他聚类方法。您可以应用部分依赖图和LIME等可解释性技术，并自动生成用于嵌入式部署的C/ c++代码。许多工具箱算法可以用于太大而无法存储在内存中的数据集。

开始:

什么是统计和机器学习工具箱?

探索性数据分析

通过交互式图形和描述性统计的统计绘图探索数据。通过聚类识别模式和特征。

可视化

使用概率图、箱形图、直方图、分位数图和用于多元分析的高级图(如树状图、双图和安德鲁斯图)直观地探索数据。

多元数据可视化

可用统计图概述

分组数据的箱线图

利用随机邻域嵌入可视化高维数据

使用多维散点图来探索变量之间的关系。

描述性统计

使用一些高度相关的数字，快速理解和描述潜在的大数据集。

描述性统计概述

汇总统计按类别分组

处理缺少值的数据

使用核平滑函数的密度估计

使用分组平均数和方差探究数据。

聚类分析

通过使用k-means, k-medoids, DBSCAN，层次和光谱聚类，高斯混合和隐马尔可夫模型对数据进行分组，发现模式。

聚类分析

基于密度的带噪声应用空间聚类(DBSCAN)

使用K-Means发现基因表达谱

使用高斯混合模型聚类

使用拉普拉斯分数的无监督学习的等级特征

将DBSCAN应用于两个同心圆组。

特征提取和降维

将原始数据转换为最适合机器学习的功能。反复探索和创建新功能，并选择能够优化性能的功能。

特征提取

利用稀疏滤波和ICA重建等无监督学习技术从数据中提取特征。还可以使用专门的技术从图像、信号、文本和数字数据中提取特征。

特征提取工作流程

信号和图像的特征提取

使用文本分析工具箱准备文本数据

基于深度学习特征的图像分类

从移动设备提供的信号中提取特征。

特征选择

自动识别在数据建模中提供最佳预测能力的特征子集。特征选择方法包括逐步回归、序列特征选择、正则化和集成方法。

利用邻域成分分析(NCA)检测特征进行分类

基于最小冗余最大相关性(MRMR)的等级特征分类

高维数据分类的特征选择

通过应用正则化防止过拟合

NCA有助于选择保留大部分模型精度的特征。

特征变换和降维

通过将现有的（非分类的）特征转换为新的预测变量来降低维度，在新的预测变量中可以删除描述性较差的特征。特征转换方法包括PCA、因子分析和非负矩阵分解。

MATLAB中降维和特征变换技术综述

使用PCA分析美国城市的生活质量

了解特征转换和选择技术

PCA可以将高维向量投影到低维正交坐标系上，并保留其大部分信息。

机器学习

使用交互式应用程序或自动机器学习(AutoML)构建预测分类和回归模型。自动选择特征，识别最佳模型，调整超参数。

训练、验证和调整预测模型

比较各种机器学习算法，包括浅神经网络，选择特征，调整超参数，评估许多流行的分类和回归算法的性能。使用交互式应用程序构建并自动优化预测模型，并使用流数据逐步改进模型。通过应用半监督学习减少对标记数据的需求。

在回归学习者应用程序中训练回归模型

回归学习者应用(3:42)

MATLAB用于数据分析(3:55)

建立和评估预测模型的最佳实践

使用ROC曲线评估分类模型(43)

二元分类的增量线性学习

使用半监督学习标记数据

使用分类学习者应用对数据进行分类

模型的可解释性

提高黑盒机器学习模型的可解释性，通过使用固有可解释性模型，如生成可解释性模型(GAM)，或通过应用已建立的可解释性方法，包括部分依赖图、个体条件期望(ICE)、局部可解释性模型不可知论解释(LIME)，和沙普利值。

MATLAB中可解释性概述

应用偏依赖图(PDP)和个人条件期望图(ICE)回归

MATLAB中的模型可解释性(5:49)

本地可解释模型不可知解释(LIME)

在MATLAB中应用Shapley值

可视化不同分类器的决策曲面

莱姆在局部区域建立复杂模型的简单近似。

自动机器学习（AutoML）

通过自动调整超参数、生成和选择功能和模型以及使用成本矩阵解决数据集不平衡问题，提高模型性能。

AutoML是什么?

一步自动模型选择和超参数优化

Hyperparameter优化解释(43)

贝叶斯优化工作流程

鲁棒特征选择使用NCA回归

使用贝叶斯优化高效优化超参数。

回归和方差分析

使用线性和非线性回归、混合效应模型、广义线性模型和非参数回归，将连续响应变量建模为一个或多个预测因子的函数。使用方差分析将方差分配给不同的来源。

线性和非线性回归

从许多线性和非线性回归算法中选择多个预测器或响应变量对复杂系统的行为进行建模。拟合具有嵌套和/或交叉随机效应的多层次或层次化、线性、非线性和广义线性混合效应模型，以执行纵向或面板分析、重复测量和增长建模。

将回归分析应用于纽约市住房数据

使用回归学习应用预测电力负荷(3:42)

描述非线性关系

基于MATLAB的多级混合效果建模(34:44)

了解广义线性模型

与回归学习者应用程序交互拟合回归模型。

非参数回归

使用支持向量机、随机森林、浅神经网络、高斯过程和高斯核，无需指定描述预测器和响应之间关系的模型，即可生成精确的拟合。

拟合和优化支持向量机(SVM)回归模型万博1manbetx

用回归随机森林预测保险风险

了解高斯过程回归

使用分位数回归检测异常值

使用分位数回归确定异常值。

方差分析

将样本方差分配给不同的来源，并确定变异是否发生在不同的群体内部或群体之间。使用单向、双向、多方向、多元和非参数方差分析，以及协方差分析（ANOCOVA）和重复测量方差分析（RANOVA）。

单因素方差分析简介

了解多重比较

平衡和不平衡数据的多方向方差分析(N-Way ANOVA)

使用多路方差分析测试组。

概率分布和假设检验

根据数据拟合分布。分析样本间差异是否显著或与随机数据变化一致。根据各种分布生成随机数。

概率分布

拟合连续和离散分布，使用统计图评估拟合优度，计算概率密度函数和累积分布函数超过40种不同的发行版本．

使用分布Fitter应用程序建模数据

可用概率分布

拟合自定义单变量分布

使用Distribution Fitter应用程序交互式地适合发行版。

随机数生成

从拟合或构造的概率分布生成伪随机和准随机数字流。

交互式生成随机数

生成拟随机数

了解蒙特卡罗模拟

用copula模拟因变量

以交互方式生成随机数。

假设检验

对一个、成对或独立的样本进行t检验、分布检验(卡方、Jarque-Bera、Lilliefors和Kolmogorov-Smirnov)和非参数检验。检验自动校正和随机性，并比较分布(两样本Kolmogorov-Smirnov)。

假设检验导论

单侧或双面t检验:检验比例或相关性

执行两个示例学习任务

卡方拟合优度检验

单侧t检验中的拒绝区域。

工业统计数据

统计分析效果和数据趋势。应用工业统计技术，如定制设计的实验和统计过程控制。

实验设计（DOE）

定义、分析和可视化定制的DOE。创建并测试如何操作数据输入的实际计划，以生成关于它们对数据输出的影响的信息。

系统数据收集计划实验导论

响应面设计，包括Box-Behnken

应用Box-Behnken设计来生成高阶响应曲面。

统计过程控制(SPC)

通过评估过程的可变性来监控和改进产品或过s manbetx 845程。创建控制图，评估工艺能力，执行量具重复性和再现性研究。

控制图简介

用六西格玛技术设计改进发动机冷却风扇

使用控制图监控生产过程。

可靠性和生存分析

通过执行Cox比例风险回归和拟合分布来可视化和分析有和没有审查的失效时间数据。计算经验危险，幸存者，和累积分布函数，以及核密度估计。

具有时变协变量的Cox比例风险模型

使用Kaplan-Meier估计累积危害、幸存者和累积分布

使用Cox比例风险模型估计再入院

使用截尾分析生存期数据

失效数据作为“审查”值的一个例子。

大数据、并行化和云计算

将统计和机器学习技术应用于内存不足的数据。通过集群和云实例上的并行化，加快统计计算和机器学习模型训练。

用高数组分析大数据

使用带有许多分类、回归和聚类算法的高数组和表，在不改变代码的情况下，在不适合内存的数据集上训练模型。

使用高数组在大数据集上建立航班延误模型

支持高数组的函数概述万博1manbetx

卡特彼勒的大数据、数据分析和机器/深度学习基础设施(18:47)

MATLAB阵列在运行中

并行计算

通过并行化加速统计计算和模型训练。

介绍并行计算工具箱™的并行机器学习

学习如何在MATLAB中加速计算

MATLAB vs. R基准

MATLAB vs. Python:选择MATLAB的首要原因

使用并行计算工具箱或MATLAB并行服务器™加速计算。

云计算和分布式计算

使用云实例加速统计和机器学习计算。在MATLAB Online™中执行完整的机器学习工作流。

使用MATLAB参考架构访问AWS和Azure上的云实例

在Web浏览器中联机访问MATLAB

在NVIDIA GPU云上访问云实例

在Amazon或Azure云实例上执行计算。

部署、代码生成和Simulink集成万博1manbetx

将统计和机器学习部署到嵌入式系统，使用C代码加速计算密集型计算，并与企业系统和Simulink模型集成。万博1manbetx

代码生成

生成可移植和可读的C或c++代码，用于推断分类和回归算法，描述性统计，和概率分布使用MATLAB Coder™。使用Fixed Point Designer™以降低精度生成C/ c++预测代码，并在不重新生成预测代码的情况下更新已部署模型的参数。

代码生成工作流概述

用Coder应用程序生成机器学习模型的C代码

更新代码生成的模型参数

生成用于SVM预测的定点C/C++算法

分类和代码生成的系统对象

两种部署路径:生成C代码或编译MATLAB代码。

与仿真软件的集成万博1manbetx

将机器学习模型与Simulink模型集成，以便部署到嵌入式硬件或用于系统仿真、万博1manbetx验证和验证。

利用原生块在Simulink中集成支持向量机预测万博1manbetx

机器学习在Simulink中的应用万博1manbetxMATLAB函数块的使用

Simulink library for machine learning with native blocks for SVM prediction.

" data-toggle="lightbox" class="fluid_link">

万博1manbetx支持向量机预测的带本机块的机器学习Simulink库．

与应用程序和企业系统集成

部署独立的统计和机器学习模型，MapReduce或Spark™应用程序;作为web应用程序;或者是微软^®Excel^®使用MATLAB Compiler™的插件。构建C/ c++共享库，Microsoft .NET程序集，Java^®Python类,^®软件包使用MATLAB Compiler SDK™。

在Web应用程序中部署电力负荷预测模型

在智能手机上部署人类活动识别

在Domino Data Lab上运行MATLAB以加速模型训练

使用MATLAB编译集成一个空气质量分类模型。

产品资源:

文档功能技术文章用户故事产品要求发行说明视频和网络研讨会例子

统计和机器学习工具箱

统计和机器学习工具箱

使用统计学和机器学习分析和建模数据

开始:

探索性数据分析

可视化

描述性统计

聚类分析

特征提取和降维

特征提取

特征选择

特征变换和降维

机器学习

训练、验证和调整预测模型

模型的可解释性

自动机器学习（AutoML）

回归和方差分析

线性和非线性回归

非参数回归

方差分析

概率分布和假设检验

概率分布

随机数生成

假设检验

工业统计数据

实验设计（DOE）

统计过程控制(SPC)

可靠性和生存分析

大数据、并行化和云计算

用高数组分析大数据

并行计算

云计算和分布式计算

部署、代码生成和Simulink集成万博1manbetx

代码生成

与仿真软件的集成万博1manbetx

与应用程序和企业系统集成

产品资源:

免费试用

准备买什么?

你是学生吗?