统计和机器学习工具箱

分析和使用统计和机器学习模型数据

Statistics and Machine Learning Toolbox™提供用于描述、分析和建模数据的函数和应用程序。您可以使用描述性统计和图表进行探索性数据分析,将概率分布与数据相匹配,为蒙特卡罗模拟生成随机数,并执行假设检验。回归和分类算法使您能够从数据中得出推论并构建预测模型。

对于多维数据分析,统计和机器学习工具箱提供的功能选择,逐步回归,主成分分析(PCA),正规化,和其他降维方法,让您识别变量或功能会影响你的模型。

工具箱提供监督和无监督机器学习算法,包括支持向量机(SVM),升压和袋装决策树,k-最近邻,k均值,K-中心点划分,层次聚类,高斯混合模型,和隐马尔可夫模型。万博1manbetx许多统计和机器学习算法,可用于对数据集是太大而无法存储在内存中的计算。

开始:

探索性数据分析

通过交互式图形和描述性统计的统计绘图来探索数据。使用集群识别模式和特性。

可视化

视觉上探索使用概率图,箱形图,直方图,分位数 - 分位数图,以及先进的地块为多变量分析,例如树状图,二维图,并且图安德鲁斯数据。

使用多维散点图探索变量之间的关系。

描述性统计

理解和描述潜在的大型数据集的快速使用一些高度相关的数字。

使用分组方法和方差研究数据。

聚类分析

使用k-means、k-medoids、DBSCAN、分级聚类、高斯混合和隐马尔科夫模型对数据进行分组,从而发现模式。

将DBSCAN应用于两个同心组。

特征提取和降维

将原始数据转换为最适合机器学习的特性。迭代地探索和创建新特性,并选择那些优化性能的特性。

特征提取

提取物使用无监督学习技术,如疏滤波和重建ICA数据特征。您还可以使用专门的技术来提取图像,信号文本及数字数据的功能。

从移动设备提供的信号中提取特征。

特征选择

自动识别,在数据建模提供最好的预测能力要素的子集。特征选择方法包括逐步回归,连续特征选择,正则化,和集成方法。

NCA帮助选择保持模型的大部分准确性的特性。

特征变换和降维

通过将现有的(非分类的)特征转换为新的预测变量来降低维度,在这些预测变量中可以删除描述性较差的特征。特征变换方法包括主成分分析、因子分析和非负矩阵因子分解。

PCA项目很多变量在一些正交那些保留大部分的信息。

机器学习

构建使用交互式应用程序的预测分类和回归模型。通过优化的超参数自动选择功能和调整模型。

分类

将分类响应变量建模为一个或多个预测器的函数。使用各种参数和非参数分类算法,包括逻辑回归、支持向量机、改进和袋装决策树、朴素贝叶斯、判别分析和k近邻。

与分类学习应用交互训练分类器。

自动化模型优化

通过自动调整超参数、选择特性和使用代价矩阵解决数据集不平衡问题来提高模型性能。

优化的超参数有效地利用贝叶斯优化。

回归和方差分析

模型中的连续响应变量作为一个或多个预测的函数,使用线性和非线性回归,混合效应模型,广义线性模型,和非参数回归。分配差异用方差分析不同的来源。

线性和非线性回归

与多个预测或响应变量从许多线性和非线性回归算法选择复杂的系统模型的行为。配合多层或分层的,线性,非线性,以及广义线性混合效应模型具有嵌套和/或交叉的随机效果来执行纵向或面板的分析,重复测量和生长建模。

飞度回归模型交互与回归学习应用。

非参数回归

产生一个精确的配合,而无需指定,描述预测和应对,包括支持向量机,随机森林,高斯过程,和高斯内核之间的关系的模型。

使用分位数回归识别异常值。

方差分析(ANOVA)

将样本方差分配到不同的来源,并确定该方差是在不同的人口组内部还是在不同的人口组之间产生的。采用单因素、双因素、多因素、多因素和非参数方差分析,以及协方差分析(ANOCOVA)和重复测量方差分析(RANOVA)。

使用多路ANOVA测试组。

概率分布和假设检验

使分布符合数据。分析样本间差异是否显著,是否与随机数据变化一致。从各种分布中生成随机数。

概率分布

适合连续和离散分布,使用统计图评估拟合优度配合,并且计算概率密度函数和累积分布函数为超过40点不同的分布

飞度分布交互方式使用分配钳工应用。

随机数生成

从拟合或构造的概率分布中生成伪随机和拟随机数字流。

交互式地生成随机数。

假设检验

对单个、成对或独立样本进行t检验、分布检验(卡方检验、雅克-伯拉检验、利利福尔斯检验和柯尔莫戈罗夫-斯米尔诺夫检验)和非参数检验。测试自校正和随机性,并比较分布(双样本Kolmogorov-Smirnov)。

在单侧t检验拒绝区域。

工业统计数据

统计分析效果和数据趋势。工业应用统计技术,如实验定制设计和统计过程控制。

试验设计(DOE)

定义,分析和可视化的实验,以定制的设计(DOE)。创建和测试实际计划如何串联处理数据输入生成有关他们的数据输出影响的信息。

套用箱Behnken法设计产生更高阶响应面。

统计过程控制(SPC)

监控并通过评估过程变化改进产品或工艺。s manbetx 845创建控制图,估计过程能力,并进行计重复性和再现性研究。

监测使用控制图的制造过程。

可靠性和生存分析

通过执行Cox比例风险回归和拟合分布,可视化和分析有和没有截尾的失效时间数据。计算经验风险、幸存者、累积分布函数和核密度估计。

故障数据为“截尾”值的示例。

规模大数据和云计算

应用统计和机器学习技术来进行内存的数据。加快统计计算和集群和云实例机器学习模型训练。

用大数组分析大数据

使用带有许多分类、回归和聚类算法的高数组和表,在不更改代码的情况下,在不适合内存的数据集上训练模型。

加快并行计算工具箱或MATLAB并行服务器™计算。

云计算和分布式计算

使用云实例,加快统计和机器学习计算。请在MATLAB在线整机学习工作流程™。

执行对亚马逊或Azure云计算实例。

部署和代码生成

部署统计和机器学习嵌入式系统,加快用C代码计算密集型的计算,并与企业系统集成。

代码生成

使用MATLAB编码器生成可移植和可读的C或c++代码,用于分类和回归算法、描述性统计和概率分布的推理TM。通过MATLAB函数块和系统块加速使用机器学习模型验证和验证您的高保真仿真。

有两种部署方法:生成C代码或编译MATLAB代码。

与应用程序和企业系统集成

将统计和机器学习模型作为独立的、MapReduce、Spark™应用程序、web应用程序和Microsoft部署®Excel®使用MATLAB编译器™的外接程序。构建C/ c++共享库、Microsoft .NET程序集、Java®类和Python®包使用MATLAB编译SDK™。

使用MATLAB编译器集成了空气质量的分类模型。

更新部署模型

在不重新生成C/ c++预测代码的情况下更新已部署模型的参数。

代码生成和模型更新工作流。

最新的特性

自动化机器学习(AutoML)

自动选择分类的最佳模式和相关的超参数(fitcauto

特征选择

使用卡方检验(fscchi2)分类及f -检验(fsrftest)用于回归问题

代码生成

预测采用全数字表(需要MATLAB编码器)

代码生成

生成决策树和决策树的合奏(需要MATLAB编码器和定点设计师)定点C / C ++代码

GPU的万博1manbetx支持

加速科尔随机,在GPU上执行32个概率分布函数(需要并行计算工具箱)

查看发布说明了解这些特性和相应功能的详细信息。

机器学习斜坡弯道

的交互式介绍实用的机器学习方法的分类问题。