统计和机器学习工具箱

统计和机器学习工具箱

使用统计学和机器学习分析和建模数据

开始:

探索性数据分析

通过与交互式图形和描述性统计数据统计绘图探索数据。使用群集标识模式和功能。

可视化效果

使用概率图、方框图、直方图、分位数-分位数图和多变量分析的高级图(如树状图、双图和Andrews图)直观地探索数据。

使用多维散点图探索变量之间的关系。

描述性统计

使用一些高度相关的数字快速了解并描述潜在的大量数据。

使用分组平均数和方差探索数据。

聚类分析

通过使用k-means、k-medoids、DBSCAN、层次和光谱聚类以及高斯混合和隐马尔可夫模型对数据进行分组来发现模式。

将DBSCAN应用于两个同心组。

特征提取和减少维度

将原始数据转换为最适合机器学习的功能。迭代探索并创建新功能,然后选择优化性能的功能。

特征提取

使用稀疏滤波和ICA重建等无监督学习技术从数据中提取特征。您还可以使用专门的技术从图像、信号、文本和数字数据中提取特征。

从移动设备提供的信号中提取特征。

功能选择

自动识别提供最佳预测电源的功能子集,可以在建模数据中。特征选择方法包括逐步回归,顺序特征选择,正则化和集合方法。

NCA有助于选择保留模型的最精确度的功能。

特征转换和减少维度

通过将现有(非分类)特征转换为新的预测变量来减少维度,其中可以丢弃更少的描述性功能。特征转换方法包括PCA,因子分析和非负矩阵分解。

PCA可以将高维向量投影到具有保存的大多数信息的低维正交坐标系上。

机器学习

使用交互式应用程序或自动机器学习(AutoML)建立预测分类和回归模型。自动选择要素、确定最佳模型并调整超参数。

培训、验证和调整预测模型

比较各种机器学习算法–包括浅层神经网络,选择功能,调整HyperParameters,并评估许多流行分类和回归算法的性能。构建并自动使用交互式应用程序优化预测模型,并逐步改进具有流数据的模型。通过应用半监督学习来减少标记数据的需求。

模型解释性

通过使用生成添加剂模型(GAM)等固有的可解释模型来增强黑箱机器学习模型的可解释性,或者通过应用包括部分依赖性地块,个人有条件期望(ICE),局部可解释模型 - 不可知解释(石灰)和福利价值观。

石灰在局域建立复杂模型的简单近似。

自动化机器学习(Automl)

通过自动调整超参数,生成和选择功能和模型来提高模型性能,以及通过成本矩阵寻址数据集不平衡。

使用贝叶斯优化有效地优化超参数。

回归和Anova.

模型作为一个或多个预测器的函数,使用线性和非线性回归,混合效果模型,广义线性模型和非参数回归来模拟连续响应变量。使用ANOVA分配给不同源的差异。

线性和非线性回归

从许多线性和非线性回归算法中选择具有多个预测器或响应变量的复杂系统的模型行为。使用嵌套和/或交叉随机效应拟合多级或分层、线性、非线性和广义线性混合效应模型,以执行纵向或面板分析、重复测量和增长建模。

使用回归学习器应用程序以交互方式拟合回归模型。

非参数回归

使用支持向量机、随机森林、浅层神经网络、高斯过程和高斯核生成精确拟合,而无需指定描述预测值和响应之间关系的模型。

识别使用大分回归的异常值。

方差分析(ANOVA)

将样本方差分配给不同的源,并确定各种群体中是否出现在不同人群中。使用单向,双向,多路,多变量和非参数ANOVA,以及协方差分析(ANOCOVA)和反复措施的方差分析(RANOVA)。

试验组采用多因素方差分析。

概率分布和假设试验

拟合到数据的分布。分析样品到样本差异是否具有显着或与随机数据变化一致。生成各种分布的随机数。

使用Distribution Fitter应用程序以交互方式安装分发。

随机数生成

从装配或构造的概率分布产生伪随机和准随机数流。

交互式生成随机数。

假设检验

执行T检验,分配测试(Chi-Square,Jarque-Bera,Lipleiefors和Kolmogorov-Smirnov),以及一个,配对或独立样品的非参数测试。测试自动鼠标和随机性,以及比较分布(两个样本Kolmogorov-Smirnov)。

在单面T检验中的抑制区域。

工业统计

统计分析影响和数据趋势。应用工业统计技术,如定制实验设计和统计过程控制。

实验设计(DOE)

定义、分析和可视化定制DOE。创建并测试如何操作数据输入的实际计划,以生成有关其对数据输出的影响的信息。

应用Box-Behnken设计生成高阶响应面。

统计过程控制(SPC)

通过评估过程可变性来监测和改进产品或过程s manbetx 845。创建控制图,估算过程能力,并执行量具重复性和再现性研究。

使用控制图监控制造过程。

可靠性和生存分析

通过执行COX比例危险回归和拟合分布,可视化和分析故障时间数据。计算经验危险,幸存者和累积分布函数,以及内核密度估计。

故障数据作为“受审查”值的示例。

大数据,并行化和云计算

将统计和机器学习技术应用于内存up-Mement数据。加快统计计算和机器学习模型培训,并在集群和云实例上与并行化。

使用高阵列分析大数据

在不更改代码的情况下,使用具有许多分类、回归和聚类算法的高数组和表来训练不适合内存的数据集上的模型。

使用并行计算工具箱或MATLAB并行服务器加速计算™.

云与分布式计算

使用云实例加快统计和机器学习计算。在MATLAB Online™中执行完整的机器学习工作流程。

在Amazon或Azure云实例上执行计算。

部署,代码生成和Simulink集成万博1manbetx

部署统计信息和机器学习到嵌入式系统,使用C代码加速计算密集型计算,并与企业系统和Simulink模型集成。万博1manbetx

代码生成

使用MATLAB编码器生成可分类和可读的C和C++代码,用于分类和回归算法、描述统计和概率分布的推理™. 使用定点设计器生成精度较低的C/C++预测代码™, 以及在不重新生成预测代码的情况下更新部署模型的参数。

部署的两种途径:生成C代码或编译MATLAB代码。

与Simulink的集成万博1manbetx

将机器学习模型与Simulink模型集成,以部署到嵌入式硬件或系统仿真,验证和万博1manbetx验证。

与应用程序和企业系统集成

将统计和机器学习模型部署为独立、MapReduce或Spark™ 应用;作为网络应用程序;还是微软®擅长®使用Matlab Compiler™的加载项。构建C / C ++共享库,Microsoft .NET程序集,Java®课程和python®使用MATLAB编译器SDK的软件包™.

使用MATLAB编译器集成空气质量分类模型。