学习者适合合奏分类和回归
fitensemble
可以提高或包决策树学习者或判别分析分类器。该函数还可以训练KNN或判别分析分类器的随机子空间集合。
对于比较简单的界面,配合分类和回归合奏,而是使用fitcensemble
和fitrensemble
,分别。同时,fitcensemble
和fitrensemble
提供贝叶斯优化选项。
n了解
可以从几十到几千元不等。通常情况下,具有良好的预测能力合奏从几百需要到几千个弱学习。不过,你不必一次训练的合奏了很多次。您可以通过不断增长的几十个学生开始,检查合奏表演,然后,如果必要的话,使用培养出更多的弱学习的简历
对于分类问题,或者的简历
回归问题。
合奏表演取决于合奏的设置和弱学习者的设置。也就是说,如果您用默认参数指定了弱学习者,那么集成的性能就会很差。因此,像集成设置一样,使用模板调整弱学习者的参数并选择最小化泛化误差的值是一个很好的实践。
如果您指定重新取样使用重新取样
,那么它是很好的做法,重新采样到整个数据集。也就是说,使用默认设置1
对于FResample
。
在分类问题中(即,类型
是'分类'
):
如果ensemble-aggregation方法(方法
)是“包”
和:
误分类成本(成本
)是高度不均衡,那么,在袋的样品,该软件过采样从具有较大的点球类独特的看法。
类先验概率(之前
)是高度扭曲,该软件从具有较大的先验概率类的过采样独特的看法。
对于较小的样品尺寸,这些组合可导致来自具有大的惩罚或先验概率的类外的袋观察的低的相对频率。因此,所估计的外的包误差是高度可变的,它可以是难以解释。为了避免大的估计出的袋误差方差,特别是用于小样本大小,使用设定一个更平衡的误分类成本矩阵成本
或者用一个不那么倾斜的先验概率向量之前
。
因为一些输入和输出参数的顺序对应于不同类别的训练数据,这是很好的做法使用来指定类顺序一会
名称-值对的论点。
要快速确定类的顺序,请从未分类的训练数据中删除所有观察结果(即缺少标签),获取并显示所有不同类的数组,然后为其指定数组一会
。例如,假设响应变量(Y
)是标签的单元阵列。该代码指定了变量的类顺序类名
。
Ycat =分类(Y);一会=类别(Ycat)
分类
分配<定义>
未分类的意见和类别
不包括<定义>
从它的输出。因此,如果您对标签的单元数组使用此代码,或者对分类数组使用类似的代码,那么您不必删除缺少标签的观察结果来获得不同类的列表。要指定从代表最低的标签到代表最多的标签的类顺序,然后快速确定类顺序(如前一项所示),但是在将列表传递给之前,要按频率排列列表中的类一会
。从前面的例子中可以看出,这段代码指定了从最低到最高的类顺序classNamesLH
。
Ycat =分类(Y);一会=类别(Ycat);频率= countcats (Ycat);[~,idx] =(频率)进行排序;classNamesLH =一会(idx);
有关ensemble-aggregation算法的详细信息,请参阅整体算法。
如果您指定方法
成为一个增强算法学习者
成为决策树,软件就会成长树桩默认。的决定残端是连接到两个终端,叶节点一个根节点。您可以通过指定调整树深度MaxNumSplits
,MinLeafSize
和MinParentSize
使用的名称-值对参数templateTree
。
fitensemble
通过对误分类代价大的类进行过采样和对误分类代价小的类进行欠采样来生成袋中样本。因此,袋外样本中来自具有较大误分类成本的类的观察值较少,而来自具有较小误分类成本的类的观察值较多。如果您使用一个小的数据集和一个高度倾斜的成本矩阵来训练一个分类集合,那么每个类的out-of-bag观察值可能很低。因此,估计的out-of-bag误差可能有很大的方差,并且很难解释。对于具有较大先验概率的类,也会出现相同的现象。
对于RUSBoost ensemble-aggregation方法(方法
)、名称-值对参数RatioToSmallest
指定每个类相对于最低表示类的抽样比例。例如,假设训练数据中有两个类:一个和B。一个有100个观测和B有10个观测值。此外,假设代表性最低的类有米
训练数据中的观察结果。
如果你设置“RatioToSmallest”, 2
, 然后
=年代
*米
2 * 10
=20.
。所以,fitensemble
列车采用从第20类观察每位学员一个和从类20周的观察B。如果你设置‘RatioToSmallest’, (2 - 2)
,则得到相同的结果。
如果你设置'RatioToSmallest',[2,1]
, 然后
=s1
*米
2 * 10
=20.
和
=s2
*米
1 * 10
=10
。所以,fitensemble
列车采用从第20类观察每位学员一个和课堂上的10次观察B。
对于决策树,并为双核系统和上述的合奏,fitensemble
使用Intel并行化培训®线程构建模块(TBB)。如欲了解有关英特尔TBB的详细信息,请参阅https://software.intel.com/en-us/intel-tbb。
[1] Breiman,L.“套袋预测因子”。机器学习。第26卷,第123-140页,1996年。
[2] Breiman, L.《随机森林》。机器学习。卷。45,第5-32,2001年。
一个更稳健的提升算法。的arXiv:0905.2138v1,2009年。
[4] Freund, y。和r。e。Schapire。“在线学习决策理论的推广与应用。”计算机与系统科学卷。55,第119-139,1997。
贪婪函数近似:一个梯度提升机。统计年鉴卷。29,第5号,第1189至1232年,2001。
[6] Friedman, J., T. Hastie,和R. Tibshirani。加法逻辑回归:促进的统计观点。统计年鉴卷。28,第2号,第337-407,2000。
[7] Hastie的,T.,R. Tibshirani,和J.弗里德曼。统计学习的要素section edition,施普林格,纽约,2008。
[8]何,T. K.“用于构建决策森林随机子空间方法”。IEEE交易模式分析与机器智能,第20卷,第8期,第832-844页,1998年。
[9] Schapire,R. E.,Y.弗氏,P.巴特利特和W.S.李。“促进保证金:为投票方法有效性的新的解释。”统计年鉴,第26卷,第5期,第1651-1686页,1998年。
b . Seiffert, C., T. Khoshgoftaar, J. Hulse,和A. Napolitano。“RUSBoost:在训练数据不准确的情况下提高击穿能力。”第十九届模式识别国际会议,第1-4页,2008年。
[11] Warmuth, M., J. Liao,和G. Ratsch。“完全纠正了提高利润率的算法。”Proc, 23日国际。机器学习,ACM,纽约,第1001-1008页,2006年。
ClassificationBaggedEnsemble
|ClassificationEnsemble
|ClassificationPartitionedEnsemble
|RegressionBaggedEnsemble
|RegressionEnsemble
|RegressionPartitionedEnsemble
|templateDiscriminant
|templateKNN
|templateTree