适合学习者的集体分类和回归
fitensemble
可以提升或袋子决策树学习者或判别分析分类器。该功能还可以培训KNN或判别分析分类器的随机子空间集合。
对于适合分类和回归集成的更简单的接口,请使用fitcensemble
和fitrensemble
, 分别。还,fitcensemble
和fitrensemble
提供贝叶斯优化选项。
nlearn.
从几十个到几千个不等。通常,一个具有良好预测能力的集成需要几百到几千个较弱的学习者。然而,您不需要一次训练那么多周期的合奏。你可以从培养几十个学习者开始,检查合奏表演,然后,如果有必要的话,用它来训练更多的弱学习者的简历
对于分类问题,或者的简历
回归问题。
合奏性能取决于集合设置和弱学习者的设置。也就是说,如果使用默认参数指定弱的学习者,则集合可以表现不佳。因此,与集合设置一样,使用模板调整弱学习者的参数是好的做法,并选择最小化泛化误差的值。
在分类问题(即,类型
是'分类'
):
如果集合-聚合方法(方法
)是'包'
和:
误分类成本(成本
)是高度不平衡的,因此,对于包内样本,软件抽样从班级的独特观察,有很大的惩罚。
类先验概率(之前
)高度倾斜,软件已经过度地过度了从具有大的概率的类的独特观察。
对于较小的样本量,这些组合可能导致具有较大惩罚或先验概率的类的袋外观察的相对频率较低。因此,估计的包外误差是高度可变的,它可能很难解释。为了避免估计出的大的包外误差方差,特别是对于小样本容量,设置一个更平衡的误分类成本矩阵使用成本
或使用较少的先前概率向量使用之前
.
由于某些输入和输出参数的顺序对应于训练数据中的不同类,因此使用一会
名称-值对的论点。
为了快速确定类的顺序,从训练数据中删除所有未分类的观察(即缺少标签),获取并显示所有不同类的数组,然后指定数组一会
.例如,假设响应变量(Y
)是标签单元格数组。这段代码指定了变量中的类顺序一会
.
Ycat =分类(Y);一会=类别(Ycat)
分类
分配<定义>
对非机密的观察和类别
排除<定义>
从它的产出。因此,如果使用此代码用于标签的单元格或分类数组的类似代码,则您不必删除缺少标签的观察,以获取不同类的列表。要指定从最低表示的标签到最高表示的标签的类顺序,那么要快速确定类顺序(如前面的项目符号所示),但是在将列表传递给之前,要按频率排列列表中的类一会
.在前面的例子中,这段代码指定了类从最低到最多的顺序Classnameslh.
.
Ycat =分类(Y);一会=类别(Ycat);频率= countcats (Ycat);[~, idx] =(频率)进行排序;classNamesLH =一会(idx);
关于集合聚合算法的详细信息,请参见合奏算法.
如果您指定方法
成为促进算法和学习者
决策树,然后软件增长树桩默认情况下。一个决策桩是一个根节点连接到两个终端,叶节点。属性可以调整树的深度MaxNumSplits
,MinLeafSize
,MinParentSize
名称-值对参数使用Templatetree.
.
fitensemble
通过过采样的超采样产生内部样本,具有大的错误分类成本和具有小错误分类成本的欠采样类。因此,袋袋样品具有较少的分类成本和具有小错误分类成本的课程的观察的较少观察。如果您使用小数据集和高度倾斜的成本矩阵训练分类集合,那么每类的袋子外观测的数量可能很低。因此,估计的袋误差可能具有大的方差并且可能难以解释。对于具有大的概率的课程,可以发生同样的现象。
对于RUSBoost集成聚合方法(方法
),名称值对参数RatioToSmallest
指定每个类相对于最小代表类的抽样比例。例如,假设训练数据中有两个类:一个和B.一个有100个观察结果B有10个观察。同样,假设最低代表的类具有米
对训练数据的观察。
如果你设置“RatioToSmallest”,2
,然后
=年代
*米
2 * 10
=20.
.最后,fitensemble
用课堂上的20个观察结果训练每一个学习者一个以及20个课堂观察B.如果你设置'ratiotosmallest',[2 2]
,则得到相同的结果。
如果你设置'ratiotosmallest',[2,1]
,然后
=s1
*米
2 * 10
=20.
和
=s2
*米
1 * 10
=10
.最后,fitensemble
用课堂上的20个观察结果训练每一个学习者一个以及10个课堂观察B.
对于决策树的合奏,以及双核系统及以上的合奏,fitensemble
使用英特尔并行化培训®线程构建块(TBB)。有关英特尔TBB的详细信息,请参阅https://software.intel.com/en-us/intel-tbb..
[1] Breiman,L。“袋装预测器。”机器学习.1996年第26卷,123-140页。
[2]布雷曼,L.《随机森林》。机器学习.第45卷,第5-32页,2001。
[3] Freund, Y.“一个更健壮的助推算法。”v1 arXiv: 0905.2138, 2009年。
弗洛因德,Y.和R. E. Schapire。在线学习的决策理论推广及其在助推中的应用计算机与系统科学博士,卷。55,PP。119-139,1997。
[5] Friedman, J. <贪婪函数近似:梯度增压机>统计年鉴,卷。29,第5页,第5页,PP。1189-1232,2001。
Friedman, J., T. Hastie,和R. Tibshirani。加性逻辑回归:助推的统计学观点统计年鉴,第28卷,第2期,第337-407页,2000。
Hastie, T., R. Tibshirani, J. Friedman。统计学习的要素section edition,施普林格,New York, 2008。
[8] Ho, T. K. <构建决策森林的随机子空间方法>。模式分析与机器智能学报,卷。20,第8页,第8页,第832-844,1998。
Schapire r.e., Y. Freund, P. Bartlett和W.S. Lee。“扩大差额:对投票方法有效性的新解释。”统计年鉴,卷。26,5,PP。1651-1686,1998。
Seiffert, C., T. Khoshgoftaar, J. Hulse和A. Napolitano。“RUSBoost:在训练数据有偏差时提高分类性能。”第十九届国际模式识别会议,第1-4页,2008。
[11] Warmuth,M.,J. Liao和G. Ratsch。“完全纠正促进算法,最大化边缘。”Proc, 23日国际。Conf. on Machine Learning, ACM,纽约,页1001-1008,2006。
ClassificationBaggedensemble.
|分类素..
|ClassificationPartitionedEnsemble
|RegressionBaggedEnsemble
|RegressionEnsemble
|回归分役部门
|模板异教徒
|templateKNN
|Templatetree.