主要内容

边缘

分类边界广义相加模型(GAM)

    描述

    e=边缘(Mdl,资源描述,ResponseVarName)返回分类的优势(e广义相加模型)Mdl使用预测数据资源描述而真正的类标签Tbl.ResponseVarName

    e=边缘(Mdl,资源描述,Y)使用预测数据表资源描述而真正的类标签Y

    例子

    e=边缘(Mdl,X,Y)使用预测数据矩阵X而真正的类标签Y

    例子

    e=边缘(___,名称,值)指定选项使用一个或多个名称参数除了任何输入参数组合在以前的语法。例如,您可以指定重量和观察是否包括在计算交互术语。

    例子

    全部折叠

    估计测试样本分类利润率和广义相加模型的边缘。测试样本的利润率是观察到的真实类分数-假类分数,和测试样品边缘利润的均值。

    加载fisheriris数据集创建。X作为一个数字矩阵,其中包含两个萼片和花瓣杂色的测量和virginica虹膜。创建Y作为一个单元阵列包含相应的特征向量的虹膜的物种。

    负载fisheriris第1 = strcmp(物种,“多色的”)| strcmp(物种,“virginica”);X =量(第1:);:Y =物种(第1);

    随机观测分割成分层的训练集和测试集,使用类的信息Y。指定一个抵抗30%样本进行测试。

    rng (“默认”)%的再现性简历= cvpartition (Y,“坚持”,0.30);

    提取训练和测试指标。

    trainInds =培训(简历);testInds =测试(简历);

    指定的培训和测试数据集。

    XTrain = X (trainInds:);YTrain = Y (trainInds);XTest = X (testInds:);欧美= Y (testInds);

    使用预测训练GAMXTrain和类标签YTrain。推荐的做法是指定类名。

    Mdl = fitcgam (XTrain YTrain,“类名”,{“多色的”,“virginica”});

    Mdl是一个ClassificationGAM模型对象。

    估计测试样本分类的利润和优势。

    m =利润率(Mdl XTest、欧美);e =边缘(Mdl XTest、欧美)
    e = 0.8000

    显示直方图测试样本的分类。

    直方图(m,长度(独特(m)),“归一化”,“概率”)包含(测试样本的利润的)ylabel (“概率”)标题(测试样本的概率分布的利润的)

    图包含一个坐标轴对象。坐标轴对象与标题测试样本的概率分布的利润包含一个直方图类型的对象。

    估计测试样本加权边缘(边缘)的加权平均的广义加性模型。

    加载fisheriris数据集创建。X作为一个数字矩阵,其中包含两个萼片和花瓣杂色的测量和virginica虹膜。创建Y作为一个单元阵列包含相应的特征向量的虹膜的物种。

    负载fisheririsidx1 = strcmp(物种,“多色的”)| strcmp(物种,“virginica”);X =量(idx1,:);Y =物种(idx1,:);

    假设一些测量的质量较低,因为他们与老技术测量。为了模拟这种效果,添加噪声的随机子集20测量。

    rng (“默认”)%的再现性idx2 = randperm(大小(X, 1), 20);(idx2:) = X (idx2:) + 2 * randn(20、大小(X, 2));

    随机观测分割成分层的训练集和测试集,使用类的信息Y。指定一个抵抗30%样本进行测试。

    简历= cvpartition (Y,“坚持”,0.30);

    提取训练和测试指标。

    trainInds =培训(简历);testInds =测试(简历);

    指定的培训和测试数据集。

    XTrain = X (trainInds:);YTrain = Y (trainInds);XTest = X (testInds:);欧美= Y (testInds);

    使用预测训练GAMXTrain和类标签YTrain。推荐的做法是指定类名。

    Mdl = fitcgam (XTrain YTrain,“类名”,{“多色的”,“virginica”});

    Mdl是一个ClassificationGAM模型对象。

    估计测试样品边缘。

    e =边缘(Mdl XTest、欧美)
    e = 0.8000

    平均利润率约为0.80。

    减少噪声的影响测量的一种方法是分配他们体重低于其他观测。定义一个权向量,给出了更高质量的观察其他观察体重的两倍。

    n =大小(X, 1);重量= 1(大小(X, 1), 1);权重(idx2) = 0.5;weightsTrain =重量(trainInds);weightsTest =重量(testInds);

    使用预测训练GAMXTrain、类标签YTrain,重量weightsTrain

    Mdl_W = fitcgam (XTrain YTrain,“重量”weightsTrain,“类名”,{“多色的”,“virginica”});

    估计测试样本加权边缘使用加权方案。

    e_W =边缘(Mdl_W XTest,欧美,“重量”weightsTest)
    e_W = 0.8770

    加权平均利润率约为0.88。这个结果表明,平均加权分类器的标签标签有更高的信心。

    与线性条件比较GAM GAM线性和交互方面通过检查测试样品边缘和边缘。基于这种比较,利润率最高的分类器和边缘是最好的模型。

    加载电离层数据集。这个数据集有34个预测因子和351二进制响应雷达回报,要么坏(“b”)或好(‘g’)。

    负载电离层

    随机观测分割成分层的训练集和测试集,使用类的信息Y。指定一个抵抗30%样本进行测试。

    rng (“默认”)%的再现性简历= cvpartition (Y,“坚持”,0.30);

    提取训练和测试指标。

    trainInds =培训(简历);testInds =测试(简历);

    指定的培训和测试数据集。

    XTrain = X (trainInds:);YTrain = Y (trainInds);XTest = X (testInds:);欧美= Y (testInds);

    火车的GAM包含预测的线性和交互方面。指定包含所有可用的交互方面的p值不大于0.05。

    Mdl = fitcgam (XTrain YTrain,“互动”,“所有”,“MaxPValue”,0.05)
    Mdl = ClassificationGAM ResponseName:‘Y’CategoricalPredictors:[]类名:{b ' g '} ScoreTransform:分对数的截距:3.0398交互:[561 x2双]NumObservations: 246属性,方法

    Mdl是一个ClassificationGAM模型对象。Mdl包括所有可用的交互。

    估计测试样品边缘和边缘Mdl

    M =利润率(Mdl XTest、欧美);E =边缘(Mdl XTest、欧美)
    E = 0.7848

    估计测试样品边缘和边缘Mdl不包括交互方面。

    M_nointeractions =利润率(Mdl XTest,欧美,“IncludeInteractions”、假);E_nointeractions =边缘(Mdl XTest,欧美,“IncludeInteractions”假)
    E_nointeractions = 0.7871

    使用箱形图显示分布的利润率。

    箱线图([M M_nointeractions],“标签”,{“线性和交互条款”,“线性条件仅”})标题(测试样本的利润率的箱形图)

    图包含一个坐标轴对象。坐标轴对象与标题框块试样边缘包含14线类型的对象。

    边缘M_nointeractions有相似的分布,但测试样本的分类器只有线性条件是大。分类器,产生相对较大的利润优先。

    输入参数

    全部折叠

    广义加性模型,指定为一个ClassificationGAMCompactClassificationGAM模型对象。

    • 如果你训练Mdl使用样本数据包含在一个表中,然后输入数据边缘也必须在一个表(资源描述)。

    • 如果你训练Mdl使用样本数据包含在一个矩阵,然后输入数据边缘也必须在一个矩阵(X)。

    样本数据,指定为一个表。每一行的资源描述对应于一个观察,每一列对应一个预测变量。多列变量和细胞数组以外的细胞阵列的特征向量是不允许的。

    资源描述必须包含所有的预测用于火车Mdl。可选地,资源描述响应变量可以包含一个列和一个列观察权重。

    • 响应变量必须具有相同的数据类型Mdl.Y(软件对字符串数组作为细胞阵列特征向量)。如果响应变量资源描述具有相同的名称作为反应变量用于火车Mdl,那么你不需要指定ResponseVarName

    • 重量值必须是一个数字向量。您必须指定观察权重资源描述通过使用“重量”

    如果你训练Mdl使用样本数据包含在一个表中,然后输入数据边缘也必须在一个表中。

    数据类型:

    响应变量名称,指定为一个特征向量或字符串标量包含响应变量的名称资源描述。例如,如果响应变量Y存储在Tbl.Y,然后指定它“Y”

    数据类型:字符|字符串

    指定的类标签,分类,特点,或字符串数组,一个逻辑或数值向量,或单元阵列的特征向量。每一行的Y代表的分类对应的行X资源描述

    Y必须具有相同的数据类型Mdl.Y(软件对字符串数组作为细胞阵列特征向量)。

    数据类型:||分类|逻辑|字符|字符串|细胞

    预测数据,指定为一个数字矩阵。每一行的X对应于一个观察,每一列对应一个预测变量。

    如果你训练Mdl使用样本数据包含在一个矩阵,然后输入数据边缘也必须在一个矩阵。

    数据类型:|

    名称-值参数

    指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

    R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

    例子:“IncludeInteractions”,假的,“权重”,w指定排除交互方面的模型和使用观察权重w

    标志包括交互模型,指定为真正的

    默认的“IncludeInteractions”值是真正的如果Mdl包含交互方面。的值必须如果模型不包含交互方面。

    例子:“IncludeInteractions”,假的

    数据类型:逻辑

    观察体重、指定为一个向量的标量值或变量的名称资源描述。软件重量每一行的观察X资源描述与相应的价值权重。的大小权重必须等于中的行数X资源描述

    如果您指定输入数据表资源描述,然后权重可以是一个变量的名字资源描述包含一个数字向量。在这种情况下,您必须指定权重作为一个特征向量或字符串标量。例如,如果权重向量W存储在Tbl.W,然后指定它' W '

    边缘规范化的权重在每个类的值添加到相应的类的先验概率。

    数据类型:||字符|字符串

    更多关于

    全部折叠

    分类的优势

    分类的优势是分类的加权平均数的利润率。

    选择在多个分类器的一种方式,例如进行特征选择,是选择收益最大的边缘的分类器。

    分类保证金

    分类保证金二进制分类,对每个观察,真正的类的分类得分之间的差异和分类评分错误类。

    如果相同规模的利润(即得分值是基于相同的分数转换),然后他们作为衡量分类信心。在多个分类器,那些产生更大的利润更好。

    版本历史

    介绍了R2021a