主要内容

虚拟变量

本主题提供了虚拟变量的介绍,描述了软件如何为分类和回归问题创建虚拟变量,并展示了如何使用dummyvar函数。

什么是虚拟变量?

执行分类和回归分析时,您通常需要包括连续(定量)和分类(定性)预测变量。不得包含分类变量作为数字数组。数字阵列具有秩序和幅度。分类变量可以有顺序(例如,序数变量),但它没有幅度。使用数字阵列意味着类别之间的已知“距离”。包括分类预测器的适当方法是虚拟变量。要定义虚拟变量,请使用具有值0和1的指示器变量。

该软件选择四个方案中的一个来根据分析类型定义虚拟变量,如下一节所述。例如,假设您有一个具有三类的分类变量:很酷的冷却器, 和最酷的

完整的虚拟变量

代表使用三个类别的三个类别的分类变量,每个类别为一个变量。

X0是一个值为1的哑变量吗很酷的,否则为0。X1是一个值为1的哑变量吗冷却器,否则为0。X2是一个值为1的哑变量吗最酷的,否则为0。

参考组虚拟变量

用两个虚拟变量和一个参照组来代表三个类别的类别变量。

你可以区分很酷的冷却器, 和最酷的只使用X1X2,没有X0.观察的很酷的两个虚拟变量都为0。用全0表示的类别是参照组

有序范畴变量的虚拟变量

假设类别的数学排序是很酷的<冷却器<最酷的.该编码方案使用1和-1值,并使用更多1S以获得更高类别,以指示排序。

X1是一个值为1的哑变量吗冷却器最酷的, -1表示很酷的X2是一个值为1的哑变量吗最酷的,否则为-1。

属性表示类别变量具有数学排序“顺序”的名称-值对参数分类函数。

使用效果编码创建虚拟变量

效果编码使用1,0和-1来创建虚拟变量。代替使用0值来表示引用组,如参考组虚拟变量,效果编码使用-1表示最后一个类别。

创建虚拟变量

自动创建虚拟变量

统计和机器学习工具箱™提供了几种分类和回归拟合功能,接受分类预测器。一些拟合函数创建虚拟变量来处理分类预测器。

以下是识别分类预测器中的拟合功能的默认行为。

  • 如果预测器数据在一个表中,则函数假设一个变量是分类的,如果它是一个逻辑向量、分类向量、字符数组、字符串数组或字符向量的单元数组。使用决策树的拟合函数假定有序类别向量为连续变量。

  • 如果预测器数据是矩阵,则该功能假设所有预测器是连续的。

要将任何其他预测符标识为分类预测符,请使用“CategoricalPredictors”或者'pationalvars'名称-值对的论点。

拟合函数处理识别的分类预测器如下:

手动创建虚拟变量

此示例显示如何通过使用使用的设计伪变量设计矩阵dummyvar函数。此函数接受分组变量,并返回包含零的矩阵,其中列是分组变量的虚拟变量。

创建一个规定性别的分类数据的列向量。

性别=分类({“男”“女”“女”“男”“女”});

创建虚拟变量性别

dv = dummyvar(性别)
dv =5×20 1 1 0 1 0 0 1 1 0

dv有五行对应于行的数量性别和一个独特的群体的两列,男性.列顺序对应于中级别的顺序性别.对于分类阵列,默认顺序是按字母顺序升序。您可以使用使用的查看订单类别函数。

类别(性别)
ans =2 x1细胞{'女'}{‘男性’}

要在回归模型中使用虚拟变量,您必须删除列(创建参考组)或拟合一个没有截距术语的回归模型。对于性别示例,您只需要一个虚拟变量来代表两个性别。注意如果将截取术语添加到完整的设计矩阵,则会发生什么dv

x = [ofon(5,1)dv]
X =5×31 0 1 1 1 0 1 1 0 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0
排名(X)
ans = 2

带有截距项的设计矩阵不满秩且不可逆。因为这个线性相关,只用c- 1个指标变量来代表一个分类变量c带有截距术语的回归模型中的类别。

另请参阅

|

相关话题