本主题提供了虚拟变量的介绍,描述了软件如何为分类和回归问题创建虚拟变量,并展示了如何使用dummyvar
函数。
执行分类和回归分析时,您通常需要包括连续(定量)和分类(定性)预测变量。不得包含分类变量作为数字数组。数字阵列具有秩序和幅度。分类变量可以有顺序(例如,序数变量),但它没有幅度。使用数字阵列意味着类别之间的已知“距离”。包括分类预测器的适当方法是虚拟变量。要定义虚拟变量,请使用具有值0和1的指示器变量。
该软件选择四个方案中的一个来根据分析类型定义虚拟变量,如下一节所述。例如,假设您有一个具有三类的分类变量:很酷的
,冷却器
, 和最酷的
.
代表使用三个类别的三个类别的分类变量,每个类别为一个变量。
X0是一个值为1的哑变量吗很酷的
,否则为0。X1是一个值为1的哑变量吗冷却器
,否则为0。X2是一个值为1的哑变量吗最酷的
,否则为0。
用两个虚拟变量和一个参照组来代表三个类别的类别变量。
你可以区分很酷的
,冷却器
, 和最酷的
只使用X1和X2,没有X0.观察的很酷的
两个虚拟变量都为0。用全0表示的类别是参照组.
假设类别的数学排序是很酷的
<冷却器
<最酷的
.该编码方案使用1和-1值,并使用更多1S以获得更高类别,以指示排序。
X1是一个值为1的哑变量吗冷却器
和最酷的
, -1表示很酷的
.X2是一个值为1的哑变量吗最酷的
,否则为-1。
属性表示类别变量具有数学排序“顺序”
的名称-值对参数分类
函数。
效果编码使用1,0和-1来创建虚拟变量。代替使用0值来表示引用组,如参考组虚拟变量,效果编码使用-1表示最后一个类别。
统计和机器学习工具箱™提供了几种分类和回归拟合功能,接受分类预测器。一些拟合函数创建虚拟变量来处理分类预测器。
以下是识别分类预测器中的拟合功能的默认行为。
如果预测器数据在一个表中,则函数假设一个变量是分类的,如果它是一个逻辑向量、分类向量、字符数组、字符串数组或字符向量的单元数组。使用决策树的拟合函数假定有序类别向量为连续变量。
如果预测器数据是矩阵,则该功能假设所有预测器是连续的。
要将任何其他预测符标识为分类预测符,请使用“CategoricalPredictors”
或者'pationalvars'
名称-值对的论点。
拟合函数处理识别的分类预测器如下:
Fitconnelel.
,fitclinear
,fitcnet
,fitcsvm.
,fitrgp
,Fitrkernel.
,fitrlinear
,fitrnet
, 和Fitrsvm.
根据类别变量是无序的还是有序的,使用两种不同的方案来创建虚拟变量。
对于无序分类变量,功能使用完整的虚拟变量.
对于有序的分类变量,函数使用有序范畴变量的虚拟变量.
参数回归拟合功能,如fitlm
,fitglm
, 和Fitcox.
用参考组虚拟变量.当函数包括伪变量时,虚拟变量的估计系数是相对于参考组的。例如,看到与分类预测因子的线性回归.
fitlme
,fitlmematrix
和Fitglme.
允许您指定使用该方案来创建虚拟变量的方案“DummyVarCoding”
名称-值对的论点。该函数支持三种方案:万博1manbetx完整的虚拟变量(“DummyVarCoding”,“全部”
),参考组虚拟变量(“DummyVarCoding”、“引用”
),使用效果编码创建虚拟变量(“DummyVarCoding”、“影响”
).注意,这些函数不提供用于指定类别变量的名称-值对参数。
其他接受分类预测的拟合函数使用的算法可以处理分类预测而不创建虚拟变量。
此示例显示如何通过使用使用的设计伪变量设计矩阵dummyvar
函数。此函数接受分组变量,并返回包含零的矩阵,其中列是分组变量的虚拟变量。
创建一个规定性别的分类数据的列向量。
性别=分类({“男”;“女”;“女”;“男”;“女”});
创建虚拟变量性别
.
dv = dummyvar(性别)
dv =5×20 1 1 0 1 0 0 1 1 0
dv
有五行对应于行的数量性别
和一个独特的群体的两列,女
和男性
.列顺序对应于中级别的顺序性别
.对于分类阵列,默认顺序是按字母顺序升序。您可以使用使用的查看订单类别
函数。
类别(性别)
ans =2 x1细胞{'女'}{‘男性’}
要在回归模型中使用虚拟变量,您必须删除列(创建参考组)或拟合一个没有截距术语的回归模型。对于性别示例,您只需要一个虚拟变量来代表两个性别。注意如果将截取术语添加到完整的设计矩阵,则会发生什么dv
.
x = [ofon(5,1)dv]
X =5×31 0 1 1 1 0 1 1 0 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0
排名(X)
ans = 2
带有截距项的设计矩阵不满秩且不可逆。因为这个线性相关,只用c- 1个指标变量来代表一个分类变量c带有截距术语的回归模型中的类别。