分组变量
什么是分组变量?
分组变量是用于分组或分类观察值的实用程序变量。分组变量可用于汇总或通过组可视化数据。分组变量可以是这些数据类型中的任何一个:
数字向量
逻辑向量
字符阵列
字符串数组
字符向量的单元格数
分类矢量
分组变量必须具有与表格,数据集数组或分组的数字数组相同数量的观测值(行)。具有相同分组变量值的观测值属于同一组。
例如,以下变量包含相同的组。每个分组变量将五个观察结果分为两组。第一组包含第一个和第四个观察结果。其他三个观察结果在第二组中。
数据类型 | 分组变量 |
---|---|
数字向量 | [1 2 2 1 2] |
逻辑向量 | [0 1 1 0 1] |
字符串数组 | [“男性”,“女”,“女”,“男性”,“女”] |
字符向量的单元格数 | {'男性','雌性','雌性','男性','女性'} |
分类矢量 | 男女 |
使用标签的分组变量为每个组一个有意义的名称。分类向量是分组变量的有效且灵活的选择。
组定义
通常,在分组变量中,组与唯一值一样多。但是,分类向量可以具有数据中未表示的级别。组和组的顺序取决于分组变量的数据类型。认为G
是一个分组变量。
如果
G
是数字或逻辑向量,然后组对应于G
,按照唯一值的排序顺序。如果
G
是字符矢量的字符数组,字符串数组或单元格数组,然后组对应于G
,按照他们首次出现的顺序。如果
G
是一个分类向量,然后组对应于G
,按照返回的顺序类别
。
一些功能,例如grpstats
,接受指定为分组变量的单元格数组的多个分组变量,例如{G1,G2,G3}
。在这种情况下,组由分组变量中值的唯一组合定义。该订单首先由第一个分组变量的顺序决定,然后是第二组变量的顺序,依此类推。
使用分组变量进行分析
此表列出了您可能需要使用分组变量执行的常见任务。
缺少组值
如果您包括有效的指示器,则分组变量可能具有缺失值。
分组变量数据类型 | 缺少值指示器 |
---|---|
数字向量 | 南 |
逻辑向量 | (不丢失) |
字符阵列 | 行空间 |
字符串数组 | <缺少> 或者“” |
字符向量的单元格数 | '' |
分类矢量 | <未定义> |