分组变量

什么是分组变量?

分组变量是用于组的实用程序变量,或分类,观察。分组变量对于按组进行总结或可视化数据有用。分组变量可以是任何这些数据类型:

  • 数值向量

  • 逻辑向量

  • 字符数组

  • 字符串数组

  • 字符向量的单元格阵列

  • 分类向量

分组变量必须与要分组的表、数据集数组或数字数组具有相同数量的观察值(行)。具有相同分组变量值的观察结果属于同一组。

例如,下列变量组成相同的组。每个分组变量将五个观察值分成两组。第一组包含第一个和第四个观察结果。其他三个观察结果属于第二组。

数据类型 分组变量
数值向量 [1 2 2 1 2]
逻辑向量 [0 1 1 0 1]
字符串数组 ["男”、“女”、“女性”,“男”,“女性”)
字符向量的单元格阵列 {'男','女','女','男','女'}
分类向量 男性女性男性女性

使用带有标签的分组变量给每个组一个有意义的名称。分类向量是一种高效、灵活的分组变量选择方法。

组定义

通常,分组变量中有与唯一值一样多的组。然而,分类向量可以有数据中没有表示的层次。组和组的顺序取决于分组变量的数据类型。假设G是一个分组变量。

  • 如果G是一个数字或逻辑向量,那么组对应于G,按唯一值的排序。

  • 如果G字符数组、字符串数组或字符向量的单元格数组,然后组对应于中不同的元素G,按照他们的第一个外观的顺序。

  • 如果G是一个范畴向量,那么组对应的唯一范畴层次在G,按顺序返回类别

一些功能,如grpstats,接受指定为分组变量的单元格数组的多个分组变量,例如,{G1, G2, G3}.在这种情况下,组是由分组变量中值的唯一组合定义的。顺序首先由第一个分组变量的顺序决定,然后由第二个分组变量的顺序决定,以此类推。

使用分组变量进行分析

该表列出了使用分组变量可能需要执行的常见任务。

分组的任务 函数接受分组变量
为不同组的数据绘制并排的箱线图。 箱线图
画一个散点图,用标记按组着色。 g箭偶
画一个散点图矩阵与标记彩色分组。 gplotmatrix
按组计算汇总统计。 grpstats
测试组意味着之间的差异。 Anovan.
从分组变量创建索引向量。 grp2idx

失踪组值

如果您包含有效指示符,则分组变量可能具有缺失的值。

分组变量数据类型 缺少价值指标
数值向量
逻辑向量 (不能缺少)
字符数组 排空间
字符串数组 <缺失>或者""
字符向量的单元格阵列 ''
分类向量 <定义>

另请参阅

相关的例子

更多关于