grpstats

汇总统计按组安排

描述

statarray= grpstats (TBL组变量中指定的数据组的方法返回表或数据集数组TBL由分组变量的中指定的值或变量确定组变量

  • 如果只有一个分组变量,则有一排statarray对于分组变量的每个值。grpstats通过出现的顺序进行排序的组(如果分组变量是一个字符向量或标量串),在上升的数字顺序(如果该分组变量是数字),或在水平的订单(如果分组变量是分类)。

  • 如果组变量是一个字符串数组或包含多个分组的变量名,或列数的向量字符向量的单元阵列,然后有一排statarray对于每个观测到的分组变量值的唯一组合。grpstats排序由所述第一分组变量的值,则该第二分组的变量,等等的基团。

  • 如果任何变量TBL(比在规定的其他组变量)不是数字或逻辑数组,则必须使用名称-值对参数指定要计算的数字和逻辑变量的名称或列号,DataVars

statarray= grpstats (TBL组变量whichstats返回组值中指定的汇总统计类型whichstats

statarray= grpstats (TBL组变量whichstats名称,值使用由一个或多个指定的附加选项名称,值对参数。

手段= grpstats (X返回与该数据组中的矩阵或向量的装置的列矢量或矩阵X由分组变量或变量的值来确定,。的行手段对应的分组变量值。

  • 如果只有一个分组变量,则有一排手段对于分组变量的每个值。grpstats通过出现的顺序进行排序的组(如果分组变量是一个字符向量或标量串),在上升的数字顺序(如果该分组变量是数字),或在水平的订单(如果分组变量是分类)。

  • 如果是一个字符串数组或分组变量的单元阵列,然后有一排手段对于每个观测到的分组变量值的唯一组合。grpstats排序由所述第一分组变量的值,则该第二分组的变量,等等的基团。

  • 如果X是一个矩阵,然后手段是具有相同的列数为一个矩阵X。的每一列手段具有用于相应的列的组的装置X

[stats1,…, statsN] = grpstats(Xwhichstats返回中指定的汇总统计类型的组值的列向量或数组whichstats

[stats1,…, statsN] = grpstats(Xwhichstats“阿尔法”,α规定了信心和预测区间的显着性水平。

grpstats(Xα绘制数据的组的平均值在矢量或矩阵X通过分组变量的值确定的,。分组变量的值是在水平轴绘图。各组均值为100×(1 -α)% 置信区间。

  • 如果X是一个矩阵,然后grpstats图表的每个塔中的装置和置信区间X

  • 如果是分组变量的单元阵列,然后grpstats为绘制中的数据组的手段和置信区间X通过分组变量的值的唯一组合确定。例如,如果有两个分组变量,每个具有两个值,有分组变量值的四种可能的组合。该图仅包括存在于输入分组变量(不是所有可能的组合)的值的组合。

例子

全部折叠

加载样本数据。

加载('医院'

数据集的数组医院有100个观测和7个变量。

创建仅变量的数据集阵列性别年龄重量,抽烟者

DSA =医院(:,{'性别'“年龄”“重量”“吸烟者”});

性别是具有级别的名义数组吗。的变量年龄重量有数值,和抽烟者有逻辑值。

计算平均值的数字和逻辑阵列,年龄重量,抽烟者,通过在水平分组性别

statarray = grpstats (dsa),'性别'
statarray =性别GroupCount mean_Age mean_Weight mean_Smoker女女53 37.717 130.47 0.24528男男47 38.915 180.53 0.44681

statarray是一个数据集阵列具有两行,对应于水平性别GroupCount是每个组中的观测值的数量。手段年龄重量,抽烟者,通过分组性别,被给予平均年龄mean_Weight,mean_Smoker

计算的均值年龄重量中的值分组抽烟者

statarray = grpstats (dsa),“吸烟者”“的意思是”'DataVars'{“年龄”“重量”})
statarray =吸烟者GroupCount mean_Age mean_Weight 0假66 37.97 149.91 1真34 38.882 161.94

在这种情况下,不是所有的变量DSA(不包括分组变量,抽烟者)是数字或逻辑阵列;变量性别是标称阵列。当输入数据集数组中不是所有的变量是数字或逻辑阵列,您必须指定您使用要计算汇总统计变量DataVars

计算最小和最大重量,值的组合进行分组性别抽烟者

statarray = grpstats(DSA,{'性别'“吸烟者”},{“最小值”“马克斯”},...'DataVars'“重量”
statarray =性别吸烟者GroupCount min_Weight max_Weight Female_0女性假40 111 147 Female_1女真13 115 146 Male_0男性假26 158 194 Male_1男真21 164 202

有两个独特的值抽烟者和两个层次性别,总共的值的四种可能的组合:女性不吸烟者(Female_0),女性吸烟者(Female_1),男性非吸烟者(Male_0),与男性吸烟者(Male_1)。

指定输出列的名称。

statarray = grpstats(DSA,{'性别'“吸烟者”},{“最小值”“马克斯”},...'DataVars'“重量”'VarNames'{'性别'“吸烟者”...'GroupCount''LowestWeight'“HighestWeight”})
性别吸烟组计数最低体重最高体重女性0女性假40 111 147女性1女性真13 115 146男性0男性假26 158 194男性1男性真21 164 202

加载样本数据。

加载('医院'

数据集的数组医院有100个观测和7个变量。

创建仅变量的数据集阵列年龄重量,抽烟者

DSA =医院(:,{“年龄”“重量”“吸烟者”});

的变量年龄重量有数值,和抽烟者有逻辑值。

计算的平均值,最小值和最大值的数值和逻辑阵列,年龄重量,抽烟者,没有分组。

statarray = grpstats(DSA,[],{“的意思是”“最小值”“马克斯”})
statarray = GroupCount mean_Age MIN_AGE MAX_AGE mean_Weight所有100 38.28 25 50 154 min_Weight max_Weight mean_Smoker min_Smoker max_Smoker全部111 202 0.34假真

观察名所有表明所有的观测DSA被用来计算汇总统计。

加载样本数据。

加载('carsmall'

所有的变量都可供100辆汽车进行测量。起源原产地是每个汽车(法国,德国,意大利,日本,瑞典,美国或)的国家。气瓶有三个独特的价值观,46,8指示在每节车厢的气缸数。

计算平均值的加速度,由原籍国进行分组。

手段= grpstats(加速度,产地)
手段=6×114.4377 18.0500 15.8867 16.3778 16.6000 15.5000

手段是平均加速度的6×1向量,每个值对应一个原产国。

计算平均值的加速度,由产地和气缸数的两个国家进行分组。

手段= grpstats(加速度,{来源,气缸})
手段=10×117.0818 16.5267 11.6406 18.0500 15.9143 15.5000 16.3375 16.7000 16.6000 15.5000

有分组变量值,因为18个可能的组合起源具有6个唯一值和气瓶有3个独特的价值观。只有可能的组合10出现在数据,所以手段是对应于值的观察到的组合组装置的10×1向量。

返回组名称与各组的平均加速度一起。

[装置,GRPS] = grpstats(加速度,{来源,气缸},{“的意思是”'的gname'})
手段=10×117.0818 16.5267 11.6406 18.0500 15.9143 15.5000 16.3375 16.7000 16.6000 15.5000
GRPS =10X2单元{'美国'}{‘4’}{‘美国’}{‘6’}{‘美国’}{' 8 '}{“法国”}{‘4’}{‘日本’}{‘4’}{‘日本’}{‘6’}{“德国”}{‘4’}{“德国”}{‘6’}{“瑞典”}{‘4’}{“意大利”}{' 4 '}

输出GRPS显示10个观察到的变量值分组组合。例如,法国生产的4缸汽车的平均加速度是18.05。

加载样本数据。

加载carsmall

变量加速度被测量为100辆汽车。变量起源原产地是每个汽车(法国,德国,意大利,日本,瑞典,美国或)的国家。

返回原籍国分组的最小和最大加速度。

[grpMin,grpMax,GRP] = grpstats(加速度,产地,{“最小值”“马克斯”'的gname'})
grpMin =6×18.0000 15.3000 13.9000 12.2000 15.7000 15.5000
grpMax =6×122.2000 21.9000 18.2000 24.6000 17.5000 15.5000
GRP =6x1的细胞{ 'USA'} { '法国'} { '日本'} { '德国'} { '瑞典'} { '意大利'}

加速度最低的样车是美国制造,加速度最高的样车是德国制造。

加载样本数据。

加载('carsmall'

变量重量被测量为100辆汽车。变量Model_Year有三个独特的价值观,7076,82,对应于模型1970年,1976年,和1982年。

计算每个车型年的平均重量和90%的预测区间。

(意味着,pred, grp) = grpstats(体重、Model_Year...{“的意思是”“predci”'的gname'},'Α',0.1);

情节误差线显示平均体重和90%的预测区间,在品牌年度区分。与组名称标记水平轴。

ngrps =长度(GRP);组的数量%errorbar((1:ngrps)”,手段,预解码值(:,2)-means)XLIM([0.5 3.5])组(GCA,'XTICK',1:ngrps,“xticklabel”,GRP)标题('90%的预测区间按年权重”

加载样本数据。

加载('carsmall'

的变量加速度重量是100辆汽车测量的加速度和权重值。变量气瓶在每节车厢的气缸数。变量Model_Year有三个独特的价值观,7076,82,对应于模型1970年,1976年,和1982年。

绘制平均加速,通过分组气瓶,有95%的置信区间。

grpstats(加速度,缸,0.05)

ans =3×116.6706 16.4765 11.6406

对汽车的平均加速度与8个柱面比为4个或6缸汽车显著更低。

绘制平均加速度和重量,分组气瓶和95%置信区间。缩放重量由1000个值,以便手段重量加速度是大小相同的顺序。

grpstats((加速度、重量/ 1000),缸,0.05)

ans =3×216.6706 2.3726 16.4765 3.1255 11.6406 3.9703

汽车的平均重量随气缸数的增加而增加,平均加速度随气缸数的增加而减少。

Plot平均加速,分组的两气瓶Model_Year。指定95%的置信区间。

grpstats(加速度,{缸,Model_Year},0.05)

ans =8×116.1875 16.8667 16.7036 15.5000 17.0000 16.0333 11.0217 13.2222

有因为有三个独特值分组变量值9层可能的组合气瓶和三个唯一的值Model_Year。情节不显示与模型1982年8缸车,因为该数据不包括这一组合。

在1976年由8缸汽车的平均加速度大于在1970年由8缸汽车的平均加速度显著大。

输入参数

全部折叠

输入数据,指定为表或数据集数组。TBL必须包括至少一个变量,它是一个分组变量。

只能为具有数字或逻辑数据类型的变量计算摘要统计信息。如果任何变量TBL(除分组变量)不是数字或逻辑阵列,然后用名称 - 值对参数DataVars指定名称或数字的列数,并要计算汇总统计逻辑变量。

在输入数据分组变量标识符,TBL,指定为以下情况之一:

字符向量,字符串数组,或字符向量的单元阵列 分组变量的名称
正整数或正整数的向量 分组变量的变量数
用元件的数量的逻辑值的矢量等于变量的数量TBL 与价值逻辑指标真正为分组变量和除此以外
[] 没有群组(所有数据返回汇总统计)

由鉴定的任何变量组变量作为分组变量必须有一个有效分组变量的数据类型:分类阵列,逻辑或数字载体,日期时间或持续时间矢量,字符串数组,或字符向量的单元阵列。

例如,考虑一个输入表,TBL与六个变量。第四个变量命名性别。是一个有效的分组的变量,所述数据类型的性别可以是字符串数组、字符向量的单元数组或具有惟一值的名义数组。要指定变量性别作为分组变量,你可以使用这些语法:

  • statarray = grpstats(TBL, '性别')

  • statarray = grpstats(TBL,4)

  • (tbl,逻辑([0 0 1 0 0]))

数据类型:|合乎逻辑|烧焦||细胞

汇总统计的类型来计算,指定为字符向量,一个串标量,功能句柄,一个字符串数组,或字符向量和函数处理的一个单元阵列。使用电池阵列指定多个类型的汇总统计。

值包括:

“的意思是” 意思
扫描电镜的 该均值的标准差
'numel' 数,或数量,非分子
'的gname' 团队名字
“性病” 标准差
“变种” 方差
“最小值” 最低
“马克斯” 最大值
'范围' 范围
'meanci' 均值的95%置信区间
“predci” 为一个新的观察95%预测区间

例:[STAT1,STAT2] = grpstats(X,组,{ '平均', 'SEM'})

您可以指定不同的显着性水平'meanci'“predci”使用名称 - 值对参数的选择,Α

要指定其他类型的汇总统计,则可以使用函数处理。可以使用手柄将接受一个列或数据的矩阵的任何函数,每一次返回相同的大小输出grpstats调用它(即使输出对某些群体为空)。

如果该函数接受数据的列,则该函数可以返回一个标量值,或nvals-by-1长度的描述性统计列向量nvals(例如,置信区间具有长度为两个)。如果该函数接受一个矩阵,它必须要么返回1逐NCOLS行向量,或nvals-通过-NCOLS矩阵,其中NCOLS是在所述输入数据矩阵的列数。

例:[STAT1,STAT2,STAT3] = grpstats(X,组,{ '平均', 'STD',@偏斜度})

对于不按列计算统计信息的函数,在指定函数时指定计算方向。

例:STAT1 = grpstats(X,组,@(x)的总和(X,1))

显着性水平,指定为在范围(0,1)的标量值。

  • 当您指定'meanci'要么“predci”whichstats, 您可以使用α指定的信心或预测区间的显着性水平。如果您指定α, 然后grpstats返回100×(1 -α)置信值或预测区间。如果没有指定α, 然后grpstats返回95%的间隔(阿尔法= 0.05)。

  • 使用α语法到情节组装置和对应的100×(1 -α)% 置信区间。

数据类型:

输入数据,指定为矢量或矩阵。如果X是一个矩阵,然后grpstats返回汇总统计的每一列X

数据类型:|

分组变量,指定为分类阵列,逻辑或数字载体,日期时间或持续时间矢量,字符串数组,或字符向量的单元阵列。在一个分组变量的每个唯一值定义的基团。grpstats用于使用所述分组的变量值的汇总统计组的数据。

必须有所述输入数据的每一行分组变量值X。观测(行)与分组变量的相同值是在同一组中。使用[]为所有数据计算汇总统计,而无需使用群体。

例如,如果性别是字符串数组还是带有值的字符向量的单元数组“男”“女”, 您可以使用性别作为分组变量按性别来概括您的数据。

你也可以使用一个以上的分组变量分组数据汇总统计。在这种情况下,指定分组变量的单元阵列。

例如,如果抽烟者是具有值的逻辑矢量0对于非吸烟者和1,然后指定单元格数组{性别,吸烟者}分歧意见分为四组:男性吸烟者,不吸烟男性,女性吸烟者和不吸烟女性。grpstats返回汇总统计仅针对值的存在于输入分组变量(不是所有可能的组合)的组合。

数据类型:||合乎逻辑|烧焦||细胞|明确的|datetime|持续时间

名称-值对的观点

指定可选的用逗号分隔的对名称,值参数。名称是参数的名称和是对应的值。名称必须出现在引号内。可以按任意顺序指定多个名称和值对参数名1,值1,...,NameN,值N

例:'DataVars',[1,3,4], '阿尔法',0.01指定以99%置信区间为数据集数组中的第1、第3和第4个变量计算摘要统计信息。

显着性水平为信心和预测区间,指定为逗号分隔的一对组成的'Α'和范围内的(0,1)的标量值。

如果包括'meanci'要么“predci”whichstats, 您可以使用Α指定信心或预测区间的显着性水平。如果您指定的值α, 然后grpstats返回100×(1 -α)置信值或预测区间。

如果没有指定的值Α, 然后grpstats返回95%的间隔(α= 0.05)。

例:'阿尔法',0.1

数据类型:

变量名或列表示哪个变量在输入数据TBL要计算汇总统计,指定为以逗号分隔对包括'DataVars'以及字符串数组、字符向量的单元数组、正整数向量或逻辑向量。使用字符向量或字符串标量来指定变量名,使用正整数来指定变量列号,或使用逻辑值来指示包含哪些变量(真正如果要计算汇总统计,除此以外)。

您必须指定DataVars如果有变量的话TBL中指定的分组变量除外组变量),而不是数字或逻辑数组。只能为具有数字或逻辑数据类型的变量计算摘要统计信息。

例:'DataVars',{ '身高', '体重'}

数据类型:||细胞|烧焦

输出变量名statarray,指定为逗号分隔的对,由'VarNames'以及字符向量的字符串数组或单元数组。默认情况下,grpstats通过从输入数据附加的前缀变量名构建输出变量名TBL。这个前缀对应于概要统计数据名称。

例:'VarNames',{ '性别', 'GroupCount', 'MaleMean', 'FemaleMean'}

数据类型:|细胞

输出参数

全部折叠

组汇总统计信息,以表或数据集数组的形式返回。如果TBL是一个表,grpstats回报statarray为表。如果TBL是一个数据集阵列,grpstats回报statarray作为数据集数组。

statarray包含数据的这些基团中总结统计值TBL由指定的分组变量的水平来确定组变量。有一排statarray用于在由指定的变量值的每个观测值或组合组变量。输出statarray包含:

  • 由指定的所有分组变量组变量

  • 变量GroupCount含各组中观察次数。

  • 在所有变量组汇总统计值TBL(比由规定的其他组变量),或仅为指定的变量使用DataVars

的变量总数statarrayngroupvars+ 1 +ndatavars×nstats,其中ngroupvars是的变量数组变量ndatavars为其计算汇总统计信息的变量的数量,以及nstats在指定摘要统计类型的数目whichstats

grpstats受让人默认名称在变量statarray,除非您使用的名称 - 值对参数指定的变量名VarNames

组表示向量或矩阵中的数据组X通过的水平来确定,返回一个NGROUPS-通过-NCOLS数组中。这里,NGROUPS是唯一值的分组变量的数量,并且NCOLS是列在数X。如果X是一个向量手段是一个列向量。

用于数据的在载体或基质中的组的组汇总统计X通过的水平来确定,返回NGROUPS-通过-NCOLS阵列。这里,NGROUPS是唯一值的分组变量的数量,并且NCOLS是列在数X。您必须指定在指定的汇总统计每种类型的输出参数whichstats

如果一个汇总统计类型whichstats返回长度值nvals(例如,置信区间为长度为2的描述统计),那么相应的输出参数是一个NGROUPS-通过-NCOLS-通过-nvals数组中。

算法

  • grpstats对待为NaNS作为缺失值,并计算概要统计之前,从所述输入数据中删除。

  • grpstats忽略空组名称。

选择功能

MATLAB®包括函数groupsummary,这也将返回组总结,当你与表工作的建议。

扩展功能

之前介绍过的R2006a