主要内容

grpstats

按组组织的汇总统计

描述

例子

statarray=grpstats(资源描述groupvar返回表或数据集数组,其中包含中指定的数据组的平均值资源描述由分组变量或中指定的变量的值确定groupvar

  • 如果有一个单独的分组变量,那么就有一行statarray对于分组变量的每个值。grpstats按照出现顺序(如果分组变量是字符向量或字符串标量)、升序数字顺序(如果分组变量是数字)或级别顺序(如果分组变量是分类变量)对组进行排序。

  • 如果groupvar一个字符向量的字符串数组或单元格数组包含多个分组变量名,或一个列号的向量,然后在statarray对于每一个观察到的分组变量值的唯一组合。grpstats根据第一个分组变量的值对组进行排序,然后是第二个分组变量的值,以此类推。

  • 如果有变量资源描述(不包括groupvar)如果不是数字或逻辑数组,则必须使用名称-值对参数指定要计算其均值的数字和逻辑变量的名称或列号,DataVars

例子

statarray=grpstats(资源描述groupvarwhichstats中指定的摘要统计信息类型的组值whichstats

例子

statarray=grpstats(资源描述groupvarwhichstats名称、值使用一个或多个指定的附加选项名称、值对参数。

例子

意味着=grpstats(X集团使用矩阵或向量中的数据组的方法返回列向量或矩阵X由分组变量或变量的值决定,集团.的行意味着与分组变量值相对应。

  • 如果有一个单独的分组变量,那么就有一行意味着对于分组变量的每个值。grpstats按照出现顺序(如果分组变量是字符向量或字符串标量)、升序数字顺序(如果分组变量是数字)或级别顺序(如果分组变量是分类变量)对组进行排序。

  • 如果集团是一个字符串数组或单元格数组的分组变量,然后有一行在意味着对于每一个观察到的分组变量值的唯一组合。grpstats根据第一个分组变量的值对组进行排序,然后是第二个分组变量的值,以此类推。

  • 如果X是一个矩阵意味着一个列数相同的矩阵吗X.每一列的意味着对应列的组是否表示X

例子

stats1,…,statsN) = grpstats (X集团whichstats返回列向量或数组,其中包含中指定的汇总统计类型的组值whichstats

例子

stats1,…,statsN) = grpstats (X集团whichstats,α,阿尔法指定置信度和预测区间的显著性级别。

例子

grpstats (X集团阿尔法在向量或矩阵中绘制数据组的平均值X由分组变量的值决定,集团.分组变量值在横轴上。每组均值为100×(1 -阿尔法) %的置信区间。

  • 如果X是一个矩阵grpstats绘制的每列的均值和置信区间X

  • 如果集团是分组变量的单元格数组吗grpstats图中各组数据的均值和置信区间X由分组变量的值的唯一组合决定。例如,如果有两个分组变量,每个变量有两个值,则分组变量值有四种可能的组合。该图只包含存在于输入分组变量中的值的组合(不是所有可能的组合)。

例子

全部崩溃

加载示例数据。

负载(“医院”

数据集数组医院有100个观察结果和7个变量。

创建一个只包含变量的数据集数组年龄重量,吸烟者

dsa =医院(:,{“性”“年龄”“重量”“抽烟”});

是一个标称数组,具有级别男性.变量年龄重量有数值,和吸烟者具有逻辑值。

计算数值和逻辑数组的平均值,年龄重量,吸烟者,按层次分组

statarray = grpstats (dsa),“性”
statarray = Sex GroupCount mean_Age mean_Weight mean_吸烟者女性女性53 37.717 130.47 0.24528男性47 38.915 180.53 0.44681

statarray一个有两行的数据集数组,对应于GroupCount为每组观测的次数。的手段年龄重量,吸烟者分组,,在mean_Agemean_Weight,mean_Smoker

计算的平均值年龄重量,按中的值分组吸烟者

statarray = grpstats (dsa),“抽烟”“中庸”“DataVars”, {“年龄”“重量”})
statarray =吸烟者GroupCount mean_Age mean_Weight 0 false 66 37.97 149.91 1 true 34 38.882 161.94

在这种情况下,不是所有的变量dsa(不包括分组变量,吸烟者)为数字或逻辑数组;的变量是标称数组。当输入数据集数组中并非所有变量都是数字或逻辑数组时,必须指定要使用其计算汇总统计信息的变量DataVars

计算最小和最大权重,按中值的组合分组吸烟者

statarray = grpstats (dsa) {“性”“抽烟”}, {“最小值”“马克斯”},...“DataVars”“重量”
statarray = Sex吸烟者GroupCount min_Weight max_Weight Female_0 Female false 40 111 147 Female_1 Female true 13 115 146 Male_0 Male false 26 158 194 Male_1 Male true 21 164 202

中有两个唯一的值吸烟者和两个级别,共有四种可能的值组合:女性不吸烟(Female_0)、女性吸烟者(Female_1),男性非吸烟者(Male_0)及男性吸烟者(Male_1).

指定输出中的列的名称。

statarray = grpstats (dsa) {“性”“抽烟”}, {“最小值”“马克斯”},...“DataVars”“重量”“VarNames”, {“性别”“抽烟”...“GroupCount”“LowestWeight”“最重的重量”})
statarray = Gender吸烟者GroupCount LowestWeight HighestWeight女性假40 111 147女性真13 115 146男性0男性假26 158 194男性1男性真21 164 202

加载示例数据。

负载(“医院”

数据集数组医院有100个观察结果和7个变量。

创建一个只包含变量的数据集数组年龄重量,吸烟者

dsa =医院(:,{“年龄”“重量”“抽烟”});

的变量年龄重量有数值,和吸烟者具有逻辑值。

计算数值和逻辑数组的平均值、最小值和最大值,年龄重量,吸烟者,没有分组。

statarray = grpstats (dsa, [], {“中庸”“最小值”“马克斯”})
statarray = GroupCount mean_Age min_Age max_Age mean_Weight All 100 38.28 25 50 154 min_Weight max_Weight mean_吸烟者min_吸烟者max_吸烟者所有111 202 0.34 false true

观察的名字全部的表示所有的观测值dsa用于计算汇总统计。

加载示例数据。

负载(“carsmall”

所有变量都是针对100辆车进行测量的。起源是每辆车的原产国(法国、德国、意大利、日本、瑞典或美国)。气缸有三个唯一的值,46,8,表示每辆车的汽缸数。

计算平均加速度,按原产国分组。

意味着= grpstats(加速度,起源)
意味着=6×114.4377 18.0500 15.8867 16.3778 16.6000 15.5000

意味着是平均加速度的6乘1矢量,其中每个值对应于原产国。

计算平均加速度,分组的国家和气缸的数量。

意味着= grpstats(加速度,{起源、汽缸})
意味着=10×117.0818 16.5267 11.6406 18.0500 15.9143 15.5000 16.3375 16.7000 16.6000 15.5000

分组变量值有18种可能的组合,因为起源有6个独特的值和气缸有3个唯一的值。只有10种可能的组合出现在数据中,所以意味着是一个10乘1的组均值向量,对应于观测值的组合。

返回组名以及每个组的平均加速度。

[意味着,毛评点]= grpstats(加速度,{起源、汽缸},{“中庸”“gname”})
意味着=10×117.0818 16.5267 11.6406 18.0500 15.9143 15.5000 16.3375 16.7000 16.6000 15.5000
毛评点=10 x2细胞{'USA'}{'4'}{'USA'}{'6'}{'USA'}{'8'}{'法国'}{'4'}{'日本'}{'6'}{'德国'}{'6'}{'瑞典'}{'4'}{'意大利'{'4'}

输出毛评点显示了10个观察到的分组变量值组合。例如,法国制造的4缸汽车的平均加速度为18.05。

加载示例数据。

负载carsmall

的变量加快对100辆汽车进行了测量。变量起源是每辆车的原产国(法国、德国、意大利、日本、瑞典或美国)。

返回按原产国分组的最小和最大加速度。

(grpMin、grpMax grp) = grpstats(加速度,起源,{“最小值”“马克斯”“gname”})
grpMin =6×18.0000 15.3000 13.9000 12.2000 15.7000 15.5000
grpMax =6×122.2000 21.9000 18.2000 24.6000 17.5000 15.5000
grp =6 x1细胞{'美国'}{“法国”}{‘日本’}{“德国”}{“瑞典”}{“意大利”}

加速度最低的样车在美国制造,加速度最高的样车在德国制造。

加载示例数据。

负载(“carsmall”

的变量重量对100辆汽车进行了测量。变量Model_Year有三个唯一的值,7076,82,分别对应模式年份1970、1976和1982。

计算每个模式年的平均权重和90%的预测区间。

(意味着,pred, grp) = grpstats(体重、Model_Year...“中庸”“predci”“gname”},“α”, 0.1);

图误差柱显示平均权重和90%的预测区间,按模型年分组。用组名标记水平轴。

ngrps =长度(grp);%组数errorbar ((1: ngrps)”,意味着,pred(:, 2))则xlim([0.5 - 3.5])组(gca),“xtick”1: ngrps,“xticklabel”、grp)标题(“按年预测90%的重量区间”

图中包含一个轴对象。标题为“90% Weight by Year预测时间间隔”的轴对象包含一个类型为errorbar的对象。

加载示例数据。

负载(“carsmall”

的变量加快重量为100辆汽车的加速度和重量值。的变量气缸是每辆车的汽缸数。的变量Model_Year有三个唯一的值,7076,82,分别对应模式年份1970、1976和1982。

绘制平均加速度,按气缸, 95%置信区间。

grpstats(加速、气缸、0.05)

图中包含一个轴对象。具有标题平均值和每组置信区间的Axis对象包含errorbar类型的对象。

ans=3×116.6706 16.4765 11.6406

8缸汽车的平均加速度明显低于4或6缸汽车。

绘制平均加速度和重量,按气缸, 95%置信区间。规模的重量值乘以1000的平均值重量加快都是相同的数量级。

GRP测试([加速度,重量/1000],气缸,0.05)

图中包含一个轴对象。标题为“每个组的均值和置信区间”的轴对象包含2个类型为errorbar的对象。

ans=3×216.6706 2.3726 16.4765 3.1255 11.6406 3.9703

汽车的平均重量随气缸数的增加而增加,平均加速度随气缸数的增加而减小。

绘制平均加速度,按两者分组气缸Model_Year.指定95%置信区间。

grpstats(加速度,{圆柱体,Model_Year}, 0.05)

图中包含一个轴对象。标题为“每个组的均值和置信区间”的axis对象包含9个类型为errorbar、text的对象。

ans=8×116.1875 16.8667 16.7036 15.5000 17.0000 16.0333 11.0217 13.2222

变量值分组有9种可能的组合,因为在气缸和三个独特的价值观Model_Year.图中没有显示8缸车型为1982年的汽车,因为数据中没有包括这一组合。

1976年8缸车的平均加速度明显大于1970年8缸车的平均加速度。

输入参数

全部崩溃

输入数据,指定为表或数据集数组。资源描述必须包含至少一个分组变量。

摘要统计信息只能计算具有数字或逻辑数据类型的变量。如果有变量资源描述(分组变量除外)不是数字或逻辑数组,则使用名称-值对参数DataVars指定要为其计算汇总统计信息的数字和逻辑变量的名称或列号。

输入数据中的分组变量的标识符,资源描述,指定为下列其中之一:

字符向量、字符串数组或字符向量的单元格数组 分组变量的名称
正整数或正整数的向量 分组变量的变量数
逻辑值向量,其中元素的数量等于其中变量的数量资源描述 带值逻辑指示器真正的用于分组变量和错误的否则
[] 没有组(返回所有数据的汇总统计信息)

定义为的任何变量groupvar作为分组变量,必须具有有效的分组变量数据类型:类别数组、逻辑或数字向量、日期时间或持续时间向量、字符串数组或字符向量的单元格数组。

例如,考虑输入表,资源描述,有六个变量。第四个变量被命名性别.要成为有效的分组变量,则性别可以是字符串数组、字符向量的单元格数组或具有唯一值的标称数组男性.指定变量性别作为分组变量,你可以使用以下任何语法:

  • “性别”statarray = grpstats(台)

  • statarray = grpstats(4台)

  • statarray=grpstats(tbl,逻辑([0 0 1 0]))

数据类型:|逻辑|字符|字符串|单间牢房

要计算的汇总统计信息的类型,指定为以下值之一。

  • 指定汇总统计信息类型的字符向量或字符串标量,如本表所述。

    类型 描述
    “中庸” 的意思是
    “扫描电镜” 均值的标准误差
    “元素个数” 数或数非的元素
    “gname” 组名称
    “性病” 标准偏差
    “var” 方差
    “最小值” 最低限度
    “马克斯” 最大
    “范围” 范围
    “meanci” 均值的95%置信区间。属性指定不同的显著性级别α名称-值对的论点。
    “predci” 新观测的95%预测间隔。可以使用α名称-值对的论点。

  • 函数句柄来指定任何其他类型的汇总统计信息。您可以对任何接受数据列或矩阵并每次返回相同大小输出的函数使用句柄grpstats调用函数句柄(即使某些组的输出为空)。

    • 如果函数接受一列数据,则该函数可以返回标量值或造船-by-1列向量用于描述长度统计造船(例如,置信区间的长度为2)。如果函数接受一个矩阵,则函数必须返回一个1-by-ncols行向量造船——- - - - - -ncols矩阵,ncols是输入数据矩阵中的列数。

    • 对于不计算列统计的函数,在指定函数时指定计算方向。例如,使用总和函数,指定函数句柄为@(x) 总和(x,1)因为总和计算具有两行或多行矩阵的列统计信息,但不计算单行矩阵的列统计信息。

  • 字符串数组或字符向量或函数句柄的单元格数组,用于指定多种类型的摘要统计信息。

例子:stat1 = grpstats (X、组sem)

例子:@ stat1 = grpstats (X,集团(X)和(X, 1))

例子:[stat1, stat2, stat3) = grpstats (X,,{“的意思是”,“性病”,@skewness})

显著性水平,指定为范围(0,1)中的标量值。

  • 当你指定“meanci”“predci”在里面whichstats,你可以使用阿尔法指定置信区间或预测区间的显著性水平。如果您指定阿尔法,然后grpstats返回100×(1 -阿尔法)%置信或预测区间。如果没有指定阿尔法,然后grpstats返回95%的间隔(α= 0.05).

  • 使用阿尔法语法绘制组均值和对应的100×(1 -阿尔法) %的置信区间。

数据类型:

输入数据,指定为向量或矩阵。如果X是一个矩阵grpstats的每列的汇总统计信息X

数据类型:|

分组变量,指定为分类数组、逻辑或数字向量、日期时间或持续时间向量、字符串数组或字符向量的单元格数组。分组变量中的每个唯一值定义一个组。grpstats使用分组变量值对数据进行分组,以获得汇总统计信息。

输入数据的每一行必须有一个分组变量值X.具有相同分组变量值的观察(行)在同一组中。使用[]计算所有数据的汇总统计信息,而不使用组。

例如,如果性别是具有值的字符向量的字符串数组或单元格数组“男性”“女性”,你可以使用性别作为分组变量,按性别总结你的数据。

还可以使用多个分组变量对汇总统计数据进行分组。在这种情况下,指定分组变量的单元格数组。

例如,如果吸烟者逻辑向量有值吗0对于不吸烟者和1对于吸烟者,则指定单元格数组{性别、吸烟}将观察分为四组:男性吸烟者,男性不吸烟者,女性吸烟者和女性不吸烟者。grpstats仅返回存在于输入分组变量中的值的组合的汇总统计信息(不是所有可能的组合)。

数据类型:||逻辑|字符|字符串|单间牢房|分类|datetime|持续时间

名称-值参数

指定可选的逗号分隔的对名称、值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。您可以按任意顺序指定多个名称和值对参数,如下所示:Name1, Value1,…,的家

例子:“DataVars”(1,3,4),“阿尔法”,0.01指定为数据集数组中的第1个、第3个和第4个变量计算摘要统计信息,置信区间为99%。

置信和预测区间的显著性水平,指定为逗号分隔的对,由“α”和范围(0,1)的标量值。

当你包括“meanci”“predci”在里面whichstats,你可以使用α为置信区间或预测区间指定显著性水平。如果指定值α,然后grpstats返回100×(1 -α)%置信或预测区间。

如果没有指定值α,然后grpstats返回95%的间隔(α= 0.05)。

例子:“阿尔法”,0.1

数据类型:

变量名或表示输入数据中哪些变量的列资源描述要计算的汇总统计信息,指定为逗号分隔的对,由“DataVars”以及字符串数组、字符向量单元格数组、正整数向量或逻辑向量。使用字符向量或字符串标量指定变量名称,使用正整数指定变量列号,或使用逻辑值指示要包含哪些变量(真正的如果你想计算汇总统计,错误的否则)。

您必须指定DataVars如果表中有任何变量资源描述(中指定的分组变量除外groupvar)不是数字或逻辑数组的。只能为具有数字或逻辑数据类型的变量计算摘要统计信息。

例子:DataVars,{“高度”,“体重”}

数据类型:|字符串|单间牢房|字符

输出的变量名statarray,指定为逗号分隔对,由“VarNames”以及字符向量的字符串数组或单元格数组。默认情况下,grpstats通过将输入数据的前缀附加到变量名,构造输出变量名资源描述.该前缀对应于汇总统计名称。

例子:VarNames,{‘性别’,‘GroupCount’,‘MaleMean’,‘FemaleMean}

数据类型:字符串|单间牢房

输出参数

全部崩溃

组摘要统计信息,作为表或数据集数组返回。如果资源描述是一个表,grpstats返回statarray作为一个表。如果资源描述是一个数据集数组,grpstats返回statarray作为数据集数组。

statarray中的数据组的汇总统计值资源描述由所指定的分组变量的级别确定groupvar.有一排statarray为变量中指定的每个观测值或值的组合groupvar.输出statarray包含:

  • 指定的所有分组变量groupvar

  • 的变量GroupCount,包括每组观测的数量。

  • 中所有变量的汇总统计值资源描述(但由groupvar),或仅针对使用DataVars

变量的总数statarrayngroupvars+ 1 +ndatavars×nstats,在那里ngroupvars变量的个数在里面吗groupvarndatavars为其计算汇总统计信息的变量数,以及nstats中是否指定汇总统计类型的数量whichstats

grpstats中的变量指定默认名称statarray,除非使用名称-值对参数指定变量名VarNames

组是指向量或矩阵中的数据组X由水平决定的集团,返回为ngroups——- - - - - -ncols数组中。在这里,ngroups分组变量中唯一值的数量,和ncols列数是多少X.如果X那么,这是一个向量意味着是一个列向量。

对向量或矩阵中的数据组进行汇总统计X由水平决定的集团,返回ngroups——- - - - - -ncols数组。在这里,ngroups分组变量中唯一值的数量,和ncols列数是多少X.中指定的每种汇总统计信息类型必须指定输出参数whichstats

如果汇总统计类型为whichstats返回一个长度值造船(例如,置信区间是长度为2的描述性统计量),那么相应的输出参数是ngroups——- - - - - -ncols——- - - - - -造船数组中。

算法

  • grpstats对待,并在计算汇总统计信息之前将它们从输入数据中删除。

  • grpstats忽略空组名。

选择功能

MATLAB®包括函数组摘要,它也返回组摘要,在使用表时推荐使用。

扩展功能

之前介绍过的R2006a