主要内容

grpstats

按组组织的统计摘要

描述

例子

斯塔雷= grpstats(资源描述群变返回一个表或具有用于在所指定的数据组的装置的数据集阵列资源描述由分组变量或中指定的变量的值确定群变

  • 如果只有一个分组变量,则在斯塔雷对于分组变量的每个值。grpstats按照出现顺序(如果分组变量是字符向量或字符串标量)、升序数字顺序(如果分组变量是数字)或级别顺序(如果分组变量是分类变量)对组进行排序。

  • 如果群变是包含多个分组变量名的字符向量的字符串数组或单元格数组,或是列编号的向量,则在斯塔雷对于每个观察到的分组变量值的唯一组合。grpstats根据第一个分组变量的值对组进行排序,然后是第二个分组变量的值,以此类推。

  • 如果有变量资源描述(除本条所指明者外)群变)不是数字或逻辑阵列,则必须指定要使用的名称 - 值对参数计算手段数字和逻辑变量的名称或列号,DataVars

例子

斯塔雷= grpstats(资源描述群变哪个国家返回中指定的摘要统计信息类型的组值哪个国家

例子

斯塔雷= grpstats(资源描述群变哪个国家名称,值使用一个或多个指定的附加选项名称,值对参数。

例子

意味着= grpstats(X集团使用矩阵或向量中的数据组的方法返回列向量或矩阵X由分组变量或变量的值决定,集团.的行意味着对应于分组变量值。

  • 如果只有一个分组变量,则在意味着对于分组变量的每个值。grpstats按照出现顺序(如果分组变量是字符向量或字符串标量)、升序数字顺序(如果分组变量是数字)或级别顺序(如果分组变量是分类变量)对组进行排序。

  • 如果集团是分组变量的字符串数组或单元格数组,则在意味着对于每个观察到的分组变量值的唯一组合。grpstats根据第一个分组变量的值对组进行排序,然后是第二个分组变量的值,以此类推。

  • 如果X是一个矩阵意味着一个列数相同的矩阵吗X. 每列意味着具有相应列的组平均值X

例子

stats1,...,statsN) = grpstats (X集团哪个国家返回柱载体或具有组值阵列用于在指定的概要统计类型哪个国家

例子

stats1,...,statsN) = grpstats (X集团哪个国家,'Α',α指定置信度和预测区间的显著性级别。

例子

grpstats (X集团α在向量或矩阵中绘制数据组的平均值X由分组变量的值决定,集团.分组变量值在横轴上。每组均值为100×(1 -α) %的置信区间。

  • 如果X是一个矩阵grpstats绘制的每列的均值和置信区间X

  • 如果集团是分组变量的单元格数组,则grpstats绘制中数据组的平均值和置信区间X由分组变量的值的唯一组合决定。例如,如果有两个分组变量,每个变量有两个值,则分组变量值有四种可能的组合。该图只包含存在于输入分组变量中的值的组合(不是所有可能的组合)。

例子

全部收缩

加载示例数据。

负载(“医院”

数据集阵列医院有100个观察值和7个变量。

创建一个只包含变量的数据集数组年龄重量,吸烟者

dsa=医院(:{“性”'年龄''重量'“抽烟”});

是标称阵列,其中水平男性女的.变量年龄重量有数值,和吸烟者具有逻辑值。

计算数值和逻辑数组的平均值,年龄重量,吸烟者,按层次分组

statarray = grpstats (dsa),“性”
statarray = Sex GroupCount mean_Age mean_Weight mean_吸烟者女性女性53 37.717 130.47 0.24528男性47 38.915 180.53 0.44681

斯塔雷是一个具有两行的数据集数组,对应于中的级别GroupCount是每组的观察次数。平均值为年龄重量,吸烟者,按,给出了在mean_Age平均重量,烟民

计算平均值年龄重量,通过在值进行分组吸烟者

statarray = grpstats (dsa),“抽烟”'意思'“DataVars”, {'年龄''重量'})
statarray =吸烟者GroupCount mean_Age mean_Weight 0 false 66 37.97 149.91 1 true 34 38.882 161.94

在这种情况下,不是所有变量都在dsa(不包括分组变量,吸烟者)是数字或逻辑数组;变量是标称数组。当输入数据集数组中并非所有变量都是数字或逻辑数组时,必须指定要使用其计算汇总统计信息的变量DataVars

计算最小和最大权重,按中值的组合分组吸烟者

statarray=grpstats(dsa{“性”“抽烟”},{“敏”“马克斯”},...“DataVars”'重量'
statarray = Sex吸烟者GroupCount min_Weight max_Weight Female_0 Female false 40 111 147 Female_1 Female true 13 115 146 Male_0 Male false 26 158 194 Male_1 Male true 21 164 202

中有两个唯一的值吸烟者和两个水平,共有四种可能的值组合:女性非吸烟者(Female_0)、女性吸烟者(Female_1),男性不吸烟(男0)及男性吸烟者(男1)。

指定输出中列的名称。

statarray=grpstats(dsa{“性”“抽烟”},{“敏”“马克斯”},...“DataVars”'重量'“VarNames”, {“性别”“抽烟”...“GroupCount”“LowestWeight”'HighestWeight'})
statarray = Gender吸烟者GroupCount LowestWeight HighestWeight女性假40 111 147女性真13 115 146男性0男性假26 158 194男性1男性真21 164 202

加载示例数据。

负载(“医院”

数据集阵列医院有100个观察值和7个变量。

创建一个只包含变量的数据集数组年龄重量,吸烟者

dsa=医院(:{'年龄''重量'“抽烟”});

变量年龄重量有数值,和吸烟者具有逻辑值。

计算数值数组和逻辑数组的平均值、最小值和最大值,年龄重量,吸烟者,没有分组。

statarray = grpstats (dsa, [], {'意思'“敏”“马克斯”})
statarray = GroupCount mean_Age min_Age max_Age mean_Weight All 100 38.28 25 50 154 min_Weight max_Weight mean_吸烟者min_吸烟者max_吸烟者所有111 202 0.34 false true

观察的名字全部表示所有观测值都在dsa用于计算汇总统计数据。

加载示例数据。

负载(“卡斯莫尔”

所有变量都是针对100辆车进行测量的。起源是每辆车的原产国(法国、德国、意大利、日本、瑞典或美国)。圆筒有三个唯一的值,46,8,表示每辆车的汽缸数。

计算平均加速度,按原产国分组。

意味着= grpstats(加速度,起源)
意味着=6×114.4377 18.0500 15.8867 16.3778 16.6000 15.5000

意味着是6×1矢量平均加速度,其中每个值对应于原籍国。

计算平均加速度,分组的国家和气缸的数量。

意味着= grpstats(加速度,{起源、汽缸})
意味着=10×117.0818 16.5267 11.6406 18.0500 15.9143 15.5000 16.3375 16.7000 16.6000 15.5000

分组变量值有18种可能的组合,因为起源有6个独特的值和圆筒有3个唯一的值。只有10种可能的组合出现在数据中,所以意味着是一个10乘1的组均值向量,对应于观测值的组合。

返回组名以及每个组的平均加速度。

[意味着,毛评点]= grpstats(加速度,{起源、汽缸},{'意思'“gname”})
意味着=10×117.0818 16.5267 11.6406 18.0500 15.9143 15.5000 16.3375 16.7000 16.6000 15.5000
GRP=10x2电池{ 'USA'} { '4'} { 'USA'} { '6'} { 'USA'} { '8'} { '法国'} { '4'} { '日本'} { '4'}{ '日'} { '6'} { '德国'} { '4'} { '德国'} { '6'} { '瑞典'} { '4'} { '意大利'} { '4'}

输出毛评点节目分组变量值的10种观察到的组合。例如,在法国制造的4缸汽车的平均加速度是18.05。

加载示例数据。

负载carsmall

的变量加速是为100辆汽车测量。的变量起源是每辆车的原产国(法国、德国、意大利、日本、瑞典或美国)。

返回按原产国分组的最小和最大加速度。

[grpMin,grpMax,grp]=grpstats(加速度,原点{“敏”“马克斯”“gname”})
grpMin =6×18.0000 15.3000 13.9000 12.2000 15.7000 15.5000
grpMax =6×122.2000 21.9000 18.2000 24.6000 17.5000 15.5000
grp =6 x1细胞{'美国'}{“法国”}{‘日本’}{“德国”}{“瑞典”}{“意大利”}

具有最低加速度样车在美国制成,并具有最高加速度样车在德国制造。

加载示例数据。

负载(“卡斯莫尔”

的变量重量是为100辆汽车测量。的变量Model_Year有三个唯一的值,7076,82,分别对应模式年份1970、1976和1982。

计算每个模式年的平均权重和90%的预测区间。

(意味着,pred, grp) = grpstats(体重、Model_Year...'意思''predci'“gname”},“α”, 0.1);

图误差柱显示平均权重和90%的预测区间,按模型年分组。用组名标记水平轴。

ngrps =长度(grp);%组数errorbar ((1: ngrps)”,意味着,pred(:, 2))则xlim([0.5 - 3.5])组(gca),“xtick”,1:ngrps,'xticklabel'、grp)标题(“每年重量的90%预测间隔”

图中包含一个轴对象。标题为“90% Weight by Year预测时间间隔”的轴对象包含一个类型为errorbar的对象。

加载示例数据。

负载(“卡斯莫尔”

变量加速重量为100辆汽车的加速度和重量值。的变量圆筒是每辆车的汽缸数。的变量Model_Year有三个唯一的值,7076,82,分别对应模式年份1970、1976和1982。

绘制平均加速度,按圆筒,具有95%的置信区间。

GRP测试(加速度,气缸,0.05)

图中包含一个轴对象。轴与标题之装置和置信区间为对象每一组均包含类型errorbar的对象。

ANS =3×116.6706 16.4765 11.6406

8缸汽车的平均加速度明显低于4缸或6缸汽车。

绘制平均加速度和重量,按圆筒, 95%置信区间。规模的重量值乘以1000的平均值重量加速都是相同的数量级。

grpstats([加速,重量/ 1000],缸,0.05)

图中包含一个轴对象。标题为“每个组的均值和置信区间”的轴对象包含2个类型为errorbar的对象。

ANS =3×216.6706 2.3726 16.4765 3.1255 11.6406 3.9703

的平均重量的汽车用汽缸的数量增加,并且平均加速度与汽缸的数量减少。

绘制平均加速度,双方分组圆筒Model_Year.指定95%置信区间。

grpstats(加速度,{圆柱体,Model_Year}, 0.05)

图中包含一个轴对象。标题为“每个组的均值和置信区间”的axis对象包含9个类型为errorbar、text的对象。

ANS =8×116.1875 16.8667 16.7036 15.5000 17.0000 16.0333 11.0217 13.2222

分组变量值有九种可能的组合,因为其中有三个唯一的值圆筒和三个独特价值Model_Year.图中没有显示8缸车型为1982年的汽车,因为数据中没有包括这一组合。

1976年8缸车的平均加速度明显大于1970年8缸车的平均加速度。

输入参数

全部收缩

输入数据,指定为表或数据集阵列。资源描述必须包含至少一个分组变量。

摘要统计信息只能计算具有数字或逻辑数据类型的变量。如果有变量资源描述(分组变量除外)不是数字或逻辑数组,则使用名称-值对参数DataVars指定要为其计算汇总统计信息的数字和逻辑变量的名称或列号。

输入数据中的分组变量的标识符,资源描述,指定为以下内容之一:

字符向量、字符串数组或字符向量的单元格数组 分组变量的名称
正整数或正整数向量 分组变量的变量数
逻辑值向量,其中元素的数量等于其中变量的数量资源描述 带值逻辑指示器真正的用于分组变量和错误的否则
[] 没有组(返回所有数据的汇总统计信息)

定义为的任何变量群变作为分组变量,必须具有有效的分组变量数据类型:类别数组、逻辑或数字向量、日期时间或持续时间向量、字符串数组或字符向量的单元格数组。

例如,考虑输入表,资源描述,有六个变量。第四个变量命名为性别. 要成为有效的分组变量,则性别可能是一个字符串数组,字符向量的单元阵列,或标称阵列,与所述唯一值男性女的.指定变量性别作为分组变量,你可以使用以下任何语法:

  • statarray=grpstats(待定,“性别”)

  • statarray = grpstats(4台)

  • statarray = grpstats(TBL,逻辑([0 0 0 1 0 0]))

数据类型:|逻辑|字符|一串|细胞

键入汇总统计数据计算,指定为下列值之一。

  • 指定汇总统计信息类型的字符向量或字符串标量,如本表所述。

    类型 描述
    '意思' 的意思是
    'SEM' 均值的标准误差
    “元素个数” 数或数非的元素
    “gname” 组名称
    “传播疾病 标准差
    “var” 方差
    “敏” 最低限度
    “马克斯” 最大
    “范围” 范围
    “meanci” 均值的95%置信区间。您可以指定使用不同的显着性水平阿尔法名称-值对的论点。
    'predci' 为一个新的观察95%预测区间。您可以指定使用不同的显着性水平阿尔法名称-值对的论点。

  • 函数句柄来指定任何其他类型的汇总统计信息。您可以对任何接受数据列或矩阵并每次返回相同大小输出的函数使用句柄grpstats调用函数句柄(即使某些组的输出为空)。

    • 如果该函数接受数据的列,则该函数可以返回一个标量值或造船-by-1列向量用于描述长度统计造船(例如,置信区间的长度为2)。如果函数接受矩阵,则该函数必须返回1-by-士官行向量造船——- - - - - -士官矩阵,士官是输入数据矩阵中的列数。

    • 对于不计算列统计的函数,在指定函数时指定计算方向。例如,使用总和函数,指定函数句柄为@(x)的总和(X,1)因为总和计算具有两行或多行矩阵的列统计信息,但不计算单行矩阵的列统计信息。

  • 串阵列或字符向量或函数处理的单元阵列,以指定多种类型的汇总统计。

例子:stat1 = grpstats (X、组sem)

例子:stat1=grpstats(X,组,@(X)和(X,1))

例子:[stat1,stat2,stat3]=grpstats(X,组,{'mean','std',@skewness})

显著性水平,指定为范围(0,1)中的标量值。

  • 当您指定“meanci”'predci'哪个国家,你可以使用α指定置信区间或预测区间的显著性水平。如果您指定α,然后grpstats返回100×(1 -α)%置信或预测区间。如果没有指定α,然后grpstats返回95周%的时间间隔(α=0.05)。

  • α句法绘制组均值和对应的100×(1 -α) %的置信区间。

数据类型:

输入数据,指定为向量或矩阵。如果X是一个矩阵grpstats的每列的汇总统计信息X

数据类型:|仅有一个的

分组变量,指定为分类数组、逻辑或数字向量、日期时间或持续时间向量、字符串数组或字符向量的单元格数组。分组变量中的每个唯一值定义一个组。grpstats使用分组变量值对数据进行分组,以获得汇总统计信息。

输入数据的每一行必须有一个分组变量值X. 具有相同分组变量值的观察值(行)位于同一组中。使用[]计算所有数据的汇总统计信息,而不使用组。

例如,如果性别是字符向量的一个字符串数组或电池阵列使用值'男性''女性',你可以使用性别作为分组变量,按性别总结你的数据。

还可以使用多个分组变量对汇总统计数据进行分组。在这种情况下,指定分组变量的单元格数组。

例如,如果吸烟者是具有值的逻辑向量0对于不吸烟者和1为吸烟者,则指定单元阵列{性别、吸烟}将观察分为四组:男性吸烟者、男性不吸烟者、女性吸烟者和女性不吸烟者。grpstats仅返回输入分组变量中存在的值的组合的摘要统计信息(不是所有可能的组合)。

数据类型:仅有一个的||逻辑|字符|一串|细胞|分类|约会时间|持续时间

名称-值参数

指定可选的逗号分隔的对名称,值参数。名称参数名和价值为对应值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“DataVars”(1,3,4),“阿尔法”,0.01指定对摘要统计来为第一,第三,和在数据集阵列第四变量计算,以99%的置信区间。

置信和预测区间的显著性水平,指定为逗号分隔的对,由“α”和范围(0,1)的标量值。

当你包括“meanci”'predci'哪个国家,你可以使用阿尔法为置信区间或预测区间指定显著性水平。如果指定值α,然后grpstats返回100×(1 -α)%置信或预测区间。

如果未为指定值阿尔法,然后grpstats返回95周%的时间间隔(α= 0.05)。

例子:“阿尔法”,0.1

数据类型:

变量名或表示输入数据中哪些变量的列资源描述要计算的摘要统计信息,指定为逗号分隔对,由“DataVars”和一个字符串数组,字符向量的单元阵列中,正整数的向量,或逻辑矢量。使用字符向量或标量的字符串指定变量名,一个正整数,以指定的变量列号或逻辑值,以指示要包括哪些变量(真正的如果要计算摘要统计信息,错误的否则)。

您必须指定DataVars如果有任何变量资源描述(除分组变量指定在群变)不在数字或逻辑阵列。汇总统计只能计算出对于具有数字或逻辑数据类型的变量。

例子:DataVars,{“高度”,“体重”}

数据类型:|一串|细胞|字符

输出的变量名斯塔雷,指定为逗号分隔的一对组成的“VarNames”以及字符向量的字符串数组或单元格数组。默认情况下,grpstats通过将输入数据的前缀附加到变量名,构造输出变量名资源描述.该前缀对应于汇总统计名称。

例子:VarNames,{‘性别’,‘GroupCount’,‘MaleMean’,‘FemaleMean}

数据类型:一串|细胞

输出参数

全部收缩

组汇总统计,返回表或数据集阵列。如果资源描述是一个表,grpstats返回斯塔雷作为一个表。如果资源描述是一个数据集数组,grpstats返回斯塔雷作为一个数据集阵列。

斯塔雷中的数据组的汇总统计值资源描述由所指定的分组变量的级别确定群变.有一排斯塔雷为变量中指定的每个观测值或值的组合群变.输出斯塔雷包含:

  • 指定的所有分组变量群变

  • 的变量GroupCount,包括每组观测的数量。

  • 中所有变量的汇总统计值资源描述(不包括群变),或者为仅变量使用指定的DataVars

中变量的总数斯塔雷ngroupvars+ 1 +ndatavars×nstats,在那里ngroupvars变量的个数在里面吗群变ndatavars是其汇总统计计算的变量的数目,和nstats中是否指定汇总统计类型的数量哪个国家

grpstats为中的变量指定默认名称斯塔雷,除非使用名称-值对参数指定变量名VarNames

组装置,用于数据的在载体或基质的组X由水平决定的集团,返回为——- - - - - -士官数组中。在这里,分组变量中唯一值的数量,和士官列数是多少X. 如果X是矢量,然后意味着是一个列向量。

向量或矩阵中数据组的组摘要统计信息X由水平决定的集团,返回为——- - - - - -士官数组。在这里,分组变量中唯一值的数量,和士官列数是多少X. 必须为中指定的每种类型的摘要统计信息指定一个输出参数哪个国家

如果输入摘要统计信息哪个国家返回长度的值造船(例如,置信区间是长度为2的描述性统计),则相应的输出参数是——- - - - - -士官——- - - - - -造船数组中。

算法

  • grpstats对待,并在计算汇总统计信息之前将它们从输入数据中删除。

  • grpstats忽略空组名。

另类功能

MATLAB®包括功能groupsummary,它也返回组摘要,在使用表时推荐使用。

扩展能力

之前介绍过的R2006a