主要内容

集群

从联系构建烧结的集群

描述

T=集群(Z,“截止”,C)定义了集群会凝聚的层次聚类树Z。输入Z的输出是什么链接函数的输入数据矩阵X集群削减Z成簇,使用C作为不一致性系数(或一个阈值不一致的在树上的节点值)。输出T包含集群每个观测的作业(排X)。

例子

T=集群(Z,“截止”,C,“深度”,D)评估不一致的通过深度值D低于每个节点。

例子

T=集群(Z,“截止”,C,“标准”,标准)要么使用“不一致”(默认)或“距离”随着标准定义集群。标准必须小于C集群定义集群。

例子

T=集群(Z,“MaxClust”,N)定义了一个最大的N集群使用“距离”定义集群的标准。

例子

全部折叠

对随机生成的数据执行凝结的集群通过评估不一致的价值观四个低于每个节点的深度。

随机生成示例数据。

rng (“默认”);%的再现性2 X = [(randn(20日)* 0.75)+ 1;2 (randn(20日)* 0.25)1);

创建一个数据的散点图。

散射(X (: 1), (2):,);标题(随机生成的数据的);

图包含一个坐标轴对象。轴与标题随机生成数据对象包含一个类型的对象分散。

创建一个层次聚类树使用病房联系方法。

Z =连杆(X,“病房”);

创建一个系统树图的数据。

系统树图(Z)

图包含一个坐标轴对象。坐标轴对象包含29行类型的对象。

散点图和系统树图情节似乎显示两个集群数据。

集群的数据使用一个阈值3不一致性系数和寻求4低于每个节点的深度。情节产生的集群。

T =集群(Z,“截止”3,“深度”4);gscatter (X (: 1) X (:, 2), T)

图包含一个坐标轴对象。坐标轴对象包含2线类型的对象。一个或多个行显示的值只使用这些对象标记代表1,2。

集群确定两个集群数据。

执行凝结的集群上fisheriris数据集使用“距离”定义集群的标准。可视化数据的集群作业。

加载fisheriris数据集。

负载fisheriris

可视化数据的二维散点图使用物种作为分组变量。指定标记颜色和标记符号的三个不同的物种。

gscatter(量(:1)量(:,2),物种,“rgb”,‘*’)标题(“实际的费雪的虹膜数据”)

图包含一个坐标轴对象。费舍尔轴实际对象与标题集群的虹膜数据包含3线类型的对象。一个或多个行显示的值只使用这些对象标记代表setosa, virginica杂色的。

创建一个层次聚类树使用“平均”方法和“chebychev”指标。

Z =连杆(量,“平均”,“chebychev”);

集群的数据使用一个阈值为1.5“距离”标准。

T =集群(Z,“截止”,1.5,“标准”,“距离”)
T =150×12 2 2 2 2 2 2 2 2 2⋮

T包含数字,对应于集群作业。找到的类的数量集群标识。

长度(独特的(T))
ans = 3

集群识别三个类的指定值截止标准

想象一个二维散点图的聚类结果T作为分组变量。指定标记颜色和标记符号的三个不同的类。

gscatter(量(:1)量(:,2),T,“rgb”,‘*’)标题(“费舍尔的虹膜数据集群作业”)

图包含一个坐标轴对象。坐标轴对象与标题集群作业费舍尔的虹膜数据包含3线类型的对象。一个或多个行显示的值只使用这些对象标记代表1,2,3。

集群正确标识setosa类(二班)属于一个不同的集群,但不区分杂色的和virginica类(类1和3,分别)。注意,散点图标签中包含的类使用的数字T

找到一个最大的三个集群fisheriris数据集和比较花的集群作业分类。

加载示例数据。

负载fisheriris

创建一个层次聚类树使用“平均”方法和“chebychev”指标。

Z =连杆(量,“平均”,“chebychev”);

找到一个最大的三个集群数据。

T =集群(Z,“maxclust”3);

创建一个系统树图块Z。看到三个集群,使用“ColorThreshold”与截止介于third-from-last和倒数第二联系。

截止=值([Z (end-2, 3) Z (end-1 3)]);系统树图(Z,“ColorThreshold”,截止)

图包含一个坐标轴对象。坐标轴对象包含29行类型的对象。

显示的最后两行Z看看这三个集群是合并成一个。链接结合了293(蓝色)与第297(红色)集群集群形成298集群的链接1.7583链接然后结合了296(绿色)集群与第298集群。

lastTwo = Z (end-1:最终,:)
lastTwo =2×3293.0000 297.0000 1.7583 296.0000 298.0000 3.4445

看到集群任务对应于三个物种。例如,一个集群包含50第二个物种和鲜花的40第三个物种的鲜花。

交叉表(T,物种)
ans =3×30 0 10 0 50 40 50 0 0

随机生成样本数据与20000年的观察。

rng (“默认”)%的再现性X =兰德(20000 3);

创建一个层次聚类树使用病房联系方法。在这种情况下,“SaveMemory”选择的clusterdata函数设置为“上”默认情况下。一般来说,指定的最佳值“SaveMemory”基于的尺寸X和可用内存。

Z =连杆(X,“病房”);

集群的数据到一个最大的四组和阴谋的结果。

c =集群(Z,“Maxclust”4);scatter3 (X (: 1) X (:, 2), X(:, 3), 10日,c)

图包含一个坐标轴对象。坐标轴对象包含一个散射类型的对象。

集群识别四组数据。

输入参数

全部折叠

会凝聚的层次聚类树的输出链接函数,指定为一个数字矩阵。对于一个输入数据矩阵X行(或观察),链接返回一个(- 1)3矩阵Z。怎样的一个解释链接创建集群树,看到Z

例子:Z =连杆(X),在那里X是一个输入数据矩阵

数据类型:|

阈值定义集群,指定为一个积极的标量或矢量的积极的标量。集群使用C作为高度或不一致的阈值系数的节点,根据标准定义集群的层次聚类树。

  • 如果定义集群的标准“距离”,然后集群组织所有的树叶都达到或者低于一个节点到集群,提供节点的高度小于C

  • 如果定义集群的标准“不一致”,那么不一致的一个节点及其所有子节点的值必须小于C集群将它们组织到一个集群。集群开始从根集群的树Z和步骤通过树直到它遇到的一个节点不一致的值小于阈值C,它的子节点(或后代)不一致的值小于C。然后集群组织所有的树叶都达到或者低于节点到集群(或一个单例如果本身就是一个叶节点)。集群之前的每一个分支树,直到所有叶节点集群。

例子:集群(Z,“截止”,0.5)

数据类型:|

计算深度不一致的值,指定为一个数字标量。集群通过深度评估不一致的值D低于每个节点。

例子:集群(Z,“截止”,0.5,“深度”,3)

数据类型:|

标准定义集群,指定为“不一致”“距离”

如果定义集群的标准“距离”,然后集群组织所有的树叶都达到或者低于一个节点到集群(或单如果节点本身是一个叶子),提供节点的高度小于C。树中的一个节点的高度代表了合并的两个子节点之间的距离在那个节点。指定“距离”结果在集群中,对应的水平切片系统树图的情节Z

如果定义集群的标准“不一致”,然后集群组节点及其所有子节点到集群,不一致性系数(或提供不一致的节点和子节点的值)都不到C。指定“不一致”相当于集群(Z,“截止”,C)

例子:集群(Z,“截止”,0.5,“标准”,“距离”)

数据类型:字符|字符串

最大数量的集群形成,指定为一个正整数或一个向量的正整数。集群构造一个最大的N集群,使用“距离”定义集群的标准。树中的每个节点的高度代表了合并的两个子节点,节点之间的距离。集群发现的最小的高度水平穿过树会离开N或更少的集群。看到指定任意的集群为更多的细节。

例子:集群(Z, MaxClust, 5)

数据类型:|

输出参数

全部折叠

集群任务,返回一个数值向量或矩阵。为(- 1)3层次聚类树Z(输出链接给定的输入X),T包含的集群作业行(观察)X

的大小T取决于相应的大小CN

  • 如果C是一个积极的标量呢T是一个向量的长度

  • 如果N是一个正整数,然后呢T是一个向量的长度

  • 如果C是一个长度l积极的标量,矢量T是一个——- - - - - -l矩阵的每一列值C

  • 如果N是一个长度l向量的正整数T是一个——- - - - - -l矩阵的每一列值N

选择功能

如果你有一个输入数据矩阵X,你可以使用clusterdata执行每个观察凝结的集群和返回集群指数(行)X。的clusterdata函数执行所有必要的步骤,所以您不需要执行pdist,链接,集群单独的功能。

版本历史

之前介绍过的R2006a