主要内容

链接

会凝聚的层次聚类树

描述

Z=联系(X)返回一个矩阵Z含分层集群编码树的输入数据矩阵的行X

例子

Z=联系(X,方法)创建树使用指定的方法,描述了如何衡量集群之间的距离。有关更多信息,请参见联系

例子

Z=联系(X,方法,度规)执行集群通过度规pdist函数,该函数计算的行之间的距离X

例子

Z=联系(X,方法,度规“savememory”,价值)当使用一个memory-saving算法价值“上”当,并使用标准的算法价值“关闭”

例子

Z=联系(X,方法,pdist_inputs)通过pdist_inputspdist函数,该函数计算的行之间的距离X。的pdist_inputs参数包括“seuclidean”,闵可夫斯基的,或“mahalanobis”距离度量指标和一个额外的选项。

Z=联系(y)用一个向量表示y一个距离矩阵。y要么是计算pdist或者是一个更一般的相异矩阵符合的输出格式pdist

例子

Z=联系(y,方法)创建树使用指定的方法,描述了如何衡量集群之间的距离。

例子

全部折叠

随机生成样本数据与20000年的观察。

rng (“默认”)%的再现性X =兰德(20000 3);

创建一个层次聚类树使用病房联系方法。在这种情况下,“SaveMemory”选择的clusterdata函数设置为“上”默认情况下。一般来说,指定的最佳值“SaveMemory”基于的尺寸X和可用内存。

Z =连杆(X,“病房”);

集群的数据到一个最大的四组和阴谋的结果。

c =集群(Z,“Maxclust”4);scatter3 (X (: 1) X (:, 2), X(:, 3), 10日,c)

图包含一个坐标轴对象。坐标轴对象包含一个散射类型的对象。

集群识别四组数据。

找到一个最大的三个集群fisheriris数据集和比较花的集群作业分类。

加载示例数据。

负载fisheriris

创建一个层次聚类树使用“平均”方法和“chebychev”指标。

Z =连杆(量,“平均”,“chebychev”);

找到一个最大的三个集群数据。

T =集群(Z,“maxclust”3);

创建一个系统树图块Z。看到三个集群,使用“ColorThreshold”与截止介于third-from-last和倒数第二联系。

截止=值([Z (end-2, 3) Z (end-1 3)]);系统树图(Z,“ColorThreshold”,截止)

图包含一个坐标轴对象。坐标轴对象包含29行类型的对象。

显示的最后两行Z看看这三个集群是合并成一个。链接结合了293(蓝色)与第297(红色)集群集群形成298集群的链接1.7583链接然后结合了296(绿色)集群与第298集群。

lastTwo = Z (end-1:最终,:)
lastTwo =2×3293.0000 297.0000 1.7583 296.0000 298.0000 3.4445

看到集群任务对应于三个物种。例如,一个集群包含50第二个物种和鲜花的40第三个物种的鲜花。

交叉表(T,物种)
ans =3×30 0 10 0 50 40 50 0 0

加载examgrades数据集。

负载examgrades

创建一个层次树链接。使用“单一”方法和闵可夫斯基度规的指数3

Z =连杆(成绩,“单一”,{闵可夫斯基的3});

观察25日聚类步骤。

:Z(25日)
ans =1×386.0000 137.0000 4.5307

链接第86届观察和第137集群结合形成一个集群的指数 120年 + 25 = 145年 ,120是观察的总数成绩25的行号Z。第86届之间最短的距离观察和任何点在第137集群4.5307

创建一个使用一个不同的矩阵会凝聚的层次聚类树。

需要一个不同的矩阵X并将它转换成一个向量形式链接接受使用squareform

X = [0 1 2 3;1 0 4 5;2 4 0 6;3 5 6 0);y = squareform (X);

创建一个集群树使用链接“完成”计算集群之间的距离的方法。的前两列Z展示链接结合集群。第三列的Z给集群之间的距离。

Z =连杆(y,“完成”)
Z =3×31 2 1 3 5 4 4 6 6

创建一个系统树图块Z。x轴对应于树的叶节点,和轴与连杆之间的距离集群。

系统树图(Z)

图包含一个坐标轴对象。坐标轴对象包含3线类型的对象。

输入参数

全部折叠

输入数据,指定为一个数字矩阵的两个或两个以上的行。行代表的观察,和列代表类别或维度。

数据类型:|

算法计算集群之间的距离,在这个表指定为一个值。

方法 描述
“平均”

未加权的平均距离(UPGMA)

“重心”

质心的距离(UPGMC),只适合欧几里得距离

“完成”

最远的距离

“中值”

加权质心距离(WPGMC),只适合欧几里得距离

“单一”

最短的距离

“病房”

内在的平方距离(最小方差算法),只适合欧几里得距离

“加权”

加权平均距离(WPGMA)

关于这些方法的更多信息,请参阅联系

距离度量,指定为任何度量接受pdist函数。下表中描述的这些指标。

价值 描述
“欧几里得”

欧氏距离(默认)

“squaredeuclidean”

平方欧氏距离。(此选项仅供效率。它不满足三角不等式)。

“seuclidean”

标准化的欧氏距离。每个坐标差异观察是通过除以相应的扩展元素的标准差,S =性病(X, omitnan)。使用DistParameter指定一个不同的值年代

“fasteuclidean” 欧氏距离计算通过使用另一种算法,节省了时间预测的数量至少是10。在某些情况下,这种快速算法可以降低精度。算法开始“快”不支持稀疏数据金宝app。有关详细信息,请参见算法
“fastsquaredeuclidean” 平方欧氏距离计算通过使用另一种算法,节省了时间预测的数量至少是10。在某些情况下,这种快速算法可以降低精度。算法开始“快”不支持稀疏数据金宝app。有关详细信息,请参见算法
“fastseuclidean” 标准化的欧氏距离计算通过使用另一种算法,节省了时间预测的数量至少是10。在某些情况下,这种快速算法可以降低精度。算法开始“快”不支持稀疏数据金宝app。有关详细信息,请参见算法
“mahalanobis”

Mahalanobis距离,计算使用的样本协方差X,C = X (X, omitrows)。使用DistParameter指定一个不同的值C,矩阵C是对称的正定。

“cityblock”

城市街区的距离

闵可夫斯基的

闵可夫斯基距离。默认的指数是2。使用DistParameter指定一个不同的指数P,在那里P是一个积极的标量值的指数。

“chebychev”

Chebychev距离(最大坐标差异)

的余弦

1 -之间的夹角的余弦值点(视为向量)

“相关”

1 -样本点之间的相关性(视为序列值)

“汉明”

汉明距离,协调不同的百分比

“jaccard”

1 - Jaccard系数,非零坐标不同的百分比

“枪兵”

1 -样本之间的斯皮尔曼等级相关的观察(视为序列值)

@distfun

自定义距离函数处理。距离函数的形式

函数ZJ D2 = distfun(子)%计算距离
在哪里

  • 是一个1——- - - - - -n向量包含一个观察。

  • ZJ是一个平方米——- - - - - -n包含多个观测矩阵。distfun必须接受一个矩阵ZJ与任意数量的观察。

  • D2是一个平方米——- - - - - -1距离向量,D2 (k)是观察之间的距离ZJ (k,:)

如果你的数据不是稀疏的,你可以通过使用一个内置的通常更快的计算距离的距离度量,而不是一个函数处理。

有关更多信息,请参见距离度量

使用pdist_inputs而不是度规指定附加的输入参数DistParameterpdist“seuclidean”,闵可夫斯基的,或“mahalanobis”

数据类型:字符|字符串|function_handle

距离度量和距离度量选项,指定为逗号分隔的单元阵列组成的两个输入参数距离DistParameter函数的pdist。这个论点有效仅用于指定“seuclidean”,闵可夫斯基的,或“mahalanobis”

例子:{“闵可夫斯基”,5}

数据类型:细胞

国旗的“savememory”选项,指定为“上”“关闭”。的“上”设置的原因链接构建集群没有计算距离矩阵。的“上”只有当设置为可用方法“重心”,“中值”,或“病房”度规“欧几里得”

价值“上”,链接运行时间维度的数量成正比(列数X)。当价值“关闭”,链接内存需求成正比N2,在那里N是观测的数量。最好的(最少)设置使用价值取决于问题的维度,观察,可用内存。默认的价值设置一个粗略的近似最优的设置。

默认值是“上”X有20列或更少,或者计算机没有足够的内存来存储矩阵的距离。否则,默认值是“关闭”

例子:“savememory”,“上”

相同的距离,指定为一个数字矢量格式的输出pdist功能:

  • 一个行向量的长度(- 1)/ 2,相应的对观测矩阵

  • 距离的顺序安排(2,1),(3,1),…,(1),(2),…,(,2),…,(,- 1))

y可以是一个更一般的相异矩阵的输出格式符合pdist

数据类型:|

输出参数

全部折叠

会凝聚的层次聚类树,返回一个数字矩阵。Z是一个(- 1)3矩阵,在原始数据的数量的观察。1和2的列Z包含集群指数成对形成二叉树有关。编号从1到叶节点。叶节点的单例集群都更高的集群。每个新形成的集群,对应于行Z(我,:)指定的索引+。条目Z(我,1)Z(我,2)包含两个组件的指数集群形成集群+。的- 1高集群的内部节点对应聚类树。Z(我,3)包含链接行合并的两个集群之间的距离Z(我,:)

例如,考虑建立一个与最初30节点树。假设集群5和集群7步骤12相结合,在这一步,它们之间的距离是1.5。然后:Z(12日)(5 7 1.5)。新成立的集群指数12 + 30 = 42。如果集群42出现在后面的行,那么函数结合集群在第12步创建成一个更大的集群。

数据类型:|

更多关于

全部折叠

联系

一个链接是两个集群之间的距离。

下面的符号描述了各种方法所使用的联系:

  • 集群r是由集群p

  • nr集群对象的数量r

  • x国际扶轮th对象在集群r

  • 单键,也叫最近的邻居,使用最小的两个簇中的对象之间的距离。

    d ( r , 年代 ) = 最小值 ( d 年代 t ( x r , x 年代 j ) ) , ( , , n r ) , j ( 1 , , n 年代 )

  • 完整的链接,也叫最远的邻居最大的对象之间的距离,使用两个集群。

    d ( r , 年代 ) = 马克斯 ( d 年代 t ( x r , x 年代 j ) ) , ( 1 , , n r ) , j ( 1 , , n 年代 )

  • 平均链接使用所有成对的对象之间的平均距离任意两个集群。

    d ( r , 年代 ) = 1 n r n 年代 = 1 n r j = 1 n 年代 d 年代 t ( x r , x 年代 j )

  • 质心连杆利用质心之间的欧几里得距离的两个集群。

    d ( r , 年代 ) = x ¯ r x ¯ 年代 2 ,

    在哪里

    x ¯ r = 1 n r = 1 n r x r

  • 中间联系使用加权质心之间的欧几里得距离的两个集群。

    d ( r , 年代 ) = x ˜ r x ˜ 年代 2 ,

    在哪里 x ˜ r x ˜ 年代 加权质心的集群r年代。如果集群r是由结合集群p, x ˜ r 是递归地定义为

    x ˜ r = 1 2 ( x ˜ p + x ˜ )

  • 沃德的链接使用增量的平方和,增加总within-cluster平方和由于连接两个集群。within-cluster平方和定义为之间的距离的平方和集群中的所有对象和集群的重心。平方和度量相当于以下距离度量d(r,年代),这是这个公式链接用途。

    d ( r , 年代 ) = 2 n r n 年代 ( n r + n 年代 ) x ¯ r x ¯ 年代 2 ,

    在哪里

    • 2 是欧氏距离。

    • x ¯ r x ¯ 年代 集群的重心r年代

    • nrn年代集群元素的数量吗r年代

    在一些引用,沃德的链接不使用2相乘的因素nrn年代。的链接函数使用这个因素这两个独立集群之间的距离是一样的欧氏距离。

  • 加权平均链接使用一个递归定义之间的距离两个集群。如果集群r是由结合集群p,之间的距离r和另一个集群年代被定义为的平均值之间的距离p年代和之间的距离年代

    d ( r , 年代 ) = ( d ( p , 年代 ) + d ( , 年代 ) ) 2

提示

  • 计算连杆(y)时可以慢y是一个距离矩阵的向量表示。为“重心”,“中值”,“病房”方法,链接检查是否y欧氏距离。避免这种耗时的检查通过X而不是y

  • “重心”“中值”方法可以产生一个集群树不单调。这个结果发生在距离两个集群的结合,r年代,集群之间的距离还不到三分之一r年代。在这种情况下,在系统树图的默认方向,从叶到根节点的路径需要向下的步骤。为了避免这种结果,使用另一种方法。这个图显示了一个非集群树。

    非集群树

    在这种情况下,集群1和集群3加入到一个新的集群,和这个新的集群和集群2之间的距离小于集群集群1和3之间的距离。结果是一个非树。

  • 您可以提供输出Z其他功能包括系统树图显示树,集群指定指向集群,不一致的计算不一致的措施,cophenet计算同表象相关系数。

版本历史

之前介绍过的R2006a