主要内容

CalinskiHarabaszEvaluation

包:clustering.evaluation
超类:ClusterCriterion

Calinski-Harabasz标准聚类评价对象

描述

CalinskiHarabaszEvaluation是一个对象组成的样本数据,聚类数据和Calinski-Harabasz准则值用来评估最优数量的集群。创建一个Calinski-Harabasz标准聚类评价对象使用evalclusters

建设

伊娃= evalclusters (x,clust,' CalinskiHarabasz ')创建一个Calinski-Harabasz标准聚类评价对象。

伊娃= evalclusters (x,clust“CalinskiHarabasz”,名称,值)使用附加选项创建一个Calinski-Harabasz标准聚类评价对象指定一个或多个参数名称-值对。

输入参数

全部展开

输入数据,指定为一个N——- - - - - -P矩阵。N是观测的数量,和P是变量的数量。

数据类型:|

聚类算法,指定为以下之一。

“kmeans” 集群中的数据x使用kmeans聚类算法,“EmptyAction”设置为“单”“复制”设置为5
“链接” 集群中的数据x使用clusterdata烧结的聚类算法,“链接”设置为“病房”
“gmdistribution” 集群中的数据x使用gmdistribution高斯混合分布算法“SharedCov”设置为真正的“复制”设置为5

如果标准“CalinskiHarabasz”,“DaviesBouldin”,或“剪影”,您可以指定一个聚类算法使用函数处理。函数必须的形式C = clustfun(数据、K),在那里数据是数据集中,K是集群的数量。的输出clustfun必须是下列之一:

  • 一个整数向量代表集群指数每观察数据。必须有K独特的价值观在这个向量。

  • 一个数字n——- - - - - -K的得分矩阵n观察和K类。在这种情况下,集群指数对每个观察确定每一行最大的得分值。

如果标准“CalinskiHarabasz”,“DaviesBouldin”,或“剪影”,您还可以指定clust作为一个n——- - - - - -K矩阵包含提出的集群解决方案。万博 尤文图斯n的观测样本数据,然后呢K提出的集群解决方案的数量。万博 尤文图斯列j包含集群指数为每个Nj集群解决方案。

数据类型:||字符|字符串|function_handle

名称-值对的观点

指定可选的逗号分隔条名称,值参数。的名字参数名称和吗价值相应的价值。的名字必须出现在引号。您可以指定几个名称和值对参数在任何顺序Name1, Value1,…,的家

例子:“中”,[1:6]指定测试1、2、3、4、5、6组找到最优数量。

集群的数量来评估列表,指定为逗号分隔组成的“中”和一个向量的正整数的值。您必须指定clust是一个聚类算法的名字或一个函数处理。当标准“差距”,clust必须是一个特征向量,一个字符串标量,或一个函数处理,你必须指定吗

例子:“中”,[1:6]

数据类型:|

属性

ClusteringFunction

聚类算法用于集群输入数据,存储为一个有效的聚类算法名称或函数处理。如果集群解决方案提供的输入,万博 尤文图斯ClusteringFunction是空的。

CriterionName

标准的名称用于聚类评价,名字存储为一个有效的标准。

CriterionValues

准则值对应于每个提议的集群InspectedK,存储为一个向量的数值。

InspectedK

列表的数量提出了集群的计算准则值,存储为一个向量的正整数的值。

失踪

排除的逻辑信号数据,存储为一个列向量的逻辑值。如果失踪=真正的在数据矩阵,那么相应的价值x不使用集群解决方案。

NumObservations

的观测数据矩阵X-失踪的数量()值X,作为一个正整数存储值。

OptimalK

最优数量的集群,存储为一个正整数的值。

最适条件

最优聚类对应的解决方案OptimalK,存储为一个列向量的正整数的值。如果集群解决方案提供的输入,万博 尤文图斯最适条件是空的。

X

数据用于集群,存储为一个矩阵的数值。

方法

继承的方法

addK 评估额外数量的集群
紧凑的 紧凑的聚类评价对象
情节 图聚类评价对象标准的价值观

例子

全部折叠

评估最优数量的集群使用Calinski-Harabasz集群评价标准。

加载示例数据。

负载fisheriris;

数据包含的萼片和花瓣长度和宽度测量三种虹膜花。

评估最优数量的集群使用Calinski-Harabasz标准。集群的数据使用kmeans

rng (“默认”);%的再现性伊娃= evalclusters(量,“kmeans”,“CalinskiHarabasz”,“中”[1:6])
伊娃= CalinskiHarabaszEvaluation属性:NumObservations: 150 InspectedK: (1 2 3 4 5 6) CriterionValues:[南513.9245 561.6278 530.4871 456.1279 469.5068]OptimalK: 3

OptimalK值表示,基于Calinski-Harabasz标准,最优数量的集群是三。

情节Calinski-Harabasz准则值为每个集群测试的数量。

图;情节(eva);

图包含一个坐标轴对象。坐标轴对象包含2线类型的对象。

情节表明最高Calinski-Harabasz值发生在三个集群,这表明最优数量的集群是三。

创建一个分组的散点图来检查花瓣长度和宽度之间的关系。集团的数据显示集群。

PetalLength =量(:3);PetalWidth =量(:4);ClusterGroup = eva.OptimalY;图;gscatter (PetalLength PetalWidth ClusterGroup,“篮板”,“xod”);

图包含一个坐标轴对象。坐标轴对象包含3线类型的对象。这些对象是1、2、3。

情节显示集群3在左下角,完全脱离了其他两个集群。集群3包含花最小的花瓣宽度和长度。集群1是在右上角,包含最大的鲜花花瓣宽度和长度。集群2是附近的中心情节,并且包含花测量这两种极端情况之间。

更多关于

全部展开

引用

[1]Calinski, T。,J. Harabasz. “A dendrite method for cluster analysis.”通信数据。3卷,1号,1974,pp。1-27。