集群评价

打开实时脚本

这个例子展示了如何在Fisher的虹膜数据中识别集群。

加载费雪的虹膜数据集。

负载fisheririsX = meas;Y =分类(物种);

X是一个数字矩阵，包含150个鸢尾花的两个花瓣测量值。Y是包含相应虹膜种类的特征向量的单元格数组。

从1到10评估多个集群。

eva = evalclusters(X，“kmeans”，“CalinskiHarabasz”，“中”1:10)

eva = CalinskiHarabaszEvaluation with properties: NumObservations: 150 InspectedK: [1 2 3 456 78 9 10] CriterionValues: [NaN 513.9245 561.6278 530.4871 456.1279 469.5068…] OptimalK: 3

的OptimalK值表示，基于Calinski-Harabasz准则，最优聚类数为3。

可视化伊娃查看每个集群数量的结果。

情节(eva)

图中包含一个轴对象。axis对象包含2个line类型的对象。

大多数聚类算法都需要对聚类数量的先验知识。当此信息不可用时，使用聚类评估技术根据指定的度量来确定数据中存在的聚类数量。

三个聚类与数据中的三个物种是一致的。

类别(y)

ans =3 x1细胞{'setosa'} {'versicolor'} {'virginica'}

为了可视化的目的，计算数据的非负二级近似。

Xred = nnmf(X,2);

原来的特征被简化为两个特征。因为没有一个特征是消极的，nnmf也保证特征是非负的。

使用散点图直观地确认三个集群。

gscatter (xr (: 1) xr (:, 2), y)包含(第一列的) ylabel (第2列的网格)在

图中包含一个轴对象。axis对象包含3个line类型的对象。这些物品代表了setosa, versicolica, virgica。

另请参阅

evalclusters|nnmf