集群评价
这个例子展示了如何在Fisher的虹膜数据中识别集群。
加载费雪的虹膜数据集。
负载fisheririsX = meas;Y =分类(物种);
X
是一个数字矩阵,包含150个鸢尾花的两个花瓣测量值。Y
是包含相应虹膜种类的特征向量的单元格数组。
从1到10评估多个集群。
eva = evalclusters(X,“kmeans”,“CalinskiHarabasz”,“中”1:10)
eva = CalinskiHarabaszEvaluation with properties: NumObservations: 150 InspectedK: [1 2 3 456 78 9 10] CriterionValues: [NaN 513.9245 561.6278 530.4871 456.1279 469.5068…] OptimalK: 3
的OptimalK
值表示,基于Calinski-Harabasz准则,最优聚类数为3。
可视化伊娃
查看每个集群数量的结果。
情节(eva)
大多数聚类算法都需要对聚类数量的先验知识。当此信息不可用时,使用聚类评估技术根据指定的度量来确定数据中存在的聚类数量。
三个聚类与数据中的三个物种是一致的。
类别(y)
ans =3 x1细胞{'setosa'} {'versicolor'} {'virginica'}
为了可视化的目的,计算数据的非负二级近似。
Xred = nnmf(X,2);
原来的特征被简化为两个特征。因为没有一个特征是消极的,nnmf
也保证特征是非负的。
使用散点图直观地确认三个集群。
gscatter (xr (: 1) xr (:, 2), y)包含(第一列的) ylabel (第2列的网格)在