主要内容

集群使用软聚类高斯混合数据

这个例子展示了如何实现软聚类的模拟数据的混合高斯分布。

集群集群成员估计后验概率,然后分配向集群中每个点对应于最大后验概率。软聚类是另一种聚类方法,允许一些数据点属于多个集群。实现软聚类:

  1. 一个集群成员的分数分配给每个数据点,描述了类似的每个点每个集群的原型。为高斯分布的混合物,集群原型是相应组件的意思是,可以估计和组件集群成员后验概率。

  2. 集群成员的分数等级的点。

  3. 检查分数和确定集群成员。

算法,使用后验概率作为成绩的数据点属于集群的最大后验概率。然而,如果还有其他具有相应的集群接近最大后验概率,那么数据点也可以的集群成员。是一种很好的做法来确定阈值聚类之前能够产生多个集群成员的分数上。

这个例子之前,从集群使用硬聚类高斯混合数据

模拟数据从两个二维高斯分布的混合物。

rng (0,“旋风”)%的再现性mu1 = (1 - 2);sigma1 = [3。2;2 2);mu2 = (1 - 2);sigma2 = [2 0;0 1];X = [mvnrnd (mu1 sigma1,200);mvnrnd (mu2 sigma2,100)];

适合双组分高斯混合模型(GMM)。因为有两个组件,假设任何数据点与集群成员后验概率区间[0.4,0.6]可以是一个成员的集群。

通用= fitgmdist (X, 2);阈值= (0.4 - 0.6);

估计成份股的后验概率为所有使用GMM安装数据点通用汽车。这些代表集群成员的分数。

P =后(gm, X);

对于每个集群,等级会员所有数据点的分数。对于每个集群,绘制每个数据点会员评分的排名相对于其他所有数据点。

n =大小(X, 1);[~,顺序]= (P (: 1));图的阴谋(1:n, P(订单,1),的r -1:n, P(订单,2),“b -”)({传奇“集群1”,《集群2》})ylabel (集群成员的分数的)包含(“点排名”)标题(GMM具有完全非共享的协方差的)

图包含一个坐标轴对象。坐标轴对象与标题GMM完整的非共享的协方差,包含点排名,ylabel集群成员得分包含2线类型的对象。这些对象代表集群,集群2。

虽然一个清晰的分离是很难看到在数据的散点图,绘制会员分数表明拟合分布很好地分离数据组。

情节和指定集群的数据最大后验概率。识别点,可以在集群。

idx =集群(通用,X);idxBoth =找到(P(: 1) > =阈值(1)& P(: 1) < =阈值(2));numInBoth =元素个数(idxBoth)
numInBoth = 7
图gscatter (X (: 1), (:, 2), idx,rb的,' + o ',5)情节(X (idxBoth, 1), X (idxBoth, 2),“柯”,“MarkerSize”10)传奇({“集群1”,《集群2》,这两组患者的},“位置”,“东南”)标题(的散点图- GMM完整的非共享的协方差)举行

图包含一个坐标轴对象。坐标轴对象与标题散点图- GMM完全独享的协方差包含3线类型的对象。一个或多个行显示的值只使用这些对象标记代表集群1,集群,集群。

使用分数阈值区间,7个数据点可以在集群。

软使用GMM类似于模糊聚类k——集群,也分配每个点每个集群成员的分数。模糊k算法假设集群则约球面形状,和所有的大致相等的大小。这是类似于高斯混合分布着所有组件的一个共享的协方差矩阵,是单位矩阵的倍数。相比之下,gmdistribution允许您指定不同的协方差结构。默认是估计一个独立的,不受约束的协方差矩阵为每个组件。更限制选项,接近k则,估计是共享的,对角协方差矩阵。

适合GMM的数据,但指定组件共享相同的,对角协方差矩阵。这个规范实现模糊相似k——集群,但提供了更大的灵活性,允许不平等的方差不同的变量。

gmSharedDiag = fitgmdist (X 2“CovType”,“对角线”,“SharedCovariance”,真正的);

估计成份股的后验概率为所有使用GMM安装数据点gmSharedDiag。估计软集群作业。

[idxSharedDiag, ~, PSharedDiag] =集群(gmSharedDiag X);idxBothSharedDiag =找到(PSharedDiag(: 1) > =阈值(1)&PSharedDiag(: 1) < =阈值(2));numInBoth =元素个数(idxBothSharedDiag)
numInBoth = 5

假设共享的组件之间的对角协方差5数据点可以在集群。

对于每个集群:

  1. 等级会员所有数据点的分数。

  2. 绘制每个数据点会员评分的排名相对于其他所有数据点。

[~,orderSharedDiag] =排序(PSharedDiag (: 1));图的阴谋(1:n, PSharedDiag (orderSharedDiag, 1),的r -,1:n, PSharedDiag (orderSharedDiag, 2),“b -”)({传奇“集群1”《集群2》},“位置”,“东北”)ylabel (集群成员的分数的)包含(“点排名”)标题(与共享的GMM对角协方差的组件)

图包含一个坐标轴对象。坐标轴对象与标题GMM共享对角协方差组件,包含点排名,ylabel集群成员得分包含2线类型的对象。这些对象代表集群,集群2。

图数据和识别困难,从GMM分析假设共享的集群作业,对角组件之间的协方差。同时,识别那些可以在集群的数据点。

图gscatter (X (: 1), (:, 2), idxSharedDiag,rb的,' + o ',5)情节(X (idxBothSharedDiag, 1), X (idxBothSharedDiag, 2),“柯”,“MarkerSize”10)传奇({“集群1”,《集群2》,这两组患者的},“位置”,“东南”)标题(散点图- GMM共享对角协方差的组件)举行

图包含一个坐标轴对象。标题为散点图的坐标轴对象- GMM共享对角协方差包含组件3线类型的对象。一个或多个行显示的值只使用这些对象标记代表集群1,集群,集群。

另请参阅

||

相关的话题