主要内容

集群使用硬聚类高斯混合数据

这个例子展示了如何实现硬聚类的模拟数据的混合高斯分布。

高斯混合模型可用于聚类数据,通过意识到多元正态模型可以表示集群安装的组件。

模拟数据的混合高斯分布

两个二维高斯分布模拟数据的混合使用mvnrnd

rng (“默认”)%的再现性mu1 = (1 - 2);sigma1 = [3。2;2 2);mu2 = (1 - 2);sigma2 = [2 0;0 1];X = [mvnrnd (mu1 sigma1,200);mvnrnd (mu2 sigma2,100)];n =大小(X, 1);图散射(X(: 1),(:, 2), 10日“柯”)

图包含一个坐标轴对象。坐标轴对象包含一个散射类型的对象。

适合一个高斯混合模型来模拟数据

适合双组分高斯混合模型(GMM)。在这里,你知道正确的数量的组件使用。在实践中,与真实的数据,这个决定需要比较与不同数量的组件模型。同时,要求显示的最后迭代采用合适的例行公事。

选择= statset (“显示”,“最后一次”);通用= fitgmdist (X 2“选项”选项)
26个迭代,对数似= -1210.59通用组件为2 =高斯混合分布在二维组件1:混合比例:0.629514的意思是:1.0756 - 2.0421组件2:混合比例:0.370486的意思是:-0.8296 - -1.8488

情节估计概率密度轮廓的双组分混合分布。两个二元正态部分重叠,但峰值是截然不同的。这表明,完全可以将数据分成两个集群。

持有gmPDF = @ (x, y) arrayfun (@ (x0, y0) pdf(通用、(x0, y0)), x, y);fcontour (gmPDF[8 6])标题(散点图和安装GMM轮廓)举行

图包含一个坐标轴对象。坐标轴对象标题散点图和安装GMM轮廓包含2对象类型的散射,functioncontour。

使用安装GMM集群数据

集群实现“硬聚类”,这种方法将每个数据点分配给一个集群。GMM,集群分配每个点GMM的两个混合组件之一。每个集群是相应的混合组件的中心意思。“软聚类”,看到细节集群使用软聚类高斯混合数据

数据分割成集群通过安装GMM和数据集群

idx =集群(通用,X);cluster1 = (idx = = 1);% | 1 | 1集群成员cluster2 = (idx = = 2);% | 2 | 2集群成员图gscatter (X (: 1), (:, 2), idx,rb的,' + o ')传说(“集群1”,《集群2》,“位置”,“最佳”)

图包含一个坐标轴对象。坐标轴对象包含2线类型的对象。一个或多个行显示的值只使用这些对象标记代表集群1,集群2。

每个集群都对应于一个二元正态混合分布组件。集群将数据分配给集群基于集群成员的分数。每个集群成员的分数估计后验概率,数据点来自相应的组件。集群分配每个点到混合组件对应于最高的后验概率。

你可以估计集群成员后验概率通过安装GMM和数据:

  • 集群,请求返回第三输出参数

集群成员估计后验概率

的后验概率估计和情节为每个点第一个组件。

P =后(gm, X);图散射(X (cluster1, 1), X (cluster1, 2), 10, P (cluster1, 1),“+”)举行散射(X (cluster2, 1), X (cluster2, 2), 10, P (cluster2, 1),“o”)举行clrmap =喷气机(80);colormap (clrmap (9:72:)) ylabel (colorbar,“组件1后验概率”)传说(“集群1”,《集群2》,“位置”,“最佳”)标题(散点图和集群1后验概率)

图包含一个坐标轴对象。坐标轴对象标题散点图和集群1后验概率包含2散射类型的对象。这些对象代表集群,集群2。

P是一个n2矩阵集群成员的后验概率。第一列包含集群的概率1和第二列对应于集群2。

将新数据分配给集群

您还可以使用集群方法将新数据点分配给混合组件在原始数据中找到。

模拟的混合高斯分布的最新数据。而不是使用mvnrnd,您可以创建一个GMM均值和标准差与真正的混合组件使用gmdistribution,然后通过GMM随机模拟数据。

μ= [mu1;mu2];σ=猫(3 sigma1 sigma2);p = (0.75 - 0.25);%的比例混合gmTrue = gmdistribution(μ、σ,p);X0 =随机(gmTrue, 75);

指定集群的新数据通过安装GMM (通用汽车)和新数据集群。请求集群成员后验概率。

[idx0, ~, P0] =集群(通用,X0);图fcontour (gmPDF [min (X0 (: 1)) max (X0(: 1))最小(X0(:, 2))最大(X0 (:, 2))))gscatter (X0 (: 1), X0 (:, 2), idx0,rb的,' + o ')传说(“安装GMM轮廓”,“集群1”,《集群2》,“位置”,“最佳”)标题(“新的数据集群作业”)举行

图包含一个坐标轴对象。坐标轴对象与标题新数据集群作业包含3 functioncontour类型的对象,线。一个或多个行显示的值只使用标记这些对象代表了GMM轮廓,集群,集群2。

集群提供有意义的结果聚类新数据时,X0应该来自相同的人口X,原始数据用来创建混合分布。特别是,当计算后验概率X0,集群使用混合概率估计。

另请参阅

||||

相关的话题