k - means性能评价的“sumd”

7视图(30天)
你好,
给一个简单的例子:
我有4个数据点p1, p2, p3, p4(在蓝点)。我和k = 2 k - means两次执行,策划的输出质心两个集群C1和C2(绿点)。
的两个迭代kmeans如下所示(左和右)。注意到在第二个迭代(右),C2和p2在同一个位置。
比较性能的k - means两次迭代,或者找出这两种情况下是一个更好的聚类,我只看“sumd”这是每一个点的距离的总和的重心在集群?
在这种情况下,sumd左[0.5000,0.5000]虽然sumd是正确的(1.3333,0)。
为了比较两种情况下,
我只是总和的sumd离开' 1 ',并和“sumd”的“1.3333”,并采取较小的数量是' 1 '和索赔集群更好?
我这样做正确吗?
1评论
亚当
亚当 2019年9月27日
没有任何单一的定义什么是“最佳”集群所以你必须选择一个你觉得适合你的案子。
我没有sumd Matlab函数在我所以我不知道它的具体细节和为什么它给两个数字(一个为每个集群似乎是显而易见的)。
我倾向于测量量子化错误,总结每一个点的距离定义集群节点,这可能是也可能不是一样的,相对来说,虽然在这种情况下,正常化的数量分将给一个错误的0.5 0.65左案例和类似的。所以我想,您平均是一样的结果(即每个集群平均距离)。

登录置评。

接受的答案

骑自行车的人
骑自行车的人 2019年9月27日
我同意亚当的评论,这里并不是一个单一的“最好”。思考这个问题的一个方法是用一个“效用函数”——你想实现聚类,你能写一个数学函数,捕获了吗?
也就是说,之和 sumd 输出无疑是一个明智的,少量付出指标最好的聚类。毕竟,kmeans算法本身是试图最小化 sumd 值。
1评论
沙拉盒
沙拉盒 2019年9月27日
谢谢你的确认,我将使用笔“sumd”,并有很强的信心。)

登录置评。

更多的答案(0)

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!