군집분석

데이터에있는자연적인그룹과패턴을찾아내고시각화할수있습니다。

군집분석은데이터셋에있는감춰진패턴이나그룹을찾기위해군집화알고리즘을적용하는것을수반합니다。따라서군집분석은탐색적데이터분석에자주사용되지만,이상감지와지도학습을위한전처리에도사용됩니다。

군집화알고리즘에서는어떤그룹(또는군집)내데이터가다른군집의데이터에비해더유사성이높도록그룹을형성합니다。유클리드,확률,코사인거리,상관관계등다양한유사성척도를활용할수있습니다。대부분의비지도학습은군집분석의일종입니다。

군집화알고리즘은크게두가지로구분할수있습니다。

  1. 널리사용되는k——평균방법처럼,어떤데이터점이오직하나의군집에만속하는하드군집화。
  2. 가우스혼합모델에서처럼,어떤데이터점이둘이상의군집에속할수있는소프트군집화。다수의기본소리의조합으로모델링할수있는발화내음소,다수의생물학적과정에관여할수있는유전자등을예로들수있습니다。

각멤버의평균인중심을별모양으로표시하여그룹을나타내는k -평균군집화。

다양한군집들과맺는관계의강도를나타내는소속확률을할당하는가우스혼합모델。

군집분석은다양한영역과응용분야에서패턴과시퀀스를식별하는데사용되고있습니다。

  • 데이터압축방법에서원시신호대신에군집으로데이터를표현할수있습니다。
  • 분할알고리즘에서영상의영역과라이다포인트클라우드를군집으로표시할수있습니다。
  • 생물정보학에서는유전자군집화와염기서열분석을활용합니다。

군집화기법은최소한의레이블지정데이터로초기모델을구축하는준지도학습에서레이블지정데이터와레이블미지정데이터사이의유사성을수립하는데도사용하며,원래레이블이지정되지않은데이터에레이블을할당하는데도사용합니다。이와대조적으로,준지도군집은어떤관측값들이동일한군집에속하는지또는어떤군집들이특정한결과변수와연관되었는지여부와같은군집에관한가용한정보를군집화과정에도입합니다。

MATLAB®은다음과같이널리사용되는많은군집분석알고리즘을지원합니다。

  • 계층적군집화는군집트리를생성하여,다층적인군집계층구조를구축합니다。
  • k——평균군집화는군집중심까지의거리에따라데이터를k개의서로다른군집으로분할합니다。
  • 가우스혼합모델은다변량정규밀도구성요소의혼합물로서군집을구성합니다。
  • DBSCAN(밀도기반공간군집화)는고밀도구역에서서로가까운점들을그룹화하고,저밀도영역에서이상값을계속추적합니다。무작위비볼록형상을다룰수있습니다。
  • 자기조직화맵는데이터의위상과분포를학습하는신경망을이용합니다。
  • 스펙트럼군집화는입력데이터를그래프기반표현으로변환하는데,그래프기반표현에서는원래특징공간에서보다군집들이더욱잘분리되어있습니다。군집의개수는그래프의고유값을조사하여추정할수있습니다。

요점

  • 군집분석은탐색적데이터분석에서,이상감지및분할에서,또지도학습을위한전처리에도자주사용됩니다。
  • k——평균과계층적군집화가널리사용되고있지만,비볼록형상인경우에는더욱발전된기법인DBSCAN과스펙트럼군집화가필요합니다。
  • 데이터에서그룹을발견하는데사용할수있는추가적인비지도방법에는차원축소기법과특징순위지정기법등이있습니다。

MATLAB의군집분석예제

k——평균알고리즘을사용하는imsegkmeans명령으로MATLAB에서원본영상(헤마톡실린과에오신으로염색한조직)에3개의군집을할당하여조직을흰색,검정색,회색의세클래스로분할했습니다。직접해보고이코드예제에있는관련분할방법도시도해보십시오。

MATLAB의군집분석예제

k——평균알고리즘을사용하는imsegkmeans명령으로MATLAB에서원본영상(헤마톡실린과에오신으로염색한조직)에3개의군집을할당하여조직을흰색,검정색,회색의세클래스로분할했습니다。직접해보고이코드예제에있는관련분할방법도시도해보십시오。

참조:统计和机器学习工具箱™MATLAB을활용한머신러닝图像处理工具箱™