主要内容

이번역페이지는최신내용을담고있지않습니다。최신내용을영문으로보려면여기를클릭하십시오。

주성분분석(PCA)

다변량통계에서겪는태생적인어려움중하나는많은변수를갖는데이터를시각화하는문제입니다。함수情节은두변수사이의관계를나타내는그래프를표시합니다。plot3명령과冲浪명령은여러3차원보기를표시합니다。그러나변수4개가이상있는경우해당관계를시각화하는것은더욱어려워집니다。

다행히,많은변수를포함하는데이터세트에서는변수그룹이함께움직이는경우가많습니다。이에대한한가지이유는시스템의전체동작을통제하는같은구동원칙을둘이상의변수가측정하는경우가있을수있기때문입니다。많은시스템에서이러한구동원칙은몇개에불과합니다。그러나계측방법은다양하기에수십개의시스템변수를측정하는것이가능합니다。이것이가능해지면이러한정보의중복성을활용할수있습니다。변수그룹을하나의새로운변수로교체하여문제를단순화할수있습니다。

주성분분석은이러한단순화를실현할수있는정량적으로엄격한방법입니다。이방법은주성분이라고하는새로운변수의집합을생성합니다。각주성분은원래변수의일차결합입니다。모든주성분은서로직교상태이므로중복된정보가없습니다。주성분은전체적으로데이터공간에대한직교기저를형성합니다。

데이터의여러열에대해직교기저를생성하는방법은무수히많습니다。주성분기저는과연어떤점이특별할까요?

첫번째주성분은공간의단일축입니다。해당축에각관측값을투영하면결과로생성되는값이새로운변수를형성합니다。이변수의분산은첫번째축으로선택가능한모든대안중최댓값입니다。

두번째주성분은공간의다른축이며,첫번째주성분에대해수직입니다。이축에관측값을투영하면또다른새변수가생성됩니다。이변수의분산은두번째축으로선택가능한모든대안중최댓값입니다。

전체주성분집합의크기는원래변수집합의크기와같습니다。그러나처음몇개주성분의분산합이원래데이터의총분산의80%를초과하는경우가일반적입니다。이러한몇개의새변수에대한플롯을검토하면서연구자는원래데이터의생성을가능케한원동력에대해더욱깊게이해할수있습니다。

함수主成分分析를사용하여주성분을구할수있습니다。主成分分析를사용하려면분석하려는실제측정데이터가있어야합니다。그러나,실제데이터가없어도데이터에대한표본공분산또는상관행렬이있다면함수pcacov를사용하여주성분분석을수행할수있습니다。이함수에대한입력값과출력값에대한설명은pcacov함수도움말페이지를참조하십시오。

참고항목

|||

관련항목