概率主成分分析(PPCA)是在任何数据向量具有一个或多个缺失值时估计主轴的方法。
PPCA基于各向同性误差模型。它旨在涉及一个P.- 一维观察向量y到相应的K.- 潜伏(或未观察)变量的维护X,这与平均零和协方差我是正常的(K.)。这种关系是
在哪里y是观察变量的行矢量,X是潜在变量的行矢量,和ε.是各向同性的错误术语。ε.高斯是平均零和协方差的V.*一世(K.), 在哪里V.是残余方差。这里,K.需要小于剩余方差的等级大于0(V.> 0)。标准主成分分析,其中残留方差为零,是PPCA的限制情况。观察到的变量,y,有条件地独立于鉴于潜在变量的值,X。因此,潜在变量解释了观察变量与误差之间的相关性解释了特定的可变性y一世。这P.-经过-K.矩阵W.涉及潜在和观察变量和向量μ.允许模型具有非零均值。PPCA假设通过数据集随机丢失值。这意味着在给定观察到的数据值的情况下,数据值是否丢失或不依赖于潜在变量。
在这个模型下,
没有封闭式的分析解决方案W.和V.此外,它们的估计由使用期望最大化(EM)算法的相应Loglikelihip的迭代最大化来确定。该EM算法通过将其视为额外的潜变量来处理缺失的值。在收敛处,列W.跨越子空间,但它们不是正交的。PPCA
获得正常系数,COEFF.
,通过正交化的组件W.。