主要内容

车牌提取

概率主成分分析

描述

例子

(多项式系数,分数,pcvar)=车牌提取(Y,K)返回的主成分系数n——- - - - - -p数据矩阵Y基于一个概率主成分分析(车牌提取)。它还返回主成分得分,表示Y在主成分空间中,和主成分方差协方差矩阵的特征值Y,在pcvar

每一列的多项式系数包含一个主成分系数,分量方差的列是按照降序排列。行分数对应于观测,列对应的组件。行Y对应于观察和列对应变量。

概率主成分分析可能会比其他算法处理缺失数据,如交替最小二乘算法当任何数据向量失踪有一个或多个值。它假设值是通过数据集随机缺失。采用算法用于完成和丢失的数据。

例子

(多项式系数,分数,pcvar)=车牌提取(Y,K,名称,值)返回主成分系数、分数和方差计算和使用额外的选项处理特殊的数据类型,由一个或多个指定名称,值对参数。

例如,您可以引入剩余方差的初始值,v,终止或改变标准。

例子

(多项式系数,分数,pcvar,μ)=车牌提取(___)每个变量的估计意味着同样的回报Y。您可以使用任何输入参数的前面的语法。

例子

(多项式系数,分数,pcvar,μ,v,年代)=车牌提取(___)也各向同性剩余方差的回报v最后在结构收敛结果年代

例子

全部折叠

加载示例数据。

负载fisheriris

双矩阵包括四种类型的测量在鲜花,,分别是长度和宽度的萼片和花瓣。

引入随机缺失值。

y =量;rng (“默认”);%的再现性第九=随机(“unif”0 1大小(y)) < 0.20;y (ix) =南;

现在,大约20%的数据丢失,表示

执行概率主成分分析和请求组件系数和方差。

[多项式系数,分数,pcvarμ)=车牌提取(y, 3);多项式系数
多项式系数=4×30.3562 0.6709 -0.5518 -0.0765 0.7120 0.6332 0.8592 -0.1597 0.0596 0.3592 -0.1318 0.5395
pcvar
pcvar =3×14.0914 0.2125 0.0617

进行主成分分析使用交替最小二乘算法和请求组件系数和方差。

[coeff2, score2 pcvar2 mu2] = pca (y,“算法”,“als”,“NumComponents”3);coeff2
coeff2 =4×30.3376 0.4952 0.7406 -0.0731 0.8609 -0.4476 0.8657 -0.1168 -0.1233 0.3623 -0.0086 -0.4857
pcvar2
pcvar2 =3×14.0733 0.2652 0.1222

系数和前两个主成分的方差是相似的。

比较结果的另一种方法是找到两者之间的角系数向量张成的空间。

子空间(多项式系数,coeff2)
ans = 0.0884

两个空间之间的角非常小。这表明这两个结果是接近对方。

加载示例数据集。

负载进口- 85

数据矩阵X有13个连续变量列3 - 15:轴距,长度,宽度,高度,整备质量,发动机的大小,孔,中风,压缩比,马力,peak-rpm city-mpg, highway-mpg。中孔和中风是失踪的四值的变量行56 - 59,马力的变量和peak-rpm失踪的两个值在131年和132年的行。

执行概率主成分分析和显示前三个主成分。

[多项式系数,分数,pcvar] =车牌提取(X (:, 3:15), 3);
警告:最大迭代数达到1000。

改变终止对0.01的成本函数。

选择= statset (“车牌提取”);opt.TolFun = 0.01;

执行概率主成分分析。

[多项式系数,得分,pcvar] =车牌提取(X (:, 3:15), 3,“选项”、选择);
警告:最大迭代数达到1000。

车牌提取现在终止前达到最大迭代次数,因为它符合成本函数的宽容。

加载示例数据。

负载哈尔德y =成分;

成分数据有13个观测4变量。

介绍数据缺失值。

y(16:结束)=南;

每16值是。这对应于7.69%的数据。

使用车牌提取的前三个主成分数据和显示重建的观察。

[多项式系数,分数,pcvar、μv, S] =车牌提取(y, 3);
警告:最大迭代数达到1000。
S.Recon
ans =13×46.8536 25.8700 5.8389 59.8730 1.0433 28.9710 14.9654 51.9738 11.5770 56.5067 8.6352 20.5076 11.0835 31.0722 8.0920 47.0748 7.0679 52.2556 6.0748 33.0598 11.0486 55.0430 9.0534 22.0423 2.8493 70.8691 16.8339 5.8656 1.0333 31.0281 19.6907 44.0306 2.0400 54.0354 18.0440 22.0349 20.7822 46.8091 3.7603 25.8081⋮

你也可以重建观察使用主成分和估计的意思。

t =分数*多项式系数' + repmat(1μ,13日);

加载数据。

负载哈尔德

在这里,成分是一个实值预测变量的矩阵。

执行概率主成分分析和显示系数。

[多项式系数,分数,pcvariance、μv, S] =车牌提取(成分,3);
警告:最大迭代数达到1000。
多项式系数
多项式系数=4×3-0.0693 -0.6459 0.5673 -0.6786 -0.0184 -0.5440 0.0308 0.7552 0.4036 0.7306 -0.1102 -0.4684

显示该算法在车牌提取的收敛结果。

年代
S =结构体字段:W: [4 x3双]Xexp: [13 x3双]侦察:[13 x4双]v: 0.2372 NumIter: 1000 RMSResid: 0.2340 nloglk: 149.3388

显示矩阵W

白雪
ans =4×30.5624 2.0279 5.4075 4.8320 -10.3894 5.9202 -3.7521 -3.0555 -4.1552 -1.5144 11.7122 -7.2564

使正交化W恢复系数。

奥尔特(白雪)
ans =4×3-0.0693 0.6459 0.5673 -0.6786 0.0184 -0.5440 0.0308 -0.7552 0.4036 0.7306 0.1102 -0.4684

输入参数

全部折叠

计算主成分的输入数据,指定为一个n——- - - - - -p矩阵。行Y对应于观察和列对应变量。

数据类型:|

主成分回归,指定为一个整数值小于数据的秩。最大可能的排名是min (n,p),n是观察和的数量吗p是变量的数量。然而,如果数据相关,排名可能会小于最小值(n,p)。

车牌提取订单根据方差的组件。

如果K分钟(n,p),车牌提取K等于最小值(n,p)- 1,“W0”是最小截断(p,n如果你指定一个)- 1列p——- - - - - -pW0矩阵。

例如,您可以请求只有前三个组件,基于组件的方差如下。

例子:多项式系数=车牌提取(Y, 3)

数据类型:|

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“W0”,初始化,“选项”,选择指定初始值“W0”在矩阵初始化车牌提取使用定义的选项选择

初始值的W概率主成分分析算法,指定为逗号分隔两人组成的“W0”和一个p——- - - - - -k矩阵。

数据类型:|

剩余方差的初始值,指定为逗号分隔组成的“半”和积极的标量值。

数据类型:|

指定的迭代,选择一双逗号分隔“选项”和结构造成的statset函数。车牌提取使用以下字段的选项结构。

“显示” 显示输出。的选择是“关闭”,“最后一次”,“通路”
“麦克斯特” 允许的最大数量的步骤。默认值是1000。与优化设置,到达麦克斯特价值被认为是收敛。
“TolFun” 正整数表示终止对成本函数。默认是1 e-6。
“TolX” 正整数表示收敛阈值的相对变化的元素W。默认是1 e-6。

你可以改变这些字段的值和指定的新结构车牌提取使用“选项”名称-值对的论点。

例子:选择= statset(车牌提取);opt.MaxIter = 2000;多项式系数=车牌提取(Y, 3,“选项”,选择);

数据类型:结构体

输出参数

全部折叠

主成分系数,作为一个返回p——- - - - - -k矩阵。每一列的多项式系数包含一个主成分的系数。递减的顺序列组件方差,pcvar

主成分得分,作为一个返回n——- - - - - -k矩阵。行分数对应于观测,列对应的组件。

主成分方差,协方差矩阵的特征值Y,作为一个列向量返回。

估计每个变量的意思Y,返回一个行向量。

各向同性剩余方差,作为标量值返回。

最终结果融合,作为一个结构,其中包含以下字段返回。

W W在收敛。
Xexp 条件期望的估计潜变量x
侦察 重建观察使用k主要组件。这是一个低维近似的输入数据Y,等于μ+分数*多项式系数的
v 剩余方差。
RMSResid 残差的均方根。
NumIter 数量的迭代计算。
nloglk - loglikelihood函数值。

更多关于

全部折叠

概率主成分分析

概率主成分分析(车牌提取)是一种方法来估计轴当任何数据向量失踪有一个或多个值。

车牌提取是基于一个各向同性的误差模型。它试图联系p维观测向量y到相应的k潜在的维向量(或未被注意的)变量x,这是正常的,意味着零和协方差(k)。的关系是

y T = W x T + μ + ε ,

在哪里y是观察到的变量的行向量,x潜变量的行向量,ε各向同性误差项。ε高斯与零和协方差的意味着什么v*我(k),v是剩余方差。在这里,k需要的秩小于剩余方差大于0 (v> 0)。标准主成分分析,剩余方差为零,是车牌提取的极限情况。观察到的变量,y,是条件独立的潜变量的值x。所以,潜变量解释观测变量之间的相关性和解释了可变性的一个特定的错误y。的p——- - - - - -k矩阵W有关潜在和观测变量,和向量μ允许模型有一个非零的意思。车牌提取假设值是通过数据集随机缺失。这意味着数据值是否缺失与否并不取决于潜变量的观测数据值。

在这种模式下,

y ~ N ( μ , W * W T + v * ( k ) )

没有封闭的分析解决方案Wv,所以他们的估计是由迭代使用采用相应的loglikelihood最大化(EM)算法。这EM算法处理缺失值将他们视为额外的潜在变量。收敛的列W张成的子空间,但他们不是正交。车牌提取获得正交系数,多项式系数通过正交化的组件W

引用

[1]引爆,m E。,C. M. Bishop. Probabilistic Principal Component Analysis. Journal of the Royal Statistical Society. Series B (Statistical Methodology), Vol. 61, No.3, 1999, pp. 611–622.

[2]Roweis,美国“EM算法对PCA和SPCA。”1997年《会议进展的神经信息处理系统。Vol.10(1997年捏),剑桥,妈,美国:麻省理工学院出版社,1998年,页626 - 632。

[3]Ilin,。,T。Raiko. “Practical Approaches to Principal Component Analysis in the Presence of Missing Values.”j·马赫。学习。Res。。11卷,2010年8月,页1957 - 2000。

版本历史

介绍了R2013a