该示例示出了如何执行加权主成分分析和解释结果。
加载样本数据。该数据包括生活在329个美国城市品质的9个不同的指标评级。这些都是气候,住房,健康,犯罪,交通,教育,艺术,娱乐和经济。对于每个类别,较高的评价更好。例如,较高的评价犯罪意味着较低的犯罪率。
显示类别
变量。
加载城市类别
类别=气候住房健康的犯罪交通教育艺术休闲经济
总体而言,城市
数据集包含三个变量:
类别
,一个包含索引名称的字符矩阵
名
,一个字符矩阵包含329城市名
评级
中,数据以329行和9列的矩阵
做一个箱线图来看看的分布评级
数据。
图()箱线图(评分,“定位”,“水平”,'标签'、类别)
有一个在艺术的收视率更多的变化和住房比犯罪和气候的评级。
检查变量之间的成对相关。
C =科尔(评分,评分);
一些变量之间的相关系数高达0.85。主成分分析构建独立的新的变量,其是原始变量的线性组合。
当所有变量都在同一单位时,计算原始数据的主成分是合适的。当变量的单位不同或不同列的差异很大时(如本例),数据的缩放或权重的使用通常是可取的。
通过使用评分作为权的逆方差进行主成分分析。
w = 1. / var(评级);[wcoeff,分数,潜伏,tsquared解释]= pca(评级,...“VariableWeights”中,w);
或等价:
[wcoeff,分数,潜伏,tsquared解释]= pca(评级,……“VariableWeights”、“方差”);
以下各节说明的五个输出PCA
。
第一输出,wcoeff
,包含主成分的系数。
前三个主成分系数向量为:
C3 = wcoeff(:,1:3)
C3 = wcoeff(:,1:3)C3 = 1.0E + 03 * 0.0249 -0.0263 -0.0834 0.8504 -0.5978 -0.4965 0.4616 0.3004 -0.0073 0.1005 -0.1269 0.0661 0.5096 0.2606 0.2124 0.0883 0.1551 0.0737 2.1496 0.9043 -0.1229 0.2649 -0.3106 -0.04110.1469 -0.5111 0.6586
这些系数被加权,因此系数矩阵不是正交的。
变换系数使它们是标准正交的。
coefforth = INV(DIAG(STD(评分)))* wcoeff;
请注意,如果您使用的权重向量,w ^
,而在进行PCA
, 然后
coefforth = DIAG(SQRT(重量))* wcoeff;
变换系数现在是正交的。
I = coefforth'* coefforth;I(1:3,1:3)
ANS = 1.0000 -0.0000 -0.0000 -0.0000 1.0000 -0.0000 -0.0000 -0.0000 1.0000
第二个输出,得分
,包含原始数据的由主成分所定义的新的坐标系中的坐标。该得分
矩阵的大小与输入数据矩阵相同。您还可以获取使用正交系数和标准化评级如下成分得分。
cscores = zscore(评级)* coefforth;
cscores
和得分
是相同的矩阵。
创建的第一个两列的阴谋得分
。
图()情节(评分(:,1),评分(:,2),“+”)包含(第一主成分的)ylabel (“第二主成分”)
该图显示投影到前两个主成分居中和缩放的评级数据。PCA
计算得分为0。
请注意,在情节的右半部分边远点。您可以按如下图形方式确定这些点。
的gname
将光标移到情节和附近的最右边的七分单击一次。这由他们的行号标记的点作为下图。
后贴标点,按返回。
创建包含您选择并获得城市的名字在所有城市的行号的索引变量。
metro = [43 65 179 213 234 270 314];名(地铁:)
ANS =波士顿芝加哥,伊利诺伊洛杉矶,长滩,CA纽约,纽约州费城,宾夕法尼亚州,新泽西州的旧金山,CA华盛顿,DC-MD-VA
这些标记城市是一些在美国最大的人口中心,他们显得比剩余的数据更为极端。
第三个输出,潜
为包含由对应主成分解释的方差的向量。每一列的得分
具有样本方差等于对应的行潜
。
潜
潜= 3.4083 1.2140 1.1415 0.9209 0.7533 0.6306 0.4930 0.3180 0.1204
第五输出,解释
是包含由对应的主成分解释百分比方差的载体。
解释
解释= 37.8699 13.4886 12.6831 10.2324 8.3698 7.0062 5.4783 3.5338 1.3378
使百分比变化的碎石图通过各主成分解释。
图()帕累托(解释)xlabel(主成分的)ylabel ('差异解释(%)')
这种碎石图只显示(而不是全部九)前七解释总方差的95%的部件。在方差的量唯一清楚破占每个组件是所述第一和第二部件之间。然而,通过本身的第一组分解释的方差小于40%,因此可能需要更多的组件。你可以看到,前三个主成分解释了标准化收视总变异的约三分之二,因此这可能是减少了尺寸的合理的方式。
从上面的输出PCA
是tsquared
,这是霍特林式T2中,从所述数据集的中心的每个观测多元距离的统计度量。这是发现在数据最极端点的分析方法。
[ST2,索引] =排序(tsquared,“降序”);%按降序排序极端=指数(1);名字(极端的,:)
ANS =纽约
纽约的评级是由平均美国城市最远。
将每个变量的标准正交主成分系数和在一个单独的图中对每个观察的主成分得分可视化。
biplot (coefforth (:, 1:2),“分数”,得分(:,1:2),'Varlabels',类别);轴([ - 26 0.6 -.51 0.51。]);
所有九个变量被表示在由矢量此双积,矢量的方向和长度指示如何每个变量有助于在情节的两个主成分。例如,第一主成分,在水平轴线上,具有用于所有九个变量正系数。这就是为什么九个向量被引导到情节的右半边。在第一主成分的最大系数是第三和第七元件,对应于该变量健康
和艺术
。
第二主成分,在垂直轴上,具有用于变量正系数教育
,健康
,艺术
和运输
对于剩余的五个变量,而负系数。这表明,具有对所述第一组的变量和低的第二次高值的城市,和具有相反的城市中的第二部件进行区分。
本图中的变量标签是有点挤。您可以排除VarLabels
使名称 - 值对参数时的情节,或者选择和一些标签拖动到使用从图窗口工具栏编辑图工具更好的位置。
这个2-d双情节还包括用于每个对329个的观察点,与指示的每个观测在图中的两个主成分得分的坐标。例如,靠近该图左侧边缘点具有最低得分的第一主成分。点被缩放相对于所述最大得分值和最大系数长度,因此,只有它们的相对位置可从图中确定。
您可以识别通过选择情节项目工具>数据光标图中的窗口。通过点击一个变量(载体),可以读取所述可变标签和系数为每个主成分。通过点击一个观察(点),你可以阅读每个主成分观测的姓名和分数。您可以指定“Obslabels”,名字
在数据光标显示中显示观察名称而不是观察数字。
你也可以做一个双向的情节在三个维度。
图()双标图(coefforth(:,1:3),“分数”,得分(:,1:3),'Obslabels',名);轴([ - 26 0.8 -.51 0.51 -.61 0.81。]);视图([30 40]);
如果前两个主坐标没有足够的解释数据的方差的此图是非常有用的。您也可以通过选择旋转的身影,看看它从不同的角度工具>三维旋转
。
双标图
|箱形图
|PCA
|pcacov
|pcares
|PPCA