主要内容

模多维标度

此示例显示了如何使用非数据形式的多维缩放(MDS)可视化异化数据。

当我们有一组对象时,不同的数据就出现了,我们不能测量每个对象的特征,而只能测量每对对象的相似或不同程度。例如,我们可能只知道城市间的距离,而不知道一组城市的纬度和经度。然而,MDS也适用于比物理距离更抽象的不同之处。例如,我们可能要求消费者对不同品牌的花生酱的相似程度进行评分。

MDS的典型目标是在一个,两个或三个维度中创建点的配置,其间点距离是“关闭”的原始不同。不同形式的MDS使用不同的标准来定义“关闭”。这些点代表了一组对象,因此点的曲线可以用作其异化的视觉表示。

“经典”MDS的一些应用在应用于非空间距离的经典多维尺度例子。

罗斯科普夫的莫尔斯码数据集

为了证明MDS,我们将使用在实验中收集的数据来调查摩尔斯码(Rothkopf,E.Z.,J.Exper.psych。,53(2):94-101)的感知。研究中的主题听了两个摩尔斯码信号(一个或多个“点的可听序列”和表示连续播放的36个字母数字字符),并且被问到信号是否相同或不同。受试者不知道莫尔斯电码。两种不同字符之间的不相似是正确区分这些字符的频率。

36x36的异化矩阵作为含有矩阵的子差异元件的630元素载体存储。您可以使用该功能方形在矢量格式和完整矩阵形式之间转换。这是前5个字母及其异化,以矩阵形式重建。

负载莫尔斯Morsechars(1:5,:)
ans =.5 x2细胞{'A B C D'} {'-..' } {'e'} {'。'}
虽然分析=方形格式(异质物);虽然分析器(1:5,1:5)
ans =.5×50 167 169 159 180 167 0 96 79 163 169 96 0 141 166 159 79 141 0 172 180 163 166 172 0

在这些数据中,数值越大,说明更多的实验对象能够区分两种信号,因此信号之间的差异也就越大。

度量尺度

Metric MDS创建了一个点的配置,使得它们的点间距离近似于原始的不相似性。这个近似拟合优度的一个衡量标准是“应力”,这也是我们一开始要用到的。为了计算配置,我们提供mdscale.函数具有不同的数据、我们希望在其中创建点的维数(两个)以及我们正在使用的拟合优度标准的名称。

y1 = mdscale(异维物,2,'标准','Metricstress');尺寸(y1)
ans =.1×236 2

mdscale.在本例中,返回二维的点集。我们可以绘制它们,但在使用这个解决方案(即配置)来可视化数据之前,我们将绘制一些图来帮助检查从这个解决方案的间隔距离是否重新创建了原始的不相似性。

谢泼德图

Shepard绘图是距离的散点图(有N(n-1)/ 2的n(n-1)/ 2)与原始异常不同。这有助于确定MDS解决方案的良好性。如果拟合差,则可视化可能是误导性的,因为点之间的大(小)距离可能与数据中的大(小)相似性相对应。在Shepard图中,围绕1:1的狭窄散射表示距离距离的距离良好,而大散射或非线性图案表明缺乏合适。

距离1 = Pdist(Y1);情节(不同,距离1,'博',[0 200],[0 200],“k——”);包含(“相异”)ylabel('距离'

图中包含一个坐标轴。轴包含2个类型的型号。

该曲线表明,两个维度的该度量解决方案可能不合适,因为它显示了非线性图案和大散射。前者意味着许多最大的异化倾向于在可视化方面夸大,而中等和小的异化趋于低调。后者意味着可视化中的距离通常是不相似的差。特别是,大部分大不相似度将受到严重低估。

比较度量标准

我们可以尝试使用第三个维度来提高可视化的保真度,因为具有更多程度的自由,适合应该改善。我们也可以尝试不同的标准。另外两项流行的公制标准称为Sammon Mapping和Squared Regress(“Sstress”)。每个导致不同的解决方案,一个或另一个在可视化原始异化方面可能更有用。

差异Y2 = mdscale (2'标准',“马斯”);距离2 = Pdist(Y2);y3 = mdscale(异维物,2,'标准',“metricsstress”);距离3 = Pdist(Y3);

谢泼德情节展示了到目前为止的三种解决方案的差异。万博 尤文图斯

情节(不同,距离1,'博',...不同,距离2,'r +',...distances3相异,“g ^”,...200年[0],[0 200),“k——”);包含(“相异”)ylabel('距离') 传奇({“压力”,'sammon mapping',“方压力”},'地点',“西北”);

图中包含一个坐标轴。轴包含4个类型的4个物体。这些对象代表压力,三文鱼映射,平方压力。

请注意,在最大不相似值的情况下,平方应力标准的散射趋于比其他两个标准更接近1:1线。因此,对于这些数据,方形压力在保持最大的不同方面有点更好,但它严重低估了一些。在较小的不相似性值下,Sammon映射标准的散射趋于与其他两个标准相比的1:1线稍微接近1:1。因此,Sammon Mapping在保留小异化时更好。压力在于两者之间。所有三个标准都显示了一定量的非线性,表明度量标准缩放可能不合适。但是,标准的选择取决于可视化的目标。

非微缩放

非更正的缩放是第二种形式的MD,其具有比度量标准缩放的较小雄心勃勃的目标。而不是尝试创建一对要对原始异化近似的点的配置,而不是尝试近似的非更换MDS的点。排名的不同。另一种说法是,非度量MDS创建了一个点的组态,这些点的间隔距离近似于a单调变换原始的异化。

这种结构的实际用途是,大的间隔距离对应大的差异,小的间隔距离对应小的差异。这通常足以传达所研究的项目或类别之间的关系。

首先,我们将在2D中创建一个点的配置。具有kruskal的非更正应力标准的非更正缩放是默认的mdscale.

[y,应力,差异] = mdscale(异化,2);压力
压力= 0.1800

第二个输出mdscale.是使用标准的价值,作为解决方案如何重建异化的量度。较小的值表示更好的合适。对于非更加应力标准,这种结构的应力约为18%,被认为是差的。可接受标准值的范围因不同的标准而异。

第三个产出mdscale.是被称为差异的矢量。这些只是异调的单调转变。它们将用于下面的非正常缩放Shepard Plot。

可视化异化数据

虽然这种合适并不像我们希望的那么好,但2D表示最容易想象。我们可以绘制每个信号的点和破折号来帮助了解为什么主题在角色之间感知差异。此配置的方向和规模完全是任意的,因此没有显示轴标签或值。

情节(Y (: 1), Y (:, 2),“。”,'标记','没有任何');文本(Y (: 1), Y (:, 2), char (morseChars (:, 2)),'颜色',“b”,...'字体大小'12“FontWeight”,“大胆”,“HorizontalAlignment”,“中心”);H_GCA = GCA;h_gca.xticklabel = [];h_gca.yticklabel = [];标题('rothkopf''s Morse Code数据的非更加MDS解决方案');

图中包含一个坐标轴。标题为Rothkopf的莫尔斯码数据的非度量MDS解决方案的轴包含37个类型行,文本对象。

该重建表明,可以根据两个轴描述字符:粗略地说,西北/东南方向判别信号长度,而西南/东北方向判别从破折号中的点。具有最短信号,“e”和't'的两个字符在该解释中有点不在任何位置。

非度量谢泼德图

在非微量缩放中,习惯于显示差距以及谢泼德图中的距离。这提供了检查距离重新创建差异的程度的检查,以及如何从不同于不同的单调转换的非线性转换是多么的。

距离= pdist(y);[DUM,ORD] = Sortrows([差异(:)异化(:)]);情节(不同,距离,'博',...(奥德)的异同,差距(奥德),'r.-');包含(“相异”)ylabel(“距离/差距”) 传奇({'距离'“差异”},'地点',“西北”);

图中包含一个坐标轴。轴包含2个类型的型号。这些对象代表距离,差异。

这张图显示了非度量尺度下的距离如何近似差异(红线周围蓝色圆圈的散度),而差异反映了不同之处的等级(红线是非线性的,但在增加)。将此图与度量标度的Shepard图进行比较,可以看出两种方法的差异。非度量缩放不是试图重建原始的差异,而是它们(差异)的非线性转换。

在这样做时,非更正的缩放已经进行了折衷:非更正的距离优于度量的度量重新分析的差异 - 该曲线中的散射在度量绘制中较小。然而,差距是非常非线性的,作为异化的函数。因此,虽然我们可以更具体地具有非微分的解决方案,但是可视化中的小距离对应于数据中的小的异化,但重要的是要记住,在那个可视化的点之间的绝对距离不应该被采用,而不应过于实际上 - 仅相对的距离.

在3D中的非微量缩放

因为在2D结构中的压力有点高,我们可以尝试一个3D配置。

[Y、压力差异]= mdscale(相异,3);压力
压力= 0.1189.

这种应力值相当较低,表示更合适。我们可以在3个维度中绘制配置。LiveMATLAB®igky可以交互旋转;在这里,我们将满足于两种不同的角度。

Plot3(y(:,1),y(:,2),y(:,3),“。”,'标记','没有任何');文本(Y (: 1), Y (:, 2), Y (:, 3), char (morseChars (:, 2)),'颜色',“b”,...'字体大小'12“FontWeight”,“大胆”,“HorizontalAlignment”,“中心”);集(gca),“XTickLabel”,[],'yticklabel',[],'zticklabel',[]);标题('rothkopf''s Morse Code数据的非更加MDS解决方案');查看(59,18);网格

图中包含一个坐标轴。标题为Rothkopf的莫尔斯码数据的非度量MDS解决方案的轴包含37个类型行,文本对象。

从这个角度我们可以看出,带有一符号和两符号信号的字符与带有较长的信号的字符是分开的,彼此之间也是分开的,因为它们是最容易区分的。如果我们将视图旋转到不同的角度,我们可以看到较长的角色,就像在2D配置中一样,可以用符号的数量和点或划的数量来描述。(从第二个角度来看,一些较短的角色似乎被较长的角色穿插在一起。)

查看(-9,8);

图中包含一个坐标轴。标题为Rothkopf的莫尔斯码数据的非度量MDS解决方案的轴包含37个类型行,文本对象。

该3D配置比2D配置更准确地重建距离,但是,该消息基本相同:主题主要在它们中包含多少个符号,以及多点与短划线的符号来察觉。在实践中,2D配置可能是完全可以接受的。