tsne

t-Distributed随机邻居嵌入

所有的页面崩溃

语法

Y = tsne (X)

Y = tsne (X、名称、值)

(Y,亏损)= tsne (___)

描述

例子

Y= tsne (X)返回一个矩阵的二维映射进行高维行X。

例子

Y= tsne (X,名称,值)修改嵌入使用选项指定一个或多个参数名称-值对。

例子

(Y,损失)= tsne (___)任何输入参数,也返回Kullback-Leibler散度联合分布模型之间的数据X和嵌入Y。

例子

全部折叠

可视化费舍尔虹膜数据

打开生活的脚本

费舍尔虹膜数据集有四维测量的虹膜,和相应的分类到物种。使用可视化数据通过减少维度tsne。

负载fisheririsrng默认的%的再现性Y = tsne(量);gscatter (Y (: 1), Y(:, 2),物种)

图包含一个坐标轴对象。坐标轴对象包含3线类型的对象。一个或多个行显示的值只使用这些对象标记代表setosa, virginica杂色的。

比较距离度量

打开生活的脚本

使用各种距离指标,试图获得一个更好的物种之间在费舍尔虹膜数据分离。

负载fisheririsrng (“默认”)%的再现性Y = tsne(量,“算法”,“准确”,“距离”,“mahalanobis”);次要情节(2,2,1)gscatter (Y (: 1), Y(:, 2),物种)标题(“Mahalanobis”)提高(“默认”)%对公平的比较Y = tsne(量,“算法”,“准确”,“距离”,的余弦);次要情节(2 2 2)gscatter (Y (: 1), Y(:, 2),物种)标题(的余弦)提高(“默认”)%对公平的比较Y = tsne(量,“算法”,“准确”,“距离”,“chebychev”);次要情节(2,2,3)gscatter (Y (: 1), Y(:, 2),物种)标题(“Chebychev”)提高(“默认”)%对公平的比较Y = tsne(量,“算法”,“准确”,“距离”,“欧几里得”);次要情节(2,2,4)gscatter (Y (: 1), Y(:, 2),物种)标题(“欧几里得”)

图包含4轴对象。坐标轴对象1标题包含3线类型的对象。一个或多个行显示的值只使用这些对象标记代表setosa, virginica杂色的。坐标轴对象2标题余弦包含3线类型的对象。一个或多个行显示的值只使用这些对象标记代表setosa, virginica杂色的。坐标轴对象3标题Chebychev包含3线类型的对象。一个或多个行显示的值只使用这些对象标记代表setosa, virginica杂色的。坐标轴对象4标题欧几里得包含3线类型的对象。一个或多个行显示的值只使用这些对象标记代表setosa, virginica杂色的。

在这种情况下,余弦、Chebychev和欧氏距离度量提供相当不错的集群分离。但距离度量并没有给出很好的分离。

阴谋的结果`南`输入数据

打开生活的脚本

tsne删除输入包含任何数据行南条目。因此,您必须删除任何行策划之前从你的分类数据。

例如,改变一些随机费舍尔虹膜数据条目南。

负载fisheririsrng默认的%的再现性量(兰德(大小(量))< 0.05)=南;

将四维数据嵌入到二维tsne。

Y = tsne(量,“算法”,“准确”);

警告:行南缺失值X或“则”的值将被去除。

确定从嵌入中消灭了多少行。

长度(物种)长度(Y)

ans = 22

准备策划结果的行定位量没有南值。

goodrows =没有(任何(isnan(量),2));

绘制结果只使用的行物种对应于行量没有南值。

gscatter (Y (: 1), Y(:, 2),物种(goodrows))

图包含一个坐标轴对象。坐标轴对象包含3线类型的对象。一个或多个行显示的值只使用这些对象标记代表setosa, virginica杂色的。

比较t-SNE损失

打开生活的脚本

发现费舍尔的2 d和3 d嵌入的虹膜数据,并比较每个嵌入的损失。很可能失去3 d嵌入较低,因为这个嵌入有更多的自由来匹配原始数据。

负载fisheririsrng默认的%的再现性(Y,亏损)= tsne(量,“算法”,“准确”);rng默认的%对公平的比较(Y2, loss2) = tsne(量,“算法”,“准确”,“NumDimensions”3);流(“二维嵌入损失% g, 3 d嵌入% g。\ n损失”、损失、loss2)

二维嵌入损失0.124191,0.0990884和3 d嵌入有损失。

正如所料,3 d嵌入有较低的损失。

查看嵌入。使用RGB颜色(1 0 0),(0 1 0),(0 0 1)。

的3 d图,将物种数值使用分类命令,然后将数值转换为RGB颜色使用稀疏的函数如下。如果v是一个向量的正整数1、2或3,对应于该物种数据,然后命令

稀疏(1:元素个数(v), v, 1(大小(v)))

是一个稀疏矩阵的行RGB颜色的物种。

gscatter (Y (: 1), Y(:, 2),物种,眼(3))标题(“二维嵌入”)

图包含一个坐标轴对象。与标题二维坐标轴对象嵌入包含3线类型的对象。一个或多个行显示的值只使用这些对象标记代表setosa, virginica杂色的。

图v =双(分类(物种));c =全(稀疏(1:元素个数(v), v,(大小(v))的元素个数(v), 3));scatter3 (Y2 (:, 1), Y2 (:, 2), Y2(:, 3), 15日,c,“填充”)标题(“3 d嵌入”)视图(-50 8)

图包含一个坐标轴对象。坐标轴对象与标题3 d嵌入包含一个散射类型的对象。

输入参数

全部折叠

`X`- - - - - -数据点
`n`——- - - - - -`米`矩阵

数据点,指定为一个n——- - - - - -米矩阵,每一行就是其中之一米维点。

tsne删除行X包含任何南值之前创建一个嵌入。看到图结果与南输入数据。

数据类型:单|双

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:Y = tsne (X,“算法”,“准确”,“NumPCAComponents”, 50)

算法控制

全部折叠

`算法`- - - - - -`tsne`算法
`“barneshut”`(默认)|`“准确”`

tsne算法,指定为“barneshut”或“准确”。的“准确”算法优化Kullback-Leibler背离原始之间的分布空间和嵌入式空间。的“barneshut”算法执行一个近似优化时速度更快,使用更少的内存大的数据行数。

请注意

为“barneshut”算法,tsne使用knnsearch找到最近的邻居。

例子:“准确”

`CacheSize`- - - - - -克以兆字节为单位矩阵的大小
`1 e3`(默认)|积极的标量|`“最大”`

克以兆字节为单位矩阵的大小,作为一个积极的标量或指定“最大”。的tsne函数可以使用CacheSize只有当距离名称争论始于快。

如果你设置CacheSize来“最大”,tsne整个中间矩阵试图分配足够的内存的大小米——- - - - - -米,在那里米是输入数据的行数X。缓存大小不需要大到足以让整个中间矩阵,但必须至少足够容纳一个米1的向量。否则,tsne使用的标准算法计算欧氏距离。

如果该值距离争论始于快和的值CacheSize太大或“最大”,tsne可能会超过可用内存的分配格拉姆矩阵。在这种情况下,MATLAB^®一个错误的问题。

例子:CacheSize = "最大"

数据类型:双|字符|字符串

`距离`- - - - - -距离度量
`“欧几里得”`(默认)|`“seuclidean”`|`“fasteuclidean”`|`“fastseuclidean”`|`“cityblock”`|`“chebychev”`|`闵可夫斯基的`|`“mahalanobis”`|`的余弦`|`“相关”`|`“枪兵”`|`“汉明”`|`“jaccard”`|函数处理

距离度量,指定为以下之一:

“欧几里得”——欧氏距离。
“seuclidean”——标准化的欧氏距离。每个坐标的行之间的区别X和查询矩阵是通过除以相应的扩展元素的标准差计算S =性病(X, omitnan)。
“fasteuclidean”——欧氏距离计算通过使用另一种算法,节省了时间预测的数量至少是10。在某些情况下,这种快速算法可以降低精度。算法开始“快”不支持稀疏数据万博1manbetx。有关详细信息,请参见算法。
“fastseuclidean”——标准化的欧氏距离计算通过使用另一种算法,节省了时间预测的数量至少是10。在某些情况下,这种快速算法可以降低精度。算法开始“快”不支持稀疏数据万博1manbetx。有关详细信息,请参见算法。
“cityblock”——城市街区的距离。
“chebychev”——Chebychev距离最大值坐标的差异。
闵可夫斯基的-闵可夫斯基距离指数2。这个距离是一样的欧氏距离。
“mahalanobis”——Mahalanobis距离,使用正定协方差矩阵计算X (X, omitrows)。
的余弦- 1 -之间的夹角的余弦值观察(视为向量)。
“相关”- 1 -样本线性相关性的观察(作为序列的值)。
“枪兵”- 1 -样本之间的斯皮尔曼等级相关的观察(作为序列的值)。
“汉明”——汉明距离、坐标不同的百分比。
“jaccard”- 1 - Jaccard系数非零坐标的比例不同。
自定义距离函数——一个距离函数指定使用@(例如,@distfun)。有关详细信息,请参见更多关于。

在所有情况下,tsne使用两两距离平方来计算高斯内核的联合分布X。

例子:“mahalanobis”

数据类型:字符|字符串|function_handle

`夸张`- - - - - -自然集群大小的数据
`4`(默认)|标量值`1`或更高版本

自然集群大小的数据,指定为一个标量值1或更高版本。

一个较大的夸张tsne学习更大的联合概率Y并创建集群之间的相对更多的空间Y。tsne使用夸张的99年第一个优化迭代。

如果Kullback-Leibler散度的价值增加的早期阶段优化,尝试减少夸张。看到tsne设置。

例子:10

数据类型:单|双

`NumDimensions`- - - - - -输出的维度`Y`
`2`(默认)|正整数

输出的维度Y,指定为一个正整数。一般来说,设置NumDimensions来2或3。

例子:3

数据类型:单|双

`NumPCAComponents`- - - - - -PCA降维
`0`(默认)|非负整数

PCA降维,指定为一个非负整数。之前tsne嵌入在高维数据时,它首先会降低数据的维数NumPCAComponents使用主成分分析函数。当NumPCAComponents是0,tsne不使用PCA。

例子:50

数据类型:单|双

`困惑`- - - - - -有效的本地邻居的每一点
`30.`(默认)|积极的标量

有效的本地邻居的每个点,指定为一个积极的标量。看到t-SNE算法。

更大的困惑的原因tsne使用更多的点最近的邻居。使用一个更大的价值困惑对于大型的数据集。典型的困惑值从5来50。在Barnes-Hut算法,tsne使用分钟(3 *困惑,n - 1)随着最近的邻居。看到tsne设置。

例子:10

数据类型:单|双

`标准化`- - - - - -国旗规范化输入数据
`假`(默认)|`真正的`

国旗规范化输入数据、指定为假或真正的。当价值真正的,tsne中心和鳞片的每一列X先减去它的意思,然后除以它的标准差。

当特征X在不同的尺度上,准备好了吗“标准化”来真正的。学习过程是基于最近的邻居,所以与大尺度特性与小尺度可以覆盖特性的贡献。

例子:真正的

数据类型:逻辑

优化控制

全部折叠

`克尔`- - - - - -最初的嵌入点
`1 * randn的军医(N, NumDimensions)`(默认)|`n`——- - - - - -`NumDimensions`真正的矩阵

最初的嵌入点,指定为一个n——- - - - - -NumDimensions真正的矩阵,n的行数X。的tsne优化算法使用这些点作为初始值。

数据类型:单|双

`LearnRate`- - - - - -学习速率的优化过程
`500年`(默认)|积极的标量

学习速率的优化过程,指定为一个积极的标量。通常,设置值One hundred.通过1000年。

当LearnRate太小了,tsne可以收敛到局部最小值。当LearnRate太大,优化可以最初Kullback-Leibler散度增加而不是减少。看到tsne设置。

例子:1000年

数据类型:单|双

`NumPrint`- - - - - -迭代显示频率
`20.`(默认)|正整数

迭代显示频率,指定为一个正整数。当详细的名称-值对不0,tsne返回迭代显示每次NumPrint迭代。如果选项名称-值对包含一个非空的“OutputFcn”追求每一个条目,然后输出功能NumPrint迭代。

例子:20.

数据类型:单|双

`选项`- - - - - -优化选项
包含字段的结构`“麦克斯特”`,`“OutputFcn”`,`“TolFun”`

优化选项,指定为包含字段的结构“麦克斯特”,“OutputFcn”,“TolFun”。创建“选项”使用statset或结构体。

“麦克斯特”——正整数指定优化迭代的最大数量。默认值:1000年。
“OutputFcn”——函数处理或单元数组的函数处理后打电话给每一个指定一个或多个功能NumPrint优化迭代。语法细节,请参阅t-SNE输出函数。默认值:[]。
“TolFun”——停止准则的优化。优化出口当常态的梯度Kullback-Leibler散度小于“TolFun”。默认值:1平台以及。

例子:选择= statset(麦克斯特,500)

数据类型:结构体

`θ`- - - - - -Barnes-Hut权衡参数
`0.5`(默认)|标量从0到1

Barnes-Hut权衡参数,指定为一个标量从0到1。更高的值给一个快但不准确的优化。只适用于当算法是“barneshut”。

例子:0.1

数据类型:单|双

`详细的`- - - - - -迭代显示
`0`(默认)|`1`|`2`

迭代显示,指定为0,1,或2。当详细的不是0,tsne打印的汇总表Kullback-Leibler散度和梯度的规范NumPrint迭代。

当详细的是2,tsne也输出方差的高斯内核。tsne使用这些内核的联合概率的计算X。如果你看到一个大的不同尺度的最小和最大方差,你有时可以被重新调节更合适的结果X。

例子:2

数据类型:单|双

输出参数

全部折叠

`Y`——嵌入式分
`n`——- - - - - -`NumDimensions`矩阵

嵌入点,作为一个返回n——- - - - - -NumDimensions矩阵。每一行代表一个嵌入点。n行数据的数量吗X不包含任何南条目。看到图结果与南输入数据。

`损失`——Kullback-Leibler散度
负的标量

Kullback-Leibler建模的输入和输出之间的分歧分布,作为一个非负标量返回。有关详细信息,请参见t-SNE算法。

算法

全部折叠

tsne构造一组嵌入点在低维空间的相对相似模拟的原始高维点。嵌入点显示原始数据的聚类。

约,算法模型原始分,来自一个高斯分布,以及嵌入点来自学生的t分布。算法试图最小化Kullback-Leibler散度这两个发行版之间通过移动嵌入式点。

有关详细信息,请参见t-SNE。

快速欧几里得距离算法

的值距离观点:开始快(如“fasteuclidean”和“fastseuclidean”)计算欧几里得距离使用一个算法使用额外的内存来节省计算时间。这个算法被命名为“欧几里得距离矩阵技巧”Albanie[1]和其他地方。内部测试表明该算法节省时间当预测的数量至少是10。算法开始“快”不支持稀疏数据万博1manbetx。

找到所有的点之间的距离矩阵Dx_我和x_j,每个x_我有n变量,计算距离的算法中使用最后一行以下方程:

$\begin{matrix} D_{我, j}^{2} = 为 x_{我} - x_{j} 为^{2} \\ = (^{x_{我} - x_{j}) T} (x_{我} - x_{j}) \\ = 为 x_{我} 为^{2} - 2 x_{我}^{T} x_{j} + 为 x_{j} 为^{2} 。 \end{matrix}$

矩阵 $x_{我}^{T} x_{j}$ 在最后一行的方程叫做格拉姆矩阵。计算距离平方的速度更快,但略低于数值稳定,当你计算和使用格拉姆矩阵而不是计算的距离平方平方求和。讨论,看到Albanie[1]。

储存格拉姆矩阵、软件使用缓存的默认大小1 e3兆字节。你可以设置缓存大小使用CacheSize名称-值参数。如果该值的CacheSize太大或“最大”,tsne可能会超过可用内存的分配格拉姆矩阵。在这种情况下,MATLAB一个错误的问题。

引用

[1]Albanie,撒母耳。欧氏距离矩阵技巧。2019年6月。可以在https://www.robots.ox.ac.uk/%7Ealbanie/notes/Euclidean_distance_trick.pdf。

版本历史

介绍了R2017a

全部展开

R2023a:快速的欧几里得距离使用缓存

的“fasteuclidean”和“fastseuclidean”距离度量加速欧几里得距离的计算通过使用缓存和一个不同的算法(见算法)。设置缓存的大小使用CacheSize名称-值参数。

另请参阅

主成分分析|pdist|knnsearch|statset|gscatter

tsne

语法

描述

例子

可视化费舍尔虹膜数据

比较距离度量

阴谋的结果南输入数据

比较t-SNE损失

输入参数

X- - - - - -数据点n——- - - - - -米矩阵

名称-值参数

算法- - - - - -tsne算法“barneshut”(默认)|“准确”

CacheSize- - - - - -克以兆字节为单位矩阵的大小1 e3(默认)|积极的标量|“最大”

距离- - - - - -距离度量“欧几里得”(默认)|“seuclidean”|“fasteuclidean”|“fastseuclidean”|“cityblock”|“chebychev”|闵可夫斯基的|“mahalanobis”|的余弦|“相关”|“枪兵”|“汉明”|“jaccard”|函数处理

夸张- - - - - -自然集群大小的数据4(默认)|标量值1或更高版本

NumDimensions- - - - - -输出的维度Y2(默认)|正整数

NumPCAComponents- - - - - -PCA降维0(默认)|非负整数

困惑- - - - - -有效的本地邻居的每一点30.(默认)|积极的标量

标准化- - - - - -国旗规范化输入数据假(默认)|真正的

克尔- - - - - -最初的嵌入点1 * randn的军医(N, NumDimensions)(默认)|n——- - - - - -NumDimensions真正的矩阵

LearnRate- - - - - -学习速率的优化过程500年(默认)|积极的标量

NumPrint- - - - - -迭代显示频率20.(默认)|正整数

选项- - - - - -优化选项包含字段的结构“麦克斯特”,“OutputFcn”,“TolFun”

θ- - - - - -Barnes-Hut权衡参数0.5(默认)|标量从0到1

详细的- - - - - -迭代显示0(默认)|1|2

输出参数

Y——嵌入式分n——- - - - - -NumDimensions矩阵

损失——Kullback-Leibler散度负的标量

更多关于

自定义距离函数

算法

快速欧几里得距离算法

引用

版本历史

R2023a:快速的欧几里得距离使用缓存

另请参阅

主题

阴谋的结果`南`输入数据

`X`- - - - - -数据点
`n`——- - - - - -`米`矩阵

`算法`- - - - - -`tsne`算法
`“barneshut”`(默认)|`“准确”`

`CacheSize`- - - - - -克以兆字节为单位矩阵的大小
`1 e3`(默认)|积极的标量|`“最大”`

`距离`- - - - - -距离度量
`“欧几里得”`(默认)|`“seuclidean”`|`“fasteuclidean”`|`“fastseuclidean”`|`“cityblock”`|`“chebychev”`|`闵可夫斯基的`|`“mahalanobis”`|`的余弦`|`“相关”`|`“枪兵”`|`“汉明”`|`“jaccard”`|函数处理

`夸张`- - - - - -自然集群大小的数据
`4`(默认)|标量值`1`或更高版本

`NumDimensions`- - - - - -输出的维度`Y`
`2`(默认)|正整数

`NumPCAComponents`- - - - - -PCA降维
`0`(默认)|非负整数

`困惑`- - - - - -有效的本地邻居的每一点
`30.`(默认)|积极的标量

`标准化`- - - - - -国旗规范化输入数据
`假`(默认)|`真正的`

`克尔`- - - - - -最初的嵌入点
`1 * randn的军医(N, NumDimensions)`(默认)|`n`——- - - - - -`NumDimensions`真正的矩阵

`LearnRate`- - - - - -学习速率的优化过程
`500年`(默认)|积极的标量

`NumPrint`- - - - - -迭代显示频率
`20.`(默认)|正整数

`选项`- - - - - -优化选项
包含字段的结构`“麦克斯特”`,`“OutputFcn”`,`“TolFun”`

`θ`- - - - - -Barnes-Hut权衡参数
`0.5`(默认)|标量从0到1

`详细的`- - - - - -迭代显示
`0`(默认)|`1`|`2`

`Y`——嵌入式分
`n`——- - - - - -`NumDimensions`矩阵

`损失`——Kullback-Leibler散度
负的标量