casinediepilarity.

与余弦相似度的文档相似度

在页面上崩溃

句法

相似之处= CasineIpilarity（文件）

相似之处= Casinediemillity（文件，查询）

相似之处= CASINESIMILARY（袋）

相似之处= CasineIpileity（袋子，查询）

相似之处= casineIpilarity（m）

相似之处= CASINESIMILARY（M1，M2）

描述

例子

相似之处= Casinediemilarity（文件的）使用从其单词计数派生的TF-IDF矩阵返回指定文档的成对余弦相似度。得分相似之处（I，J）表示相似之处文件（i）和文件（j）。

例子

相似之处= Casinediemilarity（文件那疑问的）返回之间的相似之处文件和疑问使用从单词计数中派生的TF-IDF矩阵文件。得分相似之处（I，J）表示相似之处文件（i）和查询（j）。

例子

相似之处= Casinediemilarity（包的）使用从单词计数中派生的TF-IDF矩阵来返回由指定的单词或N-GRAMS模型编码的文档的成对相似性包。得分相似之处（I，J）代表了相似之处一世他和j编码的文件包。

相似之处= Casinediemilarity（包那疑问的）返回由文字袋或n-grams模型编码的文档之间的相似之处包和疑问使用从单词计数中派生的TF-IDF矩阵包。得分相似之处（I，J）代表了相似之处一世编码的文件包和查询（j）。

例子

相似之处= Casinediemilarity（M.的）返回在矩阵的行向量中编码的数据的相似之处M.。得分相似之处（I，J）表示相似之处m（我，:)和m（j，:)。

相似之处= CasineIpileity（M1，M2）返回在矩阵中编码的文档之间的相似性M1和M2。得分相似之处（I，J）对应于之间的相似性M1（我，:)和M2（j，:)。

例子

全部收缩

文件之间的相似性

打开直播脚本

创建一系列令牌化文件。

textdata = [“快速的棕色狐狸跳过懒狗”“快速的棕色狐狸跳过懒狗”“懒狗坐在那里，没有什么”“其他动物坐在那里看着”];文档= tokenizeddocument（textdata）

文档= 4x1令牌Document：9令牌：快速的棕色狐狸跳过懒狗9令牌：快速的棕色狐狸跳过懒狗8令牌：懒狗坐在那里，没有什么6令牌：其他动物坐在那里看

计算它们之间的相似之处casinediepilarity.功能。输出是稀疏矩阵。

相似之处= CasineIpilarity（文件）;

在热图中可视化文档之间的相似性。

图热图（相似之处）;Xlabel（“文档”）ylabel（“文档”） 标题（“余弦相似之处”的）

图包含“热图”的对象。型热图的图表具有标题余弦相似之处。

靠近一个的分数表示强烈的相似性。靠近零的分数表示弱相似之处。

类似于查询的相似之处

打开直播脚本

创建一个输入文档数组。

str = [“快速的棕色狐狸跳过懒狗”“快速的狐狸跳过懒狗”“狗坐在那里，没什么”“其他动物坐在那里看着”];文档= tokenizeddocument（str）

文档= 4x1令牌Document：9令牌：快速的棕色狐狸跳过懒狗8令牌：快速的狐狸跳过懒狗7令牌：狗坐在那里，没有什么6令牌：其他动物坐在那里

创建一系列查询文档。

str = [“一只棕色的狐狸跳过懒狗”“另一只狐狸跳过狗”];查询= tokenizeddocument（str）

查询= 2x1令牌地区：8令牌：棕色狐狸跳过懒狗6令牌：另一只狐狸跳过狗

计算输入和查询文档之间的相似性casinediepilarity.功能。输出是稀疏矩阵。

相似之处= Casinediemillity（文件，查询）;

在热图中可视化文档的相似之处。

图热图（相似之处）;Xlabel（“查询文档”）ylabel（“输入文件”） 标题（“余弦相似之处”的）

图包含“热图”的对象。型热图的图表具有标题余弦相似之处。

靠近一个的分数表示强烈的相似性。靠近零的分数表示弱相似之处。

使用袋式模型的文档相似度

打开直播脚本

从文本数据中创建一个单词袋式模型Sonnets.csv.。

filename =“sonnets.csv”;tbl = readtable（文件名，'texttype'那'细绳'）;textdata = tbl.sonnet;文档= tokenizeddocument（textdata）;袋= bagofwords（文件）

BAG =具有属性的BAGOFWORDS：COUNTS：[154x3527双]词汇：[“来自”“FIALEST”“生物”“我们”......] NUMWORDS：3527 NUMFOCUMENTS：154

计算SONNET之间的相似之处使用casinediepilarity.功能。输出是稀疏矩阵。

相似之处= CASINESIMILARY（袋）;

在热图中可视化前五个文档的相似性。

图热图（相似之处（1：5,1：5））;Xlabel（“文档”）ylabel（“文档”） 标题（“余弦相似之处”的）

图包含“热图”的对象。型热图的图表具有标题余弦相似之处。

靠近一个的分数表示强烈的相似性。靠近零的分数表示弱相似之处。

单词数矩阵中的相似之处

打开直播脚本

对于袋式输入，casinediepilarity.功能使用从模型中派生的TF-IDF矩阵来计算余弦相似度。要直接计算单词计数向量上的余弦相似之处，请输入单词计数casinediepilarity.用作矩阵。

从文本数据中创建一个单词袋式模型Sonnets.csv.。

filename =“sonnets.csv”;tbl = readtable（文件名，'texttype'那'细绳'）;textdata = tbl.sonnet;文档= tokenizeddocument（textdata）;袋= bagofwords（文件）

BAG =具有属性的BAGOFWORDS：COUNTS：[154x3527双]词汇：[“来自”“FIALEST”“生物”“我们”......] NUMWORDS：3527 NUMFOCUMENTS：154

从模型中获取单词计数的矩阵。

m = bag.counts;

计算单词计数矩阵的余弦文档相似性使用casinediepilarity.功能。输出是稀疏矩阵。

相似之处= CASINESIMILARY（M）;

在热图中可视化前五个文档的相似性。

图热图（相似之处（1：5,1：5））;Xlabel（“文档”）ylabel（“文档”） 标题（“余弦相似之处”的）

图包含“热图”的对象。型热图的图表具有标题余弦相似之处。

靠近一个的分数表示强烈的相似性。靠近零的分数表示弱相似之处。

输入参数

全部收缩

`文件`-输入文件
`令人生畏的鳕文`大批|字符串数组|特区字符向量阵列

输入文档，指定为a令人生畏的鳕文数组，字符串数组或字符向量的单元格数组。如果文件不是一个令人生畏的鳕文阵列，那么它必须是表示单个文档的行向量，其中每个元素是一个单词。要指定多个文档，请使用a令人生畏的鳕文大批。

`包`-输入模型
`Bagofwords.`目的|`Bagofngrams.`目的

输入袋式或n-grams模型，指定为aBagofwords.对象或A.Bagofngrams.目的。如果包是A.Bagofngrams.对象，然后该函数将每个n-gram视为单个单词。

`疑问`-套查询文档
`令人生畏的鳕文`大批|字符串数组|特区字符向量阵列

一组查询文档，指定为以下之一：

一种令人生畏的鳕文大批
一个1-by-N.字符串数组表示单个文档，其中每个元素是单词
一个1-by-N.表示单个文档的字符向量的单元格阵列，其中每个元素是一个单词

要计算术语频率和逆文档频率统计信息，函数编码疑问使用袋式模型。它使用的模型取决于您调用它的语法。如果您的语法指定输入参数文件然后它使用bagofwords（文件）。如果您的语法指定包，然后函数编码疑问使用包然后使用生成的TF-IDF矩阵。

`M.`-输入数据
矩阵

输入数据，指定为矩阵。例如，M.可以是单词或n-gram计数的矩阵或TF-IDF矩阵。

数据类型：双倍的

输出参数

全部收缩

`相似之处`- 余弦相似分数
稀疏矩阵

余弦相似度分数，作为稀疏矩阵返回：

给定单个令牌文件，相似之处是A.N.-经过-N.对称矩阵，其中相似之处（I，J）表示相似之处文件（i）和文件（j），n是输入文档的数量。
鉴于一系列令牌化文档和一组查询文档，相似之处是一个n1.-经过-N2.矩阵，其中相似之处（I，J）表示相似之处文件（i）和j查询文档，和n1.和N2.代表文件的数量文件和疑问，分别。
给定单个单词或n-r克模型，相似之处是A.bag.numdocuments.-经过-bag.numdocuments.对称矩阵，其中相似之处（I，J）代表了相似之处一世他和j编码的文件包。
给出了一个单词或n-r克模型和一组查询文档，相似之处是A.bag.numdocuments.-经过-N2.矩阵，其中相似之处（I，J）代表了相似之处一世编码的文件包和j文件在疑问，和N2.对应于文件的数量疑问。
给定单个矩阵，相似之处是A.尺寸（m，1）-经过-尺寸（m，1）对称矩阵，其中相似之处（I，J）表示相似之处m（我，:)和m（j，:)。
给定两个矩阵，相似之处是一个尺寸（m1,1）-经过-尺寸（m2,1）矩阵，其中相似之处（I，J）表示相似之处M1（我，:)和M2（j，:)。

也可以看看

话题

使用注意的序列到序列翻译

在R2020A介绍

casinediepilarity.

句法

描述

例子

文件之间的相似性

类似于查询的相似之处

使用袋式模型的文档相似度

单词数矩阵中的相似之处

输入参数

`文件`-输入文件
`令人生畏的鳕文`大批|字符串数组|特区字符向量阵列

`包`-输入模型
`Bagofwords.`目的|`Bagofngrams.`目的

`疑问`-套查询文档
`令人生畏的鳕文`大批|字符串数组|特区字符向量阵列

`M.`-输入数据
矩阵

输出参数

`相似之处`- 余弦相似分数
稀疏矩阵

也可以看看

话题

文本分析工具箱文档

万博1manbetx

在Matlab中的文本分析入门

casinediepilarity.

句法

描述

例子

文件之间的相似性

类似于查询的相似之处

使用袋式模型的文档相似度

单词数矩阵中的相似之处

输入参数

文件-输入文件令人生畏的鳕文大批|字符串数组|特区字符向量阵列

包-输入模型Bagofwords.目的|Bagofngrams.目的

疑问-套查询文档令人生畏的鳕文大批|字符串数组|特区字符向量阵列

M.-输入数据矩阵

输出参数

相似之处- 余弦相似分数稀疏矩阵

也可以看看

话题

文本分析工具箱文档

万博1manbetx

在Matlab中的文本分析入门

`文件`-输入文件
`令人生畏的鳕文`大批|字符串数组|特区字符向量阵列

`包`-输入模型
`Bagofwords.`目的|`Bagofngrams.`目的

`疑问`-套查询文档
`令人生畏的鳕文`大批|字符串数组|特区字符向量阵列

`M.`-输入数据
矩阵

`相似之处`- 余弦相似分数
稀疏矩阵