文件帮助中心文件
与余弦相似度的文档相似度
相似之处= CasineIpilarity(文件)
相似之处= Casinediemillity(文件,查询)
相似之处= CASINESIMILARY(袋)
相似之处= CasineIpileity(袋子,查询)
相似之处= casineIpilarity(m)
相似之处= CASINESIMILARY(M1,M2)
例子
相似之处= Casinediemilarity(文件的)使用从其单词计数派生的TF-IDF矩阵返回指定文档的成对余弦相似度。得分相似之处(I,J)表示相似之处文件(i)和文件(j)。
相似之处= Casinediemilarity(文件的)
相似之处
文件
相似之处(I,J)
文件(i)
文件(j)
相似之处= Casinediemilarity(文件那疑问的)返回之间的相似之处文件和疑问使用从单词计数中派生的TF-IDF矩阵文件。得分相似之处(I,J)表示相似之处文件(i)和查询(j)。
相似之处= Casinediemilarity(文件那疑问的)
疑问
查询(j)
相似之处= Casinediemilarity(包的)使用从单词计数中派生的TF-IDF矩阵来返回由指定的单词或N-GRAMS模型编码的文档的成对相似性包。得分相似之处(I,J)代表了相似之处一世他和j编码的文件包。
相似之处= Casinediemilarity(包的)
包
一世
j
相似之处= Casinediemilarity(包那疑问的)返回由文字袋或n-grams模型编码的文档之间的相似之处包和疑问使用从单词计数中派生的TF-IDF矩阵包。得分相似之处(I,J)代表了相似之处一世编码的文件包和查询(j)。
相似之处= Casinediemilarity(包那疑问的)
相似之处= Casinediemilarity(M.的)返回在矩阵的行向量中编码的数据的相似之处M.。得分相似之处(I,J)表示相似之处m(我,:)和m(j,:)。
相似之处= Casinediemilarity(M.的)
M.
m(我,:)
m(j,:)
相似之处= CasineIpileity(M1,M2)返回在矩阵中编码的文档之间的相似性M1和M2。得分相似之处(I,J)对应于之间的相似性M1(我,:)和M2(j,:)。
相似之处= CasineIpileity(M1,M2)
M1
M2
M1(我,:)
M2(j,:)
全部收缩
创建一系列令牌化文件。
textdata = [“快速的棕色狐狸跳过懒狗”“快速的棕色狐狸跳过懒狗”“懒狗坐在那里,没有什么”“其他动物坐在那里看着”];文档= tokenizeddocument(textdata)
文档= 4x1令牌Document:9令牌:快速的棕色狐狸跳过懒狗9令牌:快速的棕色狐狸跳过懒狗8令牌:懒狗坐在那里,没有什么6令牌:其他动物坐在那里看
计算它们之间的相似之处casinediepilarity.功能。输出是稀疏矩阵。
casinediepilarity.
相似之处= CasineIpilarity(文件);
在热图中可视化文档之间的相似性。
图热图(相似之处);Xlabel(“文档”)ylabel(“文档”) 标题(“余弦相似之处”的)
靠近一个的分数表示强烈的相似性。靠近零的分数表示弱相似之处。
创建一个输入文档数组。
str = [“快速的棕色狐狸跳过懒狗”“快速的狐狸跳过懒狗”“狗坐在那里,没什么”“其他动物坐在那里看着”];文档= tokenizeddocument(str)
文档= 4x1令牌Document:9令牌:快速的棕色狐狸跳过懒狗8令牌:快速的狐狸跳过懒狗7令牌:狗坐在那里,没有什么6令牌:其他动物坐在那里
创建一系列查询文档。
str = [“一只棕色的狐狸跳过懒狗”“另一只狐狸跳过狗”];查询= tokenizeddocument(str)
查询= 2x1令牌地区:8令牌:棕色狐狸跳过懒狗6令牌:另一只狐狸跳过狗
计算输入和查询文档之间的相似性casinediepilarity.功能。输出是稀疏矩阵。
相似之处= Casinediemillity(文件,查询);
在热图中可视化文档的相似之处。
图热图(相似之处);Xlabel(“查询文档”)ylabel(“输入文件”) 标题(“余弦相似之处”的)
从文本数据中创建一个单词袋式模型Sonnets.csv.。
Sonnets.csv.
filename =“sonnets.csv”;tbl = readtable(文件名,'texttype'那'细绳');textdata = tbl.sonnet;文档= tokenizeddocument(textdata);袋= bagofwords(文件)
BAG =具有属性的BAGOFWORDS:COUNTS:[154x3527双]词汇:[“来自”“FIALEST”“生物”“我们”......] NUMWORDS:3527 NUMFOCUMENTS:154
计算SONNET之间的相似之处使用casinediepilarity.功能。输出是稀疏矩阵。
相似之处= CASINESIMILARY(袋);
在热图中可视化前五个文档的相似性。
图热图(相似之处(1:5,1:5));Xlabel(“文档”)ylabel(“文档”) 标题(“余弦相似之处”的)
对于袋式输入,casinediepilarity.功能使用从模型中派生的TF-IDF矩阵来计算余弦相似度。要直接计算单词计数向量上的余弦相似之处,请输入单词计数casinediepilarity.用作矩阵。
从模型中获取单词计数的矩阵。
m = bag.counts;
计算单词计数矩阵的余弦文档相似性使用casinediepilarity.功能。输出是稀疏矩阵。
相似之处= CASINESIMILARY(M);
令人生畏的鳕文
输入文档,指定为a令人生畏的鳕文数组,字符串数组或字符向量的单元格数组。如果文件不是一个令人生畏的鳕文阵列,那么它必须是表示单个文档的行向量,其中每个元素是一个单词。要指定多个文档,请使用a令人生畏的鳕文大批。
Bagofwords.
Bagofngrams.
输入袋式或n-grams模型,指定为aBagofwords.对象或A.Bagofngrams.目的。如果包是A.Bagofngrams.对象,然后该函数将每个n-gram视为单个单词。
一组查询文档,指定为以下之一:
一种令人生畏的鳕文大批
一个1-by-N.字符串数组表示单个文档,其中每个元素是单词
一个1-by-N.表示单个文档的字符向量的单元格阵列,其中每个元素是一个单词
要计算术语频率和逆文档频率统计信息,函数编码疑问使用袋式模型。它使用的模型取决于您调用它的语法。如果您的语法指定输入参数文件然后它使用bagofwords(文件)。如果您的语法指定包,然后函数编码疑问使用包然后使用生成的TF-IDF矩阵。
bagofwords(文件)
输入数据,指定为矩阵。例如,M.可以是单词或n-gram计数的矩阵或TF-IDF矩阵。
数据类型:双倍的
双倍的
余弦相似度分数,作为稀疏矩阵返回:
给定单个令牌文件,相似之处是A.N.-经过-N.对称矩阵,其中相似之处(I,J)表示相似之处文件(i)和文件(j),n是输入文档的数量。
鉴于一系列令牌化文档和一组查询文档,相似之处是一个n1.-经过-N2.矩阵,其中相似之处(I,J)表示相似之处文件(i)和j查询文档,和n1.和N2.代表文件的数量文件和疑问, 分别。
给定单个单词或n-r克模型,相似之处是A.bag.numdocuments.-经过-bag.numdocuments.对称矩阵,其中相似之处(I,J)代表了相似之处一世他和j编码的文件包。
bag.numdocuments.
给出了一个单词或n-r克模型和一组查询文档,相似之处是A.bag.numdocuments.-经过-N2.矩阵,其中相似之处(I,J)代表了相似之处一世编码的文件包和j文件在疑问, 和N2.对应于文件的数量疑问。
给定单个矩阵,相似之处是A.尺寸(m,1)-经过-尺寸(m,1)对称矩阵,其中相似之处(I,J)表示相似之处m(我,:)和m(j,:)。
尺寸(m,1)
给定两个矩阵,相似之处是一个尺寸(m1,1)-经过-尺寸(m2,1)矩阵,其中相似之处(I,J)表示相似之处M1(我,:)和M2(j,:)。
尺寸(m1,1)
尺寸(m2,1)
令人生畏的鳕文|bleuevaluationscore.|Rougeevaluationscore.|BM25SIMILARY.|textrankscores.|LexRankScores.|mmrscores.|提取物
bleuevaluationscore.
Rougeevaluationscore.
BM25SIMILARY.
textrankscores.
LexRankScores.
mmrscores.
提取物
您拥有此示例的修改版本。您是否希望使用您的编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
在MATLAB命令窗口中输入它来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站,以便在可用的地方进行翻译内容,并查看本地活动和优惠。根据您的位置,我们建议您选择:。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获得最佳网站性能。其他MathWorks国家网站未优化您所在地的访问。
联系您当地的办公室