主要内容

Fitlsa.

适合LSA模型

描述

潜在语义分析(LSA)模型发现文档之间的关系和它们包含的单词。LSA模型是一种维度减少工具,用于在高维词数上运行低维统计模型。如果模型适合使用袋式革袋模型,那么软件将N-GRAM视为单独的单词。

例子

MDL.= fitlsa(NumComponents.适合LSA模型NumComponents.组件到单词袋或n-grams模型

例子

MDL.= fitlsa(NumComponents.适合由单词计数矩阵表示的文件的LSA模型

例子

MDL.= fitlsa(___名称,价值使用一个或多个名称值对参数指定其他选项。

例子

全部收缩

将潜在语义分析模型适合一系列文件。

加载示例数据。文件sonnetspreprocessed.txt.txt.包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗,单词由空格分隔。从中提取文本sonnetspreprocessed.txt.txt.,将文本拆分为换行符的文档,然后授权文档。

filename =.“sonnetspreprocessed.txt”;str = inthelfiletext(filename);textdata = split(str,newline);文档= tokenizeddocument(textdata);

使用袋式模型使用Bagofwords.

BAG = BAGOFWORDS(文件)
BAG =具有属性的BagofWords:计数:[154x3092双]词汇:[1x3092字符串] numwords:3092 numfocuments:154

适合20个组件的LSA模型。

NumComponents = 20;mdl = fitlsa(袋子,num components)
mdl = lsamodel具有属性:NumComponents:20个组件重量:[1x20 Double] DocumentCores:[154x20 Double] Wordcores:[3092x20 Double]词汇表:[1x3092字符串] Featureestrengthexponent:2

使用LSA模型将新文档转换为较低的维度空间。

newdocuments = tokenizeddocument([“什么名字?任何其他名字的玫瑰都会闻起来。”“如果音乐成为爱的食物,就会扮演。”]);dscores = transform(mdl,newdocuments)
dscores =2×200.1338 0.1623 0.1680 -0.0541 -0.2464 -0.0134 -0.2604 -0.0205 -0.1127 0.0627 0.3311 -0.2327 0.1689 -0.2695 0.0228 0.1241 0.1198 0.2535 -0.0607 0.0305 0.2547 0.5576 -0.0095 0.5660 -0.0643 -0.1236 0.0082 0.0522 0.0690 -0.0330 0.0385 0.0803 -0.0373 0.0384 -0.00050.1943 0.0207 0.0278 0.0101 -0.0469

加载示例数据。sonnetscounts.mat包含与PRopossed版本的Shakespeare Sonnets对应的单词计数矩阵。

加载sonnetscounts.mat尺寸(计数)
ans =.1×2154 3092

适合20个组件的LSA模型。将功能强度指数设置为4。

NumComponents = 20;exponent = 4;mdl = fitlsa(计数,num components,......'featureestrengthexponent',指数)
MDL = LSAMODEL具有属性:NUMCOMPONENTS:20个组件重量:[1x20 DOUBLE] DocumentCores:[154x20 Double] Wordcores:[3092x20双]词汇:[1x3092字符串] Featureestrengthexponent:4

输入参数

全部收缩

输入袋式袋或n-grams模型,指定为aBagofwords.对象或A.bagofngrams.目的。如果是A.bagofngrams.对象,然后该函数将每个n-gram视为单个单词。

指定为正整数的组件数。此值必须小于输入文档的数量,以及输入文档的词汇量大小。

例子:200.

单词频率计数,指定为非负整数的矩阵。如果您指定'documentsin'成为'行',那么值计数(i,j)对应于次数j词汇的单词出现在一世文件。否则,值计数(i,j)对应于次数一世词汇的单词出现在j文件。

名称值对参数

指定可选的逗号分离对名称,价值论点。名称是参数名称和价值是相应的价值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:'featurectrengthexponent',4将功能强度指数设置为4。

单词计数矩阵中的文档取向,指定为逗号分隔对组成'documentsin'和以下之一:

  • '行'- 输入是单词计数的矩阵,具有与文档相对应的行。

  • '列'- 输入是单词计数的转换矩阵,具有对应于文档的列。

如果您将输入文档指定为单词计数的矩阵,则此选项仅适用。

笔记

如果您定位了单词计数矩阵,以便文档对应列并指定'docuidesin','列',然后您可能会遇到优化执行时间的显着减少。

初始功能强度指数,指定为非负标量。此值会缩放特征组件优势doometercores.字节码, 和转换职能。

例子:'featurectrengthexponent',4

数据类型:单身的|双倍的|INT8.|int16|INT32.|INT64.|uint8.|uint16|UINT32|UINT64

输出参数

全部收缩

输出LSA模型,作为返回lsamodel.目的。

在R2017B中介绍