文件帮助中心文件
适合LSA模型
mdl = fitlsa(袋子,num components)
mdl = fitlsa(计数,num components)
mdl = fitlsa(___,名称,价值)
潜在语义分析(LSA)模型发现文档之间的关系和它们包含的单词。LSA模型是一种维度减少工具,用于在高维词数上运行低维统计模型。如果模型适合使用袋式革袋模型,那么软件将N-GRAM视为单独的单词。
例子
MDL.= fitlsa(包那NumComponents.)适合LSA模型NumComponents.组件到单词袋或n-grams模型包。
MDL.= fitlsa(包那NumComponents.)
MDL.
包
NumComponents.
MDL.= fitlsa(算那NumComponents.)适合由单词计数矩阵表示的文件的LSA模型算。
MDL.= fitlsa(算那NumComponents.)
算
MDL.= fitlsa(___那名称,价值)使用一个或多个名称值对参数指定其他选项。
MDL.= fitlsa(___那名称,价值)
名称,价值
全部收缩
将潜在语义分析模型适合一系列文件。
加载示例数据。文件sonnetspreprocessed.txt.txt.包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗,单词由空格分隔。从中提取文本sonnetspreprocessed.txt.txt.,将文本拆分为换行符的文档,然后授权文档。
sonnetspreprocessed.txt.txt.
filename =.“sonnetspreprocessed.txt”;str = inthelfiletext(filename);textdata = split(str,newline);文档= tokenizeddocument(textdata);
使用袋式模型使用Bagofwords.。
Bagofwords.
BAG = BAGOFWORDS(文件)
BAG =具有属性的BagofWords:计数:[154x3092双]词汇:[1x3092字符串] numwords:3092 numfocuments:154
适合20个组件的LSA模型。
NumComponents = 20;mdl = fitlsa(袋子,num components)
mdl = lsamodel具有属性:NumComponents:20个组件重量:[1x20 Double] DocumentCores:[154x20 Double] Wordcores:[3092x20 Double]词汇表:[1x3092字符串] Featureestrengthexponent:2
使用LSA模型将新文档转换为较低的维度空间。
newdocuments = tokenizeddocument([“什么名字?任何其他名字的玫瑰都会闻起来。”“如果音乐成为爱的食物,就会扮演。”]);dscores = transform(mdl,newdocuments)
dscores =2×200.1338 0.1623 0.1680 -0.0541 -0.2464 -0.0134 -0.2604 -0.0205 -0.1127 0.0627 0.3311 -0.2327 0.1689 -0.2695 0.0228 0.1241 0.1198 0.2535 -0.0607 0.0305 0.2547 0.5576 -0.0095 0.5660 -0.0643 -0.1236 0.0082 0.0522 0.0690 -0.0330 0.0385 0.0803 -0.0373 0.0384 -0.00050.1943 0.0207 0.0278 0.0101 -0.0469
加载示例数据。sonnetscounts.mat包含与PRopossed版本的Shakespeare Sonnets对应的单词计数矩阵。
sonnetscounts.mat
加载sonnetscounts.mat尺寸(计数)
ans =.1×2154 3092
适合20个组件的LSA模型。将功能强度指数设置为4。
NumComponents = 20;exponent = 4;mdl = fitlsa(计数,num components,......'featureestrengthexponent',指数)
MDL = LSAMODEL具有属性:NUMCOMPONENTS:20个组件重量:[1x20 DOUBLE] DocumentCores:[154x20 Double] Wordcores:[3092x20双]词汇:[1x3092字符串] Featureestrengthexponent:4
bagofngrams.
输入袋式袋或n-grams模型,指定为aBagofwords.对象或A.bagofngrams.目的。如果包是A.bagofngrams.对象,然后该函数将每个n-gram视为单个单词。
指定为正整数的组件数。此值必须小于输入文档的数量,以及输入文档的词汇量大小。
例子:200.
单词频率计数,指定为非负整数的矩阵。如果您指定'documentsin'成为'行',那么值计数(i,j)对应于次数j词汇的单词出现在一世文件。否则,值计数(i,j)对应于次数一世词汇的单词出现在j文件。
'documentsin'
'行'
计数(i,j)
指定可选的逗号分离对名称,价值论点。名称是参数名称和价值是相应的价值。名称必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen。
名称
价值
name1,value1,...,namen,valuen
'featurectrengthexponent',4
'列'
单词计数矩阵中的文档取向,指定为逗号分隔对组成'documentsin'和以下之一:
'行'- 输入是单词计数的矩阵,具有与文档相对应的行。
'列'- 输入是单词计数的转换矩阵,具有对应于文档的列。
如果您将输入文档指定为单词计数的矩阵,则此选项仅适用。
笔记
如果您定位了单词计数矩阵,以便文档对应列并指定'docuidesin','列',然后您可能会遇到优化执行时间的显着减少。
'docuidesin','列'
'featureestrengthexponent'
初始功能强度指数,指定为非负标量。此值会缩放特征组件优势doometercores.那字节码, 和转换职能。
doometercores.
字节码
转换
例子:'featurectrengthexponent',4
数据类型:单身的|双倍的|INT8.|int16|INT32.|INT64.|uint8.|uint16|UINT32|UINT64
单身的
双倍的
INT8.
int16
INT32.
INT64.
uint8.
uint16
UINT32
UINT64
lsamodel.
输出LSA模型,作为返回lsamodel.目的。
bagofngrams.|Bagofwords.|菲达|Ldamodel.|lsamodel.|转换
菲达
Ldamodel.
您有此示例的修改版本。您是否希望使用您的编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
在MATLAB命令窗口中输入它来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站,以便在可用的地方进行翻译的内容,并查看本地活动和优惠。根据您的位置,我们建议您选择:。
您还可以从以下列表中选择一个网站:
选择中国网站(以中文或英文)以获取最佳网站性能。其他MathWorks国家网站未优化您的位置。
联系您当地的办公室