文档帮助中心文档
单词袋模型或LDA主题中最重要的单词
台= topkwords(袋)
台= topkwords(袋、k)
台= topkwords (ldaMdl k topicIdx)
台= topkwords (___、名称、值)
例子
资源描述= topkwords (袋)返回单词袋模型中包含最大单词数的五个单词的表袋.缺省情况下,该函数区分大小写。
资源描述= topkwords (袋)
资源描述
袋
资源描述= topkwords (袋,k)的表k单词数最多的单词。缺省情况下,该函数区分大小写。
资源描述= topkwords (袋,k)
k
资源描述= topkwords (ldaMdl,k,topicIdx)的表k潜在狄利克雷分配(LDA)主题中概率最高的词topicIdxLDA模型中ldaMdl.
资源描述= topkwords (ldaMdl,k,topicIdx)
ldaMdl
topicIdx
资源描述= topkwords (___,名称,值)使用一个或多个名称-值对参数指定其他选项。
资源描述= topkwords (___,名称,值)
名称,值
全部折叠
创建一个单词袋模型中最常用单词的表。
加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetsPreprocessed.txt,将文本以换行符分割为文档,然后标记文档。
sonnetsPreprocessed.txt
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
创建一个词袋模型使用bagOfWords.
bagOfWords
袋= bagOfWords(文档)
bag = bagOfWords with properties: Counts: [154x3092 double]词汇:[1x3092 string] NumWords: 3092 NumDocuments: 154
找出最常用的五个单词。
T = topkwords(袋);
在模型中找出前20个单词。
k = 20;T = topkwords(袋、k)
T =20×2表词数________ _____ "你" 281 "你" 234 "爱" 162 "你" 161 "做" 88 "我" 63 "将" 59 "眼睛" 56 "甜蜜" 55 "时间" 53 "美" 52 "或"艺术" 51 "但" 51 " "心" 50⋮
创建一个包含LDA主题概率最高的单词的表。
要重现结果,请设置rng来“默认”.
rng
“默认”
rng (“默认”)
袋= bagOfWords(文件);
拟合具有20个主题的LDA模型。要抑制verbose输出,请设置“详细”为0。
“详细”
numTopics = 20;mdl = fitlda(袋、numTopics、“详细”, 0);
找出第一个主题的前20个单词。
k = 20;topicIdx = 1;台= topkwords (mdl k topicIdx)
台=20×2表单词得分________ _________“eyes”0.11155“beauty”0.01577“has”0.055778“still”0.049801“true”0.043825“mine”0.033865“find”0.031873“black”0.025897“look”0.023905“tis”0.023905“kind”0.021913“seen”0.021913“found”0.017929“sin”0.015937“three”0.013945“golden”0.0099608⋮
找到第一个主题的前20个单词,并使用反平均比例的分数。
台= topkwords (mdl k topicIdx,“缩放”,“inversemean”)
台=20×2表单词得分________ ________ "eyes" 1.2718 "beauty" 0.9022 " has " 0.5692 "still" 0.50269 "true" 0.43719 "mine" 0.32764 "find" 0.32544 "black" 0.25931 "tis" 0.23755 "look" 0.22519 "kind" 0.21594 "seen" 0.21594 "found" 0.17326 "sin" 0.15223 "three" 0.13143 "golden" 0.090698⋮
使用缩放的分数作为大小数据创建一个单词云。
图wordcloud (tbl.Word tbl.Score);
输入词袋模型,指定为bagOfWords对象。
要返回的字数,指定为正整数。
例子:20.
ldaModel
输入LDA模型,指定为ldaModel对象。
LDA主题索引,指定为非负整数。
指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家.
的名字
价值
Name1, Value1,…,的家
“缩放”、“inversemean”
“IgnoreCase”
假
真正的
选项忽略大小写,指定为逗号分隔的对,由“IgnoreCase”以及以下其中之一:
假-将大小写不同的单词作为单独的单词。
真正的-将大小写不同的单词视为相同的单词,并合并计数。
这个选项只支持单词袋输入万博1manbetx。
“ForceCellOutput”
强制将输出作为单元格数组返回的指示符,指定为由逗号分隔的对组成“ForceCellOutput”和真正的或假.
数据类型:逻辑
逻辑
“缩放”
“没有”
“inversemean”
扩展以应用于主题词的概率,指定为逗号分隔对,由“缩放”以及以下其中之一:
“没有”-返回后一个词的概率。
“inversemean”-对每个主题的后验词概率进行归一化,该概率为该词在所有主题中的后验概率的几何平均值。这个函数使用这个公式φ。*(日志(φ)意味着(日志(φ),1)),在那里φ对应于ldaMdl。TopicWordProbabilities.
φ。*(日志(φ)意味着(日志(φ),1))
φ
ldaMdl。TopicWordProbabilities
此选项仅支持LDA模型输万博1manbetx入。
例子:“缩放”、“inversemean”
数据类型:字符
字符
按重要性排序的最上面的单词的表格或表格的单元格数组。
当输入是单词袋模型时,表有以下几列:
词
数
如果袋是非标量数组还是“ForceCellOutput”是真正的,然后该函数将输出作为表的单元格数组返回。单元格数组中的每个元素都是一个表,其中包含对应元素的顶部单词袋.
当输入为LDA模型时,表中有以下几列:
分数
要在n-g包模型中找到最常见的n-g,请使用topkngrams.
topkngrams
bagOfNgrams|bagOfWords|ldaModel|removeInfrequentWords|removeWords|tfidf|tokenizedDocument|topkngrams
bagOfNgrams
removeInfrequentWords
removeWords
tfidf
tokenizedDocument
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系