topkwords

单词袋模型或LDA主题中最重要的单词

折叠所有页面

语法

台= topkwords(袋)

台= topkwords(袋、k)

台= topkwords (ldaMdl k topicIdx)

台= topkwords (＿＿_、名称、值)

描述

例子

资源描述= topkwords (袋）返回单词袋模型中包含最大单词数的五个单词的表袋．缺省情况下，该函数区分大小写。

例子

资源描述= topkwords (袋,k）的表k单词数最多的单词。缺省情况下，该函数区分大小写。

例子

资源描述= topkwords (ldaMdl,k,topicIdx）的表k潜在狄利克雷分配(LDA)主题中概率最高的词topicIdxLDA模型中ldaMdl．

例子

资源描述= topkwords (＿＿_,名称,值）使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

单词袋模型中最常见的单词

打开生活的脚本

创建一个单词袋模型中最常用单词的表。

加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗，单词之间用空格分隔。将文本从sonnetsPreprocessed.txt，将文本以换行符分割为文档，然后标记文档。

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个词袋模型使用bagOfWords．

袋= bagOfWords(文档)

bag = bagOfWords with properties: Counts: [154x3092 double]词汇:[1x3092 string] NumWords: 3092 NumDocuments: 154

找出最常用的五个单词。

T = topkwords(袋);

在模型中找出前20个单词。

k = 20;T = topkwords(袋、k)

T =20×2表词数________ _____ "你" 281 "你" 234 "爱" 162 "你" 161 "做" 88 "我" 63 "将" 59 "眼睛" 56 "甜蜜" 55 "时间" 53 "美" 52 "或"艺术" 51 "但" 51 " "心" 50⋮

LDA主题的最高概率词

打开生活的脚本

创建一个包含LDA主题概率最高的单词的表。

要重现结果，请设置rng来“默认”．

rng (“默认”）

文件名=“sonnetsPreprocessed.txt”；str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个词袋模型使用bagOfWords．

袋= bagOfWords(文件);

拟合具有20个主题的LDA模型。要抑制verbose输出，请设置“详细”为0。

numTopics = 20;mdl = fitlda(袋、numTopics、“详细”, 0);

找出第一个主题的前20个单词。

k = 20;topicIdx = 1;台= topkwords (mdl k topicIdx)

台=20×2表单词得分________ _________“eyes”0.11155“beauty”0.01577“has”0.055778“still”0.049801“true”0.043825“mine”0.033865“find”0.031873“black”0.025897“look”0.023905“tis”0.023905“kind”0.021913“seen”0.021913“found”0.017929“sin”0.015937“three”0.013945“golden”0.0099608⋮

找到第一个主题的前20个单词，并使用反平均比例的分数。

台= topkwords (mdl k topicIdx,“缩放”,“inversemean”）

台=20×2表单词得分________ ________ "eyes" 1.2718 "beauty" 0.9022 " has " 0.5692 "still" 0.50269 "true" 0.43719 "mine" 0.32764 "find" 0.32544 "black" 0.25931 "tis" 0.23755 "look" 0.22519 "kind" 0.21594 "seen" 0.21594 "found" 0.17326 "sin" 0.15223 "three" 0.13143 "golden" 0.090698⋮

使用缩放的分数作为大小数据创建一个单词云。

图wordcloud (tbl.Word tbl.Score);

图中包含一个wordcloud类型的对象。

输入参数

全部折叠

`袋`- - - - - -输入bag-of-words模型
`bagOfWords`对象

输入词袋模型，指定为bagOfWords对象。

`k`- - - - - -单词量
非负整数

要返回的字数，指定为正整数。

例子:20.

`ldaMdl`- - - - - -输入LDA模型
`ldaModel`对象

输入LDA模型，指定为ldaModel对象。

`topicIdx`- - - - - -LDA主题索引
非负整数

LDA主题索引，指定为非负整数。

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家．

例子:“缩放”、“inversemean”指定对主题词的概率使用逆平均缩放。

Bag-of-Words模型选项

全部折叠

`“IgnoreCase”`- - - - - -忽略大小写选项
`假`(默认)|`真正的`

选项忽略大小写，指定为逗号分隔的对，由“IgnoreCase”以及以下其中之一:

假-将大小写不同的单词作为单独的单词。
真正的-将大小写不同的单词视为相同的单词，并合并计数。

这个选项只支持单词袋输入万博1manbetx。

`“ForceCellOutput”`- - - - - -强制以单元格数组形式返回输出的指示符
`假`(默认)|`真正的`

强制将输出作为单元格数组返回的指示符，指定为由逗号分隔的对组成“ForceCellOutput”和真正的或假．

这个选项只支持单词袋输入万博1manbetx。

数据类型:逻辑

LDA模型选项

全部折叠

`“缩放”`- - - - - -缩放以应用于主题词的概率
`“没有”`(默认)|`“inversemean”`

扩展以应用于主题词的概率，指定为逗号分隔对，由“缩放”以及以下其中之一:

“没有”-返回后一个词的概率。
“inversemean”-对每个主题的后验词概率进行归一化，该概率为该词在所有主题中的后验概率的几何平均值。这个函数使用这个公式φ。*(日志(φ)意味着(日志(φ),1)),在那里φ对应于ldaMdl。TopicWordProbabilities．

此选项仅支持LDA模型输万博1manbetx入。

例子:“缩放”、“inversemean”

数据类型:字符

输出参数

全部折叠

`资源描述`- top words列表
表|单元格数组的表

按重要性排序的最上面的单词的表格或表格的单元格数组。

当输入是单词袋模型时，表有以下几列:

`词`	指定为字符串的字
`数`	单词袋模型中单词出现的次数

如果袋是非标量数组还是“ForceCellOutput”是真正的，然后该函数将输出作为表的单元格数组返回。单元格数组中的每个元素都是一个表，其中包含对应元素的顶部单词袋．

当输入为LDA模型时，表中有以下几列:

`词`	指定为字符串的字
`分数`	给定LDA主题的单词概率

提示

要在n-g包模型中找到最常见的n-g，请使用topkngrams．

另请参阅

主题

介绍了R2017b

文本分析工具箱文档

万博1manbetx

入门文本分析在MATLAB

立即下载

topkwords

语法

描述

例子

单词袋模型中最常见的单词

LDA主题的最高概率词

输入参数

袋- - - - - -输入bag-of-words模型bagOfWords对象

k- - - - - -单词量非负整数

ldaMdl- - - - - -输入LDA模型ldaModel对象

topicIdx- - - - - -LDA主题索引非负整数

名称-值对的观点

“IgnoreCase”- - - - - -忽略大小写选项假(默认)|真正的

“ForceCellOutput”- - - - - -强制以单元格数组形式返回输出的指示符假(默认)|真正的

“缩放”- - - - - -缩放以应用于主题词的概率“没有”(默认)|“inversemean”

输出参数

资源描述- top words列表表|单元格数组的表

提示

另请参阅

主题

文本分析工具箱文档

万博1manbetx

入门文本分析在MATLAB

`袋`- - - - - -输入bag-of-words模型
`bagOfWords`对象

`k`- - - - - -单词量
非负整数

`ldaMdl`- - - - - -输入LDA模型
`ldaModel`对象

`topicIdx`- - - - - -LDA主题索引
非负整数

`“IgnoreCase”`- - - - - -忽略大小写选项
`假`(默认)|`真正的`

`“ForceCellOutput”`- - - - - -强制以单元格数组形式返回输出的指示符
`假`(默认)|`真正的`

`“缩放”`- - - - - -缩放以应用于主题词的概率
`“没有”`(默认)|`“inversemean”`

`资源描述`- top words列表
表|单元格数组的表