wordcloud

创建字从文字云图,袋的词模型,袋的的N-gram模型,或LDA模型

描述

文本分析工具箱™扩展的功能wordcloud(MATLAB®)功能。它增加了对直接从万博1manbetx字符串数组创建字云,并从袋的词模型创建词云,袋的正克模型和LDA主题的支持。如果您没有安装的文本分析工具箱,然后看wordcloud(MATLAB)。

wordcloud(海峡通过标化和预处理文本创建一个字云图海峡,然后显示与对应于字频率计数尺寸的话。这句法支持英语,日语,德万博1manbetx语,韩语文字。

wordcloud(文件创建出现在从词的词云图表文件

wordcloud(创建从袋的词或袋的的N-gram模型词云图表

wordcloud(TBLwordVarsizeVar从表中创建了一个词云图表TBL。变量wordVarsizeVar在表中分别指定字和字的长度。

wordcloud(sizeData从创建的元素的词云图表与字由纸型指定sizeData

wordcloud(C创建从分类数组的元素词云图表C使用频率计数。

wordcloud(ldaMdltopicIdx从指数的主题创建一个字云图topicIdx该LDA模型ldaMdl

wordcloud(___名称,值指定附加WordCloudChart使用一个或多个名称 - 值对的参数的特性。

wordcloud(___创建通过指定在该图中,面板中的词云,或标签

厕所= wordcloud(___返回WordCloudChart目的。用厕所创建后修改词云的属性。有关属性的列表,请参阅WordCloudChart属性

例子

全部收缩

提取文本sonnets.txt运用extractFileText并显示第一十四行诗的文本。

STR = extractFileText(“sonnets.txt”);extractBefore(STR,“II”
ANS =“莎士比亚我十四行诗从最公平的生物,我们希望增加,以便美的玫瑰永远不会枯死,但在比较成熟的应时间去世,他的温柔的继承人可能会承担他的记忆:但你,给你自己明亮的眼睛,Feed'st你的光的火焰与自我实质性的燃料,使一片丰谎言,你的自我你的敌人,以你的甜美自己未免太狠:你认为现在是大地的清新的点缀,只有预示到锦绣阳春,在你自己芽buriest你的内容,嫩嫩的吝啬鬼用吝啬浪费mak'st:可怜这个世界吧,要不然,贪夫,就吞噬世界的份,由你和坟墓“。

显示从十四行诗词语的词云。

图wordcloud(STR);

加载的示例数据。文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗,文字分离通过的空间。提取文本sonnetsPreprocessed.txt,拆分文本的换行符的文件,然后记号化文档。

文件名=“sonnetsPreprocessed.txt”;STR = extractFileText(文件名);的TextData = SPLIT(STR,换行);文档= tokenizedDocument(的TextData);

使用可视化词云的文件。

图wordcloud(文件);

加载的示例数据。文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗,文字分离通过的空间。提取文本sonnetsPreprocessed.txt,拆分文本的换行符的文件,然后记号化文档。

文件名=“sonnetsPreprocessed.txt”;STR = extractFileText(文件名);的TextData = SPLIT(STR,换行);文档= tokenizedDocument(的TextData);

创建使用袋的词模型bagOfWords

包= bagOfWords(文档)
袋= bagOfWords具有属性:计算:[154x3092双]词汇:[1x3092字符串] NUMWORDS:3092个NumDocuments:154

使用可视化词云袋的词模型。

图wordcloud(袋);

加载的示例数据sonnetsTable。桌子TBL包含字的变量列表在变量,和相应的频率计数计数

加载sonnetsTable头(TBL)
ANS =8×2表字数___________ _____ { '' 'TIS'} 1 { '' 阿门 ''} 1 { '' 一般 '} 2 { '' 抵挡得住 '} 1 {' '由于'} 1 {'这个} 2 {''祢'} {1 '' 这样} 1

使用绘制表格数据wordcloud。指定的单词和相应字长是计数分别变数。

图wordcloud(TBL,'字''计数');标题(“十四行诗字云”

要重现此示例中的结果,集RNG'默认'

RNG('默认'

加载的示例数据。文件sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗,文字分离通过的空间。提取文本sonnetsPreprocessed.txt,拆分文本的换行符的文件,然后记号化文档。

文件名=“sonnetsPreprocessed.txt”;STR = extractFileText(文件名);的TextData = SPLIT(STR,换行);文档= tokenizedDocument(的TextData);

创建使用袋的词模型bagOfWords

包= bagOfWords(文档)
袋= bagOfWords具有属性:计算:[154x3092双]词汇:[1x3092字符串] NUMWORDS:3092个NumDocuments:154

配合20个主题的LDA模型。为了抑制详细的输出,集“放牧”为0。

MDL = fitlda(袋,20,“放牧”,0)
MDL = ldaModel与属性:NumTopics:20 WordConcentration:1个TopicConcentration:5个CorpusTopicProbabilities:[1X20双] DocumentTopicProbabilities:[154x20双] TopicWordProbabilities:[3092x20双]词汇:[1x3092字符串] TopicOrder: '初始拟合概率' Fit​​Info:[1x1的结构]

使用可视化云字头四个主题。

数字对于topicIdx = 1:4副区(2,2,topicIdx)wordcloud(MDL,topicIdx);标题(“话题: ”+ topicIdx)结束

输入参数

全部收缩

输入文本,指定为一个字符串数组,字符向量,或字符向量的单元阵列。

对于字符串输入时,wordcloudwordCloudCounts功能使用英语,日语,德语,韩语标记化,停止词删除,和字规范化。

例:[“短文档的示例”,“第二短文件”]

数据类型:|烧焦|细胞

输入文件,指定为tokenizedDocument阵列。

输入表,用指定的词和字的长度列。指定给出的变量字样和相应的字长wordVarsizeVar分别输入参数。

数据类型:

为字数据,指定为字符串标量,字符向量,数字索引或逻辑矢量表变量。

数据类型:||INT8|INT16|INT32|Int64的|UINT8|UINT16|UINT32|UINT64|合乎逻辑|烧焦|

对于大小的数据,指定为字符串标量,字符向量,数字索引或逻辑矢量表变量。

数据类型:||INT8|INT16|INT32|Int64的|UINT8|UINT16|UINT32|UINT64|合乎逻辑|烧焦|

输入字,指定为字符串向量或特征向量的单元阵列。

数据类型:|细胞

字的大小的数据,指定为数值向量。

数据类型:||INT8|INT16|INT32|Int64的|UINT8|UINT16|UINT32|UINT64

输入分类数据,指定为分类数组。该函数绘制的每一个独特的元素C与对应于大小histcounts(C)

数据类型:明确的

输入袋的词或袋的的N-gram模型,指定为bagOfWords对象或bagOfNgrams目的。如果bagOfNgrams对象,则该函数将每个n-gram中作为一个单词。

输入LDA模型,指定为ldaModel目的。

LDA主题的指数,指定为一个非负整数。

父指定为图中,面板,或标签。

名称 - 值对参数

指定可选的用逗号分隔的对名称,值参数。名称是参数的名称和是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1,值1,...,NameN,值N

例:'HighlightColor', '蓝'指定突出显示的颜色是蓝色。

WordCloudChart这里列出的属性只是一个子集。有关完整列表,请参阅WordCloudChart属性

字显示的最大数量,指定为一个非负整数。软件显示MaxDisplayWords最大的话。

字的颜色,指定为一个RGB三元组,包含颜色名称的字符向量,或ñ-by-3矩阵,其中ñ是的长度WordData。如果颜色是一个矩阵,则每行对应于一个RGB三元用于在相应的字WordData

RGB三胞胎和十六进制颜色代码是用于指定自定义颜色非常有用。

  • 一个RGB三元组是一个三元件列向量,其元素指定的颜色的红色,绿色和蓝色分量的强度。的强度必须在范围[0,1];例如,[0.4 0.6 0.7]

  • 十六进制颜色代码是与散列符号开始的字符向量或标量字符串(),接着的三个或六个十六进制数字,它的范围可以从0F。该值不区分大小写。因此,颜色代码'#FF8800''#ff8800''#F80''#F80'是等价的。

另外,您也可以按名称指定一些常见的颜色。该表列出了指定的颜色选择,相当于RGB三胞胎,和十六进制颜色代码。

颜色名称 简称 RGB三元 十六进制颜色代码 出现
'红' 'R' [1 0 0] '#FF0000'

'绿色' 'G' [0 1 0] '#00FF00'

'蓝色' 'B' [0 0 1] '#0000FF'

“青色” 'C' [0 1 1] '#00FFFF'

'品红' 'M' [1 0 1] '#FF00FF'

'黄色' 'Y' [1 1 0] '#FFFF00'

'黑色' 数k [0 0 0] '#000000'

'白色' 'W' [1 1 1] '#FFFFFF'

这里有许多类型地块的默认颜色MATLAB用途RGB三胞胎和十六进制颜色代码。

RGB三元 十六进制颜色代码 出现
[0 0.4470 0.7410] '#0072BD'

[0.8500 0.3250 0.0980] '#D95319'

[0.9290 0.6940 0.1250] '#EDB120'

[0.4940 0.1840 0.5560] '#7E2F8E'

[0.4660 0.6740 0.1880] '#77AC30'

[0.3010 0.7450 0.9330] '#4DBEEE'

[0.6350 0.0780 0.1840] '#A2142F'

例:'蓝色'

例:[0 0 1]

字突出显示颜色,指定为一个RGB三元组,或包含颜色名称的字符向量。该软件突出这个颜色最大的话。

RGB三胞胎和十六进制颜色代码是用于指定自定义颜色非常有用。

  • 一个RGB三元组是一个三元件列向量,其元素指定的颜色的红色,绿色和蓝色分量的强度。的强度必须在范围[0,1];例如,[0.4 0.6 0.7]

  • 十六进制颜色代码是与散列符号开始的字符向量或标量字符串(),接着的三个或六个十六进制数字,它的范围可以从0F。该值不区分大小写。因此,颜色代码'#FF8800''#ff8800''#F80''#F80'是等价的。

另外,您也可以按名称指定一些常见的颜色。该表列出了指定的颜色选择,相当于RGB三胞胎,和十六进制颜色代码。

颜色名称 简称 RGB三元 十六进制颜色代码 出现
'红' 'R' [1 0 0] '#FF0000'

'绿色' 'G' [0 1 0] '#00FF00'

'蓝色' 'B' [0 0 1] '#0000FF'

“青色” 'C' [0 1 1] '#00FFFF'

'品红' 'M' [1 0 1] '#FF00FF'

'黄色' 'Y' [1 1 0] '#FFFF00'

'黑色' 数k [0 0 0] '#000000'

'白色' 'W' [1 1 1] '#FFFFFF'

这里有许多类型地块的默认颜色MATLAB用途RGB三胞胎和十六进制颜色代码。

RGB三元 十六进制颜色代码 出现
[0 0.4470 0.7410] '#0072BD'

[0.8500 0.3250 0.0980] '#D95319'

[0.9290 0.6940 0.1250] '#EDB120'

[0.4940 0.1840 0.5560] '#7E2F8E'

[0.4660 0.6740 0.1880] '#77AC30'

[0.3010 0.7450 0.9330] '#4DBEEE'

[0.6350 0.0780 0.1840] '#A2142F'

例:'蓝色'

例:[0 0 1]

词云图表的形状,指定为'椭圆'要么'长方形'

例:'长方形'

输出参数

全部收缩

WordCloudChart目的。您可以修改的属性WordCloudChart之后它被创建。欲了解更多信息,请参阅WordCloudChart属性

更多关于

全部收缩

语言的注意事项

对于字符串输入时,wordcloudwordCloudCounts功能使用英语,日语,德语,韩语标记化,停止词删除,和字规范化。

对于其他语言,您可能需要手动的进行预处理的文本数据,并指定唯一的单词和相应的尺寸wordcloud

要指定字长的wordcloud输入你的数据作为表或包含唯一字和相应大小的阵列。

介绍了在R2017b