wordcloud

创建词云图表从文本、bag-of-words模型bag-of-n-grams模型,或LDA模型

所有的页面崩溃

语法

wordcloud (str)

wordcloud(文档)

wordcloud(袋)

wordcloud(资源描述、wordVar sizeVar)

wordcloud(话说,sizeData)

wordcloud (C)

wordcloud (ldaMdl topicIdx)

wordcloud (___、名称、值)

wordcloud(父,___)

wc = wordcloud (___)

描述

文本分析工具箱™扩展的功能wordcloud(MATLAB^®)函数。它增加了支持直接万博1manbetx从字符串数组创建词云,云从bag-of-words模型和创建词,bag-of-n-gram模型和LDA的话题。如果你没有文本分析工具箱安装,然后看到wordcloud。

例子

wordcloud (str)创建一个词云表由分词和预处理中的文本str与大小,然后显示单词对应词频率计数。这个语法支持英语、日语、万博1manbetx德语,和韩国的文本。

例子

wordcloud (文档)创建一个单词出现在云词表文档。

例子

wordcloud (袋)创建一个词云从bag-of-words或bag-of-n-grams模型图袋。

例子

wordcloud (资源描述,wordVar,sizeVar)从表中创建一个词云图表资源描述。的变量wordVar和sizeVar表中分别指定文字和文字大小。

wordcloud (单词,sizeData)创建一个云词表的元素单词词所指定的大小sizeData。

wordcloud (C)创建一个词云图分类元素的数组C使用频率计数。

例子

wordcloud (ldaMdl,topicIdx)创建一个词云图表从主题索引topicIdxLDA模型ldaMdl。

wordcloud (___,名称,值)指定附加的WordCloudChart使用一个或多个名称-值对参数属性。

wordcloud (父,___)创建这个词云在图中,面板,或指定的选项卡父。

wc= wordcloud (___)返回WordCloudChart对象。使用wc修改的属性词云在创建它。一个属性列表,看到WordCloudChart属性。

例子

全部折叠

从文本数据创建词云

打开生活的脚本

提取的文本sonnets.txt使用extractFileText和显示的文本首十四行诗。

str = extractFileText (“sonnets.txt”);extractBefore (str,“二世”)

ans = "威廉·莎士比亚的十四行诗我从美丽的生物,我们渴望增加,从而美丽的玫瑰可能永远不会死,但随着成熟应该随着时间流逝,他的他的记忆交给娇嫩的后嗣:但你承包你的明亮的眼睛,饲料刻画你的光的火焰定情,燃料,饥荒丰富所在,你的自我你的敌人,你的甜蜜的自我太残忍:你现在艺术世界的新鲜的点缀,只有春天的华而不实的使者,在你自己的花蕾埋葬你的内容,和温柔的乡下人mak浪费在吝啬鬼:遗憾的世界,否则这贪吃的人,吃的世界,由你和坟墓。”

显示文字云十四行诗的一个词。

图wordcloud (str);

图包含一个wordcloud类型的对象。”width=

创建词云从标记化的文档

打开生活的脚本

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

云可视化文档使用一个词。

图wordcloud(文件);

图包含一个wordcloud类型的对象。”width=

从Bag-of-Words创建词云模型

打开生活的脚本

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个bag-of-words模型使用bagOfWords。

袋= bagOfWords(文档)

袋= bagOfWords属性:计数:[154 x3092双]词汇:“公平”“生物”“希望”“增加”“从而”“美”“玫瑰”“可能”“从不”“死”“成熟”“时间”“死”“温柔”“继承人”“熊”“记忆”“你”“简约”…]NumWords: 3092 NumDocuments: 154

可视化bag-of-words云模型使用一个词。

图wordcloud(袋);

图包含一个wordcloud类型的对象。”width=

从表创建词云

打开生活的脚本

加载示例数据sonnetsTable。表资源描述包含一个单词列表中的变量词,和相应的频率计数的变量数。

负载sonnetsTable头(台)

字数___________ _____{“‘是’}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1

表数据使用wordcloud。指定大小的单词和相应的词词和数变量分别。

图wordcloud(资源描述,“词”,“数”);标题(“十四行诗词云”)

图包含一个wordcloud类型的对象。wordcloud类型的图表标题十四行诗词云。”width=

创建词云从LDA的话题

打开生活的脚本

复制的结果在这个例子中,集rng来“默认”。

rng (“默认”)

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个bag-of-words模型使用bagOfWords。

袋= bagOfWords(文档)

袋= bagOfWords属性:计数:[154 x3092双]词汇:“公平”“生物”“希望”“增加”“从而”“美”“玫瑰”“可能”“从不”“死”“成熟”“时间”“死”“温柔”“继承人”“熊”“记忆”“你”“简约”…]NumWords: 3092 NumDocuments: 154

适合一个LDA模型与20的话题。抑制详细输出,集“详细”为0。

20岁的mdl = fitlda(包“详细”,0)

mdl = ldaModel属性:NumTopics: 20 WordConcentration: 1 TopicConcentration: 5 CorpusTopicProbabilities: [0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500] DocumentTopicProbabilities: [154 x20的双]TopicWordProbabilities: [3092 x20的双]词汇:(“公平”“生物”“希望”“增加”“从而”“美”“玫瑰”“可能”“从不”“死”“成熟”“时间”“死”“温柔”“继承人”“熊”“记忆”“你”…]TopicOrder:“initial-fit-probability”FitInfo: [1 x1 struct]

使用词云可视化前四的话题。

图为topicIdx = 1:4次要情节(2,2,topicIdx) wordcloud (mdl topicIdx);标题(主题:“+ topicIdx)结束

图包含wordcloud类型的对象。wordcloud类型的图表标题主题:1。wordcloud类型的图表标题主题:2。wordcloud类型的图表标题主题:3。wordcloud类型的图表标题主题:4。”width=

输入参数

全部折叠

`str`- - - - - -输入文本
字符串数组|特征向量|单元阵列的特征向量

输入文本,指定为字符串数组,特征向量,或单元阵列特征向量。

字符串输入的wordcloud和wordCloudCounts函数使用英语,日语,德语,和韩国的标记,停止词删除,规范化。

例子:["短文档的一个例子”;“第二个短文件”)

数据类型:字符串|字符|细胞

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文件,指定为一个tokenizedDocument数组中。

`资源描述`- - - - - -输入表
表

输入表,列指定单词和单词的大小。指定的单词和相应的字大小的变量wordVar和sizeVar分别输入参数。

数据类型:表

`wordVar`- - - - - -表变量数据
字符串标量|特征向量|数字索引|逻辑向量

表变量数据,指定为一个字符串标量,特征向量,数值指数,或一个逻辑向量。

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑|字符|字符串

`sizeVar`- - - - - -表变量大小的数据
字符串标量|特征向量|数字索引|逻辑向量

表变量尺寸数据,指定为字符串标量,特征向量,数值指数,或一个逻辑向量。

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑|字符|字符串

`单词`- - - - - -输入单词
字符串向量|单元阵列的特征向量

输入单词,指定为一个字符串向量或单元阵列的特征向量。

数据类型:字符串|细胞

`sizeData`- - - - - -字大小数据
数值向量

字大小数据,指定为一个数值向量。

数据类型:单|双|int8|int16|int32|int64|uint8|uint16|uint32|uint64

`C`- - - - - -输入分类数据
分类数组

输入分类数据,指定为一个分类数组。每个独特的元素的功能块C与大小对应于histcounts (C)。

数据类型:分类

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

输入bag-of-words或bag-of-n-grams模型,指定为一个bagOfWords对象或一个bagOfNgrams对象。如果袋是一个bagOfNgrams函数对象,然后将每个语法视为一个字。

`ldaMdl`- - - - - -输入LDA模型
`ldaModel`对象

输入LDA模型,指定为一个ldaModel对象。

`topicIdx`- - - - - -指数LDA的话题
非负整数

指数LDA的话题,指定为一个非负整数。

`父`- - - - - -父
图|面板|选项卡

家长,指定为一个图,面板或选项卡。

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“HighlightColor”、“蓝”指定突出颜色是蓝色。

的WordCloudChart这里列出的属性是唯一的一个子集。一个完整的列表,请参阅WordCloudChart属性。

`MaxDisplayWords`- - - - - -要显示最大数量的单词
One hundred.(默认)|非负整数

要显示最大数量的单词,指定为一个非负整数。软件显示MaxDisplayWords最大的词。

`颜色`- - - - - -字的颜色
`(0.2510 0.2510 0.2510)`(默认)|RGB值|特征向量包含一个颜色的名字|矩阵

字的颜色,指定为一个RGB值,特征向量包含一个颜色的名字,或一个N3矩阵N的长度是WordData。如果颜色是一个矩阵,那么每一行对应一个RGB值对应的词吗WordData。

RGB三胞胎和十六进制颜色代码可用于指定自定义颜色。

一个RGB值三元素行向量的元素指定强度的红色,绿色和蓝色的组件的颜色。强度必须在范围内[0,1];例如,(0.4 0.6 0.7)。
十六进制颜色代码是一个特征向量或一个字符串标量,始于一个散列符号(#)后面跟着三个月或六个十六进制数字,它的范围可以从0来F。的值是不区分大小写的。因此,颜色代码“# FF8800”,“# ff8800”,“# F80”,“# f80”是等价的。

或者,您可以指定一些常见颜色的名字。此表列出了命名颜色选项,相当于RGB三胞胎,十六进制颜色代码。

颜色名称	短名称	RGB值	十六进制颜色代码
`“红色”`	`“r”`	`(1 0 0)`	`“# FF0000”`
`“绿色”`	`“g”`	`(0 1 0)`	`“# 00 ff00”`
`“蓝色”`	`“b”`	`(0 0 1)`	`“# 0000 ff”`
`“青色”`	`“c”`	`(0 1 1)`	`“# 00飞行符”`
`“红色”`	`“m”`	`(1 0 1)`	`“#”就`
`“黄色”`	`“y”`	`(1 1 0)`	`“# FFFF00”`
`“黑色”`	`“k”`	`(0 0 0)`	`“000000 #”`
`“白色”`	`“w”`	`(1 1 1)`	`“# FFFFFF”`

这是默认颜色的RGB三胞胎和十六进制颜色编码MATLAB使用在许多类型的情节。

RGB值	十六进制颜色代码	外观
`[0 0.4470 - 0.7410)`	`“# 0072 bd”`
`(0.8500 0.3250 0.0980)`	`“# D95319”`
`(0.9290 0.6940 0.1250)`	`“# EDB120”`
`(0.4940 0.1840 0.5560)`	`“# 7 e2f8e”`
`(0.4660 0.6740 0.1880)`	`“# 77 ac30”`
`(0.3010 0.7450 0.9330)`	`“# 4 dbeee”`
`(0.6350 0.0780 0.1840)`	`“# A2142F”`

例子:“蓝”

例子:(0 0 1)

`HighlightColor`- - - - - -词高亮颜色
`(0.8510 0.3255 0.0980)`(默认)|RGB值|特征向量包含一个颜色的名字

词突出颜色,指定为一个RGB值,或者一个特征向量包含一个颜色的名字。该软件最大凸显了与这种颜色词。

RGB三胞胎和十六进制颜色代码可用于指定自定义颜色。

一个RGB值三元素行向量的元素指定强度的红色,绿色和蓝色的组件的颜色。强度必须在范围内[0,1];例如,(0.4 0.6 0.7)。
十六进制颜色代码是一个特征向量或一个字符串标量,始于一个散列符号(#)后面跟着三个月或六个十六进制数字,它的范围可以从0来F。的值是不区分大小写的。因此,颜色代码“# FF8800”,“# ff8800”,“# F80”,“# f80”是等价的。

或者,您可以指定一些常见颜色的名字。此表列出了命名颜色选项,相当于RGB三胞胎,十六进制颜色代码。

颜色名称	短名称	RGB值	十六进制颜色代码
`“红色”`	`“r”`	`(1 0 0)`	`“# FF0000”`
`“绿色”`	`“g”`	`(0 1 0)`	`“# 00 ff00”`
`“蓝色”`	`“b”`	`(0 0 1)`	`“# 0000 ff”`
`“青色”`	`“c”`	`(0 1 1)`	`“# 00飞行符”`
`“红色”`	`“m”`	`(1 0 1)`	`“#”就`
`“黄色”`	`“y”`	`(1 1 0)`	`“# FFFF00”`
`“黑色”`	`“k”`	`(0 0 0)`	`“000000 #”`
`“白色”`	`“w”`	`(1 1 1)`	`“# FFFFFF”`

这是默认颜色的RGB三胞胎和十六进制颜色编码MATLAB使用在许多类型的情节。

RGB值	十六进制颜色代码	外观
`[0 0.4470 - 0.7410)`	`“# 0072 bd”`
`(0.8500 0.3250 0.0980)`	`“# D95319”`
`(0.9290 0.6940 0.1250)`	`“# EDB120”`
`(0.4940 0.1840 0.5560)`	`“# 7 e2f8e”`
`(0.4660 0.6740 0.1880)`	`“# 77 ac30”`
`(0.3010 0.7450 0.9330)`	`“# 4 dbeee”`
`(0.6350 0.0780 0.1840)`	`“# A2142F”`

例子:“蓝”

例子:(0 0 1)

`形状`- - - - - -词云的形状
`“椭圆”`(默认)|`“矩形”`

词云的形状图,指定为“椭圆”或“矩形”。

例子:“矩形”

输出参数

全部折叠

`wc`- - - - - -`WordCloudChart`对象
`WordCloudChart`对象

WordCloudChart对象。您可以修改的属性WordCloudChart之后它创建。有关更多信息,请参见WordCloudChart属性。

版本历史

介绍了R2017b

另请参阅

wordcloud

语法

描述

例子

从文本数据创建词云

创建词云从标记化的文档

从Bag-of-Words创建词云模型

从表创建词云

创建词云从LDA的话题

输入参数

`str`- - - - - -输入文本
字符串数组|特征向量|单元阵列的特征向量

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`资源描述`- - - - - -输入表
表

`wordVar`- - - - - -表变量数据
字符串标量|特征向量|数字索引|逻辑向量

`sizeVar`- - - - - -表变量大小的数据
字符串标量|特征向量|数字索引|逻辑向量

`单词`- - - - - -输入单词
字符串向量|单元阵列的特征向量

`sizeData`- - - - - -字大小数据
数值向量

`C`- - - - - -输入分类数据
分类数组

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

`ldaMdl`- - - - - -输入LDA模型
`ldaModel`对象

`topicIdx`- - - - - -指数LDA的话题
非负整数

`父`- - - - - -父
图|面板|选项卡

名称-值参数

`MaxDisplayWords`- - - - - -要显示最大数量的单词
One hundred.(默认)|非负整数

`颜色`- - - - - -字的颜色
`(0.2510 0.2510 0.2510)`(默认)|RGB值|特征向量包含一个颜色的名字|矩阵

`HighlightColor`- - - - - -词高亮颜色
`(0.8510 0.3255 0.0980)`(默认)|RGB值|特征向量包含一个颜色的名字

`形状`- - - - - -词云的形状
`“椭圆”`(默认)|`“矩形”`

输出参数

`wc`- - - - - -`WordCloudChart`对象
`WordCloudChart`对象

更多关于

语言的注意事项

版本历史

另请参阅

主题

wordcloud

语法

描述

例子

从文本数据创建词云

创建词云从标记化的文档

从Bag-of-Words创建词云模型

从表创建词云

创建词云从LDA的话题

输入参数

str- - - - - -输入文本字符串数组|特征向量|单元阵列的特征向量

文档- - - - - -输入文档tokenizedDocument数组

资源描述- - - - - -输入表表

wordVar- - - - - -表变量数据字符串标量|特征向量|数字索引|逻辑向量

sizeVar- - - - - -表变量大小的数据字符串标量|特征向量|数字索引|逻辑向量

单词- - - - - -输入单词字符串向量|单元阵列的特征向量

sizeData- - - - - -字大小数据数值向量

C- - - - - -输入分类数据分类数组

袋- - - - - -输入模型bagOfWords对象|bagOfNgrams对象

ldaMdl- - - - - -输入LDA模型ldaModel对象

topicIdx- - - - - -指数LDA的话题非负整数

父- - - - - -父图|面板|选项卡

名称-值参数

MaxDisplayWords- - - - - -要显示最大数量的单词One hundred.(默认)|非负整数

颜色- - - - - -字的颜色(0.2510 0.2510 0.2510)(默认)|RGB值|特征向量包含一个颜色的名字|矩阵

HighlightColor- - - - - -词高亮颜色(0.8510 0.3255 0.0980)(默认)|RGB值|特征向量包含一个颜色的名字

形状- - - - - -词云的形状“椭圆”(默认)|“矩形”

输出参数

wc- - - - - -WordCloudChart对象WordCloudChart对象

更多关于

语言的注意事项

版本历史

另请参阅

主题

`str`- - - - - -输入文本
字符串数组|特征向量|单元阵列的特征向量

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`资源描述`- - - - - -输入表
表

`wordVar`- - - - - -表变量数据
字符串标量|特征向量|数字索引|逻辑向量

`sizeVar`- - - - - -表变量大小的数据
字符串标量|特征向量|数字索引|逻辑向量

`单词`- - - - - -输入单词
字符串向量|单元阵列的特征向量

`sizeData`- - - - - -字大小数据
数值向量

`C`- - - - - -输入分类数据
分类数组

`袋`- - - - - -输入模型
`bagOfWords`对象|`bagOfNgrams`对象

`ldaMdl`- - - - - -输入LDA模型
`ldaModel`对象

`topicIdx`- - - - - -指数LDA的话题
非负整数

`父`- - - - - -父
图|面板|选项卡

`MaxDisplayWords`- - - - - -要显示最大数量的单词
One hundred.(默认)|非负整数

`颜色`- - - - - -字的颜色
`(0.2510 0.2510 0.2510)`(默认)|RGB值|特征向量包含一个颜色的名字|矩阵

`HighlightColor`- - - - - -词高亮颜色
`(0.8510 0.3255 0.0980)`(默认)|RGB值|特征向量包含一个颜色的名字

`形状`- - - - - -词云的形状
`“椭圆”`(默认)|`“矩形”`

`wc`- - - - - -`WordCloudChart`对象
`WordCloudChart`对象