主要内容

wordcloud

创建词云图表从文本、bag-of-words模型bag-of-n-grams模型,或LDA模型

描述

文本分析工具箱™扩展的功能wordcloud(MATLAB®)函数。它增加了支持直接万博1manbetx从字符串数组创建词云,云从bag-of-words模型和创建词,bag-of-n-gram模型和LDA的话题。如果你没有文本分析工具箱安装,然后看到wordcloud

例子

wordcloud (str)创建一个词云表由分词和预处理中的文本str与大小,然后显示单词对应词频率计数。这个语法支持英语、日语、万博1manbetx德语,和韩国的文本。

例子

wordcloud (文档)创建一个单词出现在云词表文档

例子

wordcloud ()创建一个词云从bag-of-words或bag-of-n-grams模型图

例子

wordcloud (资源描述,wordVar,sizeVar)从表中创建一个词云图表资源描述。的变量wordVarsizeVar表中分别指定文字和文字大小。

wordcloud (单词,sizeData)创建一个云词表的元素单词词所指定的大小sizeData

wordcloud (C)创建一个词云图分类元素的数组C使用频率计数。

例子

wordcloud (ldaMdl,topicIdx)创建一个词云图表从主题索引topicIdxLDA模型ldaMdl

wordcloud (___,名称,值)指定附加的WordCloudChart使用一个或多个名称-值对参数属性。

wordcloud (,___)创建这个词云在图中,面板,或指定的选项卡

wc= wordcloud (___)返回WordCloudChart对象。使用wc修改的属性词云在创建它。一个属性列表,看到WordCloudChart属性

例子

全部折叠

提取的文本sonnets.txt使用extractFileText和显示的文本首十四行诗。

str = extractFileText (“sonnets.txt”);extractBefore (str,“二世”)
ans = "威廉·莎士比亚的十四行诗我从美丽的生物,我们渴望增加,从而美丽的玫瑰可能永远不会死,但随着成熟应该随着时间流逝,他的他的记忆交给娇嫩的后嗣:但你承包你的明亮的眼睛,饲料刻画你的光的火焰定情,燃料,饥荒丰富所在,你的自我你的敌人,你的甜蜜的自我太残忍:你现在艺术世界的新鲜的点缀,只有春天的华而不实的使者,在你自己的花蕾埋葬你的内容,和温柔的乡下人mak浪费在吝啬鬼:遗憾的世界,否则这贪吃的人,吃的世界,由你和坟墓。”

显示文字云十四行诗的一个词。

图wordcloud (str);

图包含一个wordcloud类型的对象。”width=

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

云可视化文档使用一个词。

图wordcloud(文件);

图包含一个wordcloud类型的对象。”width=

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个bag-of-words模型使用bagOfWords

袋= bagOfWords(文档)
袋= bagOfWords属性:计数:[154 x3092双]词汇:“公平”“生物”“希望”“增加”“从而”“美”“玫瑰”“可能”“从不”“死”“成熟”“时间”“死”“温柔”“继承人”“熊”“记忆”“你”“简约”…]NumWords: 3092 NumDocuments: 154

可视化bag-of-words云模型使用一个词。

图wordcloud(袋);

图包含一个wordcloud类型的对象。”width=

加载示例数据sonnetsTable。表资源描述包含一个单词列表中的变量,和相应的频率计数的变量

负载sonnetsTable头(台)
字数___________ _____{“‘是’}{“阿门”}1{“公平”}2{“反抗}{“自}1{“这种‘}2{“你}{“因此}1

表数据使用wordcloud。指定大小的单词和相应的词变量分别。

图wordcloud(资源描述,“词”,“数”);标题(“十四行诗词云”)

图包含一个wordcloud类型的对象。wordcloud类型的图表标题十四行诗词云。”width=

复制的结果在这个例子中,集rng“默认”

rng (“默认”)

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建一个bag-of-words模型使用bagOfWords

袋= bagOfWords(文档)
袋= bagOfWords属性:计数:[154 x3092双]词汇:“公平”“生物”“希望”“增加”“从而”“美”“玫瑰”“可能”“从不”“死”“成熟”“时间”“死”“温柔”“继承人”“熊”“记忆”“你”“简约”…]NumWords: 3092 NumDocuments: 154

适合一个LDA模型与20的话题。抑制详细输出,集“详细”为0。

20岁的mdl = fitlda(包“详细”,0)
mdl = ldaModel属性:NumTopics: 20 WordConcentration: 1 TopicConcentration: 5 CorpusTopicProbabilities: [0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500 0.0500] DocumentTopicProbabilities: [154 x20的双]TopicWordProbabilities: [3092 x20的双]词汇:(“公平”“生物”“希望”“增加”“从而”“美”“玫瑰”“可能”“从不”“死”“成熟”“时间”“死”“温柔”“继承人”“熊”“记忆”“你”…]TopicOrder:“initial-fit-probability”FitInfo: [1 x1 struct]

使用词云可视化前四的话题。

topicIdx = 1:4次要情节(2,2,topicIdx) wordcloud (mdl topicIdx);标题(主题:“+ topicIdx)结束

图包含wordcloud类型的对象。wordcloud类型的图表标题主题:1。wordcloud类型的图表标题主题:2。wordcloud类型的图表标题主题:3。wordcloud类型的图表标题主题:4。”width=

输入参数

全部折叠

输入文本,指定为字符串数组,特征向量,或单元阵列特征向量。

字符串输入的wordcloudwordCloudCounts函数使用英语,日语,德语,和韩国的标记,停止词删除,规范化。

例子:["短文档的一个例子”;“第二个短文件”)

数据类型:字符串|字符|细胞

输入文件,指定为一个tokenizedDocument数组中。

输入表,列指定单词和单词的大小。指定的单词和相应的字大小的变量wordVarsizeVar分别输入参数。

数据类型:

表变量数据,指定为一个字符串标量,特征向量,数值指数,或一个逻辑向量。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑|字符|字符串

表变量尺寸数据,指定为字符串标量,特征向量,数值指数,或一个逻辑向量。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64|逻辑|字符|字符串

输入单词,指定为一个字符串向量或单元阵列的特征向量。

数据类型:字符串|细胞

字大小数据,指定为一个数值向量。

数据类型:||int8|int16|int32|int64|uint8|uint16|uint32|uint64

输入分类数据,指定为一个分类数组。每个独特的元素的功能块C与大小对应于histcounts (C)

数据类型:分类

输入bag-of-words或bag-of-n-grams模型,指定为一个bagOfWords对象或一个bagOfNgrams对象。如果是一个bagOfNgrams函数对象,然后将每个语法视为一个字。

输入LDA模型,指定为一个ldaModel对象。

指数LDA的话题,指定为一个非负整数。

家长,指定为一个图,面板或选项卡。

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“HighlightColor”、“蓝”指定突出颜色是蓝色。

WordCloudChart这里列出的属性是唯一的一个子集。一个完整的列表,请参阅WordCloudChart属性

要显示最大数量的单词,指定为一个非负整数。软件显示MaxDisplayWords最大的词。

字的颜色,指定为一个RGB值,特征向量包含一个颜色的名字,或一个N3矩阵N的长度是WordData。如果颜色是一个矩阵,那么每一行对应一个RGB值对应的词吗WordData

RGB三胞胎和十六进制颜色代码可用于指定自定义颜色。

  • 一个RGB值三元素行向量的元素指定强度的红色,绿色和蓝色的组件的颜色。强度必须在范围内[0,1];例如,(0.4 0.6 0.7)

  • 十六进制颜色代码是一个特征向量或一个字符串标量,始于一个散列符号(#)后面跟着三个月或六个十六进制数字,它的范围可以从0F。的值是不区分大小写的。因此,颜色代码“# FF8800”,“# ff8800”,“# F80”,“# f80”是等价的。

或者,您可以指定一些常见颜色的名字。此表列出了命名颜色选项,相当于RGB三胞胎,十六进制颜色代码。

颜色名称 短名称 RGB值 十六进制颜色代码 外观
“红色” “r” (1 0 0) “# FF0000”

红色的示例”height=

“绿色” “g” (0 1 0) “# 00 ff00”

样品的颜色绿色”height=

“蓝色” “b” (0 0 1) “# 0000 ff”

样品的颜色蓝色”height=

“青色” “c” (0 1 1) “# 00飞行符”

样品的颜色青色”height=

“红色” “m” (1 0 1) “#”就

样品的颜色红色”height=

“黄色” “y” (1 1 0) “# FFFF00”

样品的颜色黄色”height=

“黑色” “k” (0 0 0) “000000 #”

样品的颜色黑色”height=

“白色” “w” (1 1 1) “# FFFFFF”

样品的颜色白色”height=

这是默认颜色的RGB三胞胎和十六进制颜色编码MATLAB使用在许多类型的情节。

RGB值 十六进制颜色代码 外观
[0 0.4470 - 0.7410) “# 0072 bd”

样本的RGB值(0 0.4470 - 0.7410),显示为深蓝色”height=

(0.8500 0.3250 0.0980) “# D95319”

样本的RGB值(0.8500 0.3250 0.0980),它表现为暗橙”height=

(0.9290 0.6940 0.1250) “# EDB120”

样本的RGB值(0.9290 0.6940 0.1250),它表现为暗黄色”height=

(0.4940 0.1840 0.5560) “# 7 e2f8e”

样本的RGB值(0.4940 0.1840 0.5560),它表现为深紫色”height=

(0.4660 0.6740 0.1880) “# 77 ac30”

样本的RGB值(0.4660 0.6740 0.1880),它表现为中绿色”height=

(0.3010 0.7450 0.9330) “# 4 dbeee”

样本的RGB值(0.3010 0.7450 0.9330),它表现为浅蓝色”height=

(0.6350 0.0780 0.1840) “# A2142F”

样本的RGB值(0.6350 0.0780 0.1840),它表现为深红色”height=

例子:“蓝”

例子:(0 0 1)

词突出颜色,指定为一个RGB值,或者一个特征向量包含一个颜色的名字。该软件最大凸显了与这种颜色词。

RGB三胞胎和十六进制颜色代码可用于指定自定义颜色。

  • 一个RGB值三元素行向量的元素指定强度的红色,绿色和蓝色的组件的颜色。强度必须在范围内[0,1];例如,(0.4 0.6 0.7)

  • 十六进制颜色代码是一个特征向量或一个字符串标量,始于一个散列符号(#)后面跟着三个月或六个十六进制数字,它的范围可以从0F。的值是不区分大小写的。因此,颜色代码“# FF8800”,“# ff8800”,“# F80”,“# f80”是等价的。

或者,您可以指定一些常见颜色的名字。此表列出了命名颜色选项,相当于RGB三胞胎,十六进制颜色代码。

颜色名称 短名称 RGB值 十六进制颜色代码 外观
“红色” “r” (1 0 0) “# FF0000”

红色的示例”height=

“绿色” “g” (0 1 0) “# 00 ff00”

样品的颜色绿色”height=

“蓝色” “b” (0 0 1) “# 0000 ff”

样品的颜色蓝色”height=

“青色” “c” (0 1 1) “# 00飞行符”

样品的颜色青色”height=

“红色” “m” (1 0 1) “#”就

样品的颜色红色”height=

“黄色” “y” (1 1 0) “# FFFF00”

样品的颜色黄色”height=

“黑色” “k” (0 0 0) “000000 #”

样品的颜色黑色”height=

“白色” “w” (1 1 1) “# FFFFFF”

样品的颜色白色”height=

这是默认颜色的RGB三胞胎和十六进制颜色编码MATLAB使用在许多类型的情节。

RGB值 十六进制颜色代码 外观
[0 0.4470 - 0.7410) “# 0072 bd”

样本的RGB值(0 0.4470 - 0.7410),显示为深蓝色”height=

(0.8500 0.3250 0.0980) “# D95319”

样本的RGB值(0.8500 0.3250 0.0980),它表现为暗橙”height=

(0.9290 0.6940 0.1250) “# EDB120”

样本的RGB值(0.9290 0.6940 0.1250),它表现为暗黄色”height=

(0.4940 0.1840 0.5560) “# 7 e2f8e”

样本的RGB值(0.4940 0.1840 0.5560),它表现为深紫色”height=

(0.4660 0.6740 0.1880) “# 77 ac30”

样本的RGB值(0.4660 0.6740 0.1880),它表现为中绿色”height=

(0.3010 0.7450 0.9330) “# 4 dbeee”

样本的RGB值(0.3010 0.7450 0.9330),它表现为浅蓝色”height=

(0.6350 0.0780 0.1840) “# A2142F”

样本的RGB值(0.6350 0.0780 0.1840),它表现为深红色”height=

例子:“蓝”

例子:(0 0 1)

词云的形状图,指定为“椭圆”“矩形”

例子:“矩形”

输出参数

全部折叠

WordCloudChart对象。您可以修改的属性WordCloudChart之后它创建。有关更多信息,请参见WordCloudChart属性

更多关于

全部折叠

语言的注意事项

字符串输入的wordcloudwordCloudCounts函数使用英语,日语,德语,和韩国的标记,停止词删除,规范化。

为其他语言,你可能需要手动进行预处理文本数据,指定独特的单词和相应的尺寸wordcloud

指定字的大小wordcloud,输入你的数据表或数组包含独特的单词和相应的尺寸。

版本历史

介绍了R2017b