创建字从文字云图,袋的词模型,袋的的N-gram模型,或LDA模型
文本分析工具箱™扩展的功能wordcloud
(MATLAB®)功能。它增加了对直接从万博1manbetx字符串数组创建字云,并从袋的词模型创建词云,袋的正克模型和LDA主题的支持。如果您没有安装的文本分析工具箱,然后看wordcloud
(MATLAB)。
wordcloud(
创建从分类数组的元素词云图表C
)C
使用频率计数。
wordcloud(___,
指定附加名称,值
)WordCloudChart
使用一个或多个名称 - 值对的参数的特性。
wordcloud(
创建通过指定在该图中,面板中的词云,或标签亲
,___)亲
。
返回厕所
= wordcloud(___)WordCloudChart
目的。用厕所
创建后修改词云的属性。有关属性的列表,请参阅WordCloudChart属性。
提取文本sonnets.txt
运用extractFileText
并显示第一十四行诗的文本。
STR = extractFileText(“sonnets.txt”);extractBefore(STR,“II”)
ANS =“莎士比亚我十四行诗从最公平的生物,我们希望增加,以便美的玫瑰永远不会枯死,但在比较成熟的应时间去世,他的温柔的继承人可能会承担他的记忆:但你,给你自己明亮的眼睛,Feed'st你的光的火焰与自我实质性的燃料,使一片丰谎言,你的自我你的敌人,以你的甜美自己未免太狠:你认为现在是大地的清新的点缀,只有预示到锦绣阳春,在你自己芽buriest你的内容,嫩嫩的吝啬鬼用吝啬浪费mak'st:可怜这个世界吧,要不然,贪夫,就吞噬世界的份,由你和坟墓“。
显示从十四行诗词语的词云。
图wordcloud(STR);
加载的示例数据。文件sonnetsPreprocessed.txt
包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗,文字分离通过的空间。提取文本sonnetsPreprocessed.txt
,拆分文本的换行符的文件,然后记号化文档。
文件名=“sonnetsPreprocessed.txt”;STR = extractFileText(文件名);的TextData = SPLIT(STR,换行);文档= tokenizedDocument(的TextData);
使用可视化词云的文件。
图wordcloud(文件);
加载的示例数据。文件sonnetsPreprocessed.txt
包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗,文字分离通过的空间。提取文本sonnetsPreprocessed.txt
,拆分文本的换行符的文件,然后记号化文档。
文件名=“sonnetsPreprocessed.txt”;STR = extractFileText(文件名);的TextData = SPLIT(STR,换行);文档= tokenizedDocument(的TextData);
创建使用袋的词模型bagOfWords
。
包= bagOfWords(文档)
袋= bagOfWords具有属性:计算:[154x3092双]词汇:[1x3092字符串] NUMWORDS:3092个NumDocuments:154
使用可视化词云袋的词模型。
图wordcloud(袋);
加载的示例数据sonnetsTable
。桌子TBL
包含字的变量列表字
在变量,和相应的频率计数计数
。
加载sonnetsTable头(TBL)
ANS =8×2表字数___________ _____ { '' 'TIS'} 1 { '' 阿门 ''} 1 { '' 一般 '} 2 { '' 抵挡得住 '} 1 {' '由于'} 1 {'这个} 2 {''祢'} {1 '' 这样} 1
使用绘制表格数据wordcloud
。指定的单词和相应字长是字
和计数
分别变数。
图wordcloud(TBL,'字','计数');标题(“十四行诗字云”)
要重现此示例中的结果,集RNG
至'默认'
。
RNG('默认')
加载的示例数据。文件sonnetsPreprocessed.txt
包含莎士比亚十四行诗的预处理版本。该文件包含每行一个十四行诗,文字分离通过的空间。提取文本sonnetsPreprocessed.txt
,拆分文本的换行符的文件,然后记号化文档。
文件名=“sonnetsPreprocessed.txt”;STR = extractFileText(文件名);的TextData = SPLIT(STR,换行);文档= tokenizedDocument(的TextData);
创建使用袋的词模型bagOfWords
。
包= bagOfWords(文档)
袋= bagOfWords具有属性:计算:[154x3092双]词汇:[1x3092字符串] NUMWORDS:3092个NumDocuments:154
配合20个主题的LDA模型。为了抑制详细的输出,集“放牧”
为0。
MDL = fitlda(袋,20,“放牧”,0)
MDL = ldaModel与属性:NumTopics:20 WordConcentration:1个TopicConcentration:5个CorpusTopicProbabilities:[1X20双] DocumentTopicProbabilities:[154x20双] TopicWordProbabilities:[3092x20双]词汇:[1x3092字符串] TopicOrder: '初始拟合概率' FitInfo:[1x1的结构]
使用可视化云字头四个主题。
数字对于topicIdx = 1:4副区(2,2,topicIdx)wordcloud(MDL,topicIdx);标题(“话题: ”+ topicIdx)结束
海峡
-输入文本输入文本,指定为一个字符串数组,字符向量,或字符向量的单元阵列。
对于字符串输入时,wordcloud
和wordCloudCounts
功能使用英语,日语,德语,韩语标记化,停止词删除,和字规范化。
例:[“短文档的示例”,“第二短文件”]
数据类型:串
|烧焦
|细胞
文件
-输入文件tokenizedDocument
排列输入文件,指定为tokenizedDocument
阵列。
wordVar
-为字数据表变量为字数据,指定为字符串标量,字符向量,数字索引或逻辑矢量表变量。
数据类型:单
|双
|INT8
|INT16
|INT32
|Int64的
|UINT8
|UINT16
|UINT32
|UINT64
|合乎逻辑
|烧焦
|串
sizeVar
-对于大小数据表变量对于大小的数据,指定为字符串标量,字符向量,数字索引或逻辑矢量表变量。
数据类型:单
|双
|INT8
|INT16
|INT32
|Int64的
|UINT8
|UINT16
|UINT32
|UINT64
|合乎逻辑
|烧焦
|串
话
-输入字输入字,指定为字符串向量或特征向量的单元阵列。
数据类型:串
|细胞
sizeData
-字长数据字的大小的数据,指定为数值向量。
数据类型:单
|双
|INT8
|INT16
|INT32
|Int64的
|UINT8
|UINT16
|UINT32
|UINT64
C
-输入分类数据输入分类数据,指定为分类数组。该函数绘制的每一个独特的元素C
与对应于大小histcounts(C)
。
数据类型:明确的
袋
-输入模型bagOfWords
目的|bagOfNgrams
目的输入袋的词或袋的的N-gram模型,指定为bagOfWords
对象或bagOfNgrams
目的。如果袋
是bagOfNgrams
对象,则该函数将每个n-gram中作为一个单词。
ldaMdl
-输入LDA模型ldaModel
目的输入LDA模型,指定为ldaModel
目的。
topicIdx
-LDA主题指数LDA主题的指数,指定为一个非负整数。
亲
-亲父指定为图中,面板,或标签。
指定可选的用逗号分隔的对名称,值
参数。名称
是参数的名称和值
是对应的值。名称
必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1,值1,...,NameN,值N
。
'HighlightColor', '蓝'
指定突出显示的颜色是蓝色。
该WordCloudChart
这里列出的属性只是一个子集。有关完整列表,请参阅WordCloudChart属性。
'MaxDisplayWords'
-字显示的最大数量的字显示的最大数量,指定为一个非负整数。软件显示MaxDisplayWords
最大的话。
'颜色'
-字色[0.2510 0.2510 0.2510]
(默认)|RGB三元|包含颜色名称字符向量|矩阵字的颜色,指定为一个RGB三元组,包含颜色名称的字符向量,或ñ
-by-3矩阵,其中ñ
是的长度WordData
。如果颜色
是一个矩阵,则每行对应于一个RGB三元用于在相应的字WordData
。
RGB三胞胎和十六进制颜色代码是用于指定自定义颜色非常有用。
一个RGB三元组是一个三元件列向量,其元素指定的颜色的红色,绿色和蓝色分量的强度。的强度必须在范围[0,1]
;例如,[0.4 0.6 0.7]
。
十六进制颜色代码是与散列符号开始的字符向量或标量字符串(#
),接着的三个或六个十六进制数字,它的范围可以从0
至F
。该值不区分大小写。因此,颜色代码'#FF8800'
,'#ff8800'
,'#F80'
和'#F80'
是等价的。
另外,您也可以按名称指定一些常见的颜色。该表列出了指定的颜色选择,相当于RGB三胞胎,和十六进制颜色代码。
颜色名称 | 简称 | RGB三元 | 十六进制颜色代码 | 出现 |
---|---|---|---|---|
'红' |
'R' |
[1 0 0] |
'#FF0000' |
|
'绿色' |
'G' |
[0 1 0] |
'#00FF00' |
|
'蓝色' |
'B' |
[0 0 1] |
'#0000FF' |
|
“青色” |
'C' |
[0 1 1] |
'#00FFFF' |
|
'品红' |
'M' |
[1 0 1] |
'#FF00FF' |
|
'黄色' |
'Y' |
[1 1 0] |
'#FFFF00' |
|
'黑色' |
数k |
[0 0 0] |
'#000000' |
|
'白色' |
'W' |
[1 1 1] |
'#FFFFFF' |
|
这里有许多类型地块的默认颜色MATLAB用途RGB三胞胎和十六进制颜色代码。
RGB三元 | 十六进制颜色代码 | 出现 |
---|---|---|
[0 0.4470 0.7410] |
'#0072BD' |
|
[0.8500 0.3250 0.0980] |
'#D95319' |
|
[0.9290 0.6940 0.1250] |
'#EDB120' |
|
[0.4940 0.1840 0.5560] |
'#7E2F8E' |
|
[0.4660 0.6740 0.1880] |
'#77AC30' |
|
[0.3010 0.7450 0.9330] |
'#4DBEEE' |
|
[0.6350 0.0780 0.1840] |
'#A2142F' |
|
例:'蓝色'
例:[0 0 1]
'HighlightColor'
-字高亮颜色[0.8510 0.3255 0.0980]
(默认)|RGB三元|包含颜色名称字符向量字突出显示颜色,指定为一个RGB三元组,或包含颜色名称的字符向量。该软件突出这个颜色最大的话。
RGB三胞胎和十六进制颜色代码是用于指定自定义颜色非常有用。
一个RGB三元组是一个三元件列向量,其元素指定的颜色的红色,绿色和蓝色分量的强度。的强度必须在范围[0,1]
;例如,[0.4 0.6 0.7]
。
十六进制颜色代码是与散列符号开始的字符向量或标量字符串(#
),接着的三个或六个十六进制数字,它的范围可以从0
至F
。该值不区分大小写。因此,颜色代码'#FF8800'
,'#ff8800'
,'#F80'
和'#F80'
是等价的。
另外,您也可以按名称指定一些常见的颜色。该表列出了指定的颜色选择,相当于RGB三胞胎,和十六进制颜色代码。
颜色名称 | 简称 | RGB三元 | 十六进制颜色代码 | 出现 |
---|---|---|---|---|
'红' |
'R' |
[1 0 0] |
'#FF0000' |
|
'绿色' |
'G' |
[0 1 0] |
'#00FF00' |
|
'蓝色' |
'B' |
[0 0 1] |
'#0000FF' |
|
“青色” |
'C' |
[0 1 1] |
'#00FFFF' |
|
'品红' |
'M' |
[1 0 1] |
'#FF00FF' |
|
'黄色' |
'Y' |
[1 1 0] |
'#FFFF00' |
|
'黑色' |
数k |
[0 0 0] |
'#000000' |
|
'白色' |
'W' |
[1 1 1] |
'#FFFFFF' |
|
这里有许多类型地块的默认颜色MATLAB用途RGB三胞胎和十六进制颜色代码。
RGB三元 | 十六进制颜色代码 | 出现 |
---|---|---|
[0 0.4470 0.7410] |
'#0072BD' |
|
[0.8500 0.3250 0.0980] |
'#D95319' |
|
[0.9290 0.6940 0.1250] |
'#EDB120' |
|
[0.4940 0.1840 0.5560] |
'#7E2F8E' |
|
[0.4660 0.6740 0.1880] |
'#77AC30' |
|
[0.3010 0.7450 0.9330] |
'#4DBEEE' |
|
[0.6350 0.0780 0.1840] |
'#A2142F' |
|
例:'蓝色'
例:[0 0 1]
'形状'
-词云的形状'椭圆'
(默认)|'长方形'
词云图表的形状,指定为'椭圆'
要么'长方形'
。
例:'长方形'
厕所
-WordCloudChart
目的WordCloudChart
目的WordCloudChart
目的。您可以修改的属性WordCloudChart
之后它被创建。欲了解更多信息,请参阅WordCloudChart属性。
对于字符串输入时,wordcloud
和wordCloudCounts
功能使用英语,日语,德语,韩语标记化,停止词删除,和字规范化。
对于其他语言,您可能需要手动的进行预处理的文本数据,并指定唯一的单词和相应的尺寸wordcloud
。
要指定字长的wordcloud
输入你的数据作为表或包含唯一字和相应大小的阵列。
您单击对应于该MATLAB命令的链接:
在MATLAB命令窗口中输入它运行的命令。Web浏览器不支持MATLAB的命令。万博1manbetx
您还可以选择从下面的列表中的网站:
选择最佳的网站性能的中国网站(在中国或英文)。其他MathWorks的国家网站都没有从您的位置访问进行了优化。