使用单词云可视化文本数据
这个例子展示了如何使用单词云可视化文本数据。
文本分析工具箱扩展了wordcloud
(MATLAB)功能。它支持直接从字符万博1manbetx串数组创建词云,支持从词袋模型和LDA主题创建词云。
加载示例数据。该文件factoryReports.csv
包含工厂报告,包括每个事件的文本描述和分类标签。
文件名=“factoryReports.csv”;TBL =可读(文件名,“TextType”,“字符串”);
方法中提取文本数据描述
列。
textData = tbl.Description;textData (1:10)
ans =10 x1字符串“物品偶尔会卡在扫描仪线轴上。”“组装活塞发出巨大的嘎嘎声和砰砰声。”“在启动工厂时,电力会被切断。”“组装机里的电容器烧坏了。”“混频器把保险丝弄断了。”"爆裂管道内的施工剂正在喷洒冷却剂"“搅拌机里的保险丝烧断了。”“东西继续从传送带上掉下来。”“传送带上落下的物品。”扫描器卷筒裂开了,很快就会开始弯曲。
从报告中创建一个词云。
图wordcloud (textData);标题(“工厂报告”)
把报告中的单词和标签比较一下“泄漏”
而且“机械故障”
.为每个标签创建报告的词云。为每个词云分别指定蓝色和洋红色的单词颜色。
figure labels = tbl.Category;Subplot (1,2,1) idx = labels ==“泄漏”;wordcloud (textData (idx),“颜色”,“蓝”);标题(“泄漏”) subplot(1,2,2) idx = labels ==“机械故障”;wordcloud (textData (idx),“颜色”,“红色”);标题(“机械故障”)
比较报告中紧急的单词“低”,“中”和“高”。
figure urgency = tb . urgency;Subplot (1,3,1) idx = urgency ==“低”;wordcloud (textData (idx));标题(“紧迫性:低”) subplot(1,3,2) idx = urgency ==“媒介”;wordcloud (textData (idx));标题(“紧迫性:媒介”) subplot(1,3,3) idx = urgency ==“高”;wordcloud (textData (idx));标题(“紧迫性:高”)
将成本以数百美元报告的文字与成本以数千美元报告的文字进行比较。分别用高亮颜色蓝色和红色为每个金额创建报告的字云。
cost = tbl.Cost;Idx =成本> 100;图wordcloud (textData (idx),“HighlightColor”,“蓝”);标题(“花了100美元”)
Idx =成本> 1000;图wordcloud (textData (idx),“HighlightColor”,“红色”);标题(“花了1000美元”)
另请参阅
wordcloud
|tokenizedDocument
|bagOfWords