使用文字云可视化文本数据
此示例演示如何使用字云可视化文本数据。
文本分析工具箱扩展了wordcloud
(MATLAB)功能。它增加了直接从字万博1manbetx符串数组创建词云的支持,以及从单词包模型和LDA主题创建词云的支持。
加载示例数据。该文件factoryReports.csv
包含工厂报告,包括每个事件的文本描述和分类标签。
文件名=“factoryReports.csv”;TBL = readtable(文件名,“TextType”,“字符串”);
方法提取文本数据描述
列。
textData = tbl.Description;textData (1:10)
ans =10 x1字符串“物品偶尔会卡在扫描仪线轴上。”“巨大的咔啦咔啦声和砰砰声来自装配活塞。”“当工厂启动时,电力会被切断。”“装配器里的电容器烧坏了。”“搅拌器把保险丝弄断了。”爆裂的管道中正在喷洒冷却剂。“搅拌机里的保险丝烧断了。”“东西继续从皮带上掉下来。”“从传送带上掉下来的东西。”“扫描器卷轴裂开了,很快就会开始弯曲。”
根据报告创建一个词云。
图wordcloud (textData);标题(“工厂报告”)
将报告中的单词与标签进行比较“泄漏”
而且“机械故障”
.为每个标签创建报告的词云。为每个词云分别指定单词颜色为蓝色和品红。
图标签= tbl.类别;Subplot (1,2,1) idx = labels ==“泄漏”;wordcloud (textData (idx),“颜色”,“蓝”);标题(“泄漏”) subplot(1,2,2) idx = labels ==“机械故障”;wordcloud (textData (idx),“颜色”,“红色”);标题(“机械故障”)
比较报告中紧急的单词“Low”,“Medium”和“High”。
figure urgent = tbl. urgent;Subplot (1,3,1) idx = urgency ==“低”;wordcloud (textData (idx));标题(“紧迫性:低”) subplot(1,3,2) idx = urgency ==“媒介”;wordcloud (textData (idx));标题(“紧迫性:媒介”) subplot(1,3,3) idx = urgency ==“高”;wordcloud (textData (idx));标题(“紧迫性:高”)
将报告中以数百美元为单位的成本与以数千美元为单位的成本进行比较。分别用高亮颜色蓝色和红色为每个这些金额创建报告的字云。
cost = tbl.Cost;Idx =成本> 100;图wordcloud (textData (idx),“HighlightColor”,“蓝”);标题(“花费> $100”)
Idx =成本> 1000;图wordcloud (textData (idx),“HighlightColor”,“红色”);标题(“花费了> $ 1000”)
另请参阅
wordcloud
|tokenizedDocument
|bagOfWords