워드클라우드를사용하여텍스트데이터시각화하기
이예제에서는워드클라우드를사용하여텍스트데이터를시각화하는방법을보여줍니다。
文本分析工具箱에서는wordcloud
(matlab)함수의기능을확장해사용할수있습니다。또한字符串형배열에서직접워드클라우드를만들고bag-of-words모델및LDA토픽에서도워드클라우드를만들수있습니다。
예제데이터를불러옵니다。factoryReports.csv
파일에는각이벤트에대한텍스트설명과범주레이블이포함된공장보고서가들어있습니다。
文件名=“factoryReports.csv”;TBL =可读(文件名,“TextType”,“字符串”);
描述
열에서텍스트데이터를추출합니다。
textData = tbl.Description;textData (1:10)
ans =10 x1字符串“物品偶尔会卡在扫描仪线轴上。”“组装活塞发出巨大的嘎嘎声和砰砰声。”“在启动工厂时,电力会被切断。”“组装机里的电容器烧坏了。”“混频器把保险丝弄断了。”"爆裂管道内的施工剂正在喷洒冷却剂"“搅拌机里的保险丝烧断了。”“东西继续从传送带上掉下来。”“传送带上落下的物品。”扫描器卷筒裂开了,很快就会开始弯曲。
보고서에서워드클라우드를만듭니다。
图wordcloud (textData);标题(“工厂报告”)
보고서에서레이블“泄漏”
및“机械故障”
를갖는단어를비교합니다。이러한각레이블에대해보고서의워드클라우드를만듭니다。각워드클라우드의단어색을각각파란색과자홍색으로지정합니다。
figure labels = tbl.Category;Subplot (1,2,1) idx = labels ==“泄漏”;wordcloud (textData (idx),“颜色”,“蓝”);标题(“泄漏”) subplot(1,2,2) idx = labels ==“机械故障”;wordcloud (textData (idx),“颜色”,“红色”);标题(“机械故障”)
보고서에서紧迫性“低”、“中”、“高”를갖는단어를비교합니다。
figure urgency = tb . urgency;Subplot (1,3,1) idx = urgency ==“低”;wordcloud (textData (idx));标题(“紧迫性:低”) subplot(1,3,2) idx = urgency ==“媒介”;wordcloud (textData (idx));标题(“紧迫性:媒介”) subplot(1,3,3) idx = urgency ==“高”;wordcloud (textData (idx));标题(“紧迫性:高”)
수백달러로보고된비용을갖는보고서의단어와수천달러로보고된비용을갖는보고서를비교합니다。이러한각금액에대해보고서의워드클라우드를만들고각각파란색과빨간색으로강조합니다。
cost = tbl.Cost;Idx =成本> 100;图wordcloud (textData (idx),“HighlightColor”,“蓝”);标题(“花了100美元”)
Idx =成本> 1000;图wordcloud (textData (idx),“HighlightColor”,“红色”);标题(“花了1000美元”)
참고 항목
wordcloud
|tokenizedDocument
|bagOfWords