主要内容

分析包含Emojis的文本数据

此示例演示如何分析包含表情符号的文本数据。

表情符号是在文本中内联显示的图形符号。在智能手机和平板电脑等移动设备上书写文字时,人们使用表情符号来保持文字简短,并传达情感和感受。

您还可以使用Emojis来分析文本数据。例如,使用它们来识别相关的文本字符串或可视化文本的情感或情感。

使用文本数据时,表情符号的行为可能不可预测。根据您的系统字体,您的系统可能无法正确显示某些表情符号。因此,如果表情符号显示不正确,则数据不一定会丢失。您的系统可能无法以当前字体显示表情符号。

撰写表情符号

在大多数情况下,您可以从文件中读取Emojis(例如,使用提取物文字extracthtmltext., 或者可读)或通过将它们直接复制和粘贴到MATLAB®中。否则,您必须使用Unicode UTF16代码单元撰写EMOJI。

一些Emojis由多个Unicode UTF16代码单元组成。例如,“带太阳镜的笑脸”表情符号(用代码点U + 1f60e)是单个字形,但包括两个UTF16代码单元“D83D”“de0e”。使用此包含此Emoji的字符串使用组成函数,并使用前缀指定两个代码单位“\X”

emoji = compose(“\xD83D\xDE0E”
表情符号=“”

首先获取eNoji的Unicode UTF16代码单位。用烧焦要获取表情符号的数字表示形式,请使用十二进制获取相应的十六进制值。

CodeUnits = Dec2Hex(Char(Emoji))
codeunits =.2×4字符数组'd83d''de0e'

使用strjoin.使用空分隔符

formatSpec=strjoin(“\X”+ codeunits,
formatspec =“\ xd83d \ xde0e”
emoji = compose(formatspec)
表情符号=“”

导入文本数据

提取文件中的文本数据waydingupdates.xlsx.使用可读。文件waydingupdates.xlsx.包含包含hashtags的状态更新“周末”“#假期”

filename =.“waydendupdates.xlsx”;tbl = readtable(文件名,'texttype''细绳');头(TBL)
ans=8×2表ID TextData _____________________________________________________________________ 1“快乐周年纪念!❤#vacation”2“哈哈,烧烤在海滩上,聘请”3“在星期六晚上准备好#yum #weekend”4“准备#yum #weekend”4“准备好#yum #weekend”4“和我一起说 - 我需要一个#vacation !!!♥“5”在家中在家里冷却......这是生活!#weekend“6”在考试前的最后一个#weekend。“7“无法相信我的#vacation已经结束了,所以不公平的”8“不能等待网球这个#weekend”

从字段中提取文本数据textdata.并查看前几个状态更新。

textdata = tbl.textdata;TextData(1:5)
ans =.5×1字符串“周年快乐!❤ 下一站:巴黎!✈ #假期“哈哈,在海滩上烧烤,玩自鸣得意的模式!❤  #假期“准备周六晚上的假期”#嗯#周末”#跟我说-我需要一个#假期!!!☹“多年来第一次在家里寒冷……这就是生活!#周末”

可视化单词云中的文本数据。

图wordcloud(文本数据);

通过Emoji过滤文本数据

使用识别包含特定表情符号的状态更新包含功能。找到包含“带有太阳镜”emoji的“笑脸”的文件的索引(用代码U + 1F60E)。该表情符号包括两个Unicode UTF16代码单元“D83D”及"DE0E“

emoji = compose(“\xD83D\xDE0E”);idx=contains(textData,emoji);textdasunglasses=textData(idx);textdasunglasses(1:5)
ans =.5×1字符串“哈哈,烧烤在海滩上,聘请自鸣得意的模式!❤#vacation”“在星期六晚上准备好#weekend”“在家里第一次在家里冷却......这是生活!#weekend”“检查出来-of-Office船员,我们正式开启#vacation !!“”当天气这很好时,谁需要#vacation

在单词云中可视化提取的文本数据。

figure wordcloud(textDataSunglasses);

提取和可视化Emojis

使用Word云可视化文本数据中的所有EMOJI。

提取表情符号。首先使用授权文本标记化文档,然后查看前几个文档。

文档= tokenizeddocument(textdata);文件(1:5)
ans = 5×1令王形化Document:11个代币:周年纪念日!❤下一站:巴黎!✈#vacation 16令牌:哈哈,烧烤在海滩上,聘请自鸣得意模式!❤#vacation 9令牌:在星期六晚上准备好#yum #weekend 13令牌:与我说 - 我需要#vacation!!!!!☹19代币:在家中在家里冷却......这是生活!#周末

标记化文档函数自动检测表情符号并指定标记类型“emoji”。使用查看文档的前几个令牌详细信息令敬当功能。

tdetails=标记详细信息(文档);标题(tdetails)
ans=8×5表令牌文档编号行号类型语言(uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu❤" 1 1表情符号en“下一个”11字母en“停止”11字母en:“1 1标点符号en“巴黎”11字母en

通过用令牌类型提取令牌来可视化单词云中的Emojis“emoji”并将它们输入到WordCloud.功能。

idx=tdetails.Type==“emoji”;tokens = tdetails.Token(IDX);图WordCloud(令牌);标题(“emojis”

也可以看看

||

相关话题