文本分析工具箱
分析和建模文本数据
文本分析工具箱™ 提供用于预处理、分析和建模文本数据的算法和可视化。使用工具箱创建的模型可用于情绪分析、预测性维护和主题建模等应用程序。
文本分析工具箱包括用于处理来自设备日志、新闻提要、调查、运营商报告和社交媒体等源的原始文本的工具。您可以从流行的文件格式中提取文本,预处理原始文本,提取单个单词,将文本转换为数字表示,以及构建统计模型。
使用机器学习技术,如LSA、LDA和单词嵌入,您可以从高维文本数据集中找到集群并创建特征。使用文本分析工具箱创建的功能可以与来自其他数据源的功能相结合,以构建利用文本、数字和其他类型数据的机器学习模型。
开始:
提取文本数据
将文本数据导入MATLAB®来自单个文件或大型文件集合,包括PDF、HTML和Microsoft®单词®和卓越®文件夹。
语言支持万博1manbetx
Text Analytics Toolbox为英语、日语、德语和韩语提供了语言特定的预处理功能。大多数函数也可以处理其他语言的文本。
清除文本数据
应用高级过滤功能来删除无关内容,如url、HTML标记和标点符号,并纠正拼写。
过滤停止词和正常化词的根形式
通过过滤掉常见单词、出现频率过高或不常见的单词以及非常长或非常短的单词,对分析中有意义的文本数据进行优先级排序。减少词汇量,通过将单词词根化或将其语法化为字典形式,将注意力集中在文档更广泛的意义或情感上。
单词嵌入与编码
训练单词嵌入模型,如word2vec连续单词包(CBOW)和skip-gram模型。导入预训练模型,包括fastText和GloVe。
主题建模
使用机器学习算法,如潜在Dirichlet分配(LDA)和潜在语义分析(LSA),发现并可视化大型文本数据集中的底层模式、趋势和复杂关系。
文档摘要与关键词提取
自动从一个或多个文档中提取摘要和相关关键字,并评估文档的相似性和重要性。
文本分类
使用单词嵌入对文本描述进行分类,通过深入学习可以识别文本的类别。
关键字提取
使用RAKE和TextRank算法提取最能描述文档的关键字
看见发布说明有关这些功能和相应功能的详细信息。
基于深度学习的情感分析
分析实时推特数据的情绪,以了解一个给定的术语是如何被感知的。