文本分析工具箱
分析和模型文本数据
Text Analytics Toolbox™提供用于预处理,分析和建模文本数据的算法和可视化。使用工具箱创建的模型可用于语言分析,预测性维护和主题建模等应用程序。
Text Analytics工具箱包括从设备日志,新闻源,调查,运营商报告和社交媒体等源处理原始文本的工具。您可以从流行文件格式提取文本,预处理原始文本,提取单个单词,将文本转换为数字表示,并构建统计模型。
使用机器学习技术,如LSA,LDA和Word Embeddings,您可以找到来自高维文本数据集的群集并创建功能。使用Text Analytics Toolbox创建的功能可以与其他数据源的功能组合,以构建机器学习模型,以利用文本,数字和其他类型的数据。
开始:
提取文本数据
将文本数据导入MATLAB®从单个文件或大型文件集合,包括PDF,HTML和Microsoft®单词®和Excel.®文件。
语言支持万博1manbetx
Text Analytics Toolbox为英语,日语,德语和韩语提供了语言特定的预处理功能。大多数函数也使用其他语言的文本。
清洁文本数据
应用高级过滤功能以删除无关内容,例如URL,HTML标记和标点,以及正确的拼写。
过滤器停止单词并将单词标准化为根形式
通过过滤出常见的单词,常见或不经常出现的单词,以及非常长或非常短的单词,优先考虑分析中的有意义的文本数据。减少词汇,重点关注文档的更广泛的感觉或情绪,通过源于他们的根形式或将它们释放到他们的字典形式。
单词嵌入和编码
火车嵌入式型号,如Word2vec连续袋(CBOW)和跳过克模型。导入借用模型,包括FastText和手套。
主题建模
使用机器学习算法(如潜在的Dirichlet分配(LDA)和潜在语义分析(LSA))在大型文本数据中发现和可视化底层模式,趋势和复杂关系。
文件摘要和关键字提取
从一个或多个文档自动提取摘要和相关关键字,并评估文档的相似性和重要性。
变压器模型
利用伯特和GPT-2等变压器模型,以便与文本数据进行转移学习,以进行情绪分析,分类和摘要。
文本分类
使用Word Embeddings对文本描述进行分类,可以通过深度学习识别文本类别。