文本分析工具箱

分析和建模文本数据

文本分析工具箱™为预处理、分析和建模文本数据提供了算法和可视化。使用工具箱创建的模型可以在情绪分析、预测维护和主题建模等应用程序中使用。

文本分析工具箱包括处理原始文本的工具,从资源,如设备日志,新闻源,调查,操作员报告,和社会媒体。您可以从流行的文件格式中提取文本、预处理原始文本、提取单个单词、将文本转换为数字表示,以及构建统计模型。

使用LSA、LDA和单词嵌入等机器学习技术,您可以从高维文本数据集中找到集群并创建特性。使用Text Analytics Toolbox创建的特性可以与来自其他数据源的特性相结合,以构建利用文本、数字和其他类型数据的机器学习模型。

开始:

导入和可视化文本数据

从社会媒体、新闻提要、设备日志、报告和调查等来源中提取文本数据。

提取文本数据

导入文本数据到MATLAB®从单个文件或大型文件集合,包括PDF、HTML和Microsoft®®和Excel®文件。

从microsoftword文档集合中提取文本。

可视化文本

使用词云和文本散点图可视化地探索文本数据集。

显示使用字体大小和颜色的单词的相对频率的文本散点图。

语言支持万博1manbetx

文本分析工具箱为英语、日语、德语和韩语提供了特定于语言的预处理功能。大多数函数还可以处理其他语言中的文本。

输入、准备和分析日语文本。

预处理文本数据

从原始文本中提取有意义的单词。

清洁文本数据

应用高级过滤函数来删除无关的内容,如url、HTML标记、标点符号和正确的拼写。

简化原始文本(左)以处理最有意义的单词(右)。

过滤停止词,并将词规范化为根形式

通过过滤掉常见单词、出现频率过高或过低的单词以及非常长或非常短的单词,在分析中对有意义的文本数据进行优先排序。减少词汇量,并通过将单词词根化或将其分解为字典的形式来关注文档更广泛的意义或情感。

从文档中删除像“a”和“of”这样的停止词。

识别标记、句子和词性

使用标记化算法自动将原始文本分割成单词的集合。添加句子边界、词性细节和其他相关上下文信息。

财务图表和技术指标。

转换文本到数字格式

将文本数据转换为数字形式,用于机器学习和深度学习。

单词和n字计数

计算词频统计以数字方式表示文本数据。

识别和可视化模型中最经常出现的单词。

字嵌入和编码

训练单词嵌入模型,如word2vec连续单词包(CBOW)和跳过图模型。进口预先训练的模型,包括fastText和手套。

使用单词嵌入在文本散点图中可视化集群。

使用文本数据进行机器学习

使用机器学习算法进行主题建模、分类、降维和文档摘要提取。

主题建模

使用机器学习算法(如潜在Dirichlet分配(LDA)和潜在语义分析(LSA))发现和可视化大型文本数据集中的底层模式、趋势和复杂关系。

在风暴报告数据中识别主题。

文档摘要

自动从一个或多个文档中提取摘要,并评估文档的相似性和重要性。

从文本中提取摘要。

利用文本数据进行深度学习

进行情绪分析和分类深度学习网络,如长短期内存网络(LSTMs)。

情绪分析

识别文本数据中表达的态度和观点,将陈述分类为积极、中立或消极。建立可以实时预测情绪的模型。

找出预测积极和消极情绪的词汇。

训练一个深度神经网络来分类文本数据。

文本生成

根据观察到的文本使用深度学习生成新的文本。

使用简·奥斯汀的文本生成《傲慢与偏见》和一个深度学习的LSTM网络。

最新的特性

文档摘要

从文本中提取摘要

文档的重要性

使用TextRank、LexRank和maximum Marginal Relevance (MMR)评估文本的重要性

文档相似

使用BM25、余弦相似度、蓝色或胭脂评分算法评估文本相似度

拼写校正

正确拼写英语,德语,韩语文本

看到发布说明有关这些特性及其相应功能的详细信息。

深度学习的情绪分析

分析实时Twitter数据的情绪,以了解如何理解一个给定的术语。