文本分析工具箱

分析和建模文本数据

下载免费试用版

查看定价

文本分析工具箱™ 提供用于预处理、分析和建模文本数据的算法和可视化。使用工具箱创建的模型可用于情绪分析、预测性维护和主题建模等应用程序。

文本分析工具箱包括用于处理来自设备日志、新闻提要、调查、运营商报告和社交媒体等源的原始文本的工具。您可以从流行的文件格式中提取文本，预处理原始文本，提取单个单词，将文本转换为数字表示，以及构建统计模型。

使用机器学习技术，如LSA、LDA和单词嵌入，您可以从高维文本数据集中找到集群并创建特征。使用文本分析工具箱创建的功能可以与来自其他数据源的功能相结合，以构建利用文本、数字和其他类型数据的机器学习模型。

开始：

什么是文本分析工具箱？

免费白皮书

MATLAB中的文本分析入门

下载白皮书

导入和可视化文本数据

从社交媒体、新闻提要、设备日志、报告和调查等来源提取文本数据。

提取文本数据

将文本数据导入MATLAB^®来自单个文件或大型文件集合，包括PDF、HTML和Microsoft^®单词^®和卓越^®文件夹。

从文件中提取文本数据

解析HTML并提取文本内容

分析包含表情符号的文本数据

从Microsoft Word文档集合中提取文本。

可视化文本

使用单词云和文本散点图直观地浏览文本数据集。

使用词云可视化文本数据

使用文本散点图可视化单词嵌入

单词云显示使用字体大小和颜色的单词的相对频率。

语言支持万博1manbetx

文本分析工具箱为英语、日语、德语和朝鲜语提供了特定于语言的预处理功能。大多数函数还可以处理其他语言的文本。

语言支持万博1manbetx

分析日语文本数据

检测文本语言

分析德语文本数据

导入、准备和分析日语文本。

预处理文本数据

从原始文本中提取有意义的单词。

清除文本数据

应用高级过滤功能删除URL、HTML标记和标点符号等无关内容，并更正拼写。

准备文本数据进行分析

从文本和文档中删除标点符号

从文本中删除HTTP和HTTPS URL

文件中的正确拼写

简化原始文本（左）以使用最有意义的单词（右）。

过滤停止字并将字规范化为根形式

通过过滤掉常见单词、出现频率过高或不常见的单词以及非常长或非常短的单词，对分析中有意义的文本数据进行优先级排序。减少词汇量，通过将单词词根化或将其语法化为字典形式，将注意力集中在文档更广泛的意义或情感上。

从文档中删除停止字

词干或柠檬化词

堵塞

柠檬化

从文档中删除“a”和“of”等停止词。

识别标记、句子和词性

使用标记化算法将原始文本自动拆分为单词集合。为上下文添加句子边界、词性细节和其他相关信息。

通过标记化将文本拆分为单词

检测文档中的句子边界

向文档中添加词性标记

向标记化文档添加词性和句子细节。

将文本转换为数字格式

将文本数据转换为数字形式，用于机器学习和深度学习。

字与N克计数

计算词频统计以数字方式表示文本数据。

使用多词短语分析文本数据

术语频率–逆文档频率（tf idf）矩阵

识别并可视化模型中最常出现的单词。

单词嵌入和编码

训练单词嵌入模型，如word2vec连续单词包（CBOW）和skip-gram模型。导入预训练模型，包括fastText和GloVe。

使用文本散点图可视化单词嵌入

预训练快速文本词嵌入

将单词映射到嵌入向量

使用单词嵌入在文本散点图中可视化集群。

基于文本数据的机器学习

使用机器学习算法执行主题建模、情感分析、分类、降维和文档摘要提取。

主题建模

使用机器学习算法，如潜在Dirichlet分配（LDA）和潜在语义分析（LSA），发现并可视化大型文本数据集中的潜在模式、趋势和复杂关系。

使用主题模型分析文本数据

选择LDA模型的主题数

比较LDA解算器

确定风暴报告数据中的主题。

文档摘要与关键词提取

自动从一个或多个文档中提取摘要和相关关键字，并评估文档的相似性和重要性。

从文件中摘录摘要

使用TextRank从文本数据中提取关键字

基于BM25算法的文档相似性研究

基于TextRank算法的文档评分

从文本中提取摘要。

情绪分析

识别文本数据中表达的态度和观点，将陈述归类为积极、中立或消极。建立能够实时预测情绪的模型。

分析文本中的情感

培养情感分类器

生成特定领域的情感词典

识别预测积极和消极情绪的词语。

利用文本数据进行深度学习

表演情绪分析，分类、摘要和使用深度学习算法。

变压器模型

利用变换器模型（如BERT、FinBERT和GPT-2）对情绪分析、分类和摘要等任务的文本数据执行迁移学习。

基于MATLAB的变压器模型

使用文本数据进行迁移学习的转换器模型。

文本分类

使用单词嵌入对文本描述进行分类，通过深入学习可以识别文本的类别。

使用机器学习创建用于分类的简单文本模型

利用深度学习对文本数据进行分类

使用自定义小批量数据存储对内存不足的文本数据进行分类

训练深层神经网络对文本数据进行分类。

文本生成

使用深度学习根据观察到的文本生成新文本。

逐字符生成文本

使用单词嵌入层生成文本

使用字符嵌入层生成文本

使用Jane Austen的文本生成傲慢与偏见以及一个深入学习的LSTM网络。

产品资源：

文档功能技术文章用户故事产品要求发行说明视频和网络研讨会例子

免费试用

30天的探索，触手可及。

现在下载

准备好买了吗？

获取定价信息并探索相关产品。s manbetx 845

查看定价和许可联系销售

你是一个学生吗？

获取MATLAB和Simuli万博1manbetxnk学生软件。

检查是否可以免费访问立即购买