文档帮助中心文档

建模和预测

开发使用主题模型和单词嵌入的预测模型

要查找来自高维文本数据集的集群和提取功能，您可以使用机器学习技术和模型，如LSA，LDA和Word Embeddings。您可以将使用Text Analytics Toolbox™创建的功能组合，其中包含其他数据源的功能。使用这些功能，您可以构建机器学习模型，以利用文本，数字和其他类型的数据。

功能

单词和N-Gram计数

`bagOfWords`	袋式模型
`bagOfNgrams`	Bag-of-n-grams模型
`addocument.`	将文档添加到单词袋或袋袋模型
`removeDocument`	从单词袋或n-gram袋模型中删除文档
`removeInfrequentWords`	从单词袋模型中删除低计数的单词
`removeInfrequentNgrams`	从n-r克模型中删除不经常看到的n-grams
`removeWords`	从文档或词袋模型中删除选定的词
`regovenrams.`	从N-r克模型中删除n-grams
`removeEmptyDocuments`	从令牌化文档阵列中删除空文档，文字袋式模型或N-r克模型
`topkwords.`	单词袋模型或LDA主题中最重要的单词
`topkngrams`	最常见的字格
`编码`	将文档编码为单词或n元计数矩阵
`tfidf`	术语频率-反文档频率(tf-idf)矩阵
`加入`	结合多个单词或袋式袋式型号

情绪分析

`vaderSentimentScores`	具有VADER算法的情感分数
`比例`	与比例规则的情感分数

单词嵌入和编码

`fasttextwordembeddings.`	普里德雷特FastText Word嵌入
`wordEncoding`	单词编码模型，将单词映射到索引和返回
`doc2sequence.`	将文档转换为深度学习的序列
`WordembeddingLayer.`	深度学习网络的字嵌入层
`Word2vec.`	映射单词到嵌入矢量
`word2ind`	将单词映射到编码索引
`vec2word.`	映射嵌入向量到word
`ind2word`	将编码索引映射到word
`isVocabularyWord`	测试word是否为word嵌入或编码的成员
`readwordembeddings.`	读取从文件嵌入的单词
`trainWordEmbedding`	火车字嵌入
`withwordembeddings.`	写字嵌入文件
`Wordembeddings.`	单词嵌入模型将单词映射到向量和背部

文件摘要和相似性

`提取物`	从文档中提取摘要
`Rakekeywords.`	使用RAKE提取关键词
`textrankKeywords`	使用TextRank提取关键字
`bleuevaluationscore.`	使用BLEU相似度评分评估翻译或摘要
`Rougeevaluationscore.`	使用ROUGE相似度评分评估翻译或摘要
`bm25Similarity`	文档与BM25算法的相似性
`casinediepilarity.`	文档相似度与余弦相似度
`textrankscores.`	文档评分与TextRank算法
`lexrankScores`	使用LexRank算法对文档进行评分
`mmrScores`	基于最大边际相关性(MMR)算法的文档评分

主题建模和降维

`fitlda`	拟合潜在狄利克雷分配(LDA)模型
`fitlsa`	适合LSA模型
`的简历`	简历拟合LDA模型
`logp.`	LDA模型的文档日志概率和拟合的良好
`预测`	预测文档的顶级LDA主题
`变换`	将文档转换为低维空间
`ldaModel`	潜在狄利克雷分配(LDA)模型
`lsaModel`	潜在语义分析(LSA)模型

可视化

`wordcloud`	从文本，单词袋式模型，袋袋模型或LDA模型创建单词云图
`textscatter`	文本的二维散点图
`textscatter3`	文本的三维散点图

主题

分类和建模

创建简单的预处理功能

这个例子展示了如何创建一个函数来清理和预处理文本数据以进行分析。

为分类创建简单的文本模型

此示例显示如何使用袋式模型训练字频计上的简单文本分类器。

使用多字词分析文本数据

这个例子展示了如何使用n-gram频率计数来分析文本。

使用主题模型分析文本数据

这个示例展示了如何使用Latent Dirichlet Allocation (LDA)主题模型来分析文本数据。

选择LDA模型的主题数量

此示例显示了如何确定潜在Dirichlet分配（LDA）模型的适当数量的主题。

比较LDA解决者

这个例子展示了如何通过比较模型的拟合优度和拟合时间来比较潜在的Dirichlet分配(LDA)求解器。

使用LDA模型可视化文档群集

此示例显示如何使用潜在的Dirichlet分配（LDA）主题模型和T-SNE图来可视化文档的群集。

可视化LDA主题相关性

这个示例展示了如何在Latent Dirichlet Allocation (LDA)主题模型中分析主题之间的相关性。

可视化LDA主题和文档标签之间的关联

此示例显示如何适合潜在的Dirichlet分配（LDA）主题模型并在LDA主题和文档标签之间可视化相关性。

创建共生网络

这个例子展示了如何使用单词袋模型创建一个共现网络。

情感分析和关键字提取

分析文本情绪

此示例显示了如何使用价值感知词典和情绪推理（VADER）算法进行情感分析。

生成领域特定情感词典

这个例子展示了如何使用10-K和10-Q财务报告生成情感分析的词典。

训练情感分类器

此示例显示如何使用正面和负面情绪单词的注释列表和佩戴尔嵌入的单词嵌入的注释列表来训练分类器进行情感分析。

使用Rake提取来自文本数据的关键字

此示例显示如何使用快速自动关键字提取（Rake）从文本数据中提取关键字。

使用textrank从文本数据中提取关键字

这个例子展示了如何使用TextRank从文本数据中提取关键字。

深度学习

使用深度学习对文本数据进行分类

此示例显示如何使用深度学习长期短期内存（LSTM）网络对文本数据进行分类。

使用卷积神经网络对文本数据进行分类

此示例显示如何使用卷积神经网络对文本数据进行分类。

使用深度学习对内存不足的文本数据进行分类

此示例显示如何使用变换的数据存储来将内存外文本数据分类为深入学习网络。

使用注意的顺序翻译

这个示例演示了如何使用循环序列到序列编码器-解码器模型将十进制字符串转换为罗马数字。

使用深度学习的多书文本分类

此示例显示如何对具有多个独立标签的文本数据进行分类。

使用深度学习生成文本(深度学习工具箱)

这个例子展示了如何训练深度学习长短期记忆(LSTM)网络生成文本。

傲慢与偏见和MATLAB

此示例显示如何使用字符嵌入式培训深度学习LSTM网络来生成文本。

使用深度学习逐字生成文本

这个例子展示了如何训练一个深度学习LSTM网络来逐字生成文本。

使用自定义训练循环对文本数据进行分类

这个例子展示了如何使用带有自定义训练循环的深度学习双向长短期记忆(BiLSTM)网络对文本数据进行分类。

使用自动编码器生成文本

这个例子展示了如何使用自动编码器生成文本数据。

定义文本编码器模型功能

此示例显示如何定义文本编码器模型函数。

定义文本解码器模型功能

此示例显示如何定义文本解码器模型函数。

使用深度学习的语言翻译

这个例子展示了如何使用循环序列到序列编码器-解码器模型来训练德语到英语的翻译人员。

语言支持万博1manbetx

语言考虑因素

有关使用其他语言的文本分析工具箱功能的信息。

日本语言支持万博1manbetx

关于文本分析工具箱中的日语支持的信息。万博1manbetx

分析日语文本数据

此示例显示了如何使用主题模型导入，准备和分析日语文本数据。

德国语言支持万博1manbetx

文本分析工具箱中德语支持的信息。万博1manbetx

分析德国文本数据

此示例显示了如何使用主题模型导入，准备和分析德语文本数据。

特色的例子

使用深度学习对文本数据进行分类

使用深度学习对文本数据进行分类

使用深度学习长短期记忆(LSTM)网络对文本数据进行分类。

打开直播脚本

使用多字词分析文本数据

使用多字词分析文本数据

使用n克频率计数分析文本。

打开直播脚本

使用主题模型分析文本数据

使用主题模型分析文本数据

使用Latent Dirichlet Allocation (LDA)主题模型分析文本数据。

打开直播脚本

文本分析工具箱文档

万博1manbetx

入门文本分析在MATLAB

立即下载