文件帮助中心文件

建模和预测

使用主题模型和Word Embeddings开发预测模型

要从高维文本数据集中找到聚类并提取特征，可以使用机器学习技术和模型，如LSA、LDA和单词嵌入。您可以将文本分析工具箱™创建的特性与来自其他数据源的特性结合起来。通过这些特性，您可以构建利用文本、数字和其他类型数据的机器学习模型。

职能

单词和n-gram计数

`Bagofwords.`	Bag-of-words模型
`bagofngrams.`	袋式袋型号
`addDocument`	将文档添加到bag-of-words或bag-of-n-grams模型
`removeDocument`	从单词袋或n-r克模型中删除文档
`removeinfrequentwords.`	从单词袋式模型中删除具有低计数的单词
`removeInfrequentNgrams`	从包-n-grams模型中删除不常见的n-g
`删除`	从文档或单词袋式模型中删除所选单词
`removeNgrams`	从包-n-grams模型中删除n-g
`删除程序`	从标记化的文档数组、单词包模型或n-gram包模型中删除空文档
`topkwords`	袋式模型或LDA主题中最重要的单词
`topkngrams`	最常见的n-grams
`编码`	将文档编码为单词或n-gram计数的矩阵
`TFIDF.`	术语频率 - 逆文档频率（TF-IDF）矩阵
`加入`	组合多个bag-of-words或bag-of-n-grams模型

情绪分析

`vaderSentimentScores`	VADER算法的情感评分
`ratioSentimentScores`	使用比率规则进行情感评分

单词嵌入和编码

`fastTextWordEmbedding`	预先训练的fastText词嵌入
`Wordencoding.`	单词编码模型将单词映射到索引和背部
`doc2sequence`	将文档转换为深度学习的序列
`wordEmbeddingLayer`	深度学习网络的字嵌入层
`word2vec`	将单词映射到嵌入向量
`word2ind`	映射到编码索引
`vec2word`	映射嵌入向量到word
`Ind2Word.`	将编码索引映射到Word
`isVocabularyWord`	测试如果单词是单词嵌入或编码的成员
`readWordEmbedding`	从文件中读取单词嵌入
`训练喜勒姆贝斯丁`	火车词嵌入
`writeWordEmbedding`	写下单词嵌入文件
`wordEmbedding`	单词嵌入模型，将单词映射到向量并返回

文档摘要和相似性

`extractSummary`	从文档中提取摘要
`Rakekeywords.`	使用耙子提取关键字
`textrakkeywords.`	使用textrank提取关键字
`bleuEvaluationScore`	评估翻译或用BLEU相似分数摘要
`rougeEvaluationScore`	使用ROUGE相似度评分评估翻译或摘要
`BM25SIMILLITY.`	与BM25算法的文档相似度
`cosineSimilarity`	与余弦相似度的文档相似度
`textrankScores`	文档评分与TextRank算法
`lexrankscores.`	用LexRank算法进行记录评分
`mmrscores.`	具有最大边际相关性的文档评分（MMR）算法

主题建模和降维

`菲达`	适应潜在的Dirichlet分配（LDA）模型
`Fitlsa.`	符合LSA模型
`恢复`	恢复拟合LDA模型
`logp`	LDA模型的文件对数概率和拟合优度
`预测`	预测文件的顶级LDA主题
`变换`	将文档转换为低维空间
`ldamodel.`	潜在Dirichlet分配（LDA）模型
`lsaModel`	潜在语义分析（LSA）模型

可视化

`WordCloud.`	从文本，文字袋模型，n-grams模型或LDA模型创建单词云图
`TextScatter.`	2-D散乱情节文本
`TextScatter3.`	3-D散暗文本

话题

分类和建模

创建简单的预处理功能

此示例显示如何创建清除和预处理文本数据进行分析的函数。

为分类创建简单的文本模型

这个例子展示了如何使用单词袋模型训练一个简单的文本分类器的单词频率计数。

使用多词短语分析文本数据

此示例显示如何使用n克频率计数分析文本。

使用主题模型分析文本数据

此示例显示如何使用潜在Dirichlet分配（LDA）主题模型分析文本数据。

选择LDA模型的主题数

这个示例展示了如何为潜在Dirichlet分配(LDA)模型确定合适的主题数量。

比较LDA求解器

此示例显示如何通过比较适合的良好和适合模型所需的时间来比较潜在的Dirichlet分配（LDA）求解器。

使用LDA模型可视化文档集群

这个例子展示了如何使用Latent Dirichlet Allocation (LDA)主题模型和t-SNE图来可视化文档的集群。

可视化LDA主题相关性

此示例显示了如何分析潜在Dirichlet分配（LDA）主题模型中主题之间的相关性。

可视化LDA主题和文档标签之间的相关性

这个示例展示了如何适应Latent Dirichlet Allocation (LDA)主题模型，并可视化LDA主题和文档标签之间的关联。

创建共同发生网络

此示例显示如何使用袋式模型创建共生网络。

情感分析和关键字提取

文本情感分析

这个例子展示了如何使用价感知字典和情感推理(VADER)算法进行情感分析。

生成域特定情感词典

此示例显示如何使用10-K和10-Q财务报告生成用于情感分析的词汇。

训练情感分类器

这个例子展示了如何使用带注释的正面和负面情感词列表和预先训练的词嵌入来训练情感分析分类器。

利用RAKE从文本数据中提取关键字

这个例子展示了如何使用快速自动关键字提取(RAKE)从文本数据中提取关键字。

使用TextRank从文本数据中提取关键词

这个例子展示了如何使用TextRank从文本数据中提取关键字。

深度学习

使用深度学习对文本数据进行分类

这个例子展示了如何使用深度学习长短期记忆(LSTM)网络对文本数据进行分类。

基于卷积神经网络的文本数据分类

这个例子展示了如何使用卷积神经网络对文本数据进行分类。

使用深度学习对内存外文本数据进行分类

这个例子展示了如何用深度学习网络使用转换后的数据存储对内存不足的文本数据进行分类。

使用注意的顺序翻译

这个示例演示了如何使用循环序列到序列编码器-解码器模型将十进制字符串转换为罗马数字。

基于深度学习的多标签文本分类

这个示例展示了如何对具有多个独立标签的文本数据进行分类。

使用深度学习生成文本（深度学习工具箱）

此示例显示如何培训深度学习长期内存（LSTM）网络以生成文本。

骄傲和偏见和matlab

这个例子展示了如何训练深度学习LSTM网络来使用字符嵌入生成文本。

使用深度学习的字词文本生成

此示例显示如何培训深度学习LSTM网络以生成文本逐个字。

使用自定义培训循环对文本数据进行分类

这个例子展示了如何使用带有自定义训练循环的深度学习双向长短期记忆(BiLSTM)网络对文本数据进行分类。

使用自动编码器生成文本

此示例显示如何使用autoencoders生成文本数据。

定义文本编码器模型函数

这个例子展示了如何定义一个文本编码器模型函数。

定义文本解码器模型函数

这个例子展示了如何定义一个文本解码器模型函数。

使用深度学习的语言翻译

此示例显示如何使用重复序列到序列编码器 - 解码器模型培训德语到英语语言转换器。

语言支持万博1manbetx

语言的注意事项

有关为其他语言使用文本分析工具箱功能的信息。

日语支持万博1manbetx

文本分析工具箱中日语支持的信息。万博1manbetx

分析日语文本数据

这个示例展示了如何使用主题模型导入、准备和分析日语文本数据。

德国语言支持万博1manbetx

关于文本分析工具箱中的德语支持的信息。万博1manbetx

分析德语文本数据

这个示例展示了如何使用主题模型导入、准备和分析德语文本数据。

特色例子

使用深度学习对文本数据进行分类

使用深度学习对文本数据进行分类

使用深度学习长期短期内存（LSTM）网络对文本数据进行分类。

打开生活的脚本

使用多词短语分析文本数据

使用多词短语分析文本数据

使用n-gram频率计数分析文本。

打开生活的脚本

使用主题模型分析文本数据

使用主题模型分析文本数据

使用潜在Dirichlet分配（LDA）主题模型分析文本数据。

打开生活的脚本

文本分析工具箱文档

万博1manbetx

在Matlab中的文本分析入门

在Matlab中的文本分析入门

现在就下载