文档帮助中心文档

建模和预测

使用主题模型和单词嵌入开发预测模型

要查找高维文本数据集中的簇和提取功能，您可以使用机器学习技术和模型，例如LSA，LDA和Word Embeddings。您可以将创建的功能与Text Analytics Toolbox™与其他数据源的功能相结合。有了这些功能，您可以构建利用文本，数字和其他类型数据的机器学习模型。

功能

单词和n-gram计数

`小词`	单袋型号
`Bagofngrams`	n-grams模型
`addDocument`	将文档添加到字袋或n-grams型号
`删除文档`	从字袋或n-grams型号中删除文档
`删除InfrequentWords`	从字袋模型中删除用低计数的单词
`删除ininfrequentngram`	从n-grams模型中删除很少见的n-grams
`删除字`	从文档或单词袋模型中删除选定的单词
`removengrams`	从n-grams模型中删除n-grams
`remove emptimentDocuments`	从令牌化的文档阵列，词袋模型或n-grams型号中删除空文档
`topkwords`	词袋模型或LDA主题中最重要的词语
`topkngram`	最常见的n-gram
`编码`	编码文档作为单词或n-gram计数的矩阵
`TFIDF`	术语频率 - 内部文档频率（TF-IDF）矩阵
`加入`	结合多个字袋或n-grams型号

情感分析

`vadersentimentscores`	Vader算法的情感分数
`比例术`	与比率规则的情感分数

单词嵌入和编码

`FastTextWordembedding`	预处理的fastText单词嵌入
`文字编码`	单词编码模型以将单词映射到索引和返回
`DOC2序列`	将文档转换为深度学习的序列
`Wordembeddinglayer`	深度学习网络的单词嵌入层
`Word2Vec`	地图单词嵌入向量
`word2ind`	地图单词编码索引
`vec2word`	将向量嵌入到单词
`Ind2word`	地图编码索引到单词
`iSvocabularyword`	测试Word是否是单词嵌入或编码的成员
`ReadWordEmbedding`	从文件中读取单词嵌入
`Trainwordembedding`	火车单词嵌入
`写入wordembedding`	写单词嵌入文件
`Wordembedding`	单词嵌入模型以将单词映射到向量和后背

文件摘要和相似性

`提取物`	从文件中提取摘要
`rakekeywords`	使用耙子提取关键字
`TextrankKeyWords`	使用Textrank提取关键字
`BleueValuationsCore`	用BLEU相似性评分评估翻译或汇总
`Rougeevaluationscore`	用胭脂相似性评分评估翻译或汇总
`BM25相似性`	文档与BM25算法的相似性
`余弦`	记录与余弦相似性的相似之处
`TexTrankScores`	使用Textrank算法进行文档评分
`Lexrankscores`	使用Lexrank算法的文档评分
`mmrscores`	具有最大边际相关性（MMR）算法的文档评分

主题建模和尺寸降低

`fitlda`	拟合潜在的Dirichlet分配（LDA）模型
`fitlsa`	适合LSA型号
`恢复`	简历安装LDA模型
`logp`	LDA模型的文档对数概率和拟合度的优点
`预测`	预测文档的顶级LDA主题
`转换`	将文件转换为较低维的空间
`ldamodel`	潜在的Dirichlet分配（LDA）模型
`lsamodel`	潜在语义分析（LSA）模型

可视化

`WordCloud`	创建文字云图表，单词袋型号，n-grams型号或LDA模型
`text -scatter`	二维文本曲线图
`TextScatter3`	3-d文本散射图

话题

分类和建模

创建简单的预处理功能

此示例显示了如何创建一个清洁和预处理文本数据以进行分析的函数。

创建简单的文本模型以进行分类

此示例显示了如何使用单词范围模型在单词频率计数上训练简单的文本分类器。

使用多字短语分析文本数据

此示例显示了如何使用n-gram频率计数分析文本。

使用主题模型分析文本数据

此示例显示了如何使用潜在的Dirichlet分配（LDA）主题模型来分析文本数据。

选择LDA模型的主题数量

此示例显示了如何确定潜在Dirichlet分配（LDA）模型的合适数量的主题。

比较LDA求解器

此示例显示了如何通过比较拟合度的优点和适合模型所花费的时间来比较潜在的dirichlet分配（LDA）求解器。

使用LDA模型可视化文档簇

此示例显示了如何使用潜在的Dirichlet分配（LDA）主题模型和T-SNE图可视化文档的聚类。

可视化LDA主题相关性

此示例显示了如何在潜在的Dirichlet分配（LDA）主题模型中分析主题之间的相关性。

可视化LDA主题与文档标签之间的相关性

此示例显示了如何拟合潜在的Dirichlet分配（LDA）主题模型，并可视化LDA主题和文档标签之间的相关性。

创建共发生网络

此示例显示了如何使用单词范围的模型创建共同发生网络。

情感分析和关键字提取

分析文字的情绪

此示例显示了如何使用Valence Aware Away词典和情感推理器（Vader）算法进行情感分析。

产生域特异性情感词典

此示例显示了如何使用10-K和10-Q财务报告生成词典来进行情感分析。

培训情绪分类器

此示例显示了如何使用正面和负面情感单词的注释列表和审计的单词嵌入来训练分类器进行情感分析。

使用Rake从文本数据中提取关键字

此示例显示了如何使用快速自动关键字提取（Rake）从文本数据中提取关键字。

使用Textrank从文本数据中提取关键字

此示例显示了使用Textrank从文本数据中提取关键字。

深度学习

使用深度学习对文本数据进行分类

此示例显示了如何使用深度学习长期记忆（LSTM）网络对文本数据进行分类。

使用卷积神经网络对文本数据进行分类

此示例显示了如何使用卷积神经网络对文本数据进行分类。

使用深度学习对失调的文本数据进行分类

此示例显示了如何使用转换后的数据存储使用深度学习网络将失调的文本数据分类。

使用注意的顺序到序列翻译

此示例显示了如何使用Recurrent序列到序列编码器模型转换为罗马数字。

使用深度学习的多标签文本分类

此示例显示了如何对具有多个独立标签的文本数据进行分类。

使用深度学习生成文本（深度学习工具箱）

此示例显示了如何训练深度学习的长期记忆（LSTM）网络以生成文本。

骄傲和偏见和MATLAB

此示例显示了如何训练深度学习LSTM网络以使用字符嵌入生成文本。

使用深度学习的逐字文字生成

此示例显示了如何训练深度学习LSTM网络以生成单词的文字。

使用自定义培训循环对文本数据进行分类

此示例显示了如何使用自定义培训循环的深度学习双向长期记忆（BILSTM）网络对文本数据进行分类。

使用自动编码器生成文本

此示例显示了如何使用自动编码器生成文本数据。

定义文本编码器模型功能

此示例显示了如何定义文本编码器模型函数。

定义文本解码器模型功能

此示例显示了如何定义文本解码器模型函数。

使用深度学习的语言翻译

此示例显示了如何使用重复的序列到序列编码器模型来训练德语到英语翻译器。

语言支持万博1manbetx

语言注意事项

有关使用文本分析工具箱功能的信息。

日语支持万博1manbetx

文本分析工具箱中有关日本支持的信息。万博1manbetx

分析日本文本数据

此示例显示了如何使用主题模型导入，准备和分析日本文本数据。

德语支持万博1manbetx

文本分析工具箱中有关德语支持的信息。万博1manbetx

分析德语文本数据

此示例显示了如何使用主题模型导入，准备和分析德语文本数据。

特色示例

使用深度学习对文本数据进行分类

使用深度学习对文本数据进行分类

使用深度学习长期记忆（LSTM）网络对文本数据进行分类。

打开实时脚本

使用多字短语分析文本数据

使用多字短语分析文本数据

使用n克频率计数分析文本。

打开实时脚本

使用主题模型分析文本数据

使用主题模型分析文本数据

使用潜在的DIRICHLET分配（LDA）主题模型分析文本数据。

打开实时脚本

文本分析工具箱文档

万博1manbetx

开始使用MATLAB中的文本分析

开始使用MATLAB中的文本分析

现在下载