模拟和预测

使用主题模型和单词嵌入开发预测模型

为了找到集群和特征提取的高维数据集的文字,你可以使用机器学习技术和模式,如LSA,LDA,文字的嵌入。您可以结合使用文本分析工具箱™创建与其他数据源的保护功能。有了这些功能,您可以构建机器学习是采取文字,数字和其他类型的数据的优势车型。

功能

全部展开

bagOfWords 一袋字模式
bagOfNgrams Bag-of-n-grams模型
addDocument 添加文件袋的词或袋的的N-gram模型
removeDocument 从单词袋或n字袋模型中删除文档
removeInfrequentWords 从单词包模型中删除数量少的单词
removeInfrequentNgrams 从删除很少看到正克一袋的N-gram模型
removeWords 从文档或单词包模型中删除选定的单词
removeNgrams 从拆下正克一袋的N-gram模型
removeEmptyDocuments 除去从标记化文档阵列空文档,袋的字模型,或袋的的N-gram模型
topkwords 最重要的词在词袋模型或LDA主题
topkngrams 最常见的字格
编码 将文档编码为单词或n元计数矩阵
tfidf 术语频率逆文件频率(tf-idf)矩阵
加入 组合多个单词袋或n字袋模型
vaderSentimentScores 景气指数与VADER算法
ratioSentimentScores 情绪评分与比规则
fastTextWordEmbedding 预先训练的快速文本字嵌入
wordEncoding 字编码模型映射字到索引和返回
doc2sequence 将文档转换为深度学习的序列
wordEmbeddingLayer 深学习网络字嵌入层
word2vec 映射字到嵌入矢量
word2ind 映射字到编码索引
vec2word 地图嵌入矢量字
ind2word 将编码索引映射到word
isVocabularyWord 测试单词是否是单词嵌入或编码的成员
readWordEmbedding 读取字嵌入从文件
trainWordEmbedding 火车字嵌入
writeWordEmbedding 写字嵌入文件
wordEmbedding Word中嵌入模型图的话载体和背
extractSummary 从文档中提取摘要
bleuEvaluationScore 用BLEU相似度评分评价翻译或摘要
rougeEvaluationScore 评估翻译或总结与ROUGE相似度得分
bm25Similarity 文档与BM25算法的相似性
余弦相似性 文档相似度与余弦相似度
textrankScores 文档评分与TextRank算法
lexrankScores 使用LexRank算法对文档进行评分
mmrScores 使用最大边际相关性(MMR)算法进行文档评分
fitlda 拟合潜在狄利克雷分配(LDA)模型
fitlsa 飞度LSA模型
的简历 简历拟合LDA模型
的logP LDA模型的对数概率和拟合优度
预测 预测文档的顶级LDA主题
转变 转换文档转换成低维空间
ldaModel 潜在狄利克雷分配(LDA)模型
lsaModel 潜在语义分析(LSA)模型
wordcloud 从文本、单词袋模型、n个符号袋模型或LDA模型创建单词云图
textscatter 文本的二维散点图
textscatter3 文本的三维散点图

主题

文本分类

为分类创建简单的文本模型

这个示例展示了如何使用单词包模型训练简单的文本分类器进行单词频率计数。

使用深度学习对文本数据进行分类

这个例子说明了如何使用深学习长短期记忆(LSTM)网络分类文本数据。

利用卷积神经网络对文本数据进行分类

这个例子说明了如何使用卷积神经网络的文本数据进行分类。

使用深度学习对内存不足的文本数据进行分类

这个示例展示了如何使用转换后的数据存储对深度学习网络中的内存不足文本数据进行分类。

n元计数和主题建模

分析文本数据使用多字词组

这个例子展示了如何使用n元频率计数来分析文本。

分析文本数据使用主题模型

这个例子展示了如何使用潜在的Dirichlet分配(LDA)主题模型来分析文本数据。

选择主题的LDA型号数

这个例子说明了如何决定一个潜在狄利克雷分配(LDA)模型中的适当数量的主题。

比较LDA解决者

这个例子展示了如何通过比较拟合优度和拟合模型的时间来比较潜在的Dirichlet分配(LDA)求解器。

情感分析

创建简单的预处理功能

这个示例展示了如何创建一个函数来清理和预处理文本数据以便进行分析。

训练一个情绪分类器

这个例子说明了如何使用的积极和消极情绪单词的注解列表和预训练字嵌入培养的情感分析分类。

翻译与文本生成

序列对序列翻译,使用注意事项

这个例子显示了如何将十进制字符串转换为使用与关注的递归数列到序列编码器,解码器模型罗马数字。

生成文本使用深度学习(深度学习工具箱)

这个例子展示了如何训练一个深度学习长短期记忆(LSTM)网络来生成文本。

傲慢与偏见和MATLAB

这个例子说明了如何培养深度学习LSTM网络使用字符的嵌入生成文本。

使用深度学习逐词生成文本

这个例子展示了如何训练一个深度学习的LSTM网络来逐词生成文本。

语言支持万博1manbetx

语言的注意事项

使用文本分析工具箱功能的信息用于其他语言。

日本语言支持万博1manbetx

文本分析工具箱中有关日语支持的信息。万博1manbetx

分析日语文本数据

这个例子说明如何导入,准备和使用主题模型分析日文文本数据。

德语支持万博1manbetx

在文本分析工具箱德国支持的信息。万博1manbetx

分析德语文本数据

这个例子说明如何导入,准备和使用主题模型分析德语文本数据。

特色的例子