主要内容

建模和预测

使用主题模型和Word Embeddings开发预测模型

要从高维文本数据集中找到聚类并提取特征,可以使用机器学习技术和模型,如LSA、LDA和单词嵌入。您可以将文本分析工具箱™创建的特性与来自其他数据源的特性结合起来。通过这些特性,您可以构建利用文本、数字和其他类型数据的机器学习模型。

职能

全部展开

Bagofwords. Bag-of-words模型
bagofngrams. 袋式袋型号
addDocument 将文档添加到bag-of-words或bag-of-n-grams模型
removeDocument 从单词袋或n-r克模型中删除文档
removeinfrequentwords. 从单词袋式模型中删除具有低计数的单词
removeInfrequentNgrams 从包-n-grams模型中删除不常见的n-g
删除 从文档或单词袋式模型中删除所选单词
removeNgrams 从包-n-grams模型中删除n-g
删除程序 从标记化的文档数组、单词包模型或n-gram包模型中删除空文档
topkwords 袋式模型或LDA主题中最重要的单词
topkngrams 最常见的n-grams
编码 将文档编码为单词或n-gram计数的矩阵
TFIDF. 术语频率 - 逆文档频率(TF-IDF)矩阵
加入 组合多个bag-of-words或bag-of-n-grams模型
vaderSentimentScores VADER算法的情感评分
ratioSentimentScores 使用比率规则进行情感评分
fastTextWordEmbedding 预先训练的fastText词嵌入
Wordencoding. 单词编码模型将单词映射到索引和背部
doc2sequence 将文档转换为深度学习的序列
wordEmbeddingLayer 深度学习网络的字嵌入层
word2vec 将单词映射到嵌入向量
word2ind 映射到编码索引
vec2word 映射嵌入向量到word
Ind2Word. 将编码索引映射到Word
isVocabularyWord 测试如果单词是单词嵌入或编码的成员
readWordEmbedding 从文件中读取单词嵌入
训练喜勒姆贝斯丁 火车词嵌入
writeWordEmbedding 写下单词嵌入文件
wordEmbedding 单词嵌入模型,将单词映射到向量并返回
extractSummary 从文档中提取摘要
Rakekeywords. 使用耙子提取关键字
textrakkeywords. 使用textrank提取关键字
bleuEvaluationScore 评估翻译或用BLEU相似分数摘要
rougeEvaluationScore 使用ROUGE相似度评分评估翻译或摘要
BM25SIMILLITY. 与BM25算法的文档相似度
cosineSimilarity 与余弦相似度的文档相似度
textrankScores 文档评分与TextRank算法
lexrankscores. 用LexRank算法进行记录评分
mmrscores. 具有最大边际相关性的文档评分(MMR)算法
菲达 适应潜在的Dirichlet分配(LDA)模型
Fitlsa. 符合LSA模型
恢复 恢复拟合LDA模型
logp LDA模型的文件对数概率和拟合优度
预测 预测文件的顶级LDA主题
变换 将文档转换为低维空间
ldamodel. 潜在Dirichlet分配(LDA)模型
lsaModel 潜在语义分析(LSA)模型
WordCloud. 从文本,文字袋模型,n-grams模型或LDA模型创建单词云图
TextScatter. 2-D散乱情节文本
TextScatter3. 3-D散暗文本

话题

分类和建模

创建简单的预处理功能

此示例显示如何创建清除和预处理文本数据进行分析的函数。

为分类创建简单的文本模型

这个例子展示了如何使用单词袋模型训练一个简单的文本分类器的单词频率计数。

使用多词短语分析文本数据

此示例显示如何使用n克频率计数分析文本。

使用主题模型分析文本数据

此示例显示如何使用潜在Dirichlet分配(LDA)主题模型分析文本数据。

选择LDA模型的主题数

这个示例展示了如何为潜在Dirichlet分配(LDA)模型确定合适的主题数量。

比较LDA求解器

此示例显示如何通过比较适合的良好和适合模型所需的时间来比较潜在的Dirichlet分配(LDA)求解器。

使用LDA模型可视化文档集群

这个例子展示了如何使用Latent Dirichlet Allocation (LDA)主题模型和t-SNE图来可视化文档的集群。

可视化LDA主题相关性

此示例显示了如何分析潜在Dirichlet分配(LDA)主题模型中主题之间的相关性。

可视化LDA主题和文档标签之间的相关性

这个示例展示了如何适应Latent Dirichlet Allocation (LDA)主题模型,并可视化LDA主题和文档标签之间的关联。

创建共同发生网络

此示例显示如何使用袋式模型创建共生网络。

情感分析和关键字提取

文本情感分析

这个例子展示了如何使用价感知字典和情感推理(VADER)算法进行情感分析。

生成域特定情感词典

此示例显示如何使用10-K和10-Q财务报告生成用于情感分析的词汇。

训练情感分类器

这个例子展示了如何使用带注释的正面和负面情感词列表和预先训练的词嵌入来训练情感分析分类器。

利用RAKE从文本数据中提取关键字

这个例子展示了如何使用快速自动关键字提取(RAKE)从文本数据中提取关键字。

使用TextRank从文本数据中提取关键词

这个例子展示了如何使用TextRank从文本数据中提取关键字。

深度学习

使用深度学习对文本数据进行分类

这个例子展示了如何使用深度学习长短期记忆(LSTM)网络对文本数据进行分类。

基于卷积神经网络的文本数据分类

这个例子展示了如何使用卷积神经网络对文本数据进行分类。

使用深度学习对内存外文本数据进行分类

这个例子展示了如何用深度学习网络使用转换后的数据存储对内存不足的文本数据进行分类。

使用注意的顺序翻译

这个示例演示了如何使用循环序列到序列编码器-解码器模型将十进制字符串转换为罗马数字。

基于深度学习的多标签文本分类

这个示例展示了如何对具有多个独立标签的文本数据进行分类。

使用深度学习生成文本(深度学习工具箱)

此示例显示如何培训深度学习长期内存(LSTM)网络以生成文本。

骄傲和偏见和matlab

这个例子展示了如何训练深度学习LSTM网络来使用字符嵌入生成文本。

使用深度学习的字词文本生成

此示例显示如何培训深度学习LSTM网络以生成文本逐个字。

使用自定义培训循环对文本数据进行分类

这个例子展示了如何使用带有自定义训练循环的深度学习双向长短期记忆(BiLSTM)网络对文本数据进行分类。

使用自动编码器生成文本

此示例显示如何使用autoencoders生成文本数据。

定义文本编码器模型函数

这个例子展示了如何定义一个文本编码器模型函数。

定义文本解码器模型函数

这个例子展示了如何定义一个文本解码器模型函数。

使用深度学习的语言翻译

此示例显示如何使用重复序列到序列编码器 - 解码器模型培训德语到英语语言转换器。

语言支持万博1manbetx

语言的注意事项

有关为其他语言使用文本分析工具箱功能的信息。

日语支持万博1manbetx

文本分析工具箱中日语支持的信息。万博1manbetx

分析日语文本数据

这个示例展示了如何使用主题模型导入、准备和分析日语文本数据。

德国语言支持万博1manbetx

关于文本分析工具箱中的德语支持的信息。万博1manbetx

分析德语文本数据

这个示例展示了如何使用主题模型导入、准备和分析德语文本数据。

特色例子