建模与预测

使用主题模型和词嵌入开发预测模型

要从高维文本数据集中寻找集群和提取特征，可以使用机器学习技术和模型，如LSA、LDA和词嵌入。您可以将使用文本分析工具箱™创建的功能与来自其他数据源的功能结合起来。通过这些特性，您可以构建利用文本、数字和其他类型数据的机器学习模型。

功能

单词和N-Gram计数

`bagOfWords`	Bag-of-words模型
`bagOfNgrams`	Bag-of-n-grams模型
`addDocument`	将文档添加到单词袋或n-grams袋模型中
`removeDocument`	从单词袋或n-grams袋模型中删除文档
`removeInfrequentWords`	从单词袋模型中删除计数低的单词
`removeInfrequentNgrams`	从n-grams袋模型中去除不常见的n-grams
`removeWords`	从文档或单词袋模型中删除所选单词
`removeNgrams`	从n-g - bag模型中移除n-g
`removeEmptyDocuments`	从标记化文档数组、单词袋模型或n-grams袋模型中删除空文档
`topkwords`	词袋模型或LDA主题中最重要的词
`topkngrams`	最频繁的n字母
`编码`	将文档编码为单词或n-gram计数矩阵
`tfidf`	术语频率逆文档频率(tf-idf)矩阵
`加入`	组合多个单词袋或n-grams袋模型

情绪分析

`vaderSentimentScores`	用VADER算法进行情感评分
`ratioSentimentScores`	情绪评分采用比率规则

词嵌入和编码

`fastTextWordEmbedding`	预训练的快速文本词嵌入
`wordEncoding`	将单词映射到索引和索引返回的单词编码模型
`doc2sequence`	将文档转换为序列进行深度学习
`wordEmbeddingLayer`	深度学习网络的词嵌入层
`word2vec`	将字映射到嵌入向量
`word2ind`	将字映射到编码索引
`vec2word`	映射嵌入向量到单词
`ind2word`	将编码索引映射到单词
`isVocabularyWord`	测试word是否是单词嵌入或编码的成员
`readWordEmbedding`	从文件中读取字嵌入
`trainWordEmbedding`	训练词嵌入
`writeWordEmbedding`	编写word嵌入文件
`wordEmbedding`	词嵌入模型映射词到向量和回来

文档摘要和相似度

`extractSummary`	从文件中提取摘要
`rakeKeywords`	使用RAKE提取关键字
`textrankKeywords`	使用TextRank提取关键字
`bleuEvaluationScore`	用BLEU相似度评分评估翻译或总结
`rougeEvaluationScore`	用ROUGE相似度评分评估翻译或摘要
`bm25Similarity`	文档与BM25算法相似之处
`cosineSimilarity`	用余弦相似度来记录相似度
`textrankScores`	文档评分与TextRank算法
`lexrankScores`	文档评分与LexRank算法
`mmrScores`	使用最大边际相关性(MMR)算法进行文档评分

主题建模与降维

`fitlda`	拟合潜狄利克雷分配(LDA)模型
`fitlsa`	拟合LSA模型
`重新开始`	简历拟合LDA模型
`logp`	记录LDA模型的对数概率和拟合优度
`预测`	预测文档的顶级LDA主题
`变换`	将文档转换为低维空间
`ldaModel`	潜狄利克雷分配(LDA)模型
`lsaModel`	潜在语义分析(LSA)模型

可视化

`wordcloud`	从文本、单词袋模型、n-grams袋模型或LDA模型创建词云图
`textscatter`	文本的二维散点图
`textscatter3`	文本的三维散点图

主题

分类与建模

创建简单的预处理函数
这个例子展示了如何创建一个函数来清理和预处理文本数据以供分析。
创建简单的文本分类模型
这个例子展示了如何使用单词袋模型训练一个简单的文本分类器的词频计数。
使用文档嵌入对文档进行分类
这个例子展示了如何通过使用词嵌入将文档转换为特征向量来训练文档分类器。
使用多词短语分析文本数据
这个例子展示了如何使用n-gram频率计数分析文本。
使用主题模型分析文本数据
这个例子展示了如何使用潜狄利克雷分配(LDA)主题模型来分析文本数据。
为LDA模型选择主题数量
这个例子展示了如何为潜在狄利克雷分配(LDA)模型决定适当数量的主题。
比较LDA求解器
这个例子展示了如何通过比较拟合优度和拟合模型所花费的时间来比较潜在狄利克雷分配(LDA)求解器。
使用LDA模型可视化文档集群
这个示例展示了如何使用潜狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型和t-SNE图来可视化文档的聚类。
可视化LDA主题相关性
这个例子展示了如何在潜狄利克雷分配(LDA)主题模型中分析主题之间的相关性。
可视化LDA主题和文档标签之间的相关性
这个例子展示了如何拟合潜狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型，并可视化LDA主题与文档标签之间的相关性。
创建共现网络
这个例子展示了如何使用单词袋模型创建共现网络。