主要内容

建模与预测

使用主题模型和词嵌入开发预测模型

要从高维文本数据集中寻找集群和提取特征,可以使用机器学习技术和模型,如LSA、LDA和词嵌入。您可以将使用文本分析工具箱™创建的功能与来自其他数据源的功能结合起来。通过这些特性,您可以构建利用文本、数字和其他类型数据的机器学习模型。

功能

全部展开

bagOfWords Bag-of-words模型
bagOfNgrams Bag-of-n-grams模型
addDocument 将文档添加到单词袋或n-grams袋模型中
removeDocument 从单词袋或n-grams袋模型中删除文档
removeInfrequentWords 从单词袋模型中删除计数低的单词
removeInfrequentNgrams 从n-grams袋模型中去除不常见的n-grams
removeWords 从文档或单词袋模型中删除所选单词
removeNgrams 从n-g - bag模型中移除n-g
removeEmptyDocuments 从标记化文档数组、单词袋模型或n-grams袋模型中删除空文档
topkwords 词袋模型或LDA主题中最重要的词
topkngrams 最频繁的n字母
编码 将文档编码为单词或n-gram计数矩阵
tfidf 术语频率逆文档频率(tf-idf)矩阵
加入 组合多个单词袋或n-grams袋模型
vaderSentimentScores 用VADER算法进行情感评分
ratioSentimentScores 情绪评分采用比率规则
fastTextWordEmbedding 预训练的快速文本词嵌入
wordEncoding 将单词映射到索引和索引返回的单词编码模型
doc2sequence 将文档转换为序列进行深度学习
wordEmbeddingLayer 深度学习网络的词嵌入层
word2vec 将字映射到嵌入向量
word2ind 将字映射到编码索引
vec2word 映射嵌入向量到单词
ind2word 将编码索引映射到单词
isVocabularyWord 测试word是否是单词嵌入或编码的成员
readWordEmbedding 从文件中读取字嵌入
trainWordEmbedding 训练词嵌入
writeWordEmbedding 编写word嵌入文件
wordEmbedding 词嵌入模型映射词到向量和回来
extractSummary 从文件中提取摘要
rakeKeywords 使用RAKE提取关键字
textrankKeywords 使用TextRank提取关键字
bleuEvaluationScore 用BLEU相似度评分评估翻译或总结
rougeEvaluationScore 用ROUGE相似度评分评估翻译或摘要
bm25Similarity 文档与BM25算法相似之处
cosineSimilarity 用余弦相似度来记录相似度
textrankScores 文档评分与TextRank算法
lexrankScores 文档评分与LexRank算法
mmrScores 使用最大边际相关性(MMR)算法进行文档评分
fitlda 拟合潜狄利克雷分配(LDA)模型
fitlsa 拟合LSA模型
重新开始 简历拟合LDA模型
logp 记录LDA模型的对数概率和拟合优度
预测 预测文档的顶级LDA主题
变换 将文档转换为低维空间
ldaModel 潜狄利克雷分配(LDA)模型
lsaModel 潜在语义分析(LSA)模型
wordcloud 从文本、单词袋模型、n-grams袋模型或LDA模型创建词云图
textscatter 文本的二维散点图
textscatter3 文本的三维散点图

主题

分类与建模

情感分析与关键词提取

深度学习

语言支持万博1manbetx