n克袋模型
n-grams包模型记录每个n-gram在集合的每个文档中出现的次数。n-gram是N连续的单词。
巴戈夫克
不将文本拆分为单词。要创建标记化文档的数组,请参见tokenizedDocument
.
编码 |
将文档编码为单词或n克计数矩阵 |
词频-逆向文件频率 |
术语频率–逆文档频率(tf idf)矩阵 |
topkngrams |
最频繁n-gram |
addDocument |
将文档添加到文字袋或n字袋模型中 |
removeDocument |
从文字袋或n字袋模型中删除文档 |
删除空文档 |
从标记化的文档数组、单词包模型或n-gram包模型中删除空文档 |
removeNgrams |
从包-n-grams模型中删除n-g |
removeInfrequentNgrams |
从bag-of-n-grams模型中删除不常见的n-grams |
加入 |
组合多袋文字或多袋n-grams模型 |
wordcloud |
从文本、单词袋模型、n字袋模型或LDA模型创建单词云图 |
addDocument
|巴格沃兹
|编码
|removeDocument
|删除空文档
|removeInfrequentNgrams
|removeNgrams
|词频-逆向文件频率
|tokenizedDocument
|topkngrams