袋式模型
创建一个空的词袋模型。袋
= bagOfWords
使用其中的单词创建一个单词袋模型袋
= bagofwords(uniqueWords
,计数
)uniqueWords
和相应的频率计数计数
.
编码 |
将文档编码为单词或n元计数矩阵 |
tfidf |
术语频率-反文档频率(tf-idf)矩阵 |
topkwords. |
单词袋模型或LDA主题中最重要的单词 |
adddocument. |
将文档添加到单词袋或袋式袋模型 |
删除录制 |
从单词袋或n-gram袋模型中删除文档 |
removeEmptyDocuments |
从令牌化文档阵列中删除空文档,文字袋模型或N-r克模型 |
removeWords |
从文档或词袋模型中删除选定的词 |
removeInfrequentWords |
从单词袋模型中删除低计数的单词 |
加入 |
组合多个bag-of-words或bag-of-n-grams模型 |
wordcloud |
从文本、词袋模型、词袋-n-grams模型或LDA模型创建词云图 |
如果您打算为您的工作使用已保留的测试设置,请在使用之前分区文本数据bagOfWords
.否则,文字袋模型可能会偏见您的分析。
adddocument.
|bagOfNgrams
|编码
|删除录制
|removeEmptyDocuments
|removeInfrequentWords
|removeWords
|tfidf
|令人畏缩的鳕文
|topkwords.