bagOfWords
Bag-of-words模型
创建
描述
创建一个空的词袋模型。袋
= bagOfWords
中的单词创建单词袋模型袋
= bagOfWords (uniqueWords
,计数
)uniqueWords
相应的频率也算进去了计数
.
输入参数
属性
对象的功能
编码 |
将文档编码为单词或n-gram计数矩阵 |
tfidf |
术语频率逆文档频率(tf-idf)矩阵 |
topkwords |
词袋模型或LDA主题中最重要的词 |
addDocument |
将文档添加到单词袋或n-grams袋模型中 |
removeDocument |
从单词袋或n-grams袋模型中删除文档 |
removeEmptyDocuments |
从标记化文档数组、单词袋模型或n-grams袋模型中删除空文档 |
removeWords |
从文档或单词袋模型中删除所选单词 |
removeInfrequentWords |
从单词袋模型中删除计数低的单词 |
加入 |
组合多个单词袋或n-grams袋模型 |
wordcloud |
从文本、单词袋模型、n-grams袋模型或LDA模型创建词云图 |
例子
提示
如果您打算为您的工作使用保留的测试集,那么在使用之前对文本数据进行分区
bagOfWords
.否则,词汇袋模型可能会使您的分析产生偏差。
版本历史
在R2017b中引入