removeInfrequentWords

从单词袋模型中删除低计数的单词

全部折叠到页面中

语法

newBag = removeInfrequentWords(包,数量)

newBag = removeInfrequentWords(袋、计数、IgnoreCase,真的)

newBag= removeInfrequentWords (袋,数)删除最多出现的单词数总时间从词袋模型袋。缺省情况下，区分大小写。

newBag= removeInfrequentWords (袋,数“IgnoreCase”,真的)删除最多出现的单词数在完全忽略的情况下。如果单词只根据大小写不同，则相应的计数将合并。

打开生活的脚本

从单词袋模型中删除出现两次或更少的单词。

从标记化文档数组创建词袋模型。

文件= tokenizedDocument (["一个短句的例子"“第二短句”“另一个例子”“一个简短的例子”]);袋= bagOfWords(文档)

count: [4x8 double] Vocabulary: [1x8 string] NumWords: 8 NumDocuments: 4

从单词袋模型中删除出现两次或更少的单词。

数= 2;newBag = removeInfrequentWords(包,数量)

newBag = bagOfWords with properties: Counts: [4x3 double] Vocabulary: ["example" "a" "short"] NumWords: 3 NumDocuments: 4

输入单词袋模型，指定为bagOfWords对象。

删除单词的计数阈值，指定为正整数。函数删除出现的单词数总次数或更少的次数。

介绍了R2017b

立即下载