主要内容

removeInfrequentNgrams

从bag-of-n-grams模型中删除不常见的n-grams

描述

实例

纽巴格=移除频繁内存(纸袋,计数)删除最多出现的n-gram计数n克袋模型的总次数纸袋. 默认情况下,该函数区分大小写。

实例

纽巴格=移除频繁内存(纸袋,计数,'ngramlength',长度)仅删除长度由指定的n克长度. 默认情况下,该函数区分大小写。

纽巴格=移除频繁内存(___,'IgnoreCase',正确)删除最多出现的n-gram计数《纽约时报》忽略了这件事。如果n-gram仅按大小写不同,则合并相应的计数。

例子

全部崩溃

加载示例数据。档案十四行诗预处理.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本十四行诗预处理.txt,以换行符将文本拆分为文档,然后标记文档。

文件名=“十四行诗预处理.txt”; str=提取文件文本(文件名);textData=split(str,换行符);文档=标记化文档(textData);

创建一个包-n-grams模型。指定要计数双字组(单词对)和三元组(单词的三元组)。

袋=袋(文件、,“Ngram长度”,[2 3])
bag=BagofGrams带属性:计数:[154x18022 double]词汇:[1x3092字符串]Ngrams:[18022x3字符串]ngramlength:[23]数字:18022数字文档:154

去除总出现次数不超过两次的任何长度的n克。

袋= removeInfrequentNgrams(袋、2)
bag=BagofGrams带属性:计数:[154x103 double]词汇:[1x73字符串]Ngrams:[103x3字符串]ngramlength:[23]numgrams:103 NumDocuments:154

删除总共出现四次或更少的bigram。

袋子=移除频繁RAM(袋子,4,“Ngram长度”,2)
bag=BagofGrams带属性:计数:[154x41 double]词汇:[1x30字符串]Ngrams:[41x3字符串]ngramlength:[23]数值:41个数值文档:154

输入参数

全部崩溃

输入n克袋型号,指定为巴戈夫克对象。

计数阈值,指定为正整数。该函数将删除出现的n个字符计数总次数或更少。

N-gram长度,指定为正整数或正整数向量。

如果您指定长度,该函数仅删除指定长度的不常见n克。如果您没有指定长度,则该函数将删除不常出现的n-gram,而不考虑长度。

例子:[1 2 3]

输出参数

全部崩溃

输出n克袋模型,返回为巴戈夫克对象。

R2018a中引入