removeInfrequentNgrams

从bag-of-n-grams模型中删除不常见的n-grams

折叠所有页面

语法

newBag = removeInfrequentNgrams(包,数量)

newBag = removeInfrequentNgrams(袋、计数、NgramLengths,长度)

newBag=移除频繁RAM(___，'IgnoreCase'，正确）

描述

实例

纽巴格=移除频繁内存(纸袋,计数)删除最多出现的n-gram计数n克袋模型的总次数纸袋. 默认情况下，该函数区分大小写。

实例

纽巴格=移除频繁内存(纸袋,计数，'ngramlength'，长度)仅删除长度由指定的n克长度. 默认情况下，该函数区分大小写。

纽巴格=移除频繁内存(___，'IgnoreCase'，正确）删除最多出现的n-gram计数《纽约时报》忽略了这件事。如果n-gram仅按大小写不同，则合并相应的计数。

例子

全部崩溃

从包- n - g模型中删除不频繁n - g

打开生活的脚本

加载示例数据。档案十四行诗预处理.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗，单词之间用空格分隔。从中提取文本十四行诗预处理.txt，以换行符将文本拆分为文档，然后标记文档。

文件名=“十四行诗预处理.txt”; str=提取文件文本（文件名）；textData=split（str，换行符）；文档=标记化文档（textData）；

创建一个包-n-grams模型。指定要计数双字组(单词对)和三元组(单词的三元组)。

袋=袋（文件、，“Ngram长度”,[2 3])

bag=BagofGrams带属性：计数：[154x18022 double]词汇：[1x3092字符串]Ngrams：[18022x3字符串]ngramlength:[23]数字：18022数字文档：154

去除总出现次数不超过两次的任何长度的n克。

袋= removeInfrequentNgrams(袋、2)

bag=BagofGrams带属性：计数：[154x103 double]词汇：[1x73字符串]Ngrams:[103x3字符串]ngramlength:[23]numgrams:103 NumDocuments:154

删除总共出现四次或更少的bigram。

袋子=移除频繁RAM（袋子，4，“Ngram长度”,2)

bag=BagofGrams带属性：计数：[154x41 double]词汇：[1x30字符串]Ngrams:[41x3字符串]ngramlength:[23]数值：41个数值文档：154

输入参数

全部崩溃

`纸袋`—输入n-bag-of-n-grams模型
`巴戈夫克`对象

输入n克袋型号，指定为巴戈夫克对象。

`计数`—计数阈值
正整数

计数阈值，指定为正整数。该函数将删除出现的n个字符计数总次数或更少。

`长度`—N克长度
正整数|正整数向量

N-gram长度，指定为正整数或正整数向量。

如果您指定长度，该函数仅删除指定长度的不常见n克。如果您没有指定长度，则该函数将删除不常出现的n-gram，而不考虑长度。

例子：[1 2 3]

输出参数

全部崩溃

`纽巴格`-输出袋的n克模型
`巴戈夫克`对象

输出n克袋模型，返回为巴戈夫克对象。

另见

话题

R2018a中引入

文本分析工具箱文档

万博1manbetx

MATLAB中的文本分析入门

现在下载

removeInfrequentNgrams

语法

描述

例子

从包- n - g模型中删除不频繁n - g

输入参数

纸袋—输入n-bag-of-n-grams模型巴戈夫克对象

计数—计数阈值正整数

长度—N克长度正整数|正整数向量

输出参数

纽巴格-输出袋的n克模型巴戈夫克对象

另见

话题

文本分析工具箱文档

万博1manbetx

MATLAB中的文本分析入门

`纸袋`—输入n-bag-of-n-grams模型
`巴戈夫克`对象

`计数`—计数阈值
正整数

`长度`—N克长度
正整数|正整数向量

`纽巴格`-输出袋的n克模型
`巴戈夫克`对象