文档帮助中心文档
从bag-of-n-grams模型中删除不常见的n-grams
newBag = removeInfrequentNgrams(包,数量)
newBag = removeInfrequentNgrams(袋、计数、NgramLengths,长度)
newBag=移除频繁RAM(___,'IgnoreCase',正确)
实例
纽巴格=移除频繁内存(纸袋,计数)删除最多出现的n-gram计数n克袋模型的总次数纸袋. 默认情况下,该函数区分大小写。
纽巴格=移除频繁内存(纸袋,计数)
纽巴格
纸袋
计数
纽巴格=移除频繁内存(纸袋,计数,'ngramlength',长度)仅删除长度由指定的n克长度. 默认情况下,该函数区分大小写。
纽巴格=移除频繁内存(纸袋,计数,'ngramlength',长度)
长度
纽巴格=移除频繁内存(___,'IgnoreCase',正确)删除最多出现的n-gram计数《纽约时报》忽略了这件事。如果n-gram仅按大小写不同,则合并相应的计数。
纽巴格=移除频繁内存(___,'IgnoreCase',正确)
全部崩溃
加载示例数据。档案十四行诗预处理.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本十四行诗预处理.txt,以换行符将文本拆分为文档,然后标记文档。
十四行诗预处理.txt
文件名=“十四行诗预处理.txt”; str=提取文件文本(文件名);textData=split(str,换行符);文档=标记化文档(textData);
创建一个包-n-grams模型。指定要计数双字组(单词对)和三元组(单词的三元组)。
袋=袋(文件、,“Ngram长度”,[2 3])
bag=BagofGrams带属性:计数:[154x18022 double]词汇:[1x3092字符串]Ngrams:[18022x3字符串]ngramlength:[23]数字:18022数字文档:154
去除总出现次数不超过两次的任何长度的n克。
袋= removeInfrequentNgrams(袋、2)
bag=BagofGrams带属性:计数:[154x103 double]词汇:[1x73字符串]Ngrams:[103x3字符串]ngramlength:[23]numgrams:103 NumDocuments:154
删除总共出现四次或更少的bigram。
袋子=移除频繁RAM(袋子,4,“Ngram长度”,2)
bag=BagofGrams带属性:计数:[154x41 double]词汇:[1x30字符串]Ngrams:[41x3字符串]ngramlength:[23]数值:41个数值文档:154
巴戈夫克
输入n克袋型号,指定为巴戈夫克对象。
计数阈值,指定为正整数。该函数将删除出现的n个字符计数总次数或更少。
N-gram长度,指定为正整数或正整数向量。
如果您指定长度,该函数仅删除指定长度的不常见n克。如果您没有指定长度,则该函数将删除不常出现的n-gram,而不考虑长度。
例子:[1 2 3]
[1 2 3]
输出n克袋模型,返回为巴戈夫克对象。
巴戈夫克|巴格沃兹|删除空文档|删除常用词|重塑图|词频-逆向文件频率|tokenizedDocument|topkngrams
巴格沃兹
删除空文档
删除常用词
重塑图
词频-逆向文件频率
tokenizedDocument
topkngrams
您拥有此示例的修改版本。是否要用编辑打开此示例?
您单击了与此MATLAB命令对应的链接:
通过在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站以获取翻译后的内容(如果可用),并查看本地活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。
联系当地办事处