主要内容

removeNgrams

把字格从bag-of-n-grams模型

描述

例子

newBag= removeNgrams (,ngrams)删除指定的字格从bag-of-n-grams模型。这个函数,默认情况下,是区分大小写的。

newBag= removeNgrams (,ngrams“IgnoreCase”,真的)删除- gram忽略的情况。

例子

newBag= removeNgrams (,idx)指定数字或逻辑指数字格的bag.Ngrams。这个语法是一样的newBag = removeNgrams(袋、bag.Ngrams (idx,:))

例子

全部折叠

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建bag-of-n-grams模型。

袋= bagOfNgrams(文档)
袋= bagOfNgrams属性:数量:(154×8799双)词汇:[1×3092弦]Ngrams:[8799×2字符串]NgramLengths: 2 NumNgrams: 8799 NumDocuments: 154

查看前五字格。

topkngrams(包,5)
ans =5×3表Ngram计数NgramLength ___________ _____……“你”“艺术”34 2“我”“眼”15 2“你”“自我”14 2“你”“难道”13 2“我”“拥有”13 2

把字格(“你”“艺术”)(“你”“”)从模型。查看新前5字格。

ngrams = [“你”“艺术”“你”“难道”];袋= removeNgrams(袋、ngrams);topkngrams(包,5)
ans =5×3表Ngram计数NgramLength _________________ _____……“我”“眼”15 2“你”“自我”14 2“我”“拥有”13 2“你”“甜”12 2“你”“爱”11 2

加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。

文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);

创建bag-of-n-grams模型。

袋= bagOfNgrams(文档)
袋= bagOfNgrams属性:计数:[154 x8799双]词汇:“公平”“生物”“希望”“增加”“从而”“美”“玫瑰”“可能”“从不”“死”“成熟”“时间”“死”“温柔”“继承人”“熊”“记忆”“你”“简约”…]Ngrams: [8799 x2字符串]NgramLengths: 2 NumNgrams: 8799 NumDocuments: 154

视图模型中的前十个字格。

bag.Ngrams (1:10,:)
ans =10 x2字符串“公平”、“生物”、“生物”“希望”“希望”“增加”“增加”“从而”“从而”“美”“美”“玫瑰”“玫瑰”“可能”“可能”“从不”“从不”“死”“死”“成熟”

从模型中删除9日和10日字格。前十个字格的新列表视图。

idx = 10 [9];袋= removeNgrams(袋、idx);bag.Ngrams (1:10,:)
ans =10 x2字符串“公平”、“生物”、“生物”“希望”“希望”“增加”“增加”“从而”“从而”“美”“美”“玫瑰”“玫瑰”“可能”“可能”“从不”“成熟”“时间”“时间”“死”

输入参数

全部折叠

输入bag-of-n-grams模型,指定为一个bagOfNgrams对象。

字格删除,指定为字符串数组,特征向量,或一个单元阵列的特征向量。

如果ngrams是一个字符串数组或单元阵列,那么它的尺寸吗NumNgrams——- - - - - -maxN,在那里NumNgrams字格的数量,maxN的长度是最大的语法。如果ngrams是一个特征向量,那么它代表一个词(unigram)。

的价值ngrams (i, j)jth的话语法。如果单词的数量语法小于maxN,然后剩下的条目th排ngrams是空的。

例子:[" " "”;“榜样”;“例子”“”)

数据类型:字符串|字符|细胞

指数字格来删除指定为一个向量逻辑指数的数值指标或一个向量。的指标idx对应的行bag.Ngrams

例子:[1 5 10]

版本历史

介绍了R2018a