帮助中心帮助中心
把字格从bag-of-n-grams模型
ngrams newBag = removeNgrams(袋)
newBag = removeNgrams(袋、ngrams IgnoreCase,真的)
idx newBag = removeNgrams(袋)
例子
newBag= removeNgrams (袋,ngrams)删除指定的字格从bag-of-n-grams模型袋。这个函数,默认情况下,是区分大小写的。
newBag= removeNgrams (袋,ngrams)
newBag
袋
ngrams
newBag= removeNgrams (袋,ngrams“IgnoreCase”,真的)删除- gram忽略的情况。
newBag= removeNgrams (袋,ngrams“IgnoreCase”,真的)
newBag= removeNgrams (袋,idx)指定数字或逻辑指数字格的bag.Ngrams。这个语法是一样的newBag = removeNgrams(袋、bag.Ngrams (idx,:))。
newBag= removeNgrams (袋,idx)
idx
bag.Ngrams
newBag = removeNgrams(袋、bag.Ngrams (idx,:))
全部折叠
加载示例数据。该文件sonnetsPreprocessed.txt莎士比亚的十四行诗的包含预处理版本。文件包含每行一个十四行诗,单词之间用一个空格来分隔。提取的文本sonnetsPreprocessed.txt在换行字符,文本分割成文档,然后标记文件。
sonnetsPreprocessed.txt
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
创建bag-of-n-grams模型。
袋= bagOfNgrams(文档)
袋= bagOfNgrams属性:数量:(154×8799双)词汇:[1×3092弦]Ngrams:[8799×2字符串]NgramLengths: 2 NumNgrams: 8799 NumDocuments: 154
查看前五字格。
topkngrams(包,5)
ans =5×3表Ngram计数NgramLength ___________ _____……“你”“艺术”34 2“我”“眼”15 2“你”“自我”14 2“你”“难道”13 2“我”“拥有”13 2
把字格(“你”“艺术”)和(“你”“”)从模型。查看新前5字格。
(“你”“艺术”)
(“你”“”)
ngrams = […“你”“艺术”“你”“难道”];袋= removeNgrams(袋、ngrams);topkngrams(包,5)
ans =5×3表Ngram计数NgramLength _________________ _____……“我”“眼”15 2“你”“自我”14 2“我”“拥有”13 2“你”“甜”12 2“你”“爱”11 2
袋= bagOfNgrams属性:计数:[154 x8799双]词汇:“公平”“生物”“希望”“增加”“从而”“美”“玫瑰”“可能”“从不”“死”“成熟”“时间”“死”“温柔”“继承人”“熊”“记忆”“你”“简约”…]Ngrams: [8799 x2字符串]NgramLengths: 2 NumNgrams: 8799 NumDocuments: 154
视图模型中的前十个字格。
bag.Ngrams (1:10,:)
ans =10 x2字符串“公平”、“生物”、“生物”“希望”“希望”“增加”“增加”“从而”“从而”“美”“美”“玫瑰”“玫瑰”“可能”“可能”“从不”“从不”“死”“死”“成熟”
从模型中删除9日和10日字格。前十个字格的新列表视图。
idx = 10 [9];袋= removeNgrams(袋、idx);bag.Ngrams (1:10,:)
ans =10 x2字符串“公平”、“生物”、“生物”“希望”“希望”“增加”“增加”“从而”“从而”“美”“美”“玫瑰”“玫瑰”“可能”“可能”“从不”“成熟”“时间”“时间”“死”
bagOfNgrams
输入bag-of-n-grams模型,指定为一个bagOfNgrams对象。
字格删除,指定为字符串数组,特征向量,或一个单元阵列的特征向量。
如果ngrams是一个字符串数组或单元阵列,那么它的尺寸吗NumNgrams——- - - - - -maxN,在那里NumNgrams字格的数量,maxN的长度是最大的语法。如果ngrams是一个特征向量,那么它代表一个词(unigram)。
NumNgrams
maxN
的价值ngrams (i, j)是jth的话我语法。如果单词的数量我语法小于maxN,然后剩下的条目我th排ngrams是空的。
ngrams (i, j)
j
我
例子:[" " "”;“榜样”;“例子”“”)
[" " "”;“榜样”;“例子”“”)
数据类型:字符串|字符|细胞
字符串
字符
细胞
指数字格来删除指定为一个向量逻辑指数的数值指标或一个向量。的指标idx对应的行bag.Ngrams。
例子:[1 5 10]
[1 5 10]
介绍了R2018a
bagOfWords|bagOfNgrams|removeInfrequentNgrams|removeWords|removeEmptyDocuments|tokenizedDocument|containsNgrams
bagOfWords
removeInfrequentNgrams
removeWords
removeEmptyDocuments
tokenizedDocument
containsNgrams
你有一个修改版的这个例子。你想打开这个例子与编辑?
你点击一个链接对应MATLAB命令:
运行该命令通过输入MATLAB命令窗口。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站
选择一个网站翻译内容,看到当地事件和提供。根据你的位置,我们建议您选择:。
你也可以从下面的列表中选择一个网站:
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。
联系你当地的办公室