文档帮助中心文档
从包-n-grams模型中删除n-g
ngrams newBag = removeNgrams(袋)
newBag = removeNgrams(袋、ngrams IgnoreCase,真的)
idx newBag = removeNgrams(袋)
例子
newBag= removeNgrams (袋,ngrams)从包-n-grams模型中移除指定的n-g袋.缺省情况下,该函数区分大小写。
newBag= removeNgrams (袋,ngrams)
newBag
袋
ngrams
newBag= removeNgrams (袋,ngrams“IgnoreCase”,真的)移除n-g忽略大小写。
newBag= removeNgrams (袋,ngrams“IgnoreCase”,真的)
newBag= removeNgrams (袋,idx)中的数字或逻辑索引指定n-g袋里。Ngrams.这个语法与newBag = removeNgrams(袋、bag.Ngrams (idx,:)).
newBag= removeNgrams (袋,idx)
idx
袋里。Ngrams
newBag = removeNgrams(袋、bag.Ngrams (idx,:))
全部折叠
加载示例数据。该文件sonnetsPreprocessed.txt包含了经过预处理的莎士比亚十四行诗。该文件每行包含一首十四行诗,单词之间用空格分隔。将文本从sonnetsPreprocessed.txt,将文本以换行符分割为文档,然后标记文档。
sonnetsPreprocessed.txt
文件名=“sonnetsPreprocessed.txt”;str = extractFileText(文件名);textData =分裂(str,换行符);文件= tokenizedDocument (textData);
创建bag-of-n-grams模型。
袋= bagOfNgrams(文档)
[1×3092 string] Ngrams: [8799×2 string] ngramlength: 2 NumNgrams: 8799 NumDocuments: 154
查看前5个n-gram。
topkngrams(包,5)
ans =5×3表Ngram计数NgramLength ________________ _____ ___________ " 34 2你”“艺术”“我”“眼睛”15 2”你的“自我”14 2”你”“难道”13 2“我”自己的“13 2
把字格(“你”“艺术”)和(“你”“”)从模型。查看新的前5个n-g。
(“你”“艺术”)
(“你”“”)
ngrams = [...“你”“艺术”“你”“难道”];袋= removeNgrams(袋、ngrams);topkngrams(包,5)
ans =5×3表Ngram计数NgramLength _________________ _____ ___________ " 我的“眼睛”15 2”你的“自我”14 2”我“的“13 2”你的“甜”12 2”你“爱”11 2
[1x3092 string] Ngrams: [8799x2 string] ngramlength: 2 NumNgrams: 8799 NumDocuments: 154
查看模型中的前10个n-g。
bag.Ngrams (1:10,:)
ans =10 x2字符串"最美丽的生物" "渴望" "欲望" "增加" "因此" "因此" "美丽的" "美丽的" "玫瑰" "玫瑰" "可能" "可能" "永远" "永远" "死" "成熟"
从模型中删除第9和第10个n-克。查看前10个n-g的新列表。
Idx = [9 10];袋= removeNgrams(袋、idx);bag.Ngrams (1:10,:)
ans =10 x2字符串"最美丽的生物" "欲望" "欲望" "增加" "因此"因此"美丽的" "美丽的" "玫瑰" "玫瑰" "可能" "可能" "永远" "成熟" "时间" "时间" "死亡"
bagOfNgrams
输入袋式n-grams模型,指定为bagOfNgrams对象。
n -g,指定为字符串数组、字符向量或字符向量的单元格数组。
如果ngrams是字符串数组还是单元格数组,那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn-g的个数是多少,和maxN是最大n元的长度。如果ngrams是一个字符向量,然后它表示单个单词(unigram)。
NumNgrams
maxN
的价值ngrams (i, j)是jthe word of the我语法。如果单词的数量我第n个gram小于maxN,然后是我th排ngrams是空的。
ngrams (i, j)
j
我
例子:[" " "”;“榜样”;“例子”“”)
[" " "”;“榜样”;“例子”“”)
数据类型:字符串|字符|细胞
字符串
字符
细胞
要删除的n-g的索引,指定为数字索引向量或逻辑索引向量。的指标idx对应的行袋里。Ngrams.
例子:[1 5 10]
[1 5 10]
bagOfNgrams|bagOfWords|removeEmptyDocuments|removeInfrequentNgrams|removeWords|tokenizedDocument
bagOfWords
removeEmptyDocuments
removeInfrequentNgrams
removeWords
tokenizedDocument
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系