主要内容

replaceNgrams

在文档中替换n-g

描述

例子

newDocuments= replaceNgrams (文档oldNgramsnewNgrams通过替换n-gram来更新指定的文档oldNgrams用相应的n-gnewNgrams.缺省情况下,该函数区分大小写。

newDocuments= replaceNgrams (文档oldNgramsnewNgrams“IgnoreCase”,真的)取代了字格oldNgrams忽略的情况。

例子

全部折叠

使用replaceNgrams函数以其相应的展开形式替换缩写。

创建一个标记化文档数组。

str = [...“目前就读于马萨诸塞州剑桥市。”“下一站,纽约!”];文件= tokenizedDocument (str)
documents = 2x1 tokenizedDocument: 6 token:目前在剑桥,MA。5代币:下一站,纽约!

更换令牌“马”“纽约”“麻省”(“新”“纽约”)分别。如果n-g有不同的长度,则必须用空字符串填充行"".在这种情况下,您必须填充“麻省”一个空字符串""

oldNgrams = [“马”“纽约”];newNgrams = [“麻省”""“新”“纽约”];= replaceNgrams文档(文档、oldNgrams newNgrams)
documents = 2x1 tokenizedDocument: 6 tokens:目前在马萨诸塞州剑桥。6代币:下一站,纽约!

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

要替换的n -g,指定为字符串数组、字符向量或字符向量的单元数组。

如果oldNgrams是字符串数组还是单元格数组,那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn-g的个数是多少,和maxN是最大n元的长度。如果oldNgrams是一个字符向量,然后它表示单个单词(unigram)。

的价值oldNgrams (i, j)jthe word of the语法。如果单词的数量第n个gram小于maxN,然后是th排oldNgrams必须用空弦填充吗""

例如,指定两个unigram“麻省”,还有双字词(“新”“纽约”),指定2 × 2字符串数组(“麻省”””;“新”“纽约”),在那里“麻省”是否用一个空字符串填充""

数据类型:字符串|字符|细胞

新n-gram,指定为字符串数组、字符向量或字符向量的单元格数组。

如果newNgrams是字符串数组还是单元格数组,那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn-g的个数是多少,和maxN是最大n元的长度。如果newNgrams是一个字符向量,然后它表示单个单词(unigram)。

的价值newNgrams (i, j)jthe word of the语法。如果单词的数量第n个gram小于maxN,然后是th排newNgrams是空的。

newNgrams必须有一行,或相同的行数oldNgrams

例如,指定两个unigram“麻省”,还有双字词(“新”“纽约”),指定2 × 2字符串数组(“麻省”””;“新”“纽约”),在那里“麻省”是否用一个空字符串填充""

数据类型:字符串|字符|细胞

输出参数

全部折叠

输出文档,作为tokenizedDocument数组中。

介绍了R2019a