文档帮助中心文档
在文档中替换n-g
newDocuments = replaceNgrams(文档、oldNgrams newNgrams)
newDocuments = replaceNgrams(文档、oldNgrams newNgrams IgnoreCase,真的)
例子
newDocuments= replaceNgrams (文档,oldNgrams,newNgrams)通过替换n-gram来更新指定的文档oldNgrams用相应的n-gnewNgrams.缺省情况下,该函数区分大小写。
newDocuments= replaceNgrams (文档,oldNgrams,newNgrams)
newDocuments
文档
oldNgrams
newNgrams
newDocuments= replaceNgrams (文档,oldNgrams,newNgrams“IgnoreCase”,真的)取代了字格oldNgrams忽略的情况。
newDocuments= replaceNgrams (文档,oldNgrams,newNgrams“IgnoreCase”,真的)
全部折叠
使用replaceNgrams函数以其相应的展开形式替换缩写。
replaceNgrams
创建一个标记化文档数组。
str = [...“目前就读于马萨诸塞州剑桥市。”“下一站,纽约!”];文件= tokenizedDocument (str)
documents = 2x1 tokenizedDocument: 6 token:目前在剑桥,MA。5代币:下一站,纽约!
更换令牌“马”和“纽约”与“麻省”和(“新”“纽约”)分别。如果n-g有不同的长度,则必须用空字符串填充行"".在这种情况下,您必须填充“麻省”一个空字符串"".
“马”
“纽约”
“麻省”
(“新”“纽约”)
""
oldNgrams = [“马”“纽约”];newNgrams = [“麻省”""“新”“纽约”];= replaceNgrams文档(文档、oldNgrams newNgrams)
documents = 2x1 tokenizedDocument: 6 tokens:目前在马萨诸塞州剑桥。6代币:下一站,纽约!
tokenizedDocument
输入文档,指定为tokenizedDocument数组中。
要替换的n -g,指定为字符串数组、字符向量或字符向量的单元数组。
如果oldNgrams是字符串数组还是单元格数组,那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn-g的个数是多少,和maxN是最大n元的长度。如果oldNgrams是一个字符向量,然后它表示单个单词(unigram)。
NumNgrams
maxN
的价值oldNgrams (i, j)是jthe word of the我语法。如果单词的数量我第n个gram小于maxN,然后是我th排oldNgrams必须用空弦填充吗"".
oldNgrams (i, j)
j
我
例如,指定两个unigram“麻省”,还有双字词(“新”“纽约”),指定2 × 2字符串数组(“麻省”””;“新”“纽约”),在那里“麻省”是否用一个空字符串填充"".
(“麻省”””;“新”“纽约”)
数据类型:字符串|字符|细胞
字符串
字符
细胞
新n-gram,指定为字符串数组、字符向量或字符向量的单元格数组。
如果newNgrams是字符串数组还是单元格数组,那么它有大小NumNgrams——- - - - - -maxN,在那里NumNgramsn-g的个数是多少,和maxN是最大n元的长度。如果newNgrams是一个字符向量,然后它表示单个单词(unigram)。
的价值newNgrams (i, j)是jthe word of the我语法。如果单词的数量我第n个gram小于maxN,然后是我th排newNgrams是空的。
newNgrams (i, j)
newNgrams必须有一行,或相同的行数oldNgrams.
输出文档,作为tokenizedDocument数组中。
decodeHTMLEntities|normalizeWords|removeWords|replaceWords|tokenizedDocument
decodeHTMLEntities
normalizeWords
removeWords
replaceWords
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系