主要内容

取代

替换文档中的子字符串

描述

例子

newDocuments=取代(文档替换所有出现的子字符串或模式文档

提示

使用取代函数通过指定子字符串或模式替换文档中单词的子字符串。要替换文档中的整个单词和n-gram,请使用replaceWordsreplaceNgrams函数分别。

例子

全部折叠

替换文档数组中的单词。

文件= tokenizedDocument ([“一个极端的例子“另一个极端的例子])
documents = 2x1 tokenizedDocument: 3 tokens:一个极端的例子
newDocuments =取代(文档,“例子”“句子”
newDocuments = 2x1 tokenizedDocument: 3 tokens:一个极端的句子3 tokens:另一个极端的句子

替换单词的子字符串。

newDocuments =取代(文档,“前女友”“X -”
newdocuments = 2x1 tokenizeddocument:3令牌:一个x-treme x-ample 3令牌:另一个x-treme x-afple

使用数字模式从文档中删除数字。

创建一个标记化文档数组。

textData = [“文本分析工具箱提供了50多个功能来分析文本数据。”bm25相似性函数测量文档的相似性。];文件= tokenizedDocument (textData);

用令牌替换连续数字的实例“< >”使用取代函数。属性指定一个数字模式digitsPattern函数。

帕特= digitsPattern;newDocuments =取代(文档、帕特“< >”
newDocuments = 2x1 tokenizedDocument: 12 token: Text Analytics Toolbox提供了超过函数来分析文本数据。7令牌:bm相似性函数度量文档的相似性。

注意,该函数替换了令牌中的数字“bm25Similarity”

要替换完全由数字组成的令牌,请使用取代函数,并指定还包括文本边界的模式。属性指定文本边界textBoundary函数。

pat = textborder + digitpattern + textborder;newDocuments =取代(文档、帕特“< >”
newDocuments = 2x1 tokenizedDocument: 12 token: Text Analytics Toolbox提供了超过函数来分析文本数据。7令牌:bm25相似性函数度量文档相似性。

在这种情况下,函数不替换令牌中的数字“bm25Similarity”

输入参数

全部折叠

输入文档,指定为令人畏缩的鳕文数组中。

要替换的子字符串或模式,指定为下列之一:

  • 字符串数组

  • 特征向量

  • 字符向量的单元格阵列

  • 模式大批

新子字符串,指定为字符串数组、字符向量或字符向量的单元格数组。

数据类型:字符串|字符|细胞

输出参数

全部折叠

输出文档,作为令人畏缩的鳕文数组中。

介绍了R2017b