文档帮助中心文档
替换文档中的子字符串
newdocuments =替换(文件,旧,新)
例子
newDocuments=取代(文档,老,新)替换所有出现的子字符串或模式老在文档与新.
newDocuments=取代(文档,老,新)
newDocuments
文档
老
新
提示
使用取代函数通过指定子字符串或模式替换文档中单词的子字符串。要替换文档中的整个单词和n-gram,请使用replaceWords和replaceNgrams函数分别。
取代
replaceWords
replaceNgrams
全部折叠
替换文档数组中的单词。
文件= tokenizedDocument ([“一个极端的例子“另一个极端的例子])
documents = 2x1 tokenizedDocument: 3 tokens:一个极端的例子
newDocuments =取代(文档,“例子”,“句子”)
newDocuments = 2x1 tokenizedDocument: 3 tokens:一个极端的句子3 tokens:另一个极端的句子
替换单词的子字符串。
newDocuments =取代(文档,“前女友”,“X -”)
newdocuments = 2x1 tokenizeddocument:3令牌:一个x-treme x-ample 3令牌:另一个x-treme x-afple
使用数字模式从文档中删除数字。
创建一个标记化文档数组。
textData = [“文本分析工具箱提供了50多个功能来分析文本数据。”bm25相似性函数测量文档的相似性。];文件= tokenizedDocument (textData);
用令牌替换连续数字的实例“< >”使用取代函数。属性指定一个数字模式digitsPattern函数。
“< >”
digitsPattern
帕特= digitsPattern;newDocuments =取代(文档、帕特“< >”)
newDocuments = 2x1 tokenizedDocument: 12 token: Text Analytics Toolbox提供了超过函数来分析文本数据。7令牌:bm相似性函数度量文档的相似性。
注意,该函数替换了令牌中的数字“bm25Similarity”.
“bm25Similarity”
要替换完全由数字组成的令牌,请使用取代函数,并指定还包括文本边界的模式。属性指定文本边界textBoundary函数。
textBoundary
pat = textborder + digitpattern + textborder;newDocuments =取代(文档、帕特“< >”)
newDocuments = 2x1 tokenizedDocument: 12 token: Text Analytics Toolbox提供了超过函数来分析文本数据。7令牌:bm25相似性函数度量文档相似性。
在这种情况下,函数不替换令牌中的数字“bm25Similarity”.
令人畏缩的鳕文
输入文档,指定为令人畏缩的鳕文数组中。
模式
要替换的子字符串或模式,指定为下列之一:
字符串数组
特征向量
字符向量的单元格阵列
模式大批
新子字符串,指定为字符串数组、字符向量或字符向量的单元格数组。
数据类型:字符串|字符|细胞
字符串
字符
细胞
输出文档,作为令人畏缩的鳕文数组中。
bagOfWords|decodeHTMLEntities|normalizeWords|regexprep|replaceNgrams|replaceWords|令人畏缩的鳕文
bagOfWords
decodeHTMLEntities
normalizeWords
regexprep
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系