主要内容

addLanguageDetails

语言标识符添加到文档

自从R2018b

描述

使用addLanguageDetails语言标识符添加到文档。

函数支持英语、日语、德语,万博1manbetx和韩国的文本。

例子

updatedDocuments= addLanguageDetails (文档)检测到的语言文档并更新标记的细节。函数将细节添加到令牌丢失语言细节。语言细节updatedDocuments,使用tokenDetails

updatedDocuments= addLanguageDetails (文档,名称,值)使用一个或多个指定附加选项名称-值对。

提示

使用addLanguageDetails在使用之前较低的函数作为addLanguageDetails使用信息删除功能。

例子

全部折叠

手动标记一些文本分割成数组的单词。手动标记化的文本转换成一个tokenizedDocument对象通过设置“TokenizeMethod”选项“没有”

str =分裂(“一个短句”)”;文件= tokenizedDocument (str,“TokenizeMethod”,“没有”);

视图使用令牌的细节tokenDetails

tdetails = tokenDetails(文档)
tdetails =6×2表令牌”“DocumentNumber __________ * * *“例子”1”,“1”“1“空头”1“句子”1

当你指定“TokenizeMethod”、“没有”,该函数不自动检测语言文档的细节。添加语言细节,使用addLanguageDetails函数。这个函数,默认情况下,自动检测语言。

= addLanguageDetails文件(文档);

查看更新后的令牌使用详细信息tokenDetails

tdetails = tokenDetails(文档)
tdetails =6×4表令牌DocumentNumber类型语言_________ ________ __________ * * *”“1字母在“示例”字母en”“1字母在“一个”1字母在“短”字母在“句子”1字母

输入参数

全部折叠

输入文件,指定为一个tokenizedDocument数组中。

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:“DiscardKnownValues”,真的指定抛弃以前计算的细节和验算。

语言,指定为以下之一:

  • “en”- - - - - -英语

  • “ja”——日本

  • “德”——德国

  • “柯”——韩国

如果你不指定一个值,那么该函数检测输入文本的语言使用corpusLanguage函数。

此选项指定了令牌的语言细节。把语言的细节令牌,使用tokenDetails这些语言细节决定的行为removeStopWords,addPartOfSpeechDetails,normalizeWords,addSentenceDetails,addEntityDetails功能上的令牌。

关于语言支持的更多信息以文本分析工具箱™,明白了万博1manbetx语言的注意事项

选择丢弃之前计算的细节和验算,指定为真正的

数据类型:逻辑

输出参数

全部折叠

更新文件,作为一个返回tokenizedDocument数组中。获得令牌的细节updatedDocuments,使用tokenDetails

版本历史

介绍了R2018b