主要内容

addlangugseTails.

向文档添加语言标识符

描述

使用addlangugseTails.向文档添加语言标识符。

该功能支持英语,日语,德语万博1manbetx和韩文文本。

例子

updatedDocuments= addLanguageDetails (文档检测语言文档并更新令牌细节。该函数只向缺少语言细节的标记添加细节。来获取语言细节updatedDocuments, 采用tokenDetails

updatedDocuments= addLanguageDetails (文档名称,值使用一个或多个名称-值对指定其他选项。

提示

使用addlangugseTails.在使用之前较低的函数作为addlangugseTails.使用被此函数删除的信息。

例子

全部折叠

通过将文本分割为单词数组来手动标记一些文本。将手动标记的文本转换为令人畏缩的鳕文对象的“TokenizeMethod”选择“没有”

str =分裂(一个短句的例子)”;文件= tokenizedDocument (str,“TokenizeMethod”“没有”);

查看令牌细节使用tokenDetails

tdetails = tokenDetails(文档)
Tdetails =6×2表令牌文档系统__________ ______________“一个”1“示例”1“的”1“A”1“短”1“句子”1

当你指定“TokenizeMethod”、“没有”,该函数不会自动检测文档的语言细节。要添加语言细节,请使用addlangugseTails.函数。默认情况下,此功能会自动检测语言。

= addLanguageDetails文件(文档);

使用查看更新的令牌详细信息tokenDetails

tdetails = tokenDetails(文档)
Tdetails =6×4表Token DocumentNumber Type Language __________ ______________ _______ ________ "an" 1 letters en "example" 1 letters en "of" 1 letters en "a" 1 letters en "short" 1 letters en "sentence" 1 letters en

输入参数

全部折叠

输入文档,指定为令人畏缩的鳕文数组中。

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值是相应的价值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:“DiscardKnownValues”,真的指定丢弃先前计算的详细信息并重新计算它们。

语言,指定为以下之一:

  • “en”- 英语

  • “ja”——日本

  • “德”——德国

  • 'ko'- 韩国人

如果没有指定值,则该函数使用小毒素语言函数。

此选项指定令牌的语言详细信息。要查看令牌的语言详细信息,请使用tokenDetails这些语言细节决定removeStopWordsaddpartofspeechdetails.normalizeWordsaddSentenceDetails,addEntityDetails令牌上的功能。

有关“文本分析工具箱™”中语言支持的更多信息,请参见万博1manbetx语言的注意事项

选择放弃先前计算的细节并重新计算它们,指定为真的要么

数据类型:逻辑

输出参数

全部折叠

更新的文档,返回为令人畏缩的鳕文数组中。获取令牌的详细信息updatedDocuments, 采用tokenDetails

介绍了R2018b