normalizeWords

茎或lemmatize词

描述

normalizeWords以减少字到根形式。至lemmatize英语单词(他们减少他们的字典形式),设置'风格'选项'引理'

该功能支持英语,日语,德语万博1manbetx,韩语文字。

updatedDocuments= normalizeWords(文件降低的话文件到根形式。对于英语和德语文字,功能,默认情况下,茎用波特词干的英语和德语文字分别的话。对于日本和韩国的文字,功能,默认情况下,lemmatizes使用仲裁处标记者的话。

updatedWords= normalizeWords(减少了串阵列中的每个字到根形式。

updatedWords= normalizeWords(,'语言',语言降低的话,也规定了字语。

___= normalizeWords(___,'风格',风格还规定了标准化的风格。例如,normalizeWords(文件, '风格', '引理')lemmatizes在输入文档的话。

例子

全部收缩

干在使用波特词干文档阵列词语的

文档= tokenizedDocument([“一份措辞强烈的词集”“字的另一集”]);newDocuments = normalizeWords(文档)
newDocuments = 2×1 tokenizedDocument:6个令牌:一个strongli字收集的字4个令牌:anoth收集字的

干在使用波特词干一个字符串数组词语的串数组的每个元素必须是单个字。

词语= [“一种”“强烈”“措辞”“采集”“的”“话”]。newWords = normalizeWords(字)
newWords =1X6线“一”,“strongli”“词”“收”,“词“的”,”

Lemmatize词语的文档阵列。

文档= tokenizedDocument([“我盖房子。”“该大楼有两层。”]);newDocuments = normalizeWords(文档,'风格''引理'
newDocuments = 2×1 tokenizedDocument:6个令牌:ⅰ是建造一所房子。6个标记:构建有两个楼层。

为了提高词形还原,第一部分的语音详细信息添加到使用的文件addPartOfSpeechDetails功能。例如,如果文档包含部分的语音信息,然后normalizeWords减少的唯一动词“建筑”,而不是名词“建设”。

文档= addPartOfSpeechDetails(文件);newDocuments = normalizeWords(文档,'风格''引理'
newDocuments = 2×1 tokenizedDocument:6个令牌:ⅰ是建造一所房子。6个标记:建设有两个楼层。

使用令牌化的日本文字tokenizedDocument功能。该功能可以自动检测日语文本。

海峡= [“空に星が辉き,瞬いている。”“空の星が辉きを増している。”“駅までは远くて,歩けない”。“远くの駅まで歩けない”。]。文档= tokenizedDocument(STR);

Lemmatize使用令牌normalizeWords

文档= normalizeWords(文档)
文档= 4X1 tokenizedDocument:10个标记:空に星が辉く,瞬くている10个标记:。空の星が辉きを増すている9个令牌:駅までは远いて,歩けるない7个令牌:远くの駅まで歩けるない。

使用令牌化德语文本tokenizedDocument功能。该功能可以自动检测德语文本。

海峡= [“Guten摩根。魏某geht ES目录?”“HEUTE wird EIN GUTER标签。”]。文档= tokenizedDocument(STR);

干使用令牌normalizeWords

文档= normalizeWords(文档)
文档= 2×1 tokenizedDocument:8个令牌:肠道MORG。魏某geht ES目录 ?6个标记:heut wird EIN肠道标签。

输入参数

全部收缩

输入文件,指定为tokenizedDocument阵列。

输入字,指定为字符串向量,特征向量,或字符向量的单元阵列。如果您指定为字符向量,则该函数将参数作为一个单词。

数据类型:|烧焦|细胞

归一化的风格,被指定为以下之一:

  • '干'- 干用波特词干词。此选项支持英文和唯一的德万博1manbetx国文本。对于英语和德语文字,这个值是默认的。

  • '引理'- 提取每个单词的字典形式。此选项支持英语,日语,和万博1manbetx韩国唯一的文本。如果一个单词不在内部字典,则该函数输出无改变的字。对于英文文本,输出是小写。对于日本和韩国的文字,这个值是默认的。

该函数仅标准化类型令牌“信”'其他'。有关令牌类型的更多信息,请参阅tokenDetails

小费

对于英文文本,以提高文档的单词的词形还原,采用先加部分的语音细节addPartOfSpeechDetails功能。

Word语言,指定为下列之一:

  • “恩”- 英语

  • “德”- 德国的语言

如果不指定语言,那么软件会自动检测语言。为了lemmatize日本或韩国的文字,使用tokenizedDocument输入。

数据类型:烧焦|

输出参数

全部收缩

更新文件,返回为tokenizedDocument阵列。

更新的话,返回作为一个字符串数组,字符向量,或字符向量的单元阵列。updatedWords具有相同的数据类型。

算法

全部收缩

语言详细信息

tokenizedDocument对象包含有关令牌包括语言细节的详细信息。输入文档的语言细节决定的行为normalizeWords。该tokenizedDocument功能,默认情况下,自动检测输入文字的语言。要手动指定语言的详细信息,请使用'语言'的名称 - 值对参数tokenizedDocument。要查看令牌的详细信息,请使用tokenDetails功能。

兼容性注意事项

展开全部

行为R2018b改变

介绍了在R2017b