主要内容

normalizeWords

茎或鼠里言语

描述

normalizeWords将单词减少到根形式。到lemmatize.英语单词(将它们缩减到字典形式),设置“风格”选择“引理”

该功能支持英语,日语,德语万博1manbetx和韩文文本。

例子

更新录容= rangerizewords(文档减少单词文档到一个根形式。对于英语和德语文本,默认情况下,该函数分别对使用波特词干符的英语和德语文本的单词进行词干。对于日语和韩语文本,默认情况下,该函数使用MeCab标记器对单词进行词根化。

例子

更新字= rangerizewords(单词减少字符串数组中的每个单词单词到一个根形式。

更新字= rangerizewords(单词,'语',语言减少单词并指定单词语言。

例子

___= rangerizewords(___“风格”,风格还指定了归一化样式。例如,正常化字(文档,'风格','lemma')释放输入文档中的单词。

例子

全部收缩

使用波特词干符对文档数组中的单词进行词干。

文件= tokenizedDocument ([“措词强烈的词汇集”“另一个单词集合”]);newDocuments = normalizeWords(文档)
newDocuments = 2x1 tokenizedDocument: 6 tokens:一个strong word collection of word 4 tokens:另一个word collection

用porter stemmer讨论字符串数组中的单词。字符串数组的每个元素必须是单个单词。

单词= [“一种”“强烈”“措辞”“收藏”“的”“单词”];新字= rangerizewords(单词)
newWords =1x6字符串“”strongli“”字“”收集“”词“

将文档数组中的单词解义。

文件= tokenizedDocument ([“我正在建房子。”“这栋楼有两层。”]);newDocuments = normalizeWords(文档,“风格”“引理”
newDocuments = 2x1 tokenizedDocument: 6 tokens: i be build a house。6令牌:建造有两层楼。

要改进词源化,首先使用addpartofspeechdetails.函数。例如,如果文档包含言语部分的细节,那么normalizeWords弱化了唯一的动词building而不是名词building。

= addPartOfSpeechDetails文件(文档);newDocuments = normalizeWords(文档,“风格”“引理”
newDocuments = 2x1 tokenizedDocument: 6 tokens: i be build a house。6代币:该建筑有两层。

标记日语文本使用令人生畏的鳕文函数。该功能会自动检测日文文本。

str = [“空に星が辉き,瞬いている。”“空の星が辉きををている。”“駅駅までは远く,歩け歩け。”“远く远くの駅まで歩け歩け。”];文件= tokenizedDocument (str);

使用令牌释放令牌normalizeWords

文件= normalizeWords(文档)
文件= 4 x1 tokenizedDocument的令牌:10个空に星が輝く,瞬くている。10令牌:空の星が輝きを増すている。9令牌:駅までは遠いて,歩けるない。7代币:遠くの駅まで歩けるない。

使用授权德国文本令人生畏的鳕文函数。该功能自动检测德语文本。

str = [“Guten Morgen。Wie Geht es dir?”“Heute Wird Ein Guter标签。”];文件= tokenizedDocument (str);

用来茎干normalizeWords

文件= normalizeWords(文档)
文档= 2x1 tokenizedDocument: 8 token: gut morg。你的名字叫什么?标记:内脏标记。

输入参数

全部收缩

输入文档,指定为令人生畏的鳕文数组中。

输入单词,指定为字符串向量,字符向量或字符向量的单元格数组。如果您指定单词作为字符向量,函数将参数视为单个单词。

数据类型:字符串|char|细胞

规范化样式,指定为下列样式之一:

  • '干'- 使用Porter Sewermer的词干词。此选项仅支持英语和德语文万博1manbetx本。对于英语和德语文本,此值是默认值。

  • “引理”-提取每个单词的字典形式。此选项仅支持英语、日语和万博1manbetx韩语文本。如果一个单词不在内部字典中,那么该函数将不加修改地输出该单词。对于英文文本,输出是小写的。对于日语和韩语文本,这个值是默认值。

该函数只对带有类型的标记进行规范化'字母'“其他”.有关令牌类型的更多信息,请参阅tokenDetails

提示

对于英语文本,要改进文档中单词的词元化,首先要使用的是添加词性细节addpartofspeechdetails.函数。

文字语言,指定为下列语言之一:

  • “en”- - - - - -英语

  • “德”——德国语言

如果您没有指定语言,软件会自动检测语言。要使日语或韩语的文本外义化,请使用令人生畏的鳕文输入。

数据类型:char|字符串

输出参数

全部收缩

更新的文件,返回A.令人生畏的鳕文数组中。

更新的单词,作为字符串阵列,字符向量或字符向量阵列返回。单词更新字具有相同的数据类型。

算法

全部收缩

语言细节

令人生畏的鳕文对象包含有关令牌的详细信息,包括语言详细信息。输入文档的语言细节确定了行为normalizeWords.这令人生畏的鳕文默认情况下,函数会自动检测输入文本的语言。要手动指定语言详细信息,请使用“语言”名称 - 值对参数令人生畏的鳕文.要查看令牌详细信息,请使用tokenDetails函数。

兼容性考虑因素

展开全部

R2018b中行为改变

介绍了R2017b