normalizeWords

词干或词干化单词

在页面中全部折叠

语法

updatedDocuments = normalizeWords(文档)

updatedWords = normalizeWords(words)

updatedWords = normalizeWords(words，'Language'， Language)

___= normalizeWords (___“风格”,风格)

描述

使用normalizeWords把单词简化成词根形式。来lemmatize英语单词(将其简化为字典形式)，设置“风格”选项“引理”．

支持英文、日文、德文、韩文万博1manbetx文本。

例子

updatedDocuments= normalizeWords (文档）减少单词文档到根形式。对于英语和德语文本，默认情况下，该函数分别使用波特词干分析器对英语和德语文本进行词干分析。对于日文和韩文文本，默认情况下，该函数使用MeCab标记器对单词进行lemmalize。

例子

updatedWords= normalizeWords (单词）减少字符串数组中的每个单词单词到根形式。

updatedWords= normalizeWords (单词“语言”,语言）减少单词并指定单词语言。

例子

___= normalizeWords (___“风格”,风格）还指定规范化样式。例如,normalizeWords(文档、“风格”、“引理”)对输入文档中的单词进行lemmalize。

例子

全部折叠

文档中的词干词

打开实时脚本

使用波特词干分析器对文档数组中的单词进行词干分析。

文档= tokenizedDocument(["措辞强烈的词汇集合""另一个词集"]);newDocuments = normalizeWords(文档)

newDocuments = 2x1 tokenizedDocument: 6个token:一个strongli word collection of word 4个token:另一个word collection

字符串数组中的词干

打开实时脚本

使用波特词干分析器在字符串数组中词干。字符串数组的每个元素必须是单个单词。

文字= [“一个”“强烈”“措辞”“收集”“的”“单词”];newWords = normalizeWords(words)

newWords =1 x6字符串“一个”“强力”“字”“收集”的“字”

在文档中引入单词

打开实时脚本

对文档数组中的单词进行词法化。

文档= tokenizedDocument([“我在盖房子。”“这栋楼有两层。”]);newDocuments = normalizeWords(文档，“风格”，“引理”）

newDocuments = 2x1 tokenizedDocument: 6个token:我要建造一个房子。6代币:建筑有两层。

方法将词性细节添加到文档中以改进词元化addPartOfSpeechDetails函数。例如，如果文档包含词性细节，那么normalizeWords略读唯一的动词“building”而不是名词“building”。

文档= addPartOfSpeechDetails(文档);newDocuments = normalizeWords(文档，“风格”，“引理”）

newDocuments = 2x1 tokenizedDocument: 6个token:我要建造一个房子。6个标志:建筑有两层。

解释日语文本

打开实时脚本

符号化日语文本tokenizedDocument函数。该功能自动检测日文。

STR = [“空に星が輝き，瞬いている。”“空の星が輝きを増している。”“駅までは遠くて，歩けない。”“遠くの駅まで歩けない。”];文档= tokenizedDocument(str);

引入使用的令牌normalizeWords．

文档= normalizeWords(文档)

documents = 4x1 tokenizedDocument: 10 token:空に星が輝く，瞬くている。10代币:空の星が輝きを増すている。9个令牌:駅までは遠いて，歩けるない。7个代币:遠くの駅まで歩けるない。

Stem德语文本

打开实时脚本

的标记化德语文本tokenizedDocument函数。该功能自动检测德语文本。

STR = [“早安。我得到了什么?”“Heute wird ein guter Tag。”];文档= tokenizedDocument(str);

阻止代币使用normalizeWords．

文档= normalizeWords(文档)

documents = 2x1 tokenizedDocument: 8 token: gut morg。我得到了dir ?6个标记:heut wild ein gut tag。

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

`单词`- - - - - -输入单词
字符串向量|特征向量|字符向量的单元格数组

输入单词，指定为字符串向量、字符向量或字符向量的单元格数组。如果你指定单词作为字符向量，则函数将实参作为单个单词处理。

数据类型:字符串|字符|细胞

`风格`- - - - - -归一化的风格
`“干细胞”`|`“引理”`

规范化样式，指定为以下之一:

“干细胞”-使用波特词干分析器词干。此选项只支持英语和德语文万博1manbetx本。对于英语和德语文本，这个值是默认值。
“引理”-提取每个单词的字典形式。此选项只支持英语、日语和万博1manbetx韩语文本。如果一个词不在内部字典中，则函数输出该词不变。对于英文文本，输出是小写的。对于日语和韩语文本，这个值是默认值。

该函数只对带类型的标记进行规范化“信”而且“其他”．有关令牌类型的更多信息，请参见tokenDetails．

提示

对于英语文本，要改进文档中单词的词元化，首先要使用addPartOfSpeechDetails函数。

`语言`- - - - - -词的语言
`“en”`|`“德”`

文字语言，指定为下列之一:

“en”-英语
“德”-德语

如果您不指定语言，那么软件将自动检测语言。要使日文或韩文衍生化，使用tokenizedDocument输入。

数据类型:字符|字符串

输出参数

全部折叠

`updatedDocuments`-更新文件
`tokenizedDocument`数组

更新的文件，作为一个返回tokenizedDocument数组中。

`updatedWords`-更新词汇
字符串数组|字符向量|单元格数组的字符向量

更新的单词，作为字符串数组、字符向量或字符向量的单元格数组返回。单词而且updatedWords具有相同的数据类型。

算法

全部折叠

语言细节

tokenizedDocument对象包含关于标记的详细信息，包括语言的详细信息。的行为由输入文档的语言细节决定normalizeWords．的tokenizedDocument函数，默认情况下，自动检测输入文本的语言。要手动指定语言详细信息，请使用“语言”的名值对参数tokenizedDocument．要查看令牌详细信息，请使用tokenDetails函数。

版本历史

在R2017b中引入

全部展开

R2018b:`normalizeWords`跳过复杂的标记

在R2018b中行为发生了改变

从R2018b开始，fortokenizedDocument输入,normalizeWords用类型规范化令牌“信”或“其他”只有。此行为防止函数影响复杂的令牌，如url和电子邮件地址。

在以前的版本中，normalizeWords规范化所有的标记。要复制此行为，使用命令updatedDocuments = docfun(@(str) normalizeWords(str)，documents)．

另请参阅

normalizeWords

语法

描述

例子

文档中的词干词

字符串数组中的词干

在文档中引入单词

解释日语文本

Stem德语文本

输入参数

文档- - - - - -输入文档tokenizedDocument数组

单词- - - - - -输入单词字符串向量|特征向量|字符向量的单元格数组

风格- - - - - -归一化的风格“干细胞”|“引理”

语言- - - - - -词的语言“en”|“德”

输出参数

updatedDocuments-更新文件tokenizedDocument数组

updatedWords-更新词汇字符串数组|字符向量|单元格数组的字符向量

算法

语言细节

版本历史

R2018b:normalizeWords跳过复杂的标记

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`单词`- - - - - -输入单词
字符串向量|特征向量|字符向量的单元格数组

`风格`- - - - - -归一化的风格
`“干细胞”`|`“引理”`

`语言`- - - - - -词的语言
`“en”`|`“德”`

`updatedDocuments`-更新文件
`tokenizedDocument`数组

`updatedWords`-更新词汇
字符串数组|字符向量|单元格数组的字符向量

R2018b:`normalizeWords`跳过复杂的标记