normalizeWords

茎或lemmatize词

折叠所有页面

句法

updatedDocuments = normalizeWords（文档）

updatedWords = normalizeWords（字）

updatedWords = normalizeWords（即， '语言'，语言）

___= normalizeWords（___， '风格'，样式）

描述

用normalizeWords以减少字到根形式。至lemmatize英语单词（他们减少他们的字典形式），设置'风格'选项'引理'。

该功能支持英语，日语，德语万博1manbetx，韩语文字。

例

updatedDocuments= normalizeWords（文件）降低的话文件到根形式。对于英语和德语文字，功能，默认情况下，茎用波特词干的英语和德语文字分别的话。对于日本和韩国的文字，功能，默认情况下，lemmatizes使用仲裁处标记者的话。

例

updatedWords= normalizeWords（话）减少了串阵列中的每个字话到根形式。

updatedWords= normalizeWords（话，'语言'，语言）降低的话，也规定了字语。

例

___= normalizeWords（___，'风格'，风格）还规定了标准化的风格。例如，normalizeWords（文件， '风格'， '引理'）lemmatizes在输入文档的话。

例子

全部收缩

干在文档中的词语

开立真实脚本

干在使用波特词干文档阵列词语的

文档= tokenizedDocument（[“一份措辞强烈的词集”“字的另一集”]）;newDocuments = normalizeWords（文档）

newDocuments = 2×1 tokenizedDocument：6个令牌：一个strongli字收集的字4个令牌：anoth收集字的

干在字符串数组词

开立真实脚本

干在使用波特词干一个字符串数组词语的串数组的每个元素必须是单个字。

词语= [“一种”“强烈”“措辞”“采集”“的”“话”]。newWords = normalizeWords（字）

newWords =1X6线“一”，“strongli”“词”“收”，“词“的”，”

Lemmatize词文档

开立真实脚本

Lemmatize词语的文档阵列。

文档= tokenizedDocument（[“我盖房子。”“该大楼有两层。”]）;newDocuments = normalizeWords（文档，'风格'，'引理'）

newDocuments = 2×1 tokenizedDocument：6个令牌：ⅰ是建造一所房子。6个标记：构建有两个楼层。

为了提高词形还原，第一部分的语音详细信息添加到使用的文件addPartOfSpeechDetails功能。例如，如果文档包含部分的语音信息，然后normalizeWords减少的唯一动词“建筑”，而不是名词“建设”。

文档= addPartOfSpeechDetails（文件）;newDocuments = normalizeWords（文档，'风格'，'引理'）

newDocuments = 2×1 tokenizedDocument：6个令牌：ⅰ是建造一所房子。6个标记：建设有两个楼层。

Lemmatize日本文字

开立真实脚本

使用令牌化的日本文字tokenizedDocument功能。该功能可以自动检测日语文本。

海峡= [“空に星が辉き，瞬いている。”“空の星が辉きを増している。”“駅までは远くて，歩けない”。“远くの駅まで歩けない”。]。文档= tokenizedDocument（STR）;

Lemmatize使用令牌normalizeWords。

文档= normalizeWords（文档）

文档= 4X1 tokenizedDocument：10个标记：空に星が辉く，瞬くている10个标记：。空の星が辉きを増すている9个令牌：駅までは远いて，歩けるない7个令牌：远くの駅まで歩けるない。

干德文本

开立真实脚本

使用令牌化德语文本tokenizedDocument功能。该功能可以自动检测德语文本。

海峡= [“Guten摩根。魏某geht ES目录？”“HEUTE wird EIN GUTER标签。”]。文档= tokenizedDocument（STR）;

干使用令牌normalizeWords。

文档= normalizeWords（文档）

文档= 2×1 tokenizedDocument：8个令牌：肠道MORG。魏某geht ES目录 ？6个标记：heut wird EIN肠道标签。

输入参数

全部收缩

`文件`-输入文件
`tokenizedDocument`排列

输入文件，指定为tokenizedDocument阵列。

`话`-输入字
串矢量|特征向量|字符向量的单元阵列

输入字，指定为字符串向量，特征向量，或字符向量的单元阵列。如果您指定话为字符向量，则该函数将参数作为一个单词。

数据类型：串|烧焦|细胞

`风格`-规范化风格
`'干'`|`'引理'`

归一化的风格，被指定为以下之一：

'干'- 干用波特词干词。此选项支持英文和唯一的德万博1manbetx国文本。对于英语和德语文字，这个值是默认的。
'引理'- 提取每个单词的字典形式。此选项支持英语，日语，和万博1manbetx韩国唯一的文本。如果一个单词不在内部字典，则该函数输出无改变的字。对于英文文本，输出是小写。对于日本和韩国的文字，这个值是默认的。

该函数仅标准化类型令牌“信”和'其他'。有关令牌类型的更多信息，请参阅tokenDetails。

小费

对于英文文本，以提高文档的单词的词形还原，采用先加部分的语音细节addPartOfSpeechDetails功能。

`语言`-Word语言
`“恩”`|`“德”`

Word语言，指定为下列之一：

“恩”- 英语
“德”- 德国的语言

如果不指定语言，那么软件会自动检测语言。为了lemmatize日本或韩国的文字，使用tokenizedDocument输入。

数据类型：烧焦|串

输出参数

全部收缩

`updatedDocuments`- 更新文件
`tokenizedDocument`排列

更新文件，返回为tokenizedDocument阵列。

`updatedWords`- 更新的话
字符串数组|特征向量|字符向量的单元阵列

更新的话，返回作为一个字符串数组，字符向量，或字符向量的单元阵列。话和updatedWords具有相同的数据类型。

算法

全部收缩

语言详细信息

tokenizedDocument对象包含有关令牌包括语言细节的详细信息。输入文档的语言细节决定的行为normalizeWords。该tokenizedDocument功能，默认情况下，自动检测输入文字的语言。要手动指定语言的详细信息，请使用'语言'的名称 - 值对参数tokenizedDocument。要查看令牌的详细信息，请使用tokenDetails功能。

兼容性注意事项

展开全部

`normalizeWords`跳过复杂的令牌

行为R2018b改变

开始在R2018b中，tokenizedDocument输入，normalizeWords归一化同型的令牌“信”要么'其他'只要。此行为会阻止从功能复杂影响令牌如URL和电子邮件地址。

在以前的版本中，normalizeWords标准化所有令牌。要重现此问题，使用命令updatedDocuments = docfun（@（STR）normalizeWords（STR），文档）。

也可以看看

主题

介绍了在R2017b

normalizeWords

句法

描述

例子

干在文档中的词语

干在字符串数组词

Lemmatize词文档

Lemmatize日本文字

干德文本

输入参数

`文件`-输入文件
`tokenizedDocument`排列

`话`-输入字
串矢量|特征向量|字符向量的单元阵列

`风格`-规范化风格
`'干'`|`'引理'`

`语言`-Word语言
`“恩”`|`“德”`

输出参数

`updatedDocuments`- 更新文件
`tokenizedDocument`排列

`updatedWords`- 更新的话
字符串数组|特征向量|字符向量的单元阵列

算法

语言详细信息

兼容性注意事项

`normalizeWords`跳过复杂的令牌

也可以看看

主题

文本分析工具箱文档

万博1manbetx

入门在MATLAB文本分析

normalizeWords

句法

描述

例子

干在文档中的词语

干在字符串数组词

Lemmatize词文档

Lemmatize日本文字

干德文本

输入参数

文件-输入文件tokenizedDocument排列

话-输入字串矢量|特征向量|字符向量的单元阵列

风格-规范化风格'干'|'引理'

语言-Word语言“恩”|“德”

输出参数

updatedDocuments- 更新文件tokenizedDocument排列

updatedWords- 更新的话字符串数组|特征向量|字符向量的单元阵列

算法

语言详细信息

兼容性注意事项

normalizeWords跳过复杂的令牌

也可以看看

主题

文本分析工具箱文档

万博1manbetx

入门在MATLAB文本分析

`文件`-输入文件
`tokenizedDocument`排列

`话`-输入字
串矢量|特征向量|字符向量的单元阵列

`风格`-规范化风格
`'干'`|`'引理'`

`语言`-Word语言
`“恩”`|`“德”`

`updatedDocuments`- 更新文件
`tokenizedDocument`排列

`updatedWords`- 更新的话
字符串数组|特征向量|字符向量的单元阵列

`normalizeWords`跳过复杂的令牌