正常化字

词干化或韵律化

页面上倒塌

句法

updatedDocuments = normalizeWords(文档)

更新字= rangerizewords（单词）

UpdatedWords = NormalizeWords（单词，“语言”，语言）

___= normalizeWords (___“风格”,风格)

描述

使用正常化字把单词简化为词根形式来lemmatize英语单词（将它们减少到他们的字典表单），设置'风格'选项'引理'．

支持英文、日文、德文、韩文万博1manbetx文本。

例子

updatedDocuments= normalizeWords (文件）减少单词文件到根形式。对于英语和德语文本，默认情况下，函数默默地窃听使用Porter Sewer的单词分别用于英语和德语文本。对于日语和韩文文本，默认情况下，函数默默地释放使用MECAB牌授权程序的单词。

例子

updatedWords= normalizeWords (字）减少字符串数组中的每个单词字到根形式。

updatedWords= normalizeWords (字“语言”,语）减少单词并指定单词language。

例子

___= normalizeWords (___，'风格'，风格）还指定了规范化样式。例如,normalizeWords(文档、“风格”、“引理”)对输入文档中的单词进行词法辨析。

例子

全部折叠

文字中的文字

打开生活的脚本

使用porter stemmer栓文档阵列中的单词。

文档= tokenizeddocument（[“一个强烈措辞的单词集合”“另一个单词集合”]）;newdocuments = normalizewords（文档）

newdocuments = 2x1 tokenizeddocument：6个令牌：一个strongli字收集字4令牌：Anoth收集单词

字符串数组中的词干词

打开生活的脚本

在字符串数组中使用波特词干。字符串数组的每个元素必须是一个单词。

话说= [“一个”“强烈”“措辞”“收集”“的”“字”］;newWords = normalizeWords(字)

新字=1 x6字符串"a" "strongli" "word" "collect" "of" "word"

在文件中释放文字

打开生活的脚本

在文档阵列中释放单词。

文档= tokenizeddocument（[“我在盖房子。”“建筑有两层。”]）;newdocuments = normalizewords（文档，'风格'那'引理'）

newDocuments = 2x1 tokenizedDocument: 6代币:我将建造一个房子。6个代币:建筑有两层。

为了提高lemmatization，首先使用言语部分添加到文件中的言语细节addPartOfSpeechDetails函数。例如，如果文档包含词性细节，那么正常化字减少唯一的动词“建筑”而不是名词“建筑”。

文档= addpartofspeechdetails（文件）;newdocuments = normalizewords（文档，'风格'那'引理'）

newDocuments = 2x1 tokenizedDocument: 6代币:我将建造一个房子。6令牌：该建筑有两层楼。

lemmatize日语文本

打开生活的脚本

使用授权日本文本tokenizedDocument函数。该功能自动检测日语文本。

str = [“空に星が輝き,瞬いている。”“空の星が輝きを増している。”“駅までは遠くて,歩けない。”“遠くの駅まで歩けない。”］;文档=令授权鳕（str）;

让令牌使用正常化字．

文档= rangerizewords（文档）

文档= 4x1令牌Document：10令牌：空空星が辉く，瞬くている。10令牌：空の星が辉きをている。9令牌：駅までは远いて，歩けるない。7令牌：远く远く駅まで歩けるない。

干德文文本

打开生活的脚本

标记德语文本tokenizedDocument函数。该功能会自动检测德语文本。

str = [“早安。你是怎么当导演的?”"Heute wire in guter Tag."］;文档=令授权鳕（str）;

用以下方法阻止token正常化字．

文档= rangerizewords（文档）

文档= 2x1令牌Document：8令牌：肠摩尔。魏某geht ES目录 ？6令牌：Heut Wird Ein Gut标签。

输入参数

全部折叠

`文件`-输入文件
`tokenizedDocument`数组

输入文档，指定为atokenizedDocument大批。

`字`-输入单词
弦矢量|字符向量|字符向量的单元格阵列

输入字，指定为字符串向量、字符向量或字符向量的单元格数组。如果您指定字作为字符向量，那么该函数将参数视为单个单词。

数据类型：细绳|字符|细胞

`风格`-归一化的风格
`“干细胞”`|`'引理'`

标准化样式，指定为以下之一：

“干细胞”-用波特·斯坦默的词干。此选项仅支持英文和德文文万博1manbetx本。对于英语和德语文本，此值为默认值。
'引理'- 提取每个单词的字典形式。此选项仅支持英语，日语和万博1manbetx韩语文本。如果单词不在内部字典中，则该函数输出不变的单词。对于英文文本，输出为小写。对于日语和韩文文本，此值是默认值。

该函数仅用类型标准化令牌“信”和'其他'．有关令牌类型的更多信息，请参见令敬当．

小费

对于英语文本，为了提高文档中的单词的lemmatization，首先使用言语的部分使用addPartOfSpeechDetails函数。

`语`-单词语言
`'en'`|`'de'`

单词语言指定为以下内容之一：

'en'- 英语
'de'- 德国的语言

如果未指定语言，则软件会自动检测语言。释放日语或韩语文本，使用tokenizedDocument输入。

数据类型：字符|细绳

输出参数

全部折叠

`updatedDocuments`——更新文档
`tokenizedDocument`数组

更新的文档，返回为tokenizedDocument大批。

`updatedWords`——更新的话
字符串数组|字符向量|单元格数组字符向量

更新的单词，作为字符串数组、字符向量或字符向量的单元数组返回。字和updatedWords具有相同的数据类型。

算法

全部折叠

语言细节

tokenizedDocument对象包含关于标记(包括语言细节)的详细信息。的行为由输入文档的语言细节决定正常化字．的tokenizedDocument函数默认情况下自动检测输入文本的语言。若要手动指定语言细节，请使用'语'的名称-值对参数tokenizedDocument．要查看令牌详细信息，请使用令敬当函数。

兼容性的考虑

全部展开

`正常化字`跳过复杂的令牌

R2018B的行为更改

从R2018B开始，为tokenizedDocument输入，正常化字用类型归一成令牌“信”或'其他'只有。此行为防止该函数影响复杂的令牌，如url和电子邮件地址。

在以前的版本中,正常化字所有令牌正常化。要重现此行为，请使用该命令updateddocuments = docfun（@（str）normalizewords（str），文档）．

也可以看看

话题

在R2017B中介绍

正常化字

句法

描述

例子

文字中的文字

字符串数组中的词干词

在文件中释放文字

lemmatize日语文本

干德文文本

输入参数

`文件`-输入文件
`tokenizedDocument`数组

`字`-输入单词
弦矢量|字符向量|字符向量的单元格阵列

`风格`-归一化的风格
`“干细胞”`|`'引理'`

`语`-单词语言
`'en'`|`'de'`

输出参数

`updatedDocuments`——更新文档
`tokenizedDocument`数组

`updatedWords`——更新的话
字符串数组|字符向量|单元格数组字符向量

算法

语言细节

兼容性的考虑

`正常化字`跳过复杂的令牌

也可以看看

话题

文本分析工具箱文档

万博1manbetx

在Matlab中的文本分析入门

正常化字

句法

描述

例子

文字中的文字

字符串数组中的词干词

在文件中释放文字

lemmatize日语文本

干德文文本

输入参数

文件-输入文件tokenizedDocument数组

字-输入单词弦矢量|字符向量|字符向量的单元格阵列

风格-归一化的风格“干细胞”|'引理'

语-单词语言'en'|'de'

输出参数

updatedDocuments——更新文档tokenizedDocument数组

updatedWords——更新的话字符串数组|字符向量|单元格数组字符向量

算法

语言细节

兼容性的考虑

正常化字跳过复杂的令牌

也可以看看

话题

文本分析工具箱文档

万博1manbetx

在Matlab中的文本分析入门

`文件`-输入文件
`tokenizedDocument`数组

`字`-输入单词
弦矢量|字符向量|字符向量的单元格阵列

`风格`-归一化的风格
`“干细胞”`|`'引理'`

`语`-单词语言
`'en'`|`'de'`

`updatedDocuments`——更新文档
`tokenizedDocument`数组

`updatedWords`——更新的话
字符串数组|字符向量|单元格数组字符向量

`正常化字`跳过复杂的令牌