茎或lemmatize词
用normalizeWords
以减少字到根形式。至lemmatize英语单词(他们减少他们的字典形式),设置'风格'
选项'引理'
。
该功能支持英语,日语,德语万博1manbetx,韩语文字。
降低的话updatedDocuments
= normalizeWords(文件
)文件
到根形式。对于英语和德语文字,功能,默认情况下,茎用波特词干的英语和德语文字分别的话。对于日本和韩国的文字,功能,默认情况下,lemmatizes使用仲裁处标记者的话。
减少了串阵列中的每个字updatedWords
= normalizeWords(话
)话
到根形式。
降低的话,也规定了字语。updatedWords
= normalizeWords(话
,'语言',语言
)
addLemmaDetails
|addPartOfSpeechDetails
|bagOfNgrams
|bagOfWords
|removeLongWords
|removeShortWords
|removeStopWords
|removeWords
|停用词
|tokenDetails
|tokenizedDocument