词干化或韵律化
使用正常化字
把单词简化为词根形式来lemmatize英语单词(将它们减少到他们的字典表单),设置'风格'
选项'引理'
.
支持英文、日文、德文、韩文万博1manbetx文本。
减少单词updatedDocuments
= normalizeWords (文件
)文件
到根形式。对于英语和德语文本,默认情况下,函数默默地窃听使用Porter Sewer的单词分别用于英语和德语文本。对于日语和韩文文本,默认情况下,函数默默地释放使用MECAB牌授权程序的单词。
减少字符串数组中的每个单词updatedWords
= normalizeWords (字
)字
到根形式。
减少单词并指定单词language。updatedWords
= normalizeWords (字
“语言”,语
)
addlemmadetails.
|addPartOfSpeechDetails
|bagofngrams.
|Bagofwords.
|removelongwords.
|removeShortWords
|removeStopWords
|删除
|stopWords
|令敬当
|tokenizedDocument