阻止

把单词简化到词根

词干提取是一种文本规范化技术自然语言处理它将单词还原为词根。词干提取主要是通过删除单词的词缀,这可能导致一个无效的字典单词。例如,在词干分析时,单词“requires”、“required”和“requirement”会减少为“require”。

词干通常用于:

  • 信息检索,其中词根词作为同义词,以扩大搜索条件
  • 用于降低维数的工程应用程序,其中词干提取导致更少的词被跟踪,并在机器学习算法的模型中使用

波特stemmer算法是英语语言中最流行的词干提取方法之一,它基于简单的启发式规则。这种堵漏方法速度快,但并不总是准确的。在随后的几年里,人们又提出了许多其他算法,但波特的词干提取算法因其速度快、简单而仍然很受欢迎。

词干化的一个相关但更复杂的方法是词干化。而相比,

  • 分词法使用词汇和形态分析,词干法使用简单的启发式规则
  • 词干化返回单词的字典形式,而词干化可能导致无效单词

义理化和词干化的区别如下所示。

实际的词 词元化 阻止
要求 需要 要求
要求 需要 要求
要求 要求 要求

要了解更多关于词干提取和使用文本数据构建模型的信息,请参见文本分析工具箱™

参见:自然语言处理情绪分析word2vec语法用MATLAB进行文本挖掘数据科学深度学习深度学习工具箱™统计和机器学习工具箱™