阻止

将单词还原到词根形式

词干是指文本规范化技术自然语言处理这就简化了单词的词根形式。词干主要是通过删除单词的词缀来完成的,这可能会导致字典中的单词无效。

词干通常用于:

  • 信息检索,将词干词用作同义词以扩展搜索条件
  • 工程应用以降低维数,在机器学习算法的模型中,词干导致需要跟踪和使用的单词更少

波特词干算法

波特词干算法是英语语言中最流行的词干方法之一,它基于简单的启发式规则。这种词干方法很快,但可能并不总是准确的。在随后的几年里,许多其他算法被提出,但波特的词干算法由于其速度和简单性仍然很受欢迎。

词干化和词根化

与词干相关但更复杂的方法是词元化.与词干相比,

  • 词根化使用词汇和形态分析,词干化使用简单的启发式规则
  • 词根化返回单词的字典形式,而词干化可能导致无效单词

词根化和词干化之间的区别如下所示。

实际的词 词元化 阻止
要求 需要 要求
要求 需要 要求
要求 要求 要求

在MATLAB中,可以使用“normalizeWords”函数,默认样式选项为“stem”。有关使用文本数据词干和构建模型的详细信息,请参见文本分析工具箱

参见:自然语言处理情绪分析word2vec语法MATLAB文本挖掘数据科学深度学习深度学习工具箱™统计和机器学习工具箱™