将单词还原到词根形式
词干是指文本规范化技术自然语言处理这就简化了单词的词根形式。词干主要是通过删除单词的词缀来完成的,这可能会导致字典中的单词无效。
词干通常用于:
- 信息检索,将词干词用作同义词以扩展搜索条件
- 工程应用以降低维数,在机器学习算法的模型中,词干导致需要跟踪和使用的单词更少
波特词干算法
波特词干算法是英语语言中最流行的词干方法之一,它基于简单的启发式规则。这种词干方法很快,但可能并不总是准确的。在随后的几年里,许多其他算法被提出,但波特的词干算法由于其速度和简单性仍然很受欢迎。
词干化和词根化
与词干相关但更复杂的方法是词元化.与词干相比,
- 词根化使用词汇和形态分析,词干化使用简单的启发式规则
- 词根化返回单词的字典形式,而词干化可能导致无效单词
词根化和词干化之间的区别如下所示。
实际的词 | 词元化 | 阻止 |
---|---|---|
要求 | 需要 | 要求 |
要求 | 需要 | 要求 |
要求 | 要求 | 要求 |
在MATLAB中,可以使用“normalizeWords”函数,默认样式选项为“stem”。有关使用文本数据词干和构建模型的详细信息,请参见文本分析工具箱.
例子和如何
软件参考
参见:自然语言处理,情绪分析,word2vec,语法,MATLAB文本挖掘,数据科学,深度学习,深度学习工具箱™,统计和机器学习工具箱™