词元化

将单词简化成字典中的形式

引理化是一种文本规范化技术自然语言处理这将单词简化为它们的字典形式,即引理。例如,“building has floors”在引理化后简化为“building have floor”。

lemmisation通常用于:

  • 扩展搜索条件的信息检索
  • 文本分类、情感分析或主题建模中的降维问题

引理化是一种常见的文本预处理步骤,在使用机器学习算法建立单词模型之前进行。词元化通过词汇和形态分析去除单词的词缀。这意味着词元化通常取决于词的词性和上下文。

一种相关的引理化方法是阻止.它基于简单的启发式规则,比引理化更容易实现,速度更快。但是词干化通常会导致词根或不是实际单词的单词部分,而词源化则更准确,并返回有效的字典单词。对于需要保留单词含义的应用程序,词源化比词干化更有用。

义理化和词干化的区别如下所示。

实际的词 词元化 阻止
要求 要求 要求
应用 应用 应用

要了解更多关于使用引理化和使用MATLAB构建文本数据预测模型的知识,请参见文本分析工具箱™


例子和如何做


软件参考

参见:自然语言处理情绪分析word2vec阻止语法用MATLAB进行文本挖掘数据科学深度学习深度学习工具箱™统计和机器学习工具箱™