n-gram是文本文档中n个连续项目的集合,其中可能包括单词,数字,符号和标点符号。n-gram模型在许多文本分析应用程序中都是有用的,其中单词序列是相关的,例如情感分析,文本分类和文本生成。例如,在以下句子中:
“字符串数组和词云的单词云来自词袋可以使用文本分析工具箱创建模型和LDA主题。”
“单词云”是一个2克(bigram),“来自字符串数组”是一个3克(Trigram),“使用Text Analytics Toolbox”是4克,依此类推。n-gram的大小取决于该应用程序中使用的常见短语的应用和大小。
n-gram建模是用于将文本从非结构化格式转换为结构化格式的众多技术之一。n-gram的替代方法是单词嵌入技术,例如Word2Vec。可以通过计算文档中每个唯一的n-gram出现的每个唯一n-gram的次数来创建的语言模型。这被称为n-grams模型。在上一个示例中,n = 2的n-grams模型看起来如下:
n-grams | 计数 |
单词云 | 2 |
字符串数组 | 1 |
单袋型号 | 1 |
一旦构建了语言模型,就可以将其与机器学习算法一起使用,以构建文本分析应用程序的预测模型。要了解有关N-Grams和使用文本数据构建模型的更多信息,请参见文本分析工具箱™,用于MATLAB®。