n-gram是文本文档中的n连续项目的集合,其可以包括单词,数字,符号和标点符号。n-gram模型在许多文本分析应用中有用,其中单词序列是相关的,例如情绪分析,文本分类和文本生成。例如,在以下句子中:
“可以使用文本分析工具箱创建来自字符串阵列和来自单词模型和LDA主题的字云的单词云。”
“Word云”是一个2克(Bigram),“来自String阵列”是一个3克(Trigram),“使用文本分析工具箱”是4克,等等。n-gram的大小取决于该应用程序中使用的常用短语的应用程序和大小。
n-gram建模是用于将文本从非结构化格式转换为结构化格式的许多技术之一。n-gram的替代方案是单词嵌入技术,如Word2vec.。可以通过计数每个唯一n-gram中出现在文档中的次数来创建语言模型。这被称为N-r克模型。在前面的示例中,n = 2的n-grams模型将如下所示:
n-grams. | 算 |
词云 | 2 |
字符串阵列 | 1 |
袋式模型 | 1 |
建立语言模型后,它可以与机器学习算法一起使用,以构建文本分析应用程序的预测模型。要了解有关N-GRAM和构建模型的更多信息,请参阅Text Analytics Toolbox™,与matlab一起使用®。