语法是一个连续的集合n项文本文档,可能包括单词,数字,符号和标点符号。语法模型是有用的在许多文本分析应用、序列相关的词汇如在情绪分析、文本分类、文本的一代。例如,在以下句子:
“云词云从字符串数组,从bag-of-words模型和LDA主题可以创建使用文本分析工具箱”。
“云”是一个2克(三元),“从字符串数组”是一个3-gram(卦)、“使用文本分析工具箱”是4克,等等。语法的大小取决于应用程序和常用短语的应用程序的大小。
n元建模是其中的一种技术用于从非结构化文本格式转换为一个结构化的格式。一个替代语法词嵌入等技术word2vec。语言模型,将字格,可以创建通过计算的次数每一个独特的语法出现在一个文档中。这被称为bag-of-n-grams模型。在上一个示例中,n = 2的bag-of-n-grams模型看起来像下面的:
字格 | 计数 |
词云 | 2 |
字符串数组 | 1 |
Bag-of-words模型 | 1 |
语言模型建立后,它可以用于机器学习算法建立预测模型用于文本分析应用程序。了解更多关于字格和与文本数据,建立模型文本分析工具箱™使用MATLAB®。