语法

建立多词语言模型,并使用机器学习进行分析

n-gram是文本文档中n个连续项的集合,这些项可能包括单词、数字、符号和标点符号。N-gram模型在许多文本分析应用程序中都很有用,在这些应用程序中,单词序列是相关的,比如情感分析、文本分类和文本生成。例如,在下面的句子中:

“可以使用Text Analytics Toolbox创建字符串数组中的单词云、单词袋模型中的单词云和LDA主题。”

“Word clouds”是2克(bigram),“from string arrays”是3克(trigram),“using Text Analytics Toolbox”是4克,等等。n-gram的大小取决于应用程序和该应用程序中使用的常用短语的大小。

N-gram建模是用于将文本从非结构化格式转换为结构化格式的众多技术之一。n-gram的另一种替代方法是词嵌入技术,如word2vec.通过计算每个唯一的n-gram在文档中出现的次数,可以创建包含n-gram的语言模型。这被称为n-g袋模型。在前面的例子中,n=2的bag-of- grams模型如下:

字格 计数
词云 2
字符串数组 1
Bag-of-words模型 1

一旦语言模型建立起来,它就可以与机器学习算法一起为文本分析应用程序建立预测模型。要了解更多关于n-gram和使用文本数据构建模型的信息,请参见文本分析工具箱™,用于MATLAB®

参见:自然语言处理情绪分析word2vecMATLAB文本挖掘数据科学深度学习深度学习工具箱™预见性维护工具箱™