什么是n元?——MATLAB - 万博1manbetx,s manbetx 845,万博尤文图斯

建立多词语言模型，并使用机器学习进行分析

n-gram是文本文档中n个连续项的集合，这些项可能包括单词、数字、符号和标点符号。N-gram模型在许多文本分析应用程序中都很有用，在这些应用程序中，单词序列是相关的，比如情感分析、文本分类和文本生成。例如，在下面的句子中:

“可以使用Text Analytics Toolbox创建字符串数组中的单词云、单词袋模型中的单词云和LDA主题。”

“Word clouds”是2克(bigram)，“from string arrays”是3克(trigram)，“using Text Analytics Toolbox”是4克，等等。n-gram的大小取决于应用程序和该应用程序中使用的常用短语的大小。

N-gram建模是用于将文本从非结构化格式转换为结构化格式的众多技术之一。n-gram的另一种替代方法是词嵌入技术，如word2vec．通过计算每个唯一的n-gram在文档中出现的次数，可以创建包含n-gram的语言模型。这被称为n-g袋模型。在前面的例子中，n=2的bag-of- grams模型如下:

字格	计数
词云	2
字符串数组	1
Bag-of-words模型	1

一旦语言模型建立起来，它就可以与机器学习算法一起为文本分析应用程序建立预测模型。要了解更多关于n-gram和使用文本数据构建模型的信息，请参见文本分析工具箱™，用于MATLAB^®．

例子和如何做

软件参考

bagOfNgrams: Bag-of-n-grams模型——函数
topkngrams:最常见的n-grams——函数
removeNgrams-从n-g袋模型中删除n-g -函数
replaceNgrams—替换文档中的n-gram—函数
context:在文档中搜索上下文中出现的单词或n-gram——函数
join:组合多个bag-of-words或bag-of-n-grams模型——函数
encode:将文档编码为word或n-gram计数的矩阵——函数
context:在文档中搜索上下文中出现的单词或n-gram——函数
join:组合多个bag-of-words或bag-of-n-grams模型——函数

参见:自然语言处理，情绪分析，word2vec，MATLAB文本挖掘，数据科学，深度学习，深度学习工具箱™，预见性维护工具箱™

什么是文本分析工具箱?

开始在MATLAB中的文本分析

下载白皮书

语法

建立多词语言模型，并使用机器学习进行分析

例子和如何做

软件参考