主要内容

编码

将文档编码为单词或n元计数矩阵

描述

采用编码根据单词包或n-gram包模型,将标记化文档数组编码为单词或n-gram计数矩阵。要将文档编码为向量或字索引,请使用wordEncoding目的。

例子

计数=编码(文档返回频率计数的矩阵文档基于单词袋或n-gram袋模型

例子

计数=编码(单词返回单词列表的频率计数矩阵。

例子

计数=编码(___名称,值使用一个或多个名称-值对参数指定其他选项。

例子

全部折叠

将文档数组编码为单词计数矩阵。

文件= tokenizedDocument ([“一句话的一个例子”第二个短句]);袋= bagOfWords(文档)
bag = bagOfWords with properties: Counts: [2x7 double] Vocabulary: [1x7 string] NumWords: 7 NumDocuments: 2
文件= tokenizedDocument ([“一个新的句子”“第二个新句子”])
documents = 2x1 tokenizedDocument: 3 tokens:一个新句子4 tokens:第二个新句子

查看作为单词计数矩阵编码的文档。"新"这个词没有出现,所以不算在内。

counts =编码(包,文件);满(计数)
ans =2×70 0 0 1 0 1 0 0 0 0 1 0 1 1

这些列对应于词汇袋模型的词汇表。

袋里。词汇表
ans =1 x7字符串"a" "a" "短" "句" "第二"的"例子"

将数组单词数组作为单词计数的向量。

文件= tokenizedDocument ([“一句话的一个例子”第二个短句]);袋= bagOfWords(文档)
bag = bagOfWords with properties: Counts: [2x7 double] Vocabulary: [1x7 string] NumWords: 7 NumDocuments: 2
单词= [“其他”“例子”“的”“一种”“短的”“例子”“句子”];counts =编码(袋子,单词)
计数=(1,2)2(1,3)1(1,4)1(1,5)1(1,6)1

将文件阵列数组作为单词计数与列中的文档矩阵。

文件= tokenizedDocument ([“一句话的一个例子”第二个短句]);袋= bagOfWords(文档)
bag = bagOfWords with properties: Counts: [2x7 double] Vocabulary: [1x7 string] NumWords: 7 NumDocuments: 2
文件= tokenizedDocument ([“一个新的句子”“第二个新句子”])
documents = 2x1 tokenizedDocument: 3 tokens:一个新句子4 tokens:第二个新句子

查看文档编码为单词计数矩阵的文档。"新"这个词没有出现,所以不算在内。

counts =编码(袋子,文件,“DocumentsIn”“列”);满(计数)
ans =7×20 0 0 0 0 0 0 1 1 0 0 1 1 0 1

输入参数

全部折叠

输入bag-of-words或bag-of-n-grams模型,指定为bagOfWords对象或A.bagOfNgrams目的。

输入文档,指定为令人畏缩的鳕文数组,字符串数组,或字符向量的单元格数组。如果文档是字符向量的字符串数组或单元格数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。

提示

为了确保文档被正确编码,您必须使用与创建输入模型所用的文档相同的步骤对输入文档进行预处理。有关如何创建用于预处理文本数据的函数的示例,请参见准备文本数据进行分析

输入字,指定为字符串向量、字符向量或字符向量的单元格数组。如果您指定单词作为字符向量,函数将参数视为单个单词。

数据类型:字符串|char|细胞

名称-值对的观点

指定可选的逗号分隔的对名称,值论点。的名字参数名和价值是相应的价值。的名字必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:“DocumentsIn”、“行”指定输出文档的方向为行。

输出文档在频率计数矩阵中的方向,指定为逗号分隔对,由“DocumentsIn”以及以下其中之一:

  • “行”-返回一个频率计数矩阵,其中包含文档对应的行。

  • “列”-返回一个转置的频率计数矩阵,其列对应于文档。

数据类型:char

强制将输出作为单元格数组返回的指示符,指定为由逗号分隔的对组成'forcecelloutpul'真的要么

数据类型:逻辑

输出参数

全部折叠

单词或n元计数,作为非负整数的稀疏矩阵或稀疏矩阵的单元数组返回。

如果是非标量数组还是'forcecelloutpul'真的,然后该函数将输出作为稀疏矩阵的单元格数组返回。单元格数组中的每个元素都是对应的元素的单词或n元计数矩阵

介绍了R2017b