文档帮助中心文档
将文档编码为单词或n元计数矩阵
counts =编码(袋子,文件)
counts =编码(袋子,单词)
counts =编码(___,名称,价值)
采用编码根据单词包或n-gram包模型,将标记化文档数组编码为单词或n-gram计数矩阵。要将文档编码为向量或字索引,请使用wordEncoding目的。
编码
wordEncoding
例子
计数=编码(袋,文档)返回频率计数的矩阵文档基于单词袋或n-gram袋模型袋.
计数=编码(袋,文档)
计数
袋
文档
计数=编码(袋,单词)返回单词列表的频率计数矩阵。
计数=编码(袋,单词)
单词
计数=编码(___,名称,值)使用一个或多个名称-值对参数指定其他选项。
计数=编码(___,名称,值)
名称,值
全部折叠
将文档数组编码为单词计数矩阵。
文件= tokenizedDocument ([“一句话的一个例子”第二个短句]);袋= bagOfWords(文档)
bag = bagOfWords with properties: Counts: [2x7 double] Vocabulary: [1x7 string] NumWords: 7 NumDocuments: 2
文件= tokenizedDocument ([“一个新的句子”“第二个新句子”])
documents = 2x1 tokenizedDocument: 3 tokens:一个新句子4 tokens:第二个新句子
查看作为单词计数矩阵编码的文档。"新"这个词没有出现袋,所以不算在内。
counts =编码(包,文件);满(计数)
ans =2×70 0 0 1 0 1 0 0 0 0 1 0 1 1
这些列对应于词汇袋模型的词汇表。
袋里。词汇表
ans =1 x7字符串"a" "a" "短" "句" "第二"的"例子"
将数组单词数组作为单词计数的向量。
单词= [“其他”“例子”“的”“一种”“短的”“例子”“句子”];counts =编码(袋子,单词)
计数=(1,2)2(1,3)1(1,4)1(1,5)1(1,6)1
将文件阵列数组作为单词计数与列中的文档矩阵。
查看文档编码为单词计数矩阵的文档。"新"这个词没有出现袋,所以不算在内。
counts =编码(袋子,文件,“DocumentsIn”,“列”);满(计数)
ans =7×20 0 0 0 0 0 0 1 1 0 0 1 1 0 1
bagOfWords
bagOfNgrams
输入bag-of-words或bag-of-n-grams模型,指定为bagOfWords对象或A.bagOfNgrams目的。
令人畏缩的鳕文
输入文档,指定为令人畏缩的鳕文数组,字符串数组,或字符向量的单元格数组。如果文档是字符向量的字符串数组或单元格数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。
提示
为了确保文档被正确编码,您必须使用与创建输入模型所用的文档相同的步骤对输入文档进行预处理。有关如何创建用于预处理文本数据的函数的示例,请参见准备文本数据进行分析.
输入字,指定为字符串向量、字符向量或字符向量的单元格数组。如果您指定单词作为字符向量,函数将参数视为单个单词。
数据类型:字符串|char|细胞
字符串
char
细胞
指定可选的逗号分隔的对名称,值论点。的名字参数名和价值是相应的价值。的名字必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen.
的名字
价值
name1,value1,...,namen,valuen
“DocumentsIn”、“行”
“DocumentsIn”
“行”
“列”
输出文档在频率计数矩阵中的方向,指定为逗号分隔对,由“DocumentsIn”以及以下其中之一:
“行”-返回一个频率计数矩阵,其中包含文档对应的行。
“列”-返回一个转置的频率计数矩阵,其列对应于文档。
数据类型:char
'forcecelloutpul'
假
真的
强制将输出作为单元格数组返回的指示符,指定为由逗号分隔的对组成'forcecelloutpul'和真的要么假.
数据类型:逻辑
逻辑
单词或n元计数,作为非负整数的稀疏矩阵或稀疏矩阵的单元数组返回。
如果袋是非标量数组还是'forcecelloutpul'是真的,然后该函数将输出作为稀疏矩阵的单元格数组返回。单元格数组中的每个元素都是对应的元素的单词或n元计数矩阵袋.
bagOfNgrams|bagOfWords|tfidf|令人畏缩的鳕文
tfidf
您有这个示例的修改版本。您想打开这个示例与您的编辑吗?
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
选择一个网站,在那里获得翻译的内容,并看到当地的活动和优惠。根据您的位置,我们建议您选择:.
您还可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。
与当地办事处联系