主要内容

顶面图

最常见的n-grams

描述

例子

tbl=topkngrams(返回一个表列出了在N-r克模型中最常常见的n-gram的表格。默认情况下,该函数区分大小写。

例子

tbl=topkngrams(K.列出K.n-grams模型中最常见的n-grams。默认情况下,该函数区分大小写。

例子

tbl=topkngrams(___名称、值使用一个或多个名称值对参数指定其他选项。

例子

全部崩溃

创建一个表格,列出n-grams模型中最常见的二元图。

加载示例数据。文件十四行诗预处理.txt包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗,单词由空格分隔。从中提取文本十四行诗预处理.txt,将文本拆分为换行符的文档,然后授权文档。

filename =.“十四行诗预处理.txt”;str = inthelfiletext(filename);textdata = split(str,newline);文档= tokenizeddocument(textdata);

创建一个n克模型。

袋=袋(文件)
BAG =具有属性的BAGOFNGROM:COUNTS:[154×8799双]词汇:[1×3092字符串] ngrams:[8799×2字符串] ngramlengs:2 numngrams:8799 numfocuments:154

找到前五名的大人物。

tbl = topkngrachs(袋)
TBL =.5×3表你是我的“眼睛”你的“自我”你“拥有”我的“自己”

找出前10名的大人物。

tbl=顶置图(袋,10)
TBL =.10×3表你是我的眼睛你是我的拥有你的甜蜜你的爱你会爱你吗

加载示例数据。文件十四行诗预处理.txt包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗,单词由空格分隔。从中提取文本十四行诗预处理.txt,将文本拆分为换行符的文档,然后授权文档。

filename =.“十四行诗预处理.txt”;str = inthelfiletext(filename);textdata = split(str,newline);文档= tokenizeddocument(textdata);

创建一个包的n克模型。若要计算长度为2和3的n克数(bigram和trigram),请指定'ngramlengths'成为矢量[2 3]

袋=袋(文件、,'ngramlengths',[2 3])
BAG = BAGOFNGROMS具有属性:计数:[154×18022双]词汇:[1×3092字符串] ngrams:[18022×3字符串] ngramlengs:[2 3] numngrams:18022 Numfocuments:154

查看长度为2的10个最常见的n克(bigrams)。

Topkngrachs(包,10,'ngramlengths',2)
ans=10×3表ngram count narmlength _______________________ _____ ___________“你”“艺术”“我”“眼睛”“”你“”自我“”“”14“”“dost”“”“13 2”我“”拥有“”“13 2”你“”甜蜜“”“12”你“”爱“”“”你“”你“”你“”枯萎“”“10”爱“”“你“”9 2

查看10个最常见的N-克长3(三克)。

Topkngrachs(包,10,'ngramlengths',3)
ans=10×3表ngram数量ngramlength ____________________________________________________甜蜜“4 3”为什么“你”4 3“你”“你”3 3“你”“你”“自己”3 3“我的”眼睛“”心脏“3 3”你“”shat“”找到“3 3”公平“”真实“3”你“”艺术“”艺术“2 3”爱“”你““自我”2 3“你”“自我”“你”2 3

输入参数

全部崩溃

输入n克袋型号,指定为bagofngrams.对象

要返回的n-gram数量,指定为正整数。

例子:20.

名称-值对参数

指定可选的逗号分离对名称、值论据。名称是参数名称和价值是对应的值。名称必须出现在引号内。您可以按任意顺序指定多个名称和值对参数,如下所示:名称1,值1,…,名称,值

例子:'ngramlengths',[2 3]指定返回顶部的bigram和trigram。

n-gram长度,指定为逗号分隔对组成'ngramlengths'和一个正整数或一个正整数向量。

如果您指定narmlengs.,则该函数仅返回这些长度的n克。如果您没有指定narmlengs.,无论长度如何,该函数都返回顶部n-gram。

例子:[1 2 3]

忽略案例的选项,指定为逗号分隔的配对'Ignorecase'和以下之一:

  • 错误的- 仅按照单独的n-gram处理n-grams。

  • 真的- 仅按照相同的n-gram和合并计数处理n-grams。

强制输出的指示器返回为单元格数组,指定为逗号分隔对“强制输出”真的错误的

数据类型:逻辑

输出参数

全部崩溃

按频率顺序排序的前n克表或表的单元格数组。

该表包含以下列:

恩格拉姆 n-gram指定为串向量
数数 n-gram出现在n-grams模型中的次数。
Ngram长度 n-gram的长度。

如果是非标量数组或“强制输出”真的,然后该函数将输出返回为表的小区数组。单元格阵列中的每个元素是包含相应元素的顶部n-gram的表

在R2018A介绍