主要内容

巴戈夫克

n克袋模型

描述

n-grams包模型记录每个n-gram在集合的每个文档中出现的次数。n-gram是N连续的单词。

巴戈夫克不将文本拆分为单词。要创建标记化文档的数组,请参见tokenizedDocument.

创造

描述

纸袋= bagOfNgrams创建一个空的n-grams包模型。

例子

纸袋= bagOfNgrams (文件)创建一个bag-of-n-grams模型,并计算其中的双格拉姆(单词对)文件.

例子

纸袋= bagOfNgrams (___,'ngramlength',长度)使用前面的任何语法计数指定长度的n-g。

例子

纸袋= bagOfNgrams (uniqueNgrams,计数)使用中的n-grams创建n-grams包模型uniqueNgrams相应的频率计入计数. 如果uniqueNgrams包含< >失踪值,然后在计数都被忽略了。

输入参数

全部展开

输入文档,指定为tokenizedDocument数组、字的字符串数组或字符向量的单元格数组。如果文件不是一个tokenizedDocument数组,则它必须是表示单个文档的行向量,其中每个元素都是一个单词。要指定多个文档,请使用tokenizedDocument数组。

唯一n-gram列表,指定为NumNgrams——- - - - - -maxN字符串数组或字符向量的单元格数组,其中NumNgramsn-g的个数是唯一的吗maxN是最大n克的长度。

价值uniqueNgrams (i, j)J第四个字第n克。如果在第n个gram小于maxN,然后是th排uniqueNgrams这些都是空的。

如果uniqueNgrams包含< >失踪,则函数将忽略中的相应值计数.

每个n-gram必须至少有一个单词。

例子:[" " "”;“一个”“例子”;“例子”“”)

数据类型:一串|细胞

的行对应的n-gram的频率计数uniqueNgrams,指定为非负整数矩阵。的值计数(i, j)对应于n-gram的次数单图(j,:)出现在文档。

计数必须有尽可能多的列uniqueNgrams有行。

n-g的长度,指定为正整数或正整数向量。

性质

全部展开

每个文档的N-gram计数,指定为一个稀疏矩阵。

模型中唯一的n-gram,指定为字符串数组。Ngrams(i,j)J第四个字第n克。如果Ngrams大于n-gram中的字数,则剩余条目为空。

n-g的长度,指定为正整数或正整数向量。

模型中唯一的单词,指定为字符串向量。

数据类型:一串

看到的n克数,指定为非负整数。

看到的文档数,指定为非负整数。

目标函数

编码 将文档编码为单词或n克计数矩阵
词频-逆向文件频率 术语频率–逆文档频率(tf idf)矩阵
topkngrams 最频繁n-gram
addDocument 将文档添加到文字袋或n字袋模型中
removeDocument 从文字袋或n字袋模型中删除文档
删除空文档 从标记化的文档数组、单词包模型或n-gram包模型中删除空文档
removeNgrams 从包-n-grams模型中删除n-g
removeInfrequentNgrams 从bag-of-n-grams模型中删除不常见的n-grams
加入 组合多袋文字或多袋n-grams模型
wordcloud 从文本、单词袋模型、n字袋模型或LDA模型创建单词云图

例子

全部折叠

加载示例数据。档案sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”; str=提取文件文本(文件名);textData=split(str,换行符);文档=标记化文档(textData);文件(1:10)
ans=10x1标记文档:70标记:最美丽的生物欲望增加美丽的玫瑰可能永远不会凋谢成熟的时间逝去温柔的继承人可能会留下记忆你收缩了自己明亮的眼睛喂养了你的光明燃烧了自己丰富的燃料制造饥荒你自己你的敌人你甜蜜的自我残忍你是世界新的装饰先驱花哨的春天,你自己的花蕾,你的知足,你的娇嫩的娇嫩,使荒芜,吝啬,怜悯,世界,其他贪食者,吃掉,世界,使你坟墓,象征:四十个冬天将围困你的额头,挖深沟,你的美丽,田野,你的青年,骄傲的制服,凝视着破烂的野草,价值不高,问你美丽的谎言,珍惜你的美好时光,说你自己的深陷眼睛露出羞耻的神情节俭的赞美赞美配得上你的美丽你能回答我的美丽的孩子我会算数做旧借口证明美丽继承你的新借口你变老了你的血液温暖你感到寒冷65个记号:看你的镜子告诉你的脸你看时间的脸你重新修复了另一个你欺骗世界的脸不屈不挠的美丽母亲,她未出生的子宫不屑耕种你的耕作喜爱的坟墓自爱阻止后代你是你的母亲玻璃你唤回可爱的四月盛年你的窗口你的年龄尽管有皱纹你的黄金时代你还活着记得死了单身你的形象死了你71个象征:不屈不挠的可爱你为什么要在你自己身上花钱美丽的遗产自然的遗产什么都不给弗兰克放贷自由美丽的吝啬鬼你为什么滥用慷慨的施舍你给无利可图的高利贷者你为什么大笔的钱却不能独自生活你的自我你的自我你的甜蜜的自我欺骗自然呼唤你离去审计你能把你未用的美丽留在床上吗活的执行者61个标记:小时温柔的工作框架可爱的凝视每一只眼睛都居住扮演暴君同样不公平公平的公平永远不优秀时间过夏天可怕的冬天混乱的树液结霜的光泽的叶子完全消失的美过去的赤裸每一个夏天蒸馏留下的液体囚徒被压抑的墙壁玻璃美的效果美失去,也不记得,花在冬天蒸馏,在冬天相遇,在里兹展示,物质仍然存在,甜蜜的68种象征:让冬天粗糙的手在蒸馏之前玷污你的夏天,让你做甜瓶珍宝,你放置美丽的珍宝,在自杀倾向之前,禁止高利贷,快乐支付自愿贷款,那是你的自我繁殖,另一个你快乐十倍,十倍十倍于你的幸福十倍于你的十倍于你的死亡你应该离开留下你活着的后代任性的你是公平的死亡征服让虫子成为你的继承人64个标记:看东方慈祥的光抬起燃烧的头眼睛向新出现的景象致敬服务的样子神圣的威严攀登陡峭的天山坚强的青春中年但凡人的外表崇拜的美丽仍在参加金色朝圣最高的音高疲惫的汽车般虚弱的岁月摇曳着白昼的眼睛尽职尽责的转换着低腰看另一个方向你自己离开你的中午未预定的死亡除非你得到儿子70个代币:音乐听到为什么听到你的音乐悲伤甜蜜战争喜悦喜悦喜悦为什么爱你,你欣然接受别人,你欣然接受快乐,你烦恼,真正和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐,和谐你的单身将证明一切70个象征:害怕湿漉漉的寡妇的眼睛你消耗了你自己的单身生活啊,你将要死去世界为你哭泣,像没有挣钱的妻子世界你的寡妇仍在哭泣你留下了每一个私家寡妇很好地保持孩子的眼睛丈夫的体形思想看不见尘世在静谧的世界享受美丽的荒芜世界末日未被使用的使用者破坏对他人的爱坐在阴暗的羞耻犯下69个标记:羞耻否认你爱你的自我是没有证据的承认你会被许多你不爱的人所占有明显的你是拥有者杀戮的仇恨对你的自我你坚持共谋寻找美丽的屋顶毁坏修复你的主要愿望是改变你的思想,改变你的思想,憎恨更美丽的住所,温柔的爱你的存在,优雅的善良,你自己最不善良的证明,让你成为另一个自爱的美人,依然活在你身边

创建一个包-n-grams模型。

袋= bagOfNgrams(文档)
bag=BagofGrams,属性:计数:[154x8799 double]词汇:[1x3092字符串]Ngrams:[8799x2字符串]ngram长度:2个numgrams:8799个NumDocuments:154

使用单词云可视化模型。

图wordcloud(袋);

图中包含wordcloud类型的对象。

加载示例数据。档案sonnetsPreprocessed.txt包含莎士比亚十四行诗的预处理版本。该文件每行包含一首十四行诗,单词之间用空格分隔。从中提取文本sonnetsPreprocessed.txt,以换行符将文本拆分为文档,然后标记文档。

文件名=“sonnetsPreprocessed.txt”; str=提取文件文本(文件名);textData=split(str,换行符);文档=标记化文档(textData);

创建一个包-n-grams模型。要计数长度为2和3的n-g(双格和三元组),请指定“Ngram长度”作为向量3 [2].

袋= bagOfNgrams(文档,“Ngram长度”,[2 3])
bag=bagofgrams带有属性:计数[154×18022 double]词汇[1×3092字符串]Ngrams[18022×3字符串]ngramlength[23]数值:18022数字文档:154

查看长度为2的10个最常见的n-g(双格)。

topkngrams(包10“Ngram长度”, 2)
ans =10×3表你是我的眼睛,你的自我,你是我的,你的,你的,你的,你的,你的,你的,你的,你的,你的爱,你的,你的,你的,你的

查看长度为3的10个最常见的n-g(三元组)。

topkngrams(包10“Ngram长度”3)
ans =10×3表你的“甜蜜的”自我为什么“你的”自我“你的”自我“你的”自我“我的”眼睛“你的”心灵“你”会找到“善良的”自我“你的”真爱“你的”自我“你的”自我“你的”自我“你的”自我“我的”眼睛“你的”心灵“你的”心灵“你”会找到“你的”善良“你的”自我“你的”真实“你的”自我“你的”自我“你的”自我“你的”2“你的”自我“你的”自我“你的”自我“你的”2“你的”自我“你的”自我“你的”

使用唯一n-gram的字符串数组和计数矩阵创建一个n-grams包模型。

从中加载示例n克和计数sonnetsBigramCounts.mat. 此文件包含一个字符串数组uniqueNgrams,其中包含唯一的n-g和矩阵计数,其中包含n-gram频率计数。

负载sonnetsBigramCounts.mat

查看中的前几个n-guniqueNgrams.

单幅图(1:10,:)
ans =10 x2字符串"最美丽的生物" "渴望" "欲望" "增加" "因此" "因此" "美丽的" "美丽的" "玫瑰" "玫瑰" "可能" "可能" "永远" "永远" "死" "成熟"

创建包-n-grams模型。

bag=BagOfGrams(单克,计数)
bag=BagofGrams,属性:计数:[154x8799 double]词汇:[1x3092字符串]Ngrams:[8799x2字符串]ngram长度:2个numgrams:8799个NumDocuments:154
R2018a中引入