主要内容

删除

从文档或单词袋式模型中删除所选单词

描述

例子

新的模特= removewords(文件删除指定的单词文件。默认情况下,该函数区分大小写。

例子

新手= removewords(从单词袋模型中删除指定的单词。默认情况下,该函数区分大小写。

新的模特= removewords(___,'Ignorecase',True)使用以前的任何语法删除忽略案例的单词。

例子

新的模特= removewords(文件idx.通过指定数字或逻辑索引来删除单词idx.单词documents.vocabulary.。此语法与newdocuments = removewords(文档,文档.vocabulary(idx))

例子

新手= removewords(idx.通过指定数字或逻辑索引来删除单词idx.单词袋子。vocabulary.。此语法与newbag = removewords(袋子,bag.vocabulary(idx))

例子

全部收缩

通过输入字符串数组来删除文档数组的单词删除

创建一系列令牌文档。

文档= tokenizeddocument([“一句话的一个例子”“第二句话”]);

删除“短”和“第二”字样。

单词= [“短的”“第二”];newdocuments = removewords(文件,单词)
newdocuments = 2x1嘟嘟ddocument:5令牌:句子2令牌的示例:句子

使用文档的语言详细信息删除默认停止单词列表,使用Removestopwords.

要删除停止单词的自定义列表,请使用删除功能。您可以使用返回的停止单词列表秒表用作起点。

加载示例数据。文件sonnetspreprocessed.txt.txt.包含Precrocessed版本的莎士比亚的十四行诗。该文件每行包含一个十四行诗,单词由空格分隔。从中提取文本sonnetspreprocessed.txt.txt.,将文本拆分为换行符的文档,然后授权文档。

filename =.“sonnetspreprocessed.txt”;str = inthelfiletext(filename);textdata = split(str,newline);文档= tokenizeddocument(textdata);

查看前几个文件。

文件(1:5)
ans = 5x1 tokenizeddocument:70个令牌:最公平的生物欲望增加,Beautys Rose可能永远不会死于涟漪时间去世温柔的继承人可能会忍受你的记忆,你签约你的明亮的眼睛饲料你的灯火般的丰富谎言谎言你的自我罪魁祸首你艺术世界新鲜装饰秀丽春天你的萌芽胸部春天的伤害伤害怜悯世界其他恐惧世界坟墓坟墓:四十次冬天应该围攻你的年轻人骄傲的杂草鸟类小值得举行问你的美女谎言你的愚蠢的日子说,你的深深沉没的日子归零耻辱令人羞耻的赞美赞美赞美你的好感你你应该答复普通的孩子矿素数算起旧的借口证明美女继承你的新款制作的你的血腥感到寒冷的65令牌:看看你的玻璃告诉脸,你是脸上的另一个东西修复你更新你的令人沮丧的世界贬低母亲公平散发耕种你的畜牧坟墓自我停止后遗如量。你呼叫回来的可爱的4月份你的窗户,尽管你的金色时间皱纹你的金色时间令人难以置信Dies Thee 71令牌:未剥离的可爱,为什么Dost你在你的自我遗产遗产贝雷斯特没有什么Doth Lent Frank Leends免费美丽的黑鬼为什么Dost你滥用的浪费巨大的吉尔斯·你好,为什么Dost你是难民的孤独你是甜蜜的自我欺骗自然叫做你已经遗弃了你的未被使用的美丽玉米翠鸟的玉米羚羊的人61代币丑陋的冬天混淆sap checked frost lusty叶子相当黯淡的思想每一个夏天蒸馏留下液体囚犯墙壁玻璃美容效果美容局局局局势和不纪念花莳萝虽然冬季遇见leese显示实质仍然生活甜蜜

创建与输出开始​​的停止单词列表秒表功能。

customstopwords = [stopwords“你的”“你”“你”“dost”“doth”];

从文档中删除自定义停止单词并查看前几个文件。

文档= removewords(文档,customstopwords);文件(1:5)
ans = 5x1令叫鳕鱼:62令牌:最公平的生物欲望增加,从而美容玫瑰可能永远不会死于涟漪时间:温柔的继承人可能会熊记忆契约饲料灯火般的自我燃料制作饥饿丰富的自我的丰富般的丰富华而不实的春天自己的萌芽内容招标Churl Makst废物伤害怜悯世界别人艾滋病般的世界坟墓61令牌:四十次冬天烧伤眉头挖掘深沟美女凝视着Tatterd杂草小小的价值举行问美容谎言珍惜珍惜天说你拥有深层沉壮的眼睛归零耻辱赞美赞美美女概念答案展会儿童矿井算算算旧借口盛开美容继承_新制造艺术老血温暖气感冒52令牌:看玻璃讲述另一个脸上的脸部形成另一个新的修补Beguile世界不贬低母亲公平,其放弃子宫蔑视H.美班料喜爱墓自我停止后代艺术母亲玻璃呼叫又令人难以置信的4月份黄金时代黄金时代令人难以置信的死亡单身唱片模具52令牌:没有人的遗产遗产遗产贝斯特·弗兰斯特·贝弗斯没有免费的美丽的黑鬼为什么滥用浪费巨大的巨额赞美者为什么巨大的总和才能实现概念现场交通自单独自我甜蜜的自我欺骗自然呼叫已被接受审计概念留下未使用的美容玉米翠鸟生命Th执行官59令牌:小时温和工作框架可爱凝视每只眼睛留下休闲休闲相当于卓越的时间夏天可怕的冬季混淆凝固霜脾气暴躁叶子相当不好的父亲昏昏欲睡的每一个夏天蒸馏留下液体囚犯墙壁玻璃美容效果虽然冬季遇见莱塞秀没有留下甜美

通过输入数字索引向量删除文档中的单词删除

创建一系列令牌文档。

文档= tokenizeddocument([“我喜欢matlab”“我喜欢MathWorks”])
文档= 2x1令牌Document:3个代币:我喜欢Matlab 3令牌:我喜欢Mathworks

查看词汇文件

documents.vocabulary.
ans =.1x4字符串“我”“爱”“Matlab”“Mathworks”

通过指定数字索引从文档中删除词汇的第一个和第三单词[1 3]

idx = [1 3];newdocuments = removewords(文档,idx)
newdocuments = 2x1 tokenizeddocument:1令牌:爱2令牌:爱数学工作

或者,您可以指定逻辑索引。

idx =逻辑([1 0 1 0]);newdocuments = removewords(文档,idx)
newdocuments = 2x1 tokenizeddocument:1令牌:爱2令牌:爱数学工作

通过输入一个停止单词列表,从单词袋式模型中删除停止单词删除。停止单词是诸如“A”,“”和“IN”的单词,在分析之前通常从文本中删除。

文档= tokenizeddocument([“一句话的一个例子”“第二句话”]);bag = bagofwords(文件);newbag = removewords(袋子,停止字)
newbag = bagofwords的属性:counts:[2x4 double]词汇:[示例“”短“”句子“”第二“] numwords:4 numfocuments:2

通过输入数字索引的向量删除单词模型中的单词删除

创建一系列令牌文档。

文档= tokenizeddocument([“我喜欢matlab”“我喜欢MathWorks”]);BAG = BAGOFWORDS(文件)
BAG = BAGOFWORDS具有属性:计数:[2x4双]词汇:[“爱”“MATLAB”“MATLAB”] NUMWORDS:4 NUMFOCUMENTS:2

查看词汇

袋子。vocabulary.
ans =.1x4字符串“我”“爱”“Matlab”“Mathworks”

通过指定数字索引,从而从而从单词袋式模型中删除词汇的第一个和第三单词[1 3]

idx = [1 3];newbag = removewords(袋子,idx)
newbag = bagofwords的属性:counts:[2x2 double]词汇表:[“爱”“Mathworks”] numwords:2 numfocuments:2

或者,您可以指定逻辑索引。

idx =逻辑([1 0 1 0]);newbag = removewords(袋子,idx)
newbag = bagofwords的属性:counts:[2x2 double]词汇表:[“爱”“Mathworks”] numwords:2 numfocuments:2

输入参数

全部收缩

输入文档,指定为a令人畏缩的鳕文大批。

输入袋式模型,指定为aBagofwords.目的。

要删除的单词,指定为字符号向量,字符向量或字符向量的单元格数组。如果您指定作为字符向量,该函数将其视为单个单词。

数据类型:细绳|char|细胞

要删除的单词指标,指定为数字索引的向量或逻辑指数的向量。指数idx.对应于单词的位置词汇输入文档或单词袋式模型的属性。

例子:[1 5 10]

输出参数

全部收缩

输出文件,作为a返回令人畏缩的鳕文大批。

输出袋式模型,作为一个返回Bagofwords.目的。

在R2017B中介绍