主要内容

removeStopWords

从文档中删除停止词

描述

像“a”、“and”、“to”和“the”这样的词(被称为停止词)会给数据增加噪音。使用此函数在分析前删除停止词。

支持英文、日文、德文、韩文万博1manbetx文本。学习如何使用removeStopWords对于其他语言,请参阅语言的注意事项

例子

newDocuments= removeStopWords (文档将停止词从tokenizedDocument数组文档.函数在默认情况下使用stopWords功能根据语言的细节文档并且不区分大小写。

若要删除自定义单词列表,请使用removeWords函数。

newDocuments= removeStopWords (文档、“IgnoreCase”错误)删除大小写匹配的停止词列表stopWords函数。

提示

使用removeStopWords在使用之前normalizeWords函数作为removeStopWords使用该函数删除的信息。

例子

全部折叠

从文档数组中删除停止字removeStopWords.的tokenizedDocument函数检测文档是英文的,所以removeStopWords删除英语停止词。

文件= tokenizedDocument (["一个短句的例子"“第二短句”]);newDocuments = removeStopWords(文档)
newDocuments = 2x1 tokenizedDocument: 3个令牌:示例短句3个令牌:第二个短句

使用日文标记tokenizedDocument.该功能自动检测日语文本。

str = [“ここは静かなので,とても穏やかです”“企業内の顧客データを利用し,今年の売り上げを調べることが出来た。”“私は先生です。私は英語を教えています。”];文件= tokenizedDocument (str);

删除停止词使用removeStopWords.的语言细节文档确定要删除的语言停止词。

文件= removeStopWords(文档)
文件= 3 x1 tokenizedDocument: 4令牌:静か,とても穏やか10令牌:企業顧客データ利用,今年売り上げ調べる出来。5令牌:先生。英語教え。

将德语文本标记为使用tokenizedDocument.该功能自动检测德语文本。

str = [“早安。你是怎么当导演的?”"Heute wire in guter Tag."];文件= tokenizedDocument (str)
documents = 2x1 tokenizedDocument: 8 token: Guten Morgen。你是怎么做到的?6令牌:Heute wire ein guter Tag。

删除使用removeStopWords函数。该函数使用文档中的语言细节来确定要删除的语言停止词。

文件= removeStopWords(文档)
documents = 2x1 tokenizedDocument: 5 token: Guten Morgen。可以吗?5令牌:Heute wird guter Tag。

输入参数

全部折叠

输入文档,指定为tokenizedDocument数组中。

输出参数

全部折叠

输出文档,作为tokenizedDocument数组中。

更多关于

全部折叠

语言的注意事项

stopWordsremoveStopWords功能支持英语,日语,万博1manbetx德语,和韩语停止词仅。

从其他语言中删除停止词,使用removeWords并指定要删除的停止词。

算法

全部折叠

语言细节

tokenizedDocument对象包含关于标记(包括语言细节)的详细信息。的行为由输入文档的语言细节决定removeStopWords.的tokenizedDocument函数默认情况下自动检测输入文本的语言。若要手动指定语言细节,请使用“语言”的名称-值对参数tokenizedDocument.要查看令牌详细信息,请使用tokenDetails函数。

介绍了R2018b