removeStopWords

从文档中删除停止词

折叠所有页面

语法

newDocuments = removeStopWords(文档)

newDocuments = removeStopWords(documents，'IgnoreCase'，false)

描述

像“a”、“and”、“to”和“the”(称为停止词)这样的词会给数据添加噪声。使用此函数可以在分析前删除停止词。

支持英文、日文、德文、韩文万博1manbetx。学习如何使用removeStopWords有关其他语言，请参见语言的注意事项．

例子

newDocuments= removeStopWords (文档）控件中的停止词tokenizedDocument数组文档．函数在默认情况下使用停止词列表stopWords功能根据语言细节文档并且不区分大小写。

要删除自定义单词列表，请使用removeWords函数。

newDocuments= removeStopWords (文档、“IgnoreCase”错误)类所给出的停止词列表匹配的大小写删除停止词stopWords函数。

提示

使用removeStopWords在使用normalizeWords函数作为removeStopWords使用此函数删除的信息。

例子

全部折叠

从文档中删除停止词

打开实时脚本

从文档数组中删除停止词removeStopWords．的tokenizedDocument函数检测文档是英文的，因此removeStopWords删除英语停顿词。

documents = tokenizedDocument([一个短句的例子。“第二个短句”]);newDocuments = removeStopWords(文档)

newDocuments = 2x1 tokenizedDocument: 3个标记:示例短句3个标记:第二个短句

移除日语停顿词

打开实时脚本

使用标记化日语文本tokenizedDocument．该功能自动检测日语文本。

STR = [“ここは静かなので，とても穏やかです”“企業内の顧客デ，タを利用し，今年の売り上げを調べることが出来た。”私は先生です。私は英語を教えています。”];documents = tokenizedDocument(str);

删除停止词使用removeStopWords．该函数使用from的语言细节文档确定要删除哪种语言的停止词。

documents = removeStopWords(文档)

文件= 3 x1 tokenizedDocument: 4令牌:静か,とても穏やか10令牌:企業顧客データ利用,今年売り上げ調べる出来。5个代币:先生。英語教え。

从文档中删除德语停止词

打开实时脚本

使用标记化德语文本tokenizedDocument．该功能自动检测德语文本。

STR = [“早安。是谁干的?”“Heute wird ein guter Tag。”];documents = tokenizedDocument(str)

documents = 2x1 tokenizedDocument: 8个token: Guten Morgen。是谁的?6个标记:Heute wild ein guter Tag。

删除停止词使用removeStopWords函数。该函数使用文档中的语言细节来确定要删除哪些语言停止词。

documents = removeStopWords(文档)

documents = 2x1 tokenizedDocument: 5个token: Guten Morgen。可以吗?5个代币:Heute wter guter Tag。

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文档，指定为tokenizedDocument数组中。

输出参数

全部折叠

`newDocuments`-输出文件
`tokenizedDocument`数组

输出文档，返回为tokenizedDocument数组中。

算法

全部折叠

语言细节

tokenizedDocument对象包含关于令牌的详细信息，包括语言详细信息。的行为由输入文档的语言细节决定removeStopWords．的tokenizedDocument函数，默认情况下，自动检测输入文本的语言。若要手动指定语言详细信息，请使用“语言”的名称-值对参数tokenizedDocument．要查看令牌详细信息，请使用tokenDetails函数。

版本历史

在R2018b中引入

另请参阅

removeStopWords

语法

描述

例子

从文档中删除停止词

移除日语停顿词

从文档中删除德语停止词

输入参数

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输出参数

`newDocuments`-输出文件
`tokenizedDocument`数组

更多关于

语言的注意事项

算法

语言细节

版本历史

另请参阅

主题

removeStopWords

语法

描述

例子

从文档中删除停止词

移除日语停顿词

从文档中删除德语停止词

输入参数

文档- - - - - -输入文档tokenizedDocument数组

输出参数

newDocuments-输出文件tokenizedDocument数组

更多关于

语言的注意事项

算法

语言细节

版本历史

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`newDocuments`-输出文件
`tokenizedDocument`数组