用语

正确的拼写单词

所有的页面崩溃

语法

updatedDocuments =用语(文档)

用语updatedWords =(单词)

用语updatedWords =(话说,“语言”,语言)

(___用语,unknownWords] = (___)

___=用语(___、名称、值)

描述

使用用语正确的拼写单词字符串数组或文档。

函数支持英语,德语,和韩国万博1manbetx的文本。

例子

updatedDocuments=用语(文档)纠正单词的拼写tokenizedDocument数组文档。

例子

updatedWords=用语(单词)纠正单词的拼写字符串向量单词。

updatedWords=用语(单词“语言”,语言)还指定了语言的单词字符串向量单词。

(___,unknownWords用语]= (___)还返回一个向量的单词输入,没有发现在字典里,没有发现的建议。

例子

___=用语(___,名称,值)使用一个或多个指定附加选项名称-值对参数。

例子

全部折叠

正确的拼写单词在文档中

打开生活的脚本

创建一个标记化的文档数组。

str = [“一个包含一些拼写错误worrds documnent。””另一个documnent cntaining拼写错误。”];文件= tokenizedDocument (str);

正确的拼写单词使用的文档用语函数。

updatedDocuments =用语(文档)

updatedDocuments = 2 x1 tokenizedDocument: 7标记:一个文档,其中包含一些拼错的单词。5令牌:另一个文档,其中包含拼写错误。

正确的拼写单词字符串数组

打开生活的脚本

创建一个字符串数组。

话说= [“一个”“strng”“数组”“包含”“拼写错误”“worrds”“。”];

正确的拼写单词使用的字符串数组用语函数。

用语updatedWords =(单词)

updatedWords =1 x7字符串列1到6“A”“字符串”“数组”“包含”“拼写错误”“单词”专栏7“。”

指定已知的单词

打开生活的脚本

创建一个标记化的文档数组。

str = [“使用MATLAB分析文本数据。””另一个documnent cntaining拼写错误。”];文件= tokenizedDocument (str);

正确的拼写单词使用的文档用语函数。

updatedDocuments =用语(文档)

updatedDocuments = 2 x1 tokenizedDocument: 7令牌:分析文本数据使用垫实验室。5令牌:另一个文档,其中包含拼写错误。

注意这个词“MATLAB”被分成两个字“垫”和“实验室”。

文件和指定的正确拼写“MATLAB”作为已知词汇使用“KnownWords”选择。

updatedDocuments =用语(文档,“KnownWords”,“MATLAB”)

updatedDocuments = 2 x1 tokenizedDocument: 6令牌:使用MATLAB分析文本数据。5令牌:另一个文档,其中包含拼写错误。

输入参数

全部折叠

`文档`- - - - - -输入文档
`tokenizedDocument`数组

输入文件,指定为一个tokenizedDocument数组中。

`单词`- - - - - -输入单词
字符串向量|特征向量|单元阵列的特征向量

输入文字,指定为字符串向量,特征向量,或单元阵列特征向量。如果您指定单词作为一个特征向量,那么函数将参数作为一个单独的词。

数据类型:字符串|字符|细胞

`语言`- - - - - -词的语言
`“en”`|`“德”`|`“柯”`

文字语言,指定为以下之一:

“en”- - - - - -英语
“德”——德国语言
“柯”——韩国语言

如果你不指定语言,软件自动检测语言。

数据类型:字符|字符串

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:用语(文档、“KnownWords”(“MathWorks”“MATLAB”))纠正单词的拼写文档和治疗“MathWorks”和“MATLAB”拼写正确的单词。

`KnownWords`- - - - - -单词被视为正确的
`[]`(默认)|字符串数组|单元阵列的特征向量

单词被视为正确的,指定为逗号分隔组成的“KnownWords”和一个字符串数组或单元阵列的特征向量。

如果你指定一个已知的单词列表,那么这些词功能纠正拼写时保持不变。软件也可以替代拼写错误的单词与单词从列表中已知的单词。

例子:[" MathWorks”“MATLAB”)

数据类型:字符|字符串|细胞

`ExtensionDictionary`- - - - - -Hunspell扩展字典文件
`”`(默认)|文件路径

Hunspell扩展字典文件(也称为个人字典文件),指定为逗号分隔组成的“ExtensionDictionary”和一个Hunspell扩展字典文件的文件路径。

Hunspell扩展字典文件是一个.dic文件包含的单词在字典的词汇列表如下格式:

/ affixWord1 word1 word2 / affixWord2……wordN / affixWordN * forbiddenWord1 * forbiddenWord2……* forbiddenWordM

地点:

word1,word2、…wordN是一个扩展Hunspell字典单词列表。
affixWord1,affixWord2、…affixWordN(可选)显示单词Hunspell分享词缀的字典。表示词缀通过连接到相应的词用斜杠(/)。例如,条目exxxtreme /极端表明适用于这个词的词缀“极端”也适用于自定义词“exxxtreme”。
forbiddenWord1,forbiddenWord2、…forbiddenWordN是禁止词汇列表用于拼写校正。表示禁止词汇使用星号(*)。

的条目Hunspell扩展字典文件可以在任何顺序出现。指定词Hunspell字典文件时,您必须指定词的基本形式。例如,以确保用语不将字符串函数“可行性”来“法规”使用一个扩展字典,指定基数词“法令”作为一个禁忌词。

例如,要创建一个Hunspell扩展字典文件指定:

这句话“MathWorks”,“MATLAB”,“exxxtreme”。
适用于这个词的词缀“极端”也适用于这个词“exxxtreme”。
这个词“南”是一个禁忌词。

使用:

MathWorks MATLAB exxxtreme /极端*南

为一个例子,演示如何创建Hunspell扩展字典文件,看看创建扩展字典拼写校正。关于Hunspell字典文件的选项的更多信息,参见https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html。

数据类型:字符|字符串

`字典`- - - - - -Hunspell字典文件
`”`(默认)|文件路径

Hunspell字典文件,指定为逗号分隔组成的“字典”和一个Hunspell字典文件的文件路径。

是一个Hunspell字典文件.dic文件包含的单词在字典的词汇列表如下格式:

N / flags1 word1 word2 / flags2……wordN / flagsN

在哪里N在字典文件的字数,word1,word2、…wordN是N字,在字典里flags1、…flagsN指定可选的标记对应的单词word1,word2、…wordN,分别。使用标记来指定属性,例如词缀。指定一个Hunspell词缀文件,使用“词缀”选择。

例如,创建一个Hunspell包含4字的字典文件“MathWorks”,“MATLAB”,“用语”,“tokenizedDocument”使用:

4 MathWorks MATLAB用语tokenizedDocument

关于Hunspell字典文件的选项的更多信息,参见https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html。

数据类型:字符|字符串

`词缀`- - - - - -Hunspell签署文件
`”`(默认)|文件路径

Hunspell词缀文件,指定为逗号分隔组成的“词缀”和一个文件路径Hunspell词缀的文件。

是一个Hunspell词缀文件.aff文件包含的单词在字典的词汇列表如下格式:

option1 values1 option2 values2……optionM valuesM

在哪里米选项的数量在签署文件,option1,option2、…optionM是米选择,values1、…valuesN指定选项对应的值option1,option2、…optionM,分别。使用这些选项指定词缀。

前缀

定义一个前缀规则,使用可以选项的格式:

可以标记crossProduct K可以国旗stripping1 prefix1 condition1……可以标记strippingK prefixK conditionK

的价值观:

国旗对应于Hunspell字典文件中使用的旗帜。
crossProduct指示是否可以混合,前缀和后缀指定为Y或N。
K前缀的数量定义为指定的标志。
stripping1,stripping2、…strippingK显示字符从应用前缀时这个词被剥夺。如果剥离值0,然后不发生剥离。
prefix1,prefix2、…prefixK指定要使用的前缀。
condition1,condition2、…conditionK指定应用前缀的可选条件prefix1,prefix2、…prefixK,分别。对于琐碎的条件,指定“。”。

后缀

定义一个后缀规则,使用自解压选项的格式:

SFX国旗crossProduct K SFX国旗stripping1 suffix1 condition1……自解压国旗strippingK suffixK conditionK

在哪里suffix1,suffix2、…suffixK指定要使用的前缀,国旗,叉乘,K、剥离和条件值作为前缀格式相同。

例子

创建一个Hunspell词缀文件定义以下词缀规则:

国旗:
- 前缀词与“重新”
国旗B:
- 后缀词不是结束“y”与“ed”。
- 后缀结尾的单词,“y”与“简易爆炸装置”、删除“y”。

使用Hunspell词缀文件:

可以1 Y可以0再保险。SFX B Y 1 SFX B 0 ed [^ Y] SFX B ied Y

使用这些旗帜Hunspell字典文件,添加适当的标志使用的词“/”。对于每个单词,可以指定多个标志。例如,指定一个字典文件包含:

这句话“pt”和“ptry”。
对这个词“pt”,还包括前缀“重新”使用国旗一个。
这两个单词,还包括后缀“ed”或“简易爆炸装置”在适当的地方使用国旗B

关于Hunspell词缀文件的选项的更多信息,见https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html。

数据类型:字符|字符串

`RetokenizeMethod`- - - - - -方法retokenize文档
`“分裂”`(默认)|`“没有”`

方法retokenize文件,指定为逗号分隔组成的“RetokenizeMethod”和下列之一:

“分裂”——正确的拼写分裂令牌。例如,把拼写错误令牌“twowords”拼写正确的标记“两个”和“单词”。
“没有”——不要把令牌拼写校正。

输出参数

全部折叠

`updatedDocuments`——修正文件
`tokenizedDocument`数组

修正文件,作为一个返回tokenizedDocument数组中。如果“RetokenizeMethod”选择是“分裂”,然后在每个更新文档的字数可能不同,相应的输入文档。

如果有多个候选纠正的话,那么这个函数会自动选择一个字更正。

`updatedWords`——纠正话说
字符串向量

纠正单词,作为字符串返回向量。如果“RetokenizeMethod”选择是“分裂”,然后更新单词的数量可能不同输入单词的数量。

如果有多个候选纠正的话,那么这个函数会自动选择一个字更正。

`unknownWords`——生词
字符串向量

生词,作为字符串返回向量。字符串向量unknownWords包含输入单词没有拼写校正字典和建议的。

版本历史

介绍了R2020a

另请参阅

editDistanceSearcher|editDistance|tokenizedDocument

用语

语法

描述

例子

正确的拼写单词在文档中

正确的拼写单词字符串数组

指定已知的单词

输入参数

文档- - - - - -输入文档tokenizedDocument数组

单词- - - - - -输入单词字符串向量|特征向量|单元阵列的特征向量

语言- - - - - -词的语言“en”|“德”|“柯”

名称-值参数

KnownWords- - - - - -单词被视为正确的[](默认)|字符串数组|单元阵列的特征向量

ExtensionDictionary- - - - - -Hunspell扩展字典文件”(默认)|文件路径

字典- - - - - -Hunspell字典文件”(默认)|文件路径

词缀- - - - - -Hunspell签署文件”(默认)|文件路径

前缀

后缀

例子

RetokenizeMethod- - - - - -方法retokenize文档“分裂”(默认)|“没有”

输出参数

updatedDocuments——修正文件tokenizedDocument数组

updatedWords——纠正话说字符串向量

unknownWords——生词字符串向量

版本历史

另请参阅

主题

`文档`- - - - - -输入文档
`tokenizedDocument`数组

`单词`- - - - - -输入单词
字符串向量|特征向量|单元阵列的特征向量

`语言`- - - - - -词的语言
`“en”`|`“德”`|`“柯”`

`KnownWords`- - - - - -单词被视为正确的
`[]`(默认)|字符串数组|单元阵列的特征向量

`ExtensionDictionary`- - - - - -Hunspell扩展字典文件
`”`(默认)|文件路径

`字典`- - - - - -Hunspell字典文件
`”`(默认)|文件路径

`词缀`- - - - - -Hunspell签署文件
`”`(默认)|文件路径

`RetokenizeMethod`- - - - - -方法retokenize文档
`“分裂”`(默认)|`“没有”`

`updatedDocuments`——修正文件
`tokenizedDocument`数组

`updatedWords`——纠正话说
字符串向量

`unknownWords`——生词
字符串向量