主要内容

用语

正确的拼写单词

描述

使用用语正确的拼写单词字符串数组或文档。

函数支持英语,德语,和韩国万博1manbetx的文本。

例子

updatedDocuments=用语(文档)纠正单词的拼写tokenizedDocument数组文档

例子

updatedWords=用语(单词)纠正单词的拼写字符串向量单词

updatedWords=用语(单词“语言”,语言)还指定了语言的单词字符串向量单词

(___,unknownWords用语]= (___)还返回一个向量的单词输入,没有发现在字典里,没有发现的建议。

例子

___=用语(___,名称,值)使用一个或多个指定附加选项名称-值对参数。

例子

全部折叠

创建一个标记化的文档数组。

str = [“一个包含一些拼写错误worrds documnent。””另一个documnent cntaining拼写错误。”];文件= tokenizedDocument (str);

正确的拼写单词使用的文档用语函数。

updatedDocuments =用语(文档)
updatedDocuments = 2 x1 tokenizedDocument: 7标记:一个文档,其中包含一些拼错的单词。5令牌:另一个文档,其中包含拼写错误。

创建一个字符串数组。

话说= [“一个”“strng”“数组”“包含”“拼写错误”“worrds”“。”];

正确的拼写单词使用的字符串数组用语函数。

用语updatedWords =(单词)
updatedWords =1 x7字符串列1到6“A”“字符串”“数组”“包含”“拼写错误”“单词”专栏7“。”

创建一个标记化的文档数组。

str = [“使用MATLAB分析文本数据。””另一个documnent cntaining拼写错误。”];文件= tokenizedDocument (str);

正确的拼写单词使用的文档用语函数。

updatedDocuments =用语(文档)
updatedDocuments = 2 x1 tokenizedDocument: 7令牌:分析文本数据使用垫实验室。5令牌:另一个文档,其中包含拼写错误。

注意这个词“MATLAB”被分成两个字“垫”和“实验室”。

文件和指定的正确拼写“MATLAB”作为已知词汇使用“KnownWords”选择。

updatedDocuments =用语(文档,“KnownWords”,“MATLAB”)
updatedDocuments = 2 x1 tokenizedDocument: 6令牌:使用MATLAB分析文本数据。5令牌:另一个文档,其中包含拼写错误。

输入参数

全部折叠

输入文件,指定为一个tokenizedDocument数组中。

输入文字,指定为字符串向量,特征向量,或单元阵列特征向量。如果您指定单词作为一个特征向量,那么函数将参数作为一个单独的词。

数据类型:字符串|字符|细胞

文字语言,指定为以下之一:

  • “en”- - - - - -英语

  • “德”——德国语言

  • “柯”——韩国语言

如果你不指定语言,软件自动检测语言。

数据类型:字符|字符串

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

例子:用语(文档、“KnownWords”(“MathWorks”“MATLAB”))纠正单词的拼写文档和治疗“MathWorks”和“MATLAB”拼写正确的单词。

单词被视为正确的,指定为逗号分隔组成的“KnownWords”和一个字符串数组或单元阵列的特征向量。

如果你指定一个已知的单词列表,那么这些词功能纠正拼写时保持不变。软件也可以替代拼写错误的单词与单词从列表中已知的单词。

例子:[" MathWorks”“MATLAB”)

数据类型:字符|字符串|细胞

Hunspell扩展字典文件(也称为个人字典文件),指定为逗号分隔组成的“ExtensionDictionary”和一个Hunspell扩展字典文件的文件路径。

Hunspell扩展字典文件是一个.dic文件包含的单词在字典的词汇列表如下格式:

/ affixWord1 word1 word2 / affixWord2……wordN / affixWordN * forbiddenWord1 * forbiddenWord2……* forbiddenWordM
地点:

  • word1,word2、…wordN是一个扩展Hunspell字典单词列表。

  • affixWord1,affixWord2、…affixWordN(可选)显示单词Hunspell分享词缀的字典。表示词缀通过连接到相应的词用斜杠(/)。例如,条目exxxtreme /极端表明适用于这个词的词缀“极端”也适用于自定义词“exxxtreme”

  • forbiddenWord1,forbiddenWord2、…forbiddenWordN是禁止词汇列表用于拼写校正。表示禁止词汇使用星号(*)。

的条目Hunspell扩展字典文件可以在任何顺序出现。指定词Hunspell字典文件时,您必须指定词的基本形式。例如,以确保用语不将字符串函数“可行性”“法规”使用一个扩展字典,指定基数词“法令”作为一个禁忌词。

例如,要创建一个Hunspell扩展字典文件指定:

  • 这句话“MathWorks”,“MATLAB”,“exxxtreme”

  • 适用于这个词的词缀“极端”也适用于这个词“exxxtreme”

  • 这个词“南”是一个禁忌词。

使用:

MathWorks MATLAB exxxtreme /极端*南

为一个例子,演示如何创建Hunspell扩展字典文件,看看创建扩展字典拼写校正。关于Hunspell字典文件的选项的更多信息,参见https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html

数据类型:字符|字符串

Hunspell字典文件,指定为逗号分隔组成的“字典”和一个Hunspell字典文件的文件路径。

是一个Hunspell字典文件.dic文件包含的单词在字典的词汇列表如下格式:

N / flags1 word1 word2 / flags2……wordN / flagsN

在哪里N在字典文件的字数,word1,word2、…wordNN字,在字典里flags1、…flagsN指定可选的标记对应的单词word1,word2、…wordN,分别。使用标记来指定属性,例如词缀。指定一个Hunspell词缀文件,使用“词缀”选择。

例如,创建一个Hunspell包含4字的字典文件“MathWorks”,“MATLAB”,“用语”,“tokenizedDocument”使用:

4 MathWorks MATLAB用语tokenizedDocument

关于Hunspell字典文件的选项的更多信息,参见https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html

数据类型:字符|字符串

Hunspell词缀文件,指定为逗号分隔组成的“词缀”和一个文件路径Hunspell词缀的文件。

是一个Hunspell词缀文件.aff文件包含的单词在字典的词汇列表如下格式:

option1 values1 option2 values2……optionM valuesM

在哪里选项的数量在签署文件,option1,option2、…optionM选择,values1、…valuesN指定选项对应的值option1,option2、…optionM,分别。使用这些选项指定词缀。

前缀

定义一个前缀规则,使用可以选项的格式:

可以标记crossProduct K可以国旗stripping1 prefix1 condition1……可以标记strippingK prefixK conditionK
的价值观:

  • 国旗对应于Hunspell字典文件中使用的旗帜。

  • crossProduct指示是否可以混合,前缀和后缀指定为YN

  • K前缀的数量定义为指定的标志。

  • stripping1,stripping2、…strippingK显示字符从应用前缀时这个词被剥夺。如果剥离值0,然后不发生剥离。

  • prefix1,prefix2、…prefixK指定要使用的前缀。

  • condition1,condition2、…conditionK指定应用前缀的可选条件prefix1,prefix2、…prefixK,分别。对于琐碎的条件,指定“。”

后缀

定义一个后缀规则,使用自解压选项的格式:

SFX国旗crossProduct K SFX国旗stripping1 suffix1 condition1……自解压国旗strippingK suffixK conditionK
在哪里suffix1,suffix2、…suffixK指定要使用的前缀,国旗,叉乘,K、剥离和条件值作为前缀格式相同。

例子

创建一个Hunspell词缀文件定义以下词缀规则:

  • 国旗:

    • 前缀词与“重新”

  • 国旗B:

    • 后缀词不是结束“y”“ed”

    • 后缀结尾的单词,“y”“简易爆炸装置”、删除“y”

使用Hunspell词缀文件:

可以1 Y可以0再保险。SFX B Y 1 SFX B 0 ed [^ Y] SFX B ied Y

使用这些旗帜Hunspell字典文件,添加适当的标志使用的词“/”。对于每个单词,可以指定多个标志。例如,指定一个字典文件包含:

  • 这句话“pt”“ptry”

  • 对这个词“pt”,还包括前缀“重新”使用国旗一个

  • 这两个单词,还包括后缀“ed”“简易爆炸装置”在适当的地方使用国旗B

关于Hunspell词缀文件的选项的更多信息,见https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html

数据类型:字符|字符串

方法retokenize文件,指定为逗号分隔组成的“RetokenizeMethod”和下列之一:

  • “分裂”——正确的拼写分裂令牌。例如,把拼写错误令牌“twowords”拼写正确的标记“两个”“单词”

  • “没有”——不要把令牌拼写校正。

输出参数

全部折叠

修正文件,作为一个返回tokenizedDocument数组中。如果“RetokenizeMethod”选择是“分裂”,然后在每个更新文档的字数可能不同,相应的输入文档。

如果有多个候选纠正的话,那么这个函数会自动选择一个字更正。

纠正单词,作为字符串返回向量。如果“RetokenizeMethod”选择是“分裂”,然后更新单词的数量可能不同输入单词的数量。

如果有多个候选纠正的话,那么这个函数会自动选择一个字更正。

生词,作为字符串返回向量。字符串向量unknownWords包含输入单词没有拼写校正字典和建议的。

版本历史

介绍了R2020a