主要内容

创建用于拼写校正的扩展字典

此示例显示如何创建拼写校正的HunSpell扩展名称。

使用时矫正力函数,函数可以更新一些拼写正确的单词。要提供已知单词的列表,可以使用“KnownWords”直接使用字符串数组的已知单词。或者,您可以指定Hunspell扩展字典(也称为a个人词典),指定已知单词、禁用单词和词缀规则旁边的单词列表。

指定已知的单词

创建一个标记化文档数组。

str = [“用MATLAB来纠正单词拼写。”“拼写正确的单词对于义理化很重要。”“文本分析工具箱提供拼写校正的功能。”];文档=令授权鳕(str);

使用。修改文件的拼写矫正力功能。

updatedDocuments =用语(文档)
UpdatedDocuments = 3x1令叫授予Document:9令牌:使用MAT实验室纠正单词的拼写。8令牌:正确拼写的单词对于合法化很重要。9令牌:文本分析工具箱提供拼写校正的功能。

该功能修正了单词“words”和“providesfunctions”的拼写,但也更新了一些拼写正确的单词:

  • 输入字“Matlab”已被分成两个单词“垫”和“实验室”。

  • 输入词“lemmatizing”已经变成了“legitimizing”。

  • 输入字“Analytics”已更改为“分析”。

要创建HunSpell扩展名称,包含已知单词列表,创建一个.Dic.包含这些单词的文件,每行一个单词。创建一个带有name的扩展字典众所周知..包含“matlab”,“lemmatization”和“分析”单词的文件。

matlab分析lemmatized

再次纠正文档的拼写并指定分机词典众所周知..

updatedDocuments =用语(文档,'extensionDictionary''众所周知.dic'
updatedDocuments = 3x1 tokenizedDocument: 8 token:使用MATLAB纠正单词拼写。标记:拼写正确的单词对于义理化很重要。9令牌:文本分析工具箱提供拼写校正功能。

指定附件规则

当指定具有相同根词的多个单词时(例如,指定单词“lemmatize”、“lemmatizer”、“lemmalized”等等),可以更容易地指出一组词缀规则。不需要使用不同的词缀多次指定相同的单词,您可以指定特定的单词以从其中继承一组词缀规则。

例如,创建一个标记化文档数组并使用矫正力功能。

str = [“一个lemmatizer将单词减少到他们的字典表单。”要使单词义化,请使用normalizeWords函数。“在词母化之前,在文本中添加部分演讲细节。”“在云中显示lemmatized单词。”];文档=令授权鳕(str);updatedDocuments =用语(文档)
UpdatedDocuments = 4x1令授权Document:9令牌:合法化将单词减少到他们的字典表单。10个令牌:要使单词合法化,请使用正常化单词函数。12令牌:在合法化之前,将部分言语细节添加到文本中。8个令牌:在云中显示合法化的单词。

注意,单词“normalizeWords”和“lemmatize”的变体没有得到正确的更新。

创建一个带有name的扩展字典众所周知的多个名词.dic.dic.文件包含单词“normalizeWords”和“lemmatize”。对于单词“lemmatize”,也要指定还包括单词“equalize”的有效词缀“/”的象征。

rensolizewords lemmatize /均衡

再次纠正文档的拼写并指定分机词典众所周知的多个名词.dic.dic.

updatedDocuments =用语(文档,'extensionDictionary'“众所周知的任命名字.dic”
updatedDocuments = 4x1 tokenizedDocument: 9个令牌:lemmatizer将单词简化为它们的字典形式。标记:要使单词词根化,请使用normalizeWords函数。标记:在词母化之前,将部分演讲细节添加到文本中。标记:在词云中显示义化的词。

注意,“lemmatize”的变体没有改变。默认字典包含单词“equalize”,并通过后缀“-r”和“-d”分别识别单词“equalizer”和“equalized”。通过指定条目“lemmatize/equalize”,软件识别单词“lemmatize”以及其他单词,并通过相应的词缀扩展“equalize”。例如,单词“lemmatizer”和“lemmaled”。

指定禁止的单词

使用时矫正力函数时,函数可能输出不需要的单词,即使字典中有更需要的单词。例如,对于输入的单词“decrease”矫正力功能可以输出“法令”一词。为了确保某些单词不会出现在输出中,可以在扩展字典中指定禁用单词。

例如,使用扩展字典创建一系列令牌文档并更正拼写众所周知...注意,这个字典包含单词“MATLAB”。

str = [“使用MATLAB分析文本数据。”“使用扩展字典减少打字错误的数量。”];文档=令授权鳕(str);updatedDocuments =用语(文档,'extensionDictionary''众所周知.dic'
updatedDocuments = 2x1 tokenizedDocument: 6 tokens:使用MATLAB分析文本数据。10个标记:使用扩展字典命令拼写错误的数量。

即使单词“decrease”在字典中,函数仍然可以选择其他单词作为匹配。在这种情况下,函数选择单词“律例”。

创建一个带有name的扩展字典众所周知的多个名词翼片包含“MATLAB”单词的文件,也可以使用禁止的单词“法令”“*”的象征。指定禁用词时,必须指定根词。例如,为了防止函数输出复数“律例”,指定词根“法令”。

matlab *法令

使用扩展字典更正文档的拼写众所周知的多个名词翼片

updatedDocuments =用语(文档,'extensionDictionary'“knownWordsWithForbiddenWords.dic”
updatedDocuments = 2x1 tokenizedDocument: 6 tokens:使用MATLAB分析文本数据。10标记:使用扩展字典减少拼写错误的数量。

这里,“汇编”一词被纠正为“减少”。

另请参阅

|

相关话题