主要内容

文档中的正确拼写

这个例子展示了如何使用Hunspell纠正文档中的拼写。

加载文本数据

创建一个标记文档数组。

str = [“用MATLAB纠正单词的拼写。”“正确拼写单词对词元化很重要。”“文本分析工具箱提供拼写校正功能。”];文件= tokenizedDocument (str)
document = 3x1 tokenizedDocument: 8 token:使用MATLAB纠正单词的拼写。8个标记:正确拼写的单词对引理化很重要。8标记:文本分析工具箱提供拼写纠正功能。

正确的拼写

使用。来纠正文档的拼写用语函数。

updatedDocuments =用语(文档)
updatedDocuments = 3x1 tokenizedDocument: 9 token:使用MAT LAB纠正单词的拼写。8个标志:正确拼写单词对于仪式非常重要。9标记:文本分析工具箱提供拼写纠正功能。

注意:

  • 输入词“MATLAB”被分为“MAT”和“LAB”两个词。

  • 输入的单词“words”已更改为“words”。

  • 输入词“lemmatization”改为“solemnization”。

  • 输入词“Analytics”已更改为“Analytic”。

  • 输入词“providesfunctions”被分为“provides”和“functions”两个词。

指定自定义词

为防止软件更新特定的单词,可以使用“KnownWords”选择的用语函数。

再次更正文档的拼写,并指定单词“MATLAB”、“Analytics”和“lemmatization”为已知单词。

updatedDocuments =用语(文档,“KnownWords”,[“MATLAB”“分析”“词元化”])
updatedDocuments = 3x1 tokenizedDocument: 8 token:使用MATLAB纠正单词的拼写。8 .标记:正确拼写单词对引申很重要。9标记:文本分析工具箱提供拼写纠正功能。

注意这里的“MATLAB”、“Analytics”和“lemmatization”保持不变。

另请参阅

|

相关的话题