主要内容

正确的文档拼写

这个例子展示了如何使用Hunspell来纠正文档中的拼写。

加载文本数据

创建一个标记化文档数组。

STR = [“用MATLAB来纠正单词的拼写。”正确拼写的单词对于词根化很重要。“文本分析工具箱提供拼写纠正功能。”];documents = tokenizedDocument(str)
documents = 3x1 tokenizedDocument: 8 token:使用MATLAB纠正单词拼写。8 .标记:正确拼写的单词对于词元化很重要。8令牌:文本分析工具箱提供拼写纠正功能。

正确的拼写

方法更正文档的拼写用语函数。

updatedDocuments = correctSpelling(文档)
updatedDocuments = 3x1 tokenizedDocument: 9 token:使用MAT LAB来纠正单词的拼写。8 .标记:正确拼写的单词对于仪式很重要。9令牌:文本分析工具箱提供了拼写纠正功能。

注意:

  • 输入词“MATLAB”被拆分为“MAT”和“LAB”两个词。

  • 输入单词“words”已更改为“words”。

  • 输入词“lemmmization”已改为“solemization”。

  • 输入单词“Analytics”已更改为“Analytic”。

  • 输入词“提供功能”被分为“提供”和“功能”两个词。

指定自定义单词

属性提供已知单词列表,以防止软件更新特定单词“KnownWords”选项用语函数。

再次更正文档的拼写,并指定单词“MATLAB”,“Analytics”和“lemmtization”为已知单词。

updatedDocuments = correctSpelling(文档,“KnownWords”,[“MATLAB”“分析”“词元化”])
updatedDocuments = 3x1 tokenizedDocument: 8 token:使用MATLAB纠正单词拼写。8 .标记:正确拼写的单词对于词元化很重要。9令牌:文本分析工具箱提供了拼写纠正功能。

注意这里的“MATLAB”,“Analytics”和“lemmmization”保持不变。

另请参阅

|

相关的话题