正确的文档拼写
这个例子展示了如何使用Hunspell来纠正文档中的拼写。
加载文本数据
创建一个标记化文档数组。
STR = [“用MATLAB来纠正单词的拼写。”正确拼写的单词对于词根化很重要。“文本分析工具箱提供拼写纠正功能。”];documents = tokenizedDocument(str)
documents = 3x1 tokenizedDocument: 8 token:使用MATLAB纠正单词拼写。8 .标记:正确拼写的单词对于词元化很重要。8令牌:文本分析工具箱提供拼写纠正功能。
正确的拼写
方法更正文档的拼写用语
函数。
updatedDocuments = correctSpelling(文档)
updatedDocuments = 3x1 tokenizedDocument: 9 token:使用MAT LAB来纠正单词的拼写。8 .标记:正确拼写的单词对于仪式很重要。9令牌:文本分析工具箱提供了拼写纠正功能。
注意:
输入词“MATLAB”被拆分为“MAT”和“LAB”两个词。
输入单词“words”已更改为“words”。
输入词“lemmmization”已改为“solemization”。
输入单词“Analytics”已更改为“Analytic”。
输入词“提供功能”被分为“提供”和“功能”两个词。
指定自定义单词
属性提供已知单词列表,以防止软件更新特定单词“KnownWords”
选项用语
函数。
再次更正文档的拼写,并指定单词“MATLAB”,“Analytics”和“lemmtization”为已知单词。
updatedDocuments = correctSpelling(文档,“KnownWords”,[“MATLAB”“分析”“词元化”])
updatedDocuments = 3x1 tokenizedDocument: 8 token:使用MATLAB纠正单词拼写。8 .标记:正确拼写的单词对于词元化很重要。9令牌:文本分析工具箱提供了拼写纠正功能。
注意这里的“MATLAB”,“Analytics”和“lemmmization”保持不变。