帮助中心帮助中心

文本检测与识别

使用图像特征检测和描述、深度学习和OCR检测和识别文本

检测和识别图像中的文本是计算机视觉应用中一个常见的任务。例如，您可以从移动的车辆上捕获道路场景的视频，识别捕获场景中的路标，并提醒驾驶员注意这些标志。

您可以将检测和识别合并为两步过程，其中第一步查找包含文本的区域，然后第二步识别区域内的文本。

输入一个显示无障碍停车标志的图像，连接到一个检测器，检测器输出一个图像，其中预测的边界框覆盖在标志文本上，连接到一个识别器，输出标志上识别的单词列表。

文本检测算法使用局部图像特征、机器学习或深度学习来定位或分割图像中的文本。计算机视觉工具箱™中的示例演示了如何使用blob分析、最大稳定极值区域(MSER)特征检测器和用于文本检测的字符区域感知(CRAFT)深度学习模型进行文本检测。

一旦检测到文本，基于机器学习或深度学习的文本识别模型将处理文本区域以返回预测的文本。的光学字符识别函数使用预先训练的语言模型来识别多种语言的文本。类训练自定义语言模型trainOCR函数。有关更多信息，请参见OCR入门．

应用程序

图片标志	用于计算机视觉应用的标签图像

功能

标签

图片标志 用于计算机视觉应用的标签图像

培训与评估

`trainOCR`	训练OCR模型识别图像中的文本
`evaluateOCR`	根据实际情况评估OCR结果
`ocrMetrics`	存储OCR质量指标
`ocrTrainingOptions`	训练OCR模型的选项
`ocrTrainingData`	根据地面真相创建OCR训练数据

量化

quantizeOCR 量化OCR模型

文本检测

`detectTextCRAFT`	利用CRAFT深度学习模型检测图像中的文本
`detectMSERFeatures`	检测MSER特征
`愿景。BlobAnalysis`	连通区域的性质
`extractHOGFeatures`	提取定向梯度(HOG)特征直方图

文字识别

`光学字符识别`	使用光学字符识别识别文本
`ocrText`	存储OCR结果
`vision万博1manbetxSupportPackages`	启动安装程序以下载、安装或卸载计算机视觉工具箱数据

主题

开始

OCR入门
检测和识别多种语言的文本，训练OCR模型识别自定义文本。
训练自定义OCR模型
训练光学字符识别(OCR)模型来识别自定义文本。
安装OCR语言数据文件
万博1manbetx支持光学字符识别(OCR)语言的文件。
局部特征检测与提取
学习局部特征检测和提取的优点和应用。
点特征类型
为几种类型的特征选择返回和接受点对象的函数。

特色的例子

使用光学字符识别(OCR)识别文本

使用光学字符识别(OCR)识别文本

使用光学字符识别识别图像中的文本。

打开实时脚本

使用OCR识别七段数字

使用OCR识别七段数字

使用OCR识别由CRAFT和区域属性检测到的文本中的七段数字。

打开实时脚本

使用MSER和OCR自动检测和识别文本

使用MSER和OCR自动检测和识别文本

使用MSER和OCR自动检测和识别图像中的文本。

打开实时脚本

基于预处理CRAFT网络和OCR的文本自动检测与识别

基于预处理CRAFT网络和OCR的文本自动检测与识别

通过使用基于深度学习的文本检测器和OCR执行文本识别。在本例中，您使用预先训练好的CRAFT(文本字符区域识别)深度学习网络来检测输入图像中的文本区域。您可以修改CRAFT模型的区域阈值和亲和阈值，以本地化整个段落、句子或单词。然后，使用OCR来识别检测到的文本区域中的字符。

打开实时脚本

用于OCR的自动地面真相标记

用于OCR的自动地面真相标记

为OCR训练和评估自动标记文本。

打开实时脚本

训练OCR模型识别七段数字

训练OCR模型识别七段数字

训练一个可以识别七段数字的OCR模型。

打开实时脚本

使用HOG特征进行数字分类

使用HOG特征进行数字分类

使用HOG特征和多类SVM分类器对数字进行分类。

打开实时脚本