瑞芯微(EASY EAI)RV1126B OCR文字识别
1. OCR文字识别简介
文本识别也是图像领域的常见问题。然而,对于自然场景图像,必须首先定位图像中的文本位置,然后才能识别文本。所以一般来说分为两个步骤:
文本检测:解决的问题是文本在哪里以及文本的范围是什么。
文本识别:识别定位的文本区域,主要解决的问题是每个文本是什么,并将图像中的文本区域转换为字符信息。
我们的OCR算法是基于CTPN+CRNN设计的。 CTPN是一种文本检测算法,可以有效检测复杂场景中水平分布的文本。是目前比较好的文本检测算法。 CRNN算法主要用于识别端到端变长的文本序列。它不需要先切单个单词,而是将文本识别转化为依赖于时间序列的序列学习问题,即基于图像的序列识别。
基于EASY-EAI-Nano-TB硬件主板的运行效率:
2. 快速上手
2.1 开发环境准备
如果您是初次阅读此文档,请阅读《入门指南/开发环境准备/Easy-Eai编译环境准备与更新》 并按照其相关操作进行编译环境的部署。
在PC上的Ubuntu系统中执行run脚本,进入EASY-EAI编译环境,如下图。
cd ~/develop_environment./run.sh
2.2 源码下载
创建EASY-EAI编译环境存放源码仓库的管理目录:
cd /optmkdir EASY-EAI-Toolkit cd EASY-EAI-Toolkit 使用git工具将远程仓库克隆到管理目录中
git clone https://github.com/EASY-EAI/EASY-EAI-Toolkit-1126B.git
注:
* 由于网络原因,这里可能会有延迟,请耐心等待。
* 如果确实要从gitHub网页下载,还必须下载整个仓库。您无法单独下载该实例对应的目录。
2.3 模型部署
要完成算法Demo的执行,需要先下载OCR算法模型。
百度网盘链接为:https://pan.baidu.com/s/1imI86u1O9xH6T6V_0k2jxw?pwd=1234(提取码:1234)。
同时需要将下载的OCR算法模型复制粘贴到Release/目录下:
2.4 例程编译
进入相应的例程目录进行编译操作。具体命令如下:
cd EASY-EAI-Toolkit-1126B/Demos/algorithm-ocr/./build.sh cpres注意:
* 由于板子上部署了依赖库,交叉编译过程中必须保持挂载/mnt。
* 如果build.sh脚本带有cpres参数,则Release/目录下的所有资源都会被复制到开发板中。
2.5 例程运行及效果
通过串口调试或者ssh调试,进入板子后台,找到例程部署的位置,如下图:
cd /userdata/Demo/algorithm-ocr/
运行例程命令如下:
sudo ./test-ocr test.jpg
在EASY-EAI编译环境中可以检索到测试图像:
cp /mnt/userdata/Demo/algorithm-ocr/result.jpg 。
结果图如下:
API及API调用详细说明(本例程源码)。有关详细信息,请参阅下面的描述。
3. OCR文字识别API说明
3.1 引用方式
为了方便客户在本地项目中直接调用我们的EASY EAI api库,这里列出了项目中需要链接的库和头文件,以便用户直接添加。
3.2 OCR检测初始化函数
设置OCR 检测初始化函数原型如下所示。
int ocr_det_init(const char* model_path, rknn_app_context_t* app_ctx);具体介绍如下。
3.3 OCR检测运行函数
设置OCR 检测运行原型,如下所示。
int ocr_det_run(rknn_app_context_t* app_ctx, cv:Mat input_image, ocr_det_postprocess_params* params, ocr_det_result* out_result);详细介绍如下。
3.4 OCR检测释放函数
设置OCR 检测发布原型,如下所示。
int ocr_det_release(rknn_app_context_t* app_ctx);具体介绍如下。
3.5 OCR识别初始化函数
OCR识别初始化函数原型如下。
int ocr_rec_init(const char* model_path, rknn_app_context_t* app_ctx);具体介绍如下。
3.6 OCR识别运行函数
OCR识别运行函数原型如下。
int ocr_rec_run(rknn_app_context_t* app_ctx, cv:Mat input_image, ocr_rec_result* out_result);具体介绍如下。
3.7 OCR识别释放函数
OCR识别发布功能原型如下。
int ocr_rec_release(rknn_app_context_t* app_ctx);具体介绍如下。
4. OCR检测算法例程
例程目录为Demos/algorithm-ocr/test-ocr.cpp。操作流程如下。
#include #include #include #include'ocr.h'using namespace cv;using namespace std;#define INDENT ' '#define THRESHOLD 0.3 //像素得分阈值#define BOX_THRESHOLD 0.9 //框得分阈值#define USE_DILATION false //是否进行膨胀,true 或false#define DB_UNCLIP_RATIO 1.5 //解裁剪比例typeint main(int argc, char **argv){if (argc !=2) {printf('%s \n', argv[0]);return -1;}/* 参数初始化*/const char *img_path=argv[1];Mat input_image, rgb_img;input_image=imread(img_path);if (input_image.empty()) {cout 'Error: 无法加载图像' endl;return -1;}cv:cvtColor(input_image, rgb_img, COLOR_BGR2RGB);rknn_app_context_t ocr_det_ctx, ocr_rec_ctx;memset(ocr_det_ctx, 0, sizeof(rknn_app_context_t));memset(ocr_rec_ctx, 0, sizeof(rknn_app_context_t));/* OCR算法检测模型识别模型初始化*/ocr_det_init('ocr-det.model', ocr_det_ctx);ocr_rec_init('ocr-rec.model', ocr_rec_ctx);结构体timeval 开始;结构体timeval 结束; float time_use=0;/* OCR算法检测模型运行*/ocr_det_result 结果; ocr_det_postprocess_params 参数; params.threshold=阈值; params.box_threshold=BOX_THRESHOLD; params.use_dilate=USE_DILATION; params.db_score_mode=(char*)'慢'; params.db_box_type=(char*)'poly'; params.db_unclip_ratio=DB_UNCLIP_RATIO;gettimeofday(start,NULL); int ret; ret=ocr_det_run(ocr_det_ctx, rgb_img, 参数, 结果); if (ret !=0) { printf('inference_ppocr_rec_model 失败!ret=%d\n', ret); gettimeofday(结束,NULL); time_use=(end.tv_sec-start.tv_sec)*1000000+(end.tv_usec-start.tv_usec);//微秒printf('time_use is %f\n',time_use/1000);/* 截取文本信息和图片框*/printf('DRAWING OBJECT\n'); for (int i=0; i results.count; i++) { printf('[%d]: [(%d, %d), (%d, %d), (%d, %d), (%d, %d)] %f\n', i, results.box[i].left_top.x, results.box[i].left_top.y, results.box[i].right_top.x,结果.box[i].right_top.y、结果.box[i].right_bottom.x、结果.box[i].right_bottom.y、结果.box[i].left_bottom.x、结果.box[i].left_bottom.y、结果.box[i].score);行(input_image, 点(结果.box[i].left_top.x, 结果.box[i].left_top.y), 点(结果.box[i].right_top.x, 结果.box[i].right_top.y), 标量(0, 255, 0), 1, LINE_AA);行(input_image, 点(结果.box[i].right_top.x, 结果.box[i].right_top.y), 点(结果.box[i].right_bottom.x, 结果.box[i].right_bottom.y), 标量(0, 255, 0), 1, LINE_AA);行(input_image, 点(结果.box[i].right_bottom.x, 结果.box[i].right_bottom.y), 点(结果.box[i].left_bottom.x, 结果.box[i].left_bottom.y), 标量(0, 255, 0), 1, LINE_AA);行(input_image,点(results.box[i].left_bottom.x,results.box[i].left_bottom.y),Point(results.box[i].left_top.x,results.box[i].left_top.y),标量(0,255,0),1,LINE_AA);cv:Mat rgb_crop_image=GetRotateCropImage(rgb_img, results.box[i]);/* OCR算法识别模型运行*/ocr_rec_result rec_results;ocr_rec_run(ocr_rec_ctx, rgb_crop_image, rec_results);//打印文本结果printf('regconize result: %s, Score=%f\n', rec_results.str, rec_results.score); } cv:imwrite('结果.jpg', input_image);return 0;}