面向畸变扭曲文档的两种图像矫正网络|||北京沫之东生物技术有限公司

面向畸变扭曲文档的两种图像矫正网络

24 次围观

由于文档纸张的几何形变、拍摄场景的干扰及拍摄角度不理想导致的透视失真，移动设备获取的文档图像的光学字符识别（Optical character recognition，OCR）性能受到很大挑战。针对折叠和扭曲的畸变文档图像预处理问题，设计了两种基于自编码器的网络结构，以实现自适应性图像矫正并提高文字识别正确率。首先提出空洞残差块和非对称卷积残差块两种残差块，然后将残差块与自编码器相结合，设计了一种非对称空洞自编码器网络；同时利用空间金字塔池化代替全连接层，并用非对称卷积残差块实现特征提取，设计了另一种空间金字塔自编码器网络。实验结果表明，与畸变图像相比，经非对称空洞自编码器网络矫正后的图像在OCR正确率、OCR召回率和文本相似度上分别提高了26.3%、20.4%和12.3%，而经空间金字塔自编码器网络矫正后的图像在正确率、召回率和文本相似度上分别提高了27.7%、22.0%和15.5%。与RectiNet等其他图像矫正网络相比，这两种网络可以自适应矫正多种类型的畸变文档图像，且矫正后的图像在文字识别上表现更为优异。本文提出的两种矫正网络能有效提高图像文字识别正确率、召回率和文本相似度，同时在鲁棒性、泛化性等方面与现有矫正网络相比具有明显的优势。

来源出处

面向畸变扭曲文档的两种图像矫正网络 http://sjcj.nuaa.edu.cn/sjcjycl/article/abstract/202401015