摘要如今,随着扫描设备的进步,手持便携设备在转换电子文档上给人们的生活带来了极大的便利。电子文档的产生,同时带来了光学字符识别系统识别率的问题,因为OCR对图像倾斜敏感度很高,解决这个问题迫在眉睫,所以图像校正处理技术蓬勃发展。本文所探讨的就是扭曲文档图像如何校正的问题。81376

本文通过对现有的几类扭曲文档校正方法的分析和对比中,选取图像重建文本行的方法进行研究。在MATLAB平台下实现了相关的算法。主要过程包括图像预处理(包括二值化和背景去噪),提取曲面投影,转换模型的步骤,通过这些步骤,我们将扭曲的文档输出为平整的文档。另外我们对矫正后的文档进行了对比识别率测试,测试结果证明文中实现的方法能够有效地校正扭曲文档。

毕业论文关键词  数字图像处理  OCR  扭曲校正   MATLAB   识别率

毕业设计说明书外文摘要

Title    Research On correction technology Of Arbitrarily  Warped Document Image                                 

Abstract Nowadays, with the progress of scanning devices,especially hand-held protable devices, has brought great convenience for people。 Because of the appearance of electronic documents, there has a question about OCR’s recognition rate。OCR is very sensitive to image slope warping, we are supposed to solute this problem。 The technology of digital image processing is developing。 The correction technology is what we discuss in this paper。

In this paper, comparing with several types of distortion correction methods, we choose the method for selecting image by rebuild text line。 Using MATLAB platform, image pre-processing including binarization and removing borders, extraction of curved surface projection and transforming model can be done。 Finally, we get a de-warping document image。 Comparing with the result of OCR rate, the de-warping document image’s rate is more higher。 Test results show that the method in this paper can effectively correct the distortion of the document。

Keywords  Digital Image Processing  OCR  De-warping   MATLAB  Recognition Rate

目   次

1  绪论 1

1。1  问题的提出背景和意义  1

1。2  国内外研究的现状 3

1。3  论文结构内容和安排 3

2  图像处理技术和平台 5

2。1  数字图像处理技术 5

2。2  MATLAB平台介绍 5

3  图像预处理 6

3。1  灰度化 6

3。2  去除噪声处理 7

3。3  二值化 8

3。4  连通域标记 9

4  图像校正技术介绍 11

4。1  基于Hough变换的图像处理 11

4。2  利用投影轮廓的图像处理 12

4。3  基于文本行重建的图像处理 12

4。4  其他几类图像校正处理技术 13

5  实现基于模型转换的图像校正 14

5。1  图像校正的流程 14

5。2  图像校正的具体步骤 14

5。3  图像校正处理结果分析 20

结论  24

致谢  25

参考文献 26

1  绪论

自古至今,文字都是信息的主要载体,传承文化等资料使用的多为纸质文稿,在学习生活中占有极其重要的地位。纸质文稿作为人类基本的信息处理、存储和通讯载体,其缺点是易破损,不易保存,且携带也不方便,检索十分困难。这些缺点极大的阻止了信息同享和传播,也不利于建立一个联系信息和大规模的信息更新和维护。

上一篇:双频环形电桥设计
下一篇:调频连续波雷达的数学建模与理论MATLAB仿真

自回归模型谱估计方法设计+Matlab源代码

MATLAB舰船电能分配及管理系统设计

Matlab的光栅投影相位校正与展开算法设计

MATLAB数字图像处理的交通信号灯识别系统设计

基于MATLABGUI的粒子滤波算法实现+源代码

基于MATLABGUI的非线性卡尔曼滤波实现

水下激光通信中海水的散射模型及MATLAB仿真

中国古代秘书擅权的发展和恶变

多元化刑事简易程序构建探讨【9365字】

浅谈传统人文精神茬大學...

高校网球场馆运营管理初探【1805字】

国内外无刷直流电动机研究现状

拉力采集上位机软件开发任务书

辩护律师的作证义务和保...

浅谈新形势下妇产科护理...

谷度酒庄消费者回访调查问卷表

《醉青春》导演作品阐述