毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
OCR发票信息识别软件实现+文献综述(2)
通过将光学扫描和识别软件相结合,对记录在纸张上的手写体文字、印刷体文字、数字、条形码等符号进行光电录入、识别处理,然后按照指定的格式将信息进行电子化存储,这就是光学字符识别技术,又称OCR技术。OCR技术从上个世纪五十年代着手研究,发展至今,不仅有了相当成熟的技术基础,同时也开发出了许多不同种类、适合不同条件的OCR产品。
根据识别对象的不同,OCR通常分为印刷体OCR和手写体OCR两种。目前,印刷体OCR的识别技术已经达到实用程度,识别系统也走出实验室,加入到办公
自动化
产品的行列。国内在这方面研究比较领先的单位有:清华的紫光文通,中自的汉王等。另外单字符手写体的识别,尤其是数字识别率也接近95%.实用系统开始逐渐进入市场。代表性的
国内外
系统和研究小组有美国Expervision的RTK( Recognition Cool Kits)虽然目前国内外在这一学科领域,均已经建立起丰富的理论,并且还在进一步发展,但是距要实现使机器具有类似人的进行复杂模式识别能力的目标还相差甚远。如何能够进一步地提高字符的识别率,是国内外有关OCR研究的焦点和难点。
根据用途的不同,OCR又分为文本型OCR和专业型OCR两种。文本型OCR是指可分析并识别通用的印刷体文本,如报纸、杂志等。文本型OCR系统通常提供版面处理和文字识别两大功能:版面处理包括版面图像倾斜校正、版面手工或自动分析等,并标注出文本识别序列;文字识别就是对文本序列块进行识别,将文字图像转化成文字机内码。我国目前普遍使用的文本型OCR软件主要有清华文通(TH-OCR)、北信(BI-OCR)、中自(ICR)、沈阳自动化所( SY-OCR)、北京曙光公司(M-OCR)等,这些系统均可以实现中
英文
混排,宋体、楷体、黑体、仿宋体、繁体等多字体、多字号的混排识别,文字识别率可达到95﹪。
尽管文字识别率较高,但对于印刷质量较低、图像倾斜等干扰,识别率会有明显下降。同时,目前具有的版面分析技术对于版面设计较为简单的文本可以达到较高的切分水平,但对于版面比较复杂或印剧质量不高(如图像倾斜或污点严重)的文本,分析与切分的实用化程度仍有待提高。对复杂表格的识别应用还有较大的距离。但已可满足一般用户使用要求。
专业型OCR系统的产品多面向特定的行业,即适用于大量表格信息录入的部门,如邮政、税务、海关等。这种面向特定行业的专业型OCR系统信息格式较为固定,识别的字符集相对较小,经常与专用的输入设备结合使用,因此具有速度快、效率高等特点。常见的专业型OCR系统包括:
(l)邮件自动分拣系统:早期的邮件分拣系统只能对数字的邮政编码进行识别,目前国外的有些分拣系统可以识别城市名、州名等,识别的字体可以是印刷体、也可以是手写体或两种字体的混合使用。地址的识别结合了自然语言理解中的上下文相关技术,这一技术多用于文字识别的后处理,目前在文字识别过程中也有采用。国内有些大型邮政系统也采用了邮政编码的分拣系统。
(2)表格数据自动录入系统:此系统适用于需要处理大量填写表格(印刷体或手写体)的行业,如银行的单据、税务部门的纳税申报表、保险业的各种投保单、海关的物品出入境申报单、制造业的产量表等。这些行业在数据录入工作中一般采用人工录入,由于录入速度慢、错误率较高,已无法满足信息量日益增加的需要,成为这些行业计算机信息化进程的瓶颈。应用表格数据自动录入系统可以将人们从繁忙的录入工作中解放出来,极大地提高了工作效率。因此表格自动录入系统有着广泛的使用价值,特别适用于需要处理大量表格数据的部门。
共4页:
上一页
1
2
3
4
下一页
上一篇:
matlab运动模糊图像复原算法的研究
下一篇:
基于时域旋转对称矩量法飞行目标回波信号仿真分析
STC89C52单片机基于短信息无...
量子信息传输的理论框架量子通信技术
LabVIEW+OPC通信的光信息采集交互系统设计
Android智能终端的信息加密技术研究与实现
Arduino心率传感器信息采集和远程传输技术
LabVIEW船用产品质量信息分析系统设计
OpenGL数字图像处理的矢量...
多元化刑事简易程序构建探讨【9365字】
浅谈新形势下妇产科护理...
浅谈传统人文精神茬大學...
国内外无刷直流电动机研究现状
高校网球场馆运营管理初探【1805字】
拉力采集上位机软件开发任务书
中国古代秘书擅权的发展和恶变
辩护律师的作证义务和保...
《醉青春》导演作品阐述
谷度酒庄消费者回访调查问卷表