印刷体数字识别算法研究与仿真实现开题报告

 2022-11-20 11:19:56

1. 研究目的与意义

人类文明发展到今天,已经积累了大量的文献资料和各种记录,但是计算机的出现只有不到一百年的时间,大规模的应用更是只有短短二三十年的历史。另外,即使是在今天,大量的信息仍然记录在纸上或者是印刷在各种物品上,如产品编号,车牌号码,将这些信息输入计算机来处理是一项费时费力的工作。这些问题矛盾成了信息化发展的一个瓶颈,解决这个问题的关键就是字符识别技术,是实现智能人机接口的非常重要的途径,得到了广泛的研究。数字识别是字符识别的一个重要研究方向,主要是指使用计算机自动识别阿拉伯数字。例如,对于各种产品上大量印制的数字编号,利用数字识别系统进行识别和记录,可以有效节约时间和人力;车牌识别系统在城市交通管理中越来越重要,而数字识别系统是车牌识别系统的重要组成部分;数字识别系统在智能安检系统,如身份证,出入证的识别都能发挥关键作用。

2. 课题关键问题和重难点

数字的类别只有十种,笔画又简单,其识别问题似乎不是很困难。但实际上,一些测试结果表明,数字的正确识别率并不如汉字识别率高,甚至也不如联机的手写汉字识别率高,而仅仅优于脱机手写体汉字识别。其中的主要原因是:

1、某些数字的相似性很大,字形相差不大,使得准确区分某些数字变得相当困难。

2、由于数字没有上下文的关系,每个单字都代表特定的意义,所以对数字识别单字识别正确率的要求要比文字要苛刻得多。在金融、统计等领域其严格性更是不言而喻。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

字符识别是模式识别研究的一个重要领域,通过无数人大量的努力,已经取得了丰硕的成果和发现。但是,针对具体和特殊应用的特点的字符识别仍然有很大的研究空间和价值。数字识别是光学字符识别的一个重要研究方向和组成部分,主要是指使用计算机来自动识别阿拉伯数字。一个有效的,可靠的,快速的数字识别系统既可以作为一个软件单独使用,同样也可以作为许多 OCR 系统的组成部分,具有很重要的商业用途,例如可以广泛应用于身份认证系统,智能安检系统,IC 卡识别系统,车牌识别系统等等。光学字符识别技术(Optical Character Recognition)主要是指对图片或者视频等上面的字符,通过将文档资料的图像文件转换成黑白点阵,然后通过软件将图像中的文字转换成计算机可以读取的文本格式,从而获取文字信息,以便其他文字处理工具进一步编辑加工的系统技术。字符识别的出现,主要是为了解决高速的计算机处理和低速的人工输入之间的矛盾。1929 年,德国科学家 Tausheck 最早提出了 OCR 的概念,并且获得了关于 OCR 的专利。然后在 1933 年,美国的 Handel 也提出了文字识别的想法并获得了专利。50 年代,美国从事密码分析处理工作的 Shepard 成功的实现了一台机器,解决了将打印好的资料转成机器可识别的语言的问题。随后,Shepard 成立了公司并发布了世界上第一个应用于商业的 OCR 系统。60-70 年代,面对对字符识别的广泛需求和其能够获得的巨大的商业前景,各个国家都相继开始了对字符识别的研究。从研究初期的识别数字发展到英文,汉字等各类文字符号,甚至对不同文字的全识别。经过各国科学家和研究人员的努力,OCR识别精度不断提高,在日常生活学习中也得到了广泛的应用。中国比较晚才开始研究发展 OCR 技术,在 70 年代才开始研究数字、英文字母及符号的识别,70 年代末开始针对汉字识别的研究。但是,经过我国科研工作者的不断地努力,已经取得了很多的成果,很多研究单位都推出了自己的 OCR 产品。OCR 技术发展到今天,国内外都取得了很多成果,使用各种方法提高 OCR 的识别精度,速度,鲁棒性。文献中采用统计网格所占比例做提取的特征,利用模板匹配算法分类识别数字;文献[1]的文字特征采用粗网格特征,这种方法对连续的数字识别具有一定的借鉴应用价值;文献[2]利用图像的矩特征,并使用神经网络的方法来识别字符,取得了较好的实验效果;文献[3]提出利用数字的圈和左右凹陷的结构特征来识别数字的方法;文献[4]利用字符的上横线特征等组合和模板特征匹配识别车牌数字;文献[5]提出了一种利用分级 RBF 神经网络的车牌数字识别方法;文献[6]利用中线特征,点特征等组合起来识别数字字符;文献[7]中作者分别使用反向神经网络和 Adaboost 的分类方法来识别车牌中的数字字符;文献[8]主要工作是研究了利用蚁群算法进化神经树的手写字符识别技术;文献[9]提出了利用梯度和曲率的方法来提高字符识别的效率。还有很多不同方法和特征,都取得了较好的实验效果。

以上提到的算法都是针对字符识别的一些通用适用于很多情况的字符识别方法和特征。需要研究印刷体数字的结构特点提出新的解决方法,来提高印刷体数字识别的速度和精度。

参考文献:

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究方案

1、图像采集阶段,是取得要识别所要的原材料,即各个字符集的图像。主要利用光学仪器,如照相机、手机、扫描仪等等。

2、预处理阶段,是对上述采集到的图像进行识别前所必要的一些处理工作,主要包括:对原始图像进行几何校正、去噪声、复原、二值化,对二值图像进行滤波处理,单字的分割、笔画提取等等,必要时修补缺口。

3、特征提取阶段,经处理过的图像包括很多特征,识别时就需要这些利用经过挑选、行之有效的特征。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 工作计划

一、1-3周,进行数字识别系统的了解,熟悉数字识别的基本算法,提出课题设计方案。进行简单需求分析,确定整个系统大概的所需的模块和规模。

二、4-6周,对数字识别算法进行学习,MATLAB环境熟悉,语言熟悉。进行系统分析,确定该系统该具有哪些功能,有哪些模块,各个模块之间是怎样联系的,以及怎样组合的。

三、7-9周,采用MATLAB实现印刷体数字识别。并且通过对系统的分析,我们要确定系统的结构是怎么样的,要尽可能的合理,操作上更加方便、简洁。

剩余内容已隐藏,您需要先支付 1元 才能查看该篇文章全部内容!立即支付

以上是毕业论文开题报告,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。