印刷体汉字识别系统的设计与实现
摘 要
汉字识别技术是一种高速、自动的信息录入手段,成为未来计算机的重要职能接口,还可以作为办公自动化、新闻出版、机器翻译等领域的理想输入方式,有着广泛的应用前景。汉字识别的最终目的是使中文信息能更自然,更方便地输入计算机,以便于进一步处理.实际生活中,大量的书信、报纸、杂志内容需要输入计算机,这就是印刷体汉字识别要解决的问题。本文首先就汉字识别研究的意义及背景作了综述。第一章介绍了汉字识别的基本过程以及印刷体汉字识别研究存在的问题与困难。第二章对印刷体汉字识别作了详细阐述,论述了印刷体汉字识别的原理和预处理、特征抽取与分析、后处理过程;着重分析了统计模式识别方法、 结构模式识别方法以及匹配识别;第四章用Matlab对系统进行了仿真;最后阐明了汉字识别技术研究今后发展的方向。
ABSTRACT
Chinese character recognition technology is a kind of automatic high-speed, information input method, become the important functions of the computer interface, still can as office automation, the press and publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural and convenient so that the computer could process Chinese information more easily. In practice, large volume of letters, newspaper, magazines need to be covered into a coded representation of the input characters. Thats what printed Chinese character recognition can do. Firstly, this thesis gives what is the significance of research and background of Chinese character recognition. In chapter 1, the basic procedure of Chinese character recognition and defects and difficulties of printed Chinese character recognition is introduced. Every step of recognition is elaborated in details. In chapter 2, we describe printed Chinese character recognition system in details, discussing the print character recognition technology, and looks forward to the development trend of Chinese character recognition technology. Discusses the principles and printed character recognition, feature extraction and analysis, the post-processing process, Emphatically analyses the statistical pattern recognition method, structural pattern recognition method and matching recognition. In chapter 4, giving an simulation for the system. Expounded characters identification technology research directions of future development.
第一章 绪论
1.1 汉字识别的研究意义及本文研究的主要内容
汉字是中华民族智慧的结晶,是我们传递信息的最主要的手段之一,同时也是世界上使用人数最多的文字之一。现如今,随处可见汉字印刷的材料,报社、图书馆、档案馆等一些专业单位的印刷材料更是数不胜数。迄今为止,阅读印刷材料是大多数人的阅读习惯。因此,将汉字图像准确高效的输入到计算机里面是信息处理当中一个非常关键的问题,这将会推动计算机技术的发展,更推动中国历史的传播。但是人工键入的方法太多缓慢,不适合用于一些信息材料比较多的专业单位。因此,汉字自动识别输入的技术符合如今机械化社会的需求,它的应用前景就不言而喻了。此外,汉字识别是一个综合性的研究项目,一个跨学科的,因此,对它的研究也促进了各学科的发展,具有重要的应用价值和理论意义。
1.2 印刷体汉字识别研究的背景
大约在1960年初期,计算机就能够初步识别数字以及英文了。随后,在1970年代初,日本开始了对汉字识别进行了大量研究,在80年代初期,日本已经公开表演了计算机对印刷体汉字的识别过程,在随后的商业展览中,日本也表演了这一技术。在80年代中期的时候,日本设计的汉字识别装置已经能够几乎完全准确的识别出待识汉字,而且还能识别多种语言综合的印刷体文字,识别速度在100字/秒以上,是当时汉字识别技术最好的代表。最近几年已经有售出一些汉字识别装置。我们国家在80年代后期国家出来的印刷体汉字识别系统才比较完善。
通过特征识别及特征匹配实现文本分类方法,这是汉字进行辨别的最终目标。当前,能够进行汉字的辨别的字体可以分为两种,一种是印刷出来的汉字,另一种则是直接用笔写出来的汉字。而在印刷体汉字当中又可以分为两类,一种是单种语言的印刷体汉字,另一种则是多种语言混合的印刷体汉字。
我们都知道,每个汉字都有各自的特征,计算机会将这些特征提取出来,然后储存起来,等到要进行汉字识别的时候,计算就会自主地将输入的汉字与这些特征进行对比,然后相比最相似的是识别的结果,这个过程被称为汉字识别。
图1-1 汉字识别原理图
汉字识别原理如图1-1所示:首先扫描需要处理的文字,通过扫描获得该文字相对应的电信号,数模转换器将电信号转换为数字信号,然后进入预处理环节,经过预处理,就会出现汉字的二值数字点阵信息,汉字的笔画部分我们用“1”来表示,汉字的空白背景用“0”来表示。
汉字的模式表达形式有多种,总的来说可以分为两类,一类是统计决策法,另一类则是句法结构法。
1. 统计决策方法
在汉字识别中,每个字的特征是一个m维的特征向量;根据一定的标准,当输入的文本与标准的相似时,在一定程度就可以识别。统计决策方法的汉字识别可以作一些指导的概念,方法。距离和相似性分类的依据,也是一个标准的常用的统计决策方法。
2. 句法结构法
字形的结构信息在汉字模式中占有很重要的地位,研究一些结构比较复杂的模式时,它可以分解成几个简单的子模型,例如“吐”字首先分解成零部件的“口”和“土”,而且知道“口”在“土”左面。再把这两个零部件分解成为笔划,并且我们知道还知道这些笔划之间的相互对应关系,如此我们就可以把“吐”字用一维的符号串来表达。组成一个模式的最简单的而且不再分割的子模式叫做基元(Pattern primitive)。基元通过一定的联系规律组成一个模式,像这种方法,我们就把它叫做结构分析法。
计算机的计算的功能和人类进行辨别字的能力的性质是不一样的,所以,自古以来,汉字的识别是研究人员的一个难题。四十多年以来,研究人员已经在很多方面取得了好的效果,但是,机器毕竟不能像人类这样灵活地运用各种知识来进行识别。
有许多因素的汉字,每个元素是多种因素作用的结果,因此,从汉字图像的实际因素将推出的特征是困难的。因此,这些细小的因素就会导致对汉字图像截然不同的确认,从而得出截然不同的汉字图像。再者,汉字图像需要最终识别还需要主观参与才能形成。
第二个导致汉字图像识别困难的原因是,我们识别一个汉字,而且是一个不规范的汉字,需要一定的语境信息的背景,这些是我们在文化学习和语言环境中长期积累形成的,而机器系统却没有这样的语境基础。人类进行汉字辨别研究就是为了代替人类文字的识别,这就需对人类身体的功能是熟悉的,让计算机来做到这一点的难度可想而知了。
目前,我们还不知道到底是汉字的复杂性占了主导,还是人类认知能力的复杂性占了主导。然而,要实现人的识字能力,需要与人类认知功能相当复杂的有机识别系统,这是毋庸置疑的。而对汉字识别而言,复杂性对复杂性恐怕是唯一的出路了。作为一个机器的计算装置,即使在充分理解人类的识别功能,会遇到很多难以想象的困难。
1.3 本文研究的主要内容
本文对汉字的特征提取和特征匹配做重要的介绍并初步实现该功能,而对预处理和后处理两个阶段只做稍微的介绍,需要初步实现汉字识别功能。所以,本文将分四个章节来描述我所设计的内容。
第一章,介绍一下汉字识别技术的背景,常用方法以及存在的一些困难。
第二章,对汉字识别的发展历程进行详细的介绍,并详细分析汉字识别的理论知识。
第三章,利用matlab软件对汉字识别的过程进行仿真并初步实现其功能。
第四章,对本课题研究的总结,以及对这项技术日后的展望。
第二章 印刷体汉字识别的实现
2.1 印刷体汉字识别技术的发展历程
人类对信息社会的高需求也带来了文字识别技术的迅速发展。印刷体汉字识别这一技术在很早以前就有研究记录,在20年代后期,,Taushek刚刚赢得了OCR专利。如今的社会,信息量越来越大,人类将印刷资料输入电脑靠人工键入的方法已经远远地不能满足人们的需求,这种传统方法不仅速度慢,而且效率也不高,所以人类就将研究的核心放在了机器自主识别汉字上面了。
中国在1980年初印刷汉字系统。总的来说可以把这些分为三个阶段:
(1)第一个阶段就是在1979年末1980年初,人类对汉字识别系统的一些理论基础进行探索研究,这里面包括如何来提取出汉字的特性,汉字的结构组成以及周边特征等,取得了很大的进步。这一阶段主要是在实验室当中初步的实现汉字的识别,在生活中还没出现拥有该功能的产品设备。
(2)第二阶段是1989年末1990年初,我国已经拥有比较实用的中文OCR产品走向社会。我们可以在实际应用当中来检验这个产品了。作为一个汉字识别系统,首先它要满足用户的需求,用户的需求非常的灵活,只有在能大致满足用户的需求的前提下才能去适应市场的需求;其次它需要拥有高效的识别速度和质量;最后需要拥有强大的适应能力,在使用中能尽可能的排除一些外界因素的干扰。只要能很好地做好这三点,那么这个系统就能拥有进一步发展的机会。 (3)第三阶段,也是目前,人类将着重对这个识别系统进行最大程度的优化,提高对那些有多种问题混合的印刷材料的识别的效率。
2.2 印刷体汉字识别的原理分析及算法研究
目前,对印刷出来的材料和用手直接写出来的文本材料的识别是目前汉字进行辨别的两个不同类别。我们都知道,印刷材料当中的字体一般情况下都是不一样的,所以对印刷文字的识别可分为单种字体印刷材料的识别和多种字体印刷材料的识别。
图2-1所示为印刷体汉字识别的一般过程:
图2-1 汉字识别流程框图
2.2.1 预处理
利用一些扫描仪器作为输入设备所得到的数据必然会存在着一些外界干扰因素。因此,我们必须将干扰的因素降到最低,才能保证我们在下面的环节中有这较高的识别准确率,我们通常把这一过程叫做预处理。预处理通常有好几个环节,下面我就来一一介绍。
(1)版面分析
通常我们需要进行识别的印刷体汉字不仅仅是一段文字,而是一整个板块,所以我们在识别前,必须对该板块进行版面分析。它就是对需要识别的板块进行拆分,分离出板块中的文字、图像以及表格,并不打乱它们之间的相互联系,并将所有的文字拼到一起。在这一过程中,由于系统的缺陷,有些部分需要人工处理,最终,系统才能对版面完成分析。
(2)二值化
二值化就是将扫描的图像转换成为二值图像,二值图像是呈黑白分布的,分离出图像当中的汉字是二值化的最主要目的。每幅图像的像素都有其一定的阈值,我们要先确定它,并让它跟像素值进行比较,确定为1或0。如若阈值增益过小,会造成太多的信息和文本信息丢失或续断的损失,最终会造成文字信息提取丢失;阈值增益过大,保留的信息太多,可产生大量的无用信息,造成干扰的后处理。
(3)倾斜校正
往往汉字图像在输入设备时不是很规范的,总是会不定时的出现倾斜,这种干扰会造成下面的过程出现错误,所以这个环节在整个系统中还是比较重要的。在这个环节当中最主要的就是要准确的测量出图像的倾斜的角度。所以,要提高汉字的识别速度,必须要灵活地运用倾斜校正的各种方法。
(4)行字切分
汉字的分割是将汉字的形像,一个线分割和字符分割的两种方法。
分割线是与两线分支之间的间隙一致,并记录每行的上界和下界。上限是从上到下,汉字的像素值的每一行的积累,从一开始积累和大于实验常数,就是上限。同理,当一个汉字的高度和形势的积累不断出现,突然出现了一系列的小数目,就叫做下界。
字切分是按照两字之间的空隙来分析,然后记录下每个字的左边界和右边界。字切分比行切分困难得多是因为在文本汉字行中存在许多符号、数字、英文字母等方面的干扰。
(5)归一化
归一化的三个最主要的就是对文字的位置、大小以及笔画的粗细进行归一化处理。顾名思义,位置归一化就是将文字的的位置规范到同一平面内,以提高汉字的识别效率。而大小归一化就是将文字的大小都进行统一,这样同样也提高了识别的速度,所以这个环节也是有必要的。
(6)平滑
汉字在输入计算机后,汉字图像的边缘会是不是的存在着一些噪声干扰,所以,平滑这个环节的目的就是消除这些噪声干扰,这个环节也会提高汉字识别的效率,同时这个环节也会是误识率降低很多。
(7)细化
这表明,降低了图像的细节信息量,去除多余像素,这在图像处理中起着非常重要的作用。在精炼过程中,如果太多的像素去除,如某些关键点的去除,它将改变原图像的主要特征;如果去除的像素太少,那么不能充分的减少信息量,减少干扰。因此,细化处理的过程是一个高质量的过程。细化算法有很多种,针对不同的文字图像,识别的效果也不一样。细化必须保持连续的基本笔画,细化过程中会造成笔画的畸变。所以,在后续过程中需要消除这些畸变所带来的干扰。
2.2.2 汉字特征提取
在文字的预处理环节当中,对汉字的特性进行提取就是这个环节的主要内容,所以,汉字提取必须要有一定的准确率,这对汉字进行识别时的准确度有很大的提高。汉字特征当中最典型性的是结构特征和系统特征,这两种特征在不同的环境中有着不一样的工作效率。
汉字图像本身的清晰度直接关系到预处理的工作质量,这样即便是再喊的汉字特征点特征提取算法也无法提取正确的汉字特征点特征。因此,根据不同的使用要求,如何选取相结合的特点是汉字特性的提取的研究中心。
我们要做到最好,就需要对已经有良好效果的汉字特征进行研究,分析他们的优缺点和使用环境。下面是一些常用的汉字结构特征和汉字统计特征。
(1)结构特征
①抽取笔画法
抽取笔画法就是提取汉字的笔画组成,然后进行识别,在实际应用当中,汉字的笔画提取其实是很苦难的,所以这种方法并没有被广泛推广。
②松弛匹配法
松弛匹配法的操作速度较慢,不适合用于工作量比较大的识别环境当中,因为这种方法只能进行单字操作,将输入的汉字的边界线段组成临近线段表,然后进行边与边的匹配。
③非线性匹配法
通过Tsukumo等人提出的非线性匹配方法,是为了提高辨别汉字的能力,试图克服提取笔画的干扰的困难。
(2)统计特征
①笔画复杂性
文字笔划复杂性指数的定义如下:
(2-1)
(2-2)
式(2-1)和(2-2)中
、 一横向和纵向的笔画复杂性指数;
、 一横向和纵向的文字线段总长度;
、 一横向和纵向质心二次矩的平方根;
、 分别反应了在水平方向上何在竖直方向上汉字笔画的多少,在水平方向上笔画多的 大,在竖直方向上笔画多的 大。
②四边码
在汉字的点阵组成的图形的周围各选取一个部分,将点阵图像当中的像素点数分成四组就叫做四元码。汉字的边框结构总是最稳定的,所以,汉字的边框拥有较强的抗干扰能力,但是汉字的位置稍微的发生变化,就会造成识别的效率降低
③特征点
找到一些具有一定特点的笔画来分别不一样的汉字就是特征提取的主要目的。汉字的笔画的特性点包括了它的顶端、对折点以及交叉点,选择汉字的语境信息作为其特性,一方面可以提高系统的抗干扰能力,另一方面大大的压缩了特性的库的容量,而且具有较强的适应能力。
④笔段特征
笔段可以组成笔画,笔画可以组成汉字,所以,我们可以把笔段定为一定方向、长度和宽度的矩形段。笔段的特征提取比较困难,匹配的难度比较大,而且还会受到字体大小的影响,但是笔段特征提取法在对多体汉字识别是,取得了很好的效果。
本文需要研究的问题是如何选取最佳的特征来是整个系统的识别效果达到最佳。
2.2.3 汉字的分类识别
识别的过程包括用识别算法提取汉字的特征,再与标准的文字特征进行匹配。识别算法是整个识别过程的核心部分,就是对进过预处理后的原图像的二值图像进行识别。
识别不同的汉字种类的方法有很多种,各有各的优缺点,同样这也是汉字辨别体系的一个重要的环节。
(1)相关匹配
相关匹配法是一种统计识别的方法,它就是比较特征向量与模板向量之间的距离,然后进行分类。距离度量的定义:
设X,S分别为输入特征向量和模板的特征向量,n维。
① S阶Minkowski度量
(2-3)
(2-4)
绝对距离是一种最常用的一阶度量。即:
(2-5)
②欧氏距离
S阶Minkowski度量中,令s=2,得到的就是欧氏距离。
(2-6)
③加权距离
再输入模板上的分量的作用都是不一样的,有大有小,那么我们就需要使用加权值
(2-7)
因为每个模板的加权值都是各不相同的,因此可用下标j来表示。
S为输入向量与模板之间的方向的夹角的余弦值,即:
(2-8)
相似度经过加权也可以得到加权相似度:
(2-9)
其中,Wi为权值,且 ,
当一个类别有多个模板时,需要用多重相似度:
(2-10)
其中,Si是S类中的一个模板。P(i)是该模板的概率。
(2)文法分析
我们将输入的汉字看成是一个整体(符号串或语句),每种语言都有语法的约束条件,我们只需要判断输入的这个整体是不是符合这种约束条件就能够识别文字了,这种方法就叫做文法分析。
语法分析的困难是提取汉字的特性和模板的建立上,然而,这种方法对汉字的写作风格不敏感,辨别类似的文字的能力比较强,主要是因为它对笔段之间的关系分析。
(3)松弛匹配
松弛匹配法可以在结构分析中用来确定输入特征向量和模板特征向量之间的关系。松弛匹配法就是充分利用输入向量和模板向量之间的关系,通过对这些关系的分析,从而形成一个权值矩阵,然后对该矩阵进行修正,最后根据矩阵中的非零元素来计算输入两与模板之间的距离。
松弛匹配法可以对笔画进行匹配,也可以对汉字的特征点进行匹配。在识别过程中,它的识别结果是根据匹配程度来决定的,而且它还在迭代运算中考虑到了基元间位置关系的信息,所以,它在汉字识别中具有很好的效果。但是它在识别过程中吸收畸变的能力有所不足,而且运算量较大,需要增加一些手段来减少运算量。
(4)人工神经网络
人工神经网络的识别一向是研究人员比较感兴趣的方向,直至当下,神经网络已经被应用到各个领域当中,尤其是广泛应用于智能控制、信号处理、自动目标识别、传感器和机器人、生物和其他领域。
2.2.4 后处理
修改辨别错误的文字,确定模棱两可的文字,为进一步处理文字和文本,这就是后处理。下面是几种比较常用的后处理方法。
(1)简单的词匹配
在汉字的辨别过程中,会出现一些拒绝辨别的汉字,简单的单词匹配就会分析文本中的词,为其提供最佳的候选字,所以我们必须建立中国术语数据库,该数据库应具有完善的特征提取和匹配识别系统,需要能够反映不同词条的使用频率,更需要其拥有高效的检索速度,只有做到这样,才能给后续处理带来方便。
(2)综合词匹配
使用初步鉴定结果和词汇的使用频率,决定最后的结果是被称为综合词匹配法。综合词匹配法可以缩小搜索范围,并且还拥有较高的纠错速度,它可以充分的利用初级识别结果,这种方法比单纯的利用此条纠错的方法好得多。该方法具有基本的文字辨别过程和后处理过程。
(3)词法分析
不管是一个词还是一个短语,它们都有不同的组成规则。在不同的应用背景下,即便是相同的词或短语也会出现不同的分类结果。
组建出一个相对比较完整的输入数据库是汉字辨别语法的后处理的关键之处,从词的匹配数据,可以找到一个可以和拒绝词汇最佳匹配的词,然后得出最终识别结果,这就需要数据库当中必须要包括词条的词性、词频、语义信息及连接属性等。
(4)句法、语义分析
至今,人类已经有一套比较完善的语言组合法则,这种法则能够让人们共同接受和共同遵守,所以语句不管是从意义上还是从结构上都无法逃脱此规则。所以句法、语义分析的方法就是在词法进行匹配时,再进行句法、语义的分析,从而得到最终的识别结果。
句法、语义分析同样的也需要建立一个词条数据库,这个词条数据库需要拥有词的句法信息以及语义信息,同时要想这两种信息能够实行,还需要建立一套句法规则和语义规则 。
(5)人工神经元网络
有两种方法可以用于人工神经元网络的汉字识别后处理。一种便是比较等待识别的汉字和候选汉字之间的相似度,随后把它们都输入网络,找到最符合语法和情境的候选字,从而确定出最终结果;另一种就是将识别过程和后处理过程分开,先将已经进行过初级识别的短句输入网络 ,通过网络的运行,最终确定这些字。
2.3 印刷体汉字识别技术分析
2.3.1 结构模式识别方法
在汉字的组成结构中有着一种严格的规律,即便是多么复杂的结构。横、竖、撇、捺、点、勾是汉字的笔画中最基本的六种,这六种还能随意搭配,组成一些变形的笔画,例如撇点、横捺等。不管如何,汉字和图形的结构信息总是有规律可循的,我们把这些包含了它们结构信息的特点提取出来,用他们作为汉字识别的基础,这就是所谓的结构模式识别。
结构模式识别的方法通常以基本笔画作为基元,然后可以推理出汉字的使用形式以及自动机理论。结构模式识别方法的抗干扰能力比较差,而且在提取特征点这方面做的还不是很好,但是,这种方法在区分相似词语的方面比较强。总的来说,结构模式识别的方法的识别效率还不高,所以在利用这种方法是还需要用其他技术来进行处理。
2.3.2 统计模式识别方法
提取汉字的特征向量需要用到概率统计模型,然后利用决策函数的方法来把它们分类,这种方法就叫做统计模式识别方法。当然,统计模式识别的方法有很多种,其中最常用的两种方法就是最小距离分类和最邻近分类,下面我们就来简单的介绍一下这两种方法
a. 最小距离分类
最小距离分类器是将文字和点之间的远近程度作为分类的标准,,图2-2所描述了其中的结构。然后,将输入特征向量x自主分配给一共C个类别中的某一个类别ωk( k = 1 ,2 , ⋯,C) ,每个模型的典型模式mk都不一样。
图2-2 最小距离分类器系统图
b. 最邻近分类
最邻近法,就是假设有C 个类别ωi ( i = 1 ,2 ⋯,C) ,在每一个类都存在已经标注了类别的样本Ni 个(i = 1 , 2 , ⋯,C)。ωi 的判别函数的规定如式(2-11) 所示。其中 的角标i 表示ωi类,k 表示ωi 类Ni 个样本中的第k 个。
, k=1, 2… (2-11)
, i = 1 , 2 …,C (2-12)
如果公式(2-12) 成立,就决定x ∈ωj 。比较不知道类别的样本x 与N 个已经知道类别的样本之间的欧式距离并决定出x 的相似的同类,取与之最近的一个。
常用的汉字统计模式识别方法包括:
(1)模板匹配
模板匹配的方法需要占用系统很大的内存空间。在使用这种方法时,系统需要花费大量的时间来寻找相似字,而且这种方法在匹配那些不规范的文字时,将会提高系统的误识率。
(2)利用变换特征的方法
各种职能的转变都是转换文字的图像的特性,常用的变化的方法有K-L变换、Fourier变换和Gabor变换等。这些变换都是存在一些缺陷的,所以在使用这些变换之前需要进行合适的处理。
(3)笔画方向特征
PDC是指文字的周围的笔画的密度,G-DCD是指文字所有笔画的密度,L-DCD是指文字的局部组成的笔画的密度。前者用于单字识别,后两者用于预分类。笔画方向贡献就用来描述这些特特性的理论指导。
(4)外围特征
汉字的轮廓的信息可以反映外周汉字的特点。在正常情况下,都能提取出完整的汉字的轮廓的信息,因为汉字的周边概括拥有很全面的特征。
(5)特征点特征
大多数的信息是从汉字的骨架上汉字的特征点得出的,并能反映汉字的骨架信息。汉字的结构形状通过特征点就可以被确定下来。从经过细化后的单像素图像中能提取出汉字的特征点,往往,汉字的细化过程中总是会出现一些微小的干扰,而这些干扰就会影响到汉字特征点的提取质量。
如表1-1所示的统计方法和结构方法的比较:
表1-1 统计方法和结构方法特征比较
项目 方法 识别策略 判别方法 文字变形 变体 特征 提取 相似文 字区分
统计方法 向量维数 距离、 类似度 适应性差 容易 不易区分
结构方法 分而治之 串行判决 适应性好 不容易 容易区分
2.4 印刷体汉字识别的分类
在进行汉字识别过程中,汉字数量总是很庞大。识别总信息量比英文数字大得多,会大大增加识别时间。所以,汉字识别一般情况下都是从粗到细进行分类辨别的,从而人人提高识别速度。进行印刷体文字的辩别过程中最常用的方法就是有层次的粗糙的分类方法。
对于粗分类,要求如下:
1.粗分类的分类效率要高。
2.粗分类的速度要快。
3.粗分类的分类稳定性要高。
4.粗分类要有简单的特征,以便减小分类字典的容量。
5.粗分类跟细分判别方法之间要相互协调。
第三章 系统的实现与仿真
3.1系统的实现
首先扫描印刷材料上的文本文字,先通过最开始的处理环节后,将输入的汉字比较有准则的文字,进行修正,就会产生一个最原始的文字的特性库,最终将大量样本用来对比,创建出一个非常实用的特征库,这样在识别过程中汉字能够自行学习。计算每一个标准汉字的面积,并将面积按从小到大的顺序进行排列,建立起与该汉字国标码的指针。这个体系可以分成5个组成部分(见图3-1)。
图3-1 系统模块图
图3-2 系统流程框图
系统的工作流程如图3-2所示,文件管理其首先加载文件信息,然后送入图像预处理模块,该模块首先将汉字图像转灰度图像,再经过均值滤波、二值化、行字切分等环节,得到该文字的点阵,最后进过汉字识别模块利用十三点特征提取法进行特征的提取与匹配,最终读出准确的识别结果。
3.2系统的仿真
我用MATLAB软件仿真系统初步实现对印刷体文本文字的辩别功能(Matlab仿真程序见附录1),自学的功能我用sim函数来呈现,用十三点特征提取法来进行特征的提取。
y = sim( net, P_test);%用神经网络计算数据的第P_test行,这行的数据是进过自我学习的;其中net是SIMULINK的模型名(神经网络的对象见附录2);P_test是外部输入向量。
十三点特征提取法:
该方法就是画4条线,然后计算这4条线上黑色像素的个数,则会得到4个特征点。最后一个特征就是所有黑色像素的综合。
该系统首先对标准的印刷体文字图像进行辨别(见图3-3),在进行别的过程中再转变成了灰度图像(见图3-4),然后进过均值滤波这一过程(见图3-5),最后就是对其进行二值化处理(见图3-6),整个系统的识别结果见图(3-7)。
图3-3 标准图像
图3-4 标准图像转灰度图像
图3-5 标准图像均值滤波图像
图3-6 标准图像二值化图像
图3-7 标准图像识别结果
当这个系统仅过了标准的图像识别训练,然后我再输入一个排列为乱序的图像(见图3-8),图像进行了灰度的转换(见图3-9),接着进行均值滤波环节(见图3-10),最后同样的进行二值化处理(见图3-11),输出了辨别的结果(见图3-12)。
图3-8 乱序图像
图3-9 乱序图像转灰度图像
图3-10 乱序图像均值滤波图像
图3-11 乱序图像二值化图像
图3-12 乱序图像识别结果
从上面的实验结果可以看出,当输入的图像是标准的,经过转灰度,均值滤波,二值化,识别输出。当输入的是乱序图像时,系统同样能够准确的输出是别的图像。这就已经证明了,这个系统已经能偶初步准确的实现汉字辨别并进行自主匹配的功能。
第四章 总结与展望
4.1 总结
我们都知道,我们的生活已经离不开文字,所以也就可以充分的肯定了汉字识别技术对人类的重要性。本文介绍了对印刷体文字进行识别的目的、意义以及这门技术的背景;对其基本原理做了描述;并对印刷体汉字识别过程中预处理、特征提取、匹配识别和后处理的常用方法进行了介绍;最后利用Matlab软件对其进行了仿真。印刷体汉字识别是以前未接触过的领域,但通过学习有了新的认识,并能初步实现简单的汉字识别,从中受益匪浅。更加认识到学习的重要性,在以后学习中,我将敢于向新的领域发起冲击,并坚持钻研精神,争取有所突破。
4.2 展望
近几年来国内已经在市场上应用的产品已经拥有了很高的识别效率。在目前相对比较成熟的识别系统下,研究的方向已经逐渐的转向了识别的后处理上,提高识别正确率的最好方法就是在预处理过程中与语义理解相结合。如果计算机能够像我们人类一样,能够通过对一些文字的语境的理解,从而识别出该文字,那么,识别的效率和质量就会提高很多,误识率也会降低很多。识别方法的无限优化和后处理技术的不断成熟将会使人类未来的文字识别的研究方向。
我国的印刷体汉字识别技术从最开始的单子识别到混排识别,从只能识别中文材料到识别中英混排材料,可以说是已经有了飞一般的进步。但是,目前的技术还存在许多能够改进的地方,比如说在印刷的质量较差时,系统的误识率就会较高;当印刷材料的版面比较复杂时,系统自动理解的技术需进一步提高。这些都将会是汉字识别技术需要研究的方向。
*查看完整论文请 +Q: 3 5 1 9 1 6 0 7 2
关键字:
目 录
摘 要 III
第一章 绪论 1
1.1 汉字识别的研究意义及本文研究的主要内容 1
1.2 印刷体汉字识别研究的背景 1
第二章 印刷体汉字识别的实现 4
2.1 印刷体汉字识别技术的发展历程 4
2.2 印刷体汉字识别的原理分析及算法研究 4
2.2.1 预处理 5
2.2.2 汉字特征提取 6
2.2.3 汉字的分类识别 8
2.2.4 后处理 10
2.3 印刷体汉字识别技术分析 11
2.3.1 结构模式识别方法 11
2.3.2 统计模式识别方法 11
2.4 印刷体汉字识别的分类 13
第三章 系统的实现与仿真 14
3.1系统的实现 14
3.2系统的仿真 15
第四章 总结与展望 19
4.1 总结 19
4.2 展望 19
原文链接:http://www.jxszl.com/dzxx/dzkxyjs/5667.html