基于卷积神经网络的手写体数字识别算法研究【字数:11196】
目录
摘要 1
关键词 1
Abstract 1
Key words 1
引言 1
1 选题背景 1
1.1 研究意义 1
1.2 国内外研究状况 2
1.2.1 国外研究状况 2
1.2.2 国内研究状况 2
1.3 研究的目的和内容 3
2 开发平台及应用技术 3
3 数据集获取 5
3.1 MNIST数据集 5
3.2 自制数据集 6
4 图像预处理 7
4.1灰度化 7
4.2 二值化 7
4.3 分割 8
4.4 压缩图片 9
4.5 归一化 10
5 数字识别 10
5.1 K近邻法 10
5.1.1 KNN算法原理 10
5.1.2 KNN的实现与分析 11
5.2 BP神经网络 12
5.2.1 BP神经网络算法原理 12
5.2.2 BP神经网络的实现与分析 12
5.3 卷积神经网络 14
5.3.1 卷积神经网络算法原理 14
5.3.2 卷积神经网络的实现与优化 15
5.4 手写体数字识别算法比较分析 16
6 系统 *51今日免费论文网|www.jxszl.com +Q: @351916072@
实现与分析 16
6.1 系统展示 16
6.2 系统分析 18
7 总结与展望 18
7.1 研究总结 18
7.2 存在的不足 19
致谢 19
参考文献 20
基于卷积神经网络的手写体数字识别算法研究
引言
引言
1 选题背景
1.1 研究意义
尽管电子化办公、通信正在慢慢替代传统方式,但传统的手写文档仍占据一定市场,如银行填写汇款单、学校统计信息、公司填制发货单等等。而后期的汇总统计一般采用人工手动录入,将手写纸质文档转换成电子文档,这无疑是一种机械繁琐且效率并不高的做法。互联网应用技术的不断发展和人工智能的出现,为改善这种情况提供了新的方法,光学字符识别可完成自动转换。数字作为字符的重要组成部分,应用场景十分广泛且严谨性较高,如个人信息中最关键的身份证号、金融领域的财会数字等对准确率要求极高。目前主流的录入方式仍然是人工手动输入,但这种方式时间、人力资源成本高。虽然只有09这十种数字,但正是因为其笔划简单、字体平滑、字形相似,不像汉字有明显的结构特征,想要准确区分某些数字(如“5”和“6”)是非常困难的,而且作为一种全世界通用字体,世界各个地区的人都在使用,数字的写法多样,具有明显的地域特征,识别起来更为困难。由于数字不像汉字一样有上下文关系,所以对于用户而言数字识别的要求更加严格。此外,人工手动输入时难免会因疲劳、眼花而识错、输错,且人力本身存在不可抗力因素。因此,为提高工作效率和准确率,需要将人们从数据录入的枷锁中解放出来。本文结合目前热门的机器学习对手写体数字识别进行算法研究。
1.2 国内外研究状况
1.2.1 国外研究状况
OCR的出现甚至早于计算机,1929年OCR的概念就已率先出世且它的提出人也因此获得专利。OCR产品出现在20世纪60年代早期,在此期间,IBM、Ncr、Hitachi和Fujitsu等公司都开发了自己的OCR产品。从20世纪60年代中期到20世纪70年代早期,OCR产品只识别手写风格的数字。接着开始识别其他形式的的数字、英文字母及一些简单的符号。
1974年,东芝公司开发的OCR产品取得很大进展,实现了信件分拣系统,准确度令人惊喜。1977年,东芝公司又开发了一种单字汉字识别系统,能够识别两千多个印刷体汉字。后来,随着计算机的出现和发展,OCR在全球范围内得到了广泛的研究和开发[1]。
Amir Sedighi等[2]为车牌图像中的字符识别提供了一种新的方法,先通过高斯低通滤波器和拉普拉斯变换来进行预处理,分割后采用两种前馈神经网络和反向传播学习方法进行字符识别,该方法在恶劣成像条件下具有良好的鲁棒性。Zanchettin等[3]在识别草书文字时,引入了专用支持向量机(SVM),显著提高了KNN在手写识别中的性能。针对手写字符识别,Munish Kumar等[4]提出了两种不同的特征提取技术, 即基于抛物线曲线拟合的特征提取和基于功率曲线拟合的特征提取。J. DiazEscobar等[5]利用自适应形态滤波器和相位滤波器库,提出了一种识别退化文档图像中上下文无关字符的可靠方法,利用计算机仿真,比较了传统的和提出的在扭曲的文档图像中检测和分类拉丁字母字符的方法的运行结果。Rafaqat Hussain等[6]提出了一种新的分割和识别方法,该方法采用简单的图像处理技术和基于文本的CAPTCHAs人工神经网络,该算法可用于古籍数字化、笔迹识别等类似任务。Aro Taye Oladele等[7]提出了一种对阿拉伯数字和字母字符的光学识别方法,对阿拉伯数字的识别准确率达到91.66%,对字母字符的识别精度达到92%。Şaban Öztürk等[8]提出了一种卷积神经网络 (CNN) 模型HICnet,用于在全幻灯片组织病理学图像(WSI)上自动识别癌变区域。
1.2.2 国内研究状况
国内OCR技术的研究开始得比较晚,20世纪70年代才开始研究手写体数字、英文字母和简单符号的识别。直到1986年才实现了许多国内研究机构开发出中文OCR产品这一实质性的发展。
秦鑫等[9]在BP神经网络的基础上为数字识别提供了一种简单的方法,实验结果表明,该方法的识别率较高,具有实际性用途。宋昌统等[10]构造了基于概率神经网络的分类器,通过数据输入、特征提取、模型训练、测试等步骤完成了手写体数字识别,最终结果显示识别率较高。王卫华等[11]为解决无法有效识别几何变换后的手写体数字的问题,提出了一种基于Grassmann流形度量的方法,实验结果表明,该方法识别速度快,具有一定的实时性。张明月[12]提出了一种新的网络架构:FastSeg Net网络架构,该架构采用的是最新的残差网络结构,并使用稀疏卷积、分解卷积等操作,在没有牺牲识别速度的情况下改善了识别精度。张志佳等[13]设计并提出了一种基于连续非对称卷积结构的手写体数字识别的深度学习算法,结合极限学习机和MSRA初始化设计网络结构,最终识别率高达99%以上。高磊等[14]构建了卷积神经网络(CNN)模型结构,采用CNN模型中典型的LeNET5的卷积模型,通过对采集图像进行逐层学习、训练与测试,将学习到的高层特征用于手写数字识别,结果表明可获得较高的识别率,具有一定的通用性。郭伟林等[15]在对手写体数字图像进行特征提取时,将其分为四个部分计算LBP直方图,把得到的直方图作为识别特征,最终手写体数字识别的准确率可达到95.31%。卜令正等[16]为解决包含手写体数字和数码管数字的识别问题,提供了一种基于卷积神经网络的多源数字识别方法,实验结果证明该方法识别率得到提高,且性能较为稳定。
原文链接:http://www.jxszl.com/jsj/jsjkxyjs/563907.html