"景先生毕设|www.jxszl.com

声调识别与强化算法研究与实现

2019-12-13 10:12编辑: www.jxszl.com景先生毕设
声调识别与强化算法研究与实现[20191213093251]
摘 要
汉语是音节声调语言,包括声母、韵母和声调三个属性。其中,声调有着重要的辨义作用,便于连续语音的切分。在连续语流中声调组合及其模式对于提高单词和单句识别率及语音理解是不可或缺的。声调对研究汉语语音识别有重要意义,对形成个人语音声调特征进行说话人识别也具有重要意义。因此,汉语声调特征的研究具有很高的理论研究意义和实际应用价值。
本文重点研究了声调识别算法。首先,为了获取有效的语音段,文中采用了短时能量和过零率相结合的方法来切割辅音和元音,以及低噪音和语音段。其次,由于声调特征可以用基音轨迹表示,本文采用基于自相关平方和时域校正相结合的方法提取基音频率。另外,还采用了中值滤波和线性平滑化方法相结合方法对提取的基频序列做平滑处理。最后,为了统一基音序列的长度,便于后期识别声调,又采用了插值和规整方法。
此外,本文还采用了一种基于基频包络形状及均值修改的声调增强算法,使得人们对经过增强后的语音的声调识别正确率有较大幅度的提高。进一步,来达到语音增强的目的。
 查看完整论文请+Q: 351916072 
关键字:声调;声调识别;声调增强
Keywords: tone; tone recognition; tone enhancement 目 录
摘 要 I
ABSTRACT II
第1章 绪论 1
1.1 声调识别概述 1
1.2 课题的研究背景与意义 2
1.3 本文研究的内容 3
第2章 语音信号预处理概述 4
2.1 语音信号的采样 4
2.2 语音信号的预加重 5
2.3 语音信号的分帧和加窗 7
2.4 语音信号的端点检测 9
2.5 本章小结 12
第3章 声调识别与强化系统设计 13
3.1 汉语声调 13
3.2 特征提取 14
3.2.1 语音采集 15
3.2.2 语音分割 15
3.2.3 提取基音频率 18
3.3 声调强化 24
3.4 声调识别 25
3.5 本章小结 28
第4章 声调识别与强化算法仿真 30
4.1 语音信号预处理算法仿真 30
4.2 系统算法仿真 34
4.3 实验结果分析 37
4.4 本章小结 38
第5章 总结与展望 39
5.1 总结 39
5.2 展望 39
参考文献 41
致 谢 43
第1章 绪论
1.1 声调识别概述
语音是人与人交流的重要介质,是人类特有的一种交流工具,具有传播快、无方向限制、可以在黑暗中传播的特点,还包含了传播者的身份、情感等信息。语音是语言的声学表现,人类可以将语言信息转换为声音信号。语音信号的处理是不仅涉及了语音学和数字信号处理,还包含了现代化的语音处理技术,主要的研究有以下几个方面:语音编码、语音合成、语音识别、语音增强、说话人识别、语种辨别及语音信息中的感情信息处理等。语音识别就是将人类语言中的内容转换为计算机可以识别的输入,然后对语音中的内容进行提取以确认其中的语音含义[1]。由于声调是汉语的重要特征之一,声调识别就是汉语语音识别的一个重要方面。
从语言学上来说,音节是汉语最小的发音单位,基本上一个字对应一个音节。在汉语普通话中,每个音节由声母、韵母和声调组成。所以,声调是汉语最大的特点。即使声母韵母相同,声调不同,意思也会不同的。汉语中有22个声母,38个韵母,4种声调(包括轻声为5种)。声母和韵母可组成400多个无调音节,配上四声,大概能组成1300个有调音节,可承担几乎所有汉语的语音。汉语是音节声调语言。汉语语音识别是将声调、声母和韵母分离,通过分别提取声调、声母和韵母的特征,然后将其识别。
根据多年的研究,逐渐形成了声调识别的一般过程:语音获取、特征提取、模式分析、识别模型的建立以及声调的识别[2]。如果识别对象是连续语音的话,还要根据基元的不同对基元进行分离。最常用的声调识别方法是:首先在实验观察的基础上定义一定的规则,然后提取语音数据的基音频率参数,并且观察基音频率轨迹,当它的某一参数超过规则中预先设定好的某一阈值时,则判定为某一声调[28]。这种方法在大多数时候可以完成声调识别任务,但是也有一定的不足。一方面,由于不同说话人的基音有很大的差别,仅提取基音频率作为特征参数是不够的,特别是当识别的非特定人数很大时,识别率会有明显的下降;另一方面,特定的规则需要预先设定,不能达到模型的自动建立。这些缺点都是都为声调识别的研究方向提供了基础。
目前,国内外已提出过许多声调识别方法,也产生了很多特征提取和识别的方法,其中大多数都是通过对包络线的特区来进行识别声调的。此外,只要有机器的存在就有可能用到语音识别系统,而目前语音识别系统也逐渐应用广泛。因此,在新一代的操作系统中加入语音识别系统的元素就会成为可能。
1.2 课题的研究背景与意义
汉语是具有声调特征的语言。在汉语中声调承担着重要的辨义作用,就算是相同声母和韵母构成的音节也会因为声调不同而表达出不同的意义。目前随着汉语语音识别技术的飞速发展,声调对其的重要性已被众人所知。由于声调信息的加入可很大程度上减少搜索范围,提高语音识别的速度和准确度。因此从连续语音中分离并识别音节的声调模式是重要的研究工作,对探讨具有汉语特色的新的语音识别方法有重要意义,对形成个人语音声调特征进行说话人识别也具有重要意义。
就当前语音识别的研究来说,大词汇非特定人连续语音识别是主流,也是使其从理论走向实际的重要工作。由于连续发音时相邻音节之间的影响较大,使得语音的很多特征发生变化,甚至畸变,其识别远远比孤立字的识别困难得多,有很多问题值得研究。声调作为汉语语音识别的一个重要方面,研究其在连续语音中的特殊性非常有意义。
近年来国内外已提出过许多声调识别方法。针对孤立字声调识别的研究基本上开始进入实用阶段。二字词声调可用隐马尔可夫识别方法等,其中对连续语音音节的声调模式有初步研究。二字词节奏是汉语的主要语音节奏,连续变调已有固定的规则。在孤立字和二字词的基础上,三字词可分为单双、双单和并列三种结构。三字词的连续变调虽然可根据二字词变调来继续实现,但是前后音节的相互作用,使得某些声调的基音周期特性曲线变得有些复杂,其声调识别的研究也就相对困难得多。
此外,声调增强在语音处理技术中也是一种重要的技术,研究不同的声学特征对声调感知的具体作用,提出相应的声调增加算法对于听力障碍患者的康复治疗有着现实意义[3]。因此,研究声调增识别与强化算法在语音信号处理方面是有必要。
1.3 本文研究的内容
本文针对声调识别与强化主要的研究内容如下:
(1)分析完整的语音信号的预处理模块,主要阐述了信号采样、预加重、分帧加窗以及端点检测的原理和分析。
(2)带噪声端点检测。本文采用短时能量和短时过零率相结合的方法,力求使噪声的干扰降到最低,满足抗干扰的要求。
(3)分析研究语音的特征提取,主要是提取语音信号的基音频率,以其包络线反映声调的特征。本文采用了自相关平方与原始语音信号相结合的方法来完成这一任务。
(4)分析声调增强系统以及相关算法。
(5)分析介绍了声调识别方法。
第2章 语音信号预处理概述
语音识别系统针对的对象是人类语言。语音识别系统是一个综合多学科的领域。我们研究系统的应用时,要考虑到如:词汇量、识别任务、噪声以及说话的语气等这些因素。语音处理过程如图2.1所示,每个模块都有其不可缺少的必然性。本章主要阐述了预处理模块的关键技术。
图2.1 语音处理过程
我们在对语音信号进行预处理时,要经过几个步骤。具体包括信号的数字化采样和滤波、预加重、分帧加窗以及端点检测等。每一个环节都有其存在的重要性。一般来说信号经过处理工作,一定程度上是可以提高系统的识别率。由于预处理工作的结果会对后续工作产生影响,可能会达不到预期的识别效果。因此,为了接下来的工作有个良好的结果,预处理必须达到所需的要求。
2.1 语音信号的采样
为了让机器能够识别语音信号,我们一般会对信号做数字化处理,包含滤波这一过程,如图2.2所示。在此我们引入采样定理:在进行A/D转换时,当采样频率 大于信号中最高频率 的2倍,即 时,则采样之后的数字信号完整地保留了原始信号中的信息,也就说可以恢复出原来的模拟信号。采样定理又称奈奎斯特定理。
图2.2 采样过程图
根据采样定理,我们可以很好的将模拟信号转换成数字信号,从而进行语音识别。就语音信号而言,其频率大概是4KHz左右,有的可能超过10KHz。如果想要得到精确的采样结果,可以恢复出原始信号,可能采样频率就应不小于20KHz了。但是实际应用时,采样频率并不需要如此高。对此有研究发现,真正对语音清晰度和可懂度有明显影响的成分,其频率只能达到约5.7KHz。而一般项目应用时,选用的频率范围可能更小。例如,ITU在语音编码方面只考虑到频谱在3.4KHz以内的语音分量。因此,本文采用了8KHz采样频率进行试验。
一般来说在采样之前,还要进行一次预滤波。这样做的目的有两个:一方面,抑制频率超过 的所有分量,以防出现混叠干扰;另一方面,抑制50Hz的电源干扰。采样是在预滤波之后进行的,其效果如图2.3所示。由此可见,语音的预滤波应使用带通滤波器才能达到要求。
图2.3预滤波效果图
2.2 语音信号的预加重
系统一般还会对语音信号进行预加重,这么做的目的主要有两个。一方面,由于语音信号在发声的过程中可能会受到声门激励和口鼻辐射的影响,其平均功率谱在高频部分可能会发生快速衰落现象。因此,为避免高频部分降低带来的噪声干扰,以致影响了识别效果,在信号分析之前需要增强高频。另一方面,为了对数字化的语音信号进行后续的平滑处理以及减少在以后的信号处理中受到精度的影响,也要进行预加重处理。
由此可知,预加重在数字信号处理中的重要性,它不仅提升了高频部分,还避免了噪声的干扰,使信号的频谱更加平坦,一定程度上提高了信噪比。通常,都采用数字电路实现预加重过程,其数字滤波器的形式为:
(2.1)
其中:x(n)为原始语音序列;y(n)为预加重后的序列;α为预加重系数。
通常,α值在0.9-1.0之间。本文采用α=0.95进行语音的预加重。如图2.4所示为预加重的过程图,其函数表达式为:
(2.2)
图2.4 预加重过程图
其中,H(z)是对输入信号进行处理的函数。预加重效果如图2.5所示。
图2.5 预加重仿真图
2.3 语音信号的分帧和加窗
对语音信号进行分析可知,它是一种具有时变性的非平稳信号。但是,我们在进行数字信号处理时,总是希望处理对象是平稳的。已知,发音器官的运动相比声音振动速度来讲要缓慢得多,在相对短的一段时间内,其频谱特性和某些物理特征参量可近似地看作是不变的,可以看成是平稳的。而语音的形成过程又与这种运动与密切相关。因此可以将在10-30ms的时间段内的语音信号假定为短时平稳的,再用平稳过程的分析处理方法对其处理。这就形成了“短时分析技术”,包括短时能量、短时平均幅度、短时过零率、短时自相关函数、短时平均幅度差函数、短时频谱和短时功率谱等。
短时分析就是将语音信号分为一些段来处理,每一段称为一帧。帧长一般取20ms,帧与帧之间的平滑过渡(即帧移)一般是帧长的一半。分帧示意图如图2.6所示,在此过程中,帧与帧之间并不是一点重合的部分都没有的,一般都按要求重复。再根据短时平稳的特性,可以说对每帧语音进行处理就等效于对固定特性的持续语音进行处理。每帧语音之间彼此经常有一些重叠,对每一帧的处理结果是一个数或是一组数[4]。
图2.6 分帧示意图
设原始语音信号采样序列为x(n),将其分成短段,相当于乘以幅度为1的移动窗 。当移动窗幅度不是l而是按一定函数取值时,短段的各个取样值将受到一定程度的加权。对语音信号的各个短段进行处理,实际上就是对各个短段进行某种变换或施以某种运算,其一般式为:
(2.3)
其中T[]表示某种变换,它的线性与否是没有规定的,一切根据具体要求。Q(n)是经过一系列变换之后得到的一个时间序列。对于 所表示的窗函数,用得最多的是矩形窗、汉明窗、汉宁窗 [5],定义如下:
(1)矩形窗: (2.4)
(2)汉明窗: (2.5)
(3)汉宁窗: (2.6)

原文链接:http://www.jxszl.com/dzxx/txgc/1540.html