毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
MATLAB语音识别系统的设计+DTW算法+流程图(6)
2.3.1 特征参数提取的特点
从语音信号中提取能反映词条个性的参数是语音识别的关键。在理想情况下,这些特征应该具有如下特点:
(1)具有很高的区别词条的能力,能够尽量充分体现不同模板之间的差异,但是在词条本身语音发生变化时却能保持相对稳定。
(2)当输入的语音信号受到信道和噪声的干扰时,能够保持较好的顽健性。
(3)易于提取,计算简单,在特征参数的各文空间具有较好的独立性,在保持高识别率的情况下,还要尽可能运用较低的文数以减少计算量。
(4)不易被模仿。
2.3.2 主要特征参数
任何实信号的特征都分为时域和频域两部分,时域的特征有短时平均能量、共振峰、基音周期、短时平均过零率等。频域的特征参数常用的有幅值、能量、线性预测系数、LPC倒谱系数、反映人耳听觉的Mel频谱倒谱系数等。
MFCC则直接利用离散傅里叶变换得到,结果是MFCC更符合人耳的听觉特性,没有任何前提假设的束缚,任何情况都可运用,适用范围广。语音信息的能量大部分集中在低频部分,而高频部分更容易受环境影响,MFCC参数将线性频标转化为MEL频标。在噪声的影响下,MFCC参数具有更高的准确率。
人耳具有一些特殊的功能,这些功能使得人耳在嘈杂的环境中,以及各种变异的情况下仍能正常的分辨出各种语音。这种功能的关键是耳蜗的作用,耳蜗充当了一个滤波器组,并且人耳对不同频率的感知能力也不尽相同,在1000hz以下,感知能力是随频率成线性关系,而在1000hz以上,感知能力则随频率成对数关系。于是人们根据实验得到了摸仿耳蜗作用的滤波器组,即MEL滤波器组。频率的提出就是为了模拟人耳对频率的感知能力,其意义为:1Mel为1000hz的音调感知程度的一千分之一。
MFCC倒谱系数计算步骤为:
(1)首先将信号进行分帧、预加重和加汉明窗处理,然后进行短时傅里叶变换,得到其频谱。
(2)继而求出频谱的平方,即得能量谱,接着通过M个MEL带通滤波器对其进行滤波,因为每一个频带中的分量产生的影响在人耳中是叠加的,因此将每个滤波器带内的能量都进行叠加,记第k个滤波器输出功率谱 。
(3)在上述基础上对每个滤波器的输出取对数,得到对数功率谱;然后对其进行反离散余弦变换,得到L个(一般L取12~16个左右)MFCC系数。MFCC系数计算公式为:
(2)
(4)将这种得到的MFCC系数作为静态特征,再将这种静态特征做一阶和二阶差分,得到相应的动态特征。
将经过预处理的时域离散信号x(n)补零后经过离散傅里叶变换得到线性频谱X(k),离散傅里叶变换的公式为:
(3)
LPC分析是估计语音信号功率谱的一种有效的方法。把合成滤波器看成是一
个P阶AR模型,那么就有:
(4)
式(4)中, 是合成滤波器H(z)的频率响应; 是语音信号的傅里叶变换,即信号谱。然而,语音信号并非是p阶AR模型,因此 只能看做是对信号谱的一个估计[12]。
通过求取预测器多项式的根,可以实现对共振峰的估计。
2.4 模式匹配
2.4.1 识别原理
识别过程是从待识语音中提取特征形成待识模式,与参考模式进行模式匹配、比较和判决,从而得出识别结果。在识别阶段,待识别语音信号经过与模板相同的预处理等通道得到语音参数,生成测试模板,将其与参考模板进行模式匹配,将匹配分数最高的参考模板,也即是将参考模板与测试模板差异最小的作为识别结果。如果模板库中没有与之匹配的参考模板,则会报错。
共9页:
上一页
1
2
3
4
5
6
7
8
9
下一页
上一篇:
Matlab小波变换在图像处理中的仿真及应用+源码
下一篇:
印制板的电磁兼容设计+Multisim对原理图仿真
自回归模型谱估计方法设计+Matlab源代码
基于LBG算法的语音信号的矢量量化方法设计
MATLAB舰船电能分配及管理系统设计
Matlab的光栅投影相位校正与展开算法设计
基于蓝牙和语音识别技术...
MATLAB数字图像处理的交通信号灯识别系统设计
基于MATLABGUI的粒子滤波算法实现+源代码
中国古代秘书擅权的发展和恶变
《醉青春》导演作品阐述
国内外无刷直流电动机研究现状
多元化刑事简易程序构建探讨【9365字】
浅谈新形势下妇产科护理...
拉力采集上位机软件开发任务书
高校网球场馆运营管理初探【1805字】
谷度酒庄消费者回访调查问卷表
辩护律师的作证义务和保...
浅谈传统人文精神茬大學...