工控网首页
>

应用设计

>

基于语音识别的智能家居系统研究(2)

基于语音识别的智能家居系统研究(2)

2010/8/27 13:15:00

3 系统的软件设计
    系统首先通过移植vivi BootLoader、Linux 操作系统建立系统的开发环境,然后再开发语音识别程序及硬件驱动程序并把它们烧写进目标板。其中重点难点在于语音识别程序的开发,本文只介绍此部分。
3.1通信信道噪声的消除
    基于电话的语音识别不同于普通的桌面语音识别,要想达到较好的识别效果,噪声的影响不能忽略。而RASTA滤波处理正是通过一个低端截止频率很低的带通滤波器对语音参数的时间轨迹进行滤波处理,以使频谱中的常量或者缓慢变化的部分得到抑制。系统引入了RASTA滤波技术并把它应用到Mel对数谱上,使得变化缓慢的通道噪声得到抑制[2]。
    MFCC通过构造人的听觉模型,以语音通过该模型(滤波器组)的输出为声学特征,经过离散傅里叶变换(DFT)后,可得MFCC为


    
    式(1)中,f (k)为第k个滤波器的对数输出,n为MFCC的阶数,M为滤波器的个数。
    设RASTA滤波器的系统函数为H(z),则


  
    又设分别代表RASTA处理前和处理后的第k个Mel频带对数频谱,则有:


    
    再对Mel频率对数频谱进行离散余弦变换(DCT),可得:


   
式(5)中是经过RASTA处理后的n阶MFCC。将式(4)代入式(5),可得


    
    从式(6)中可以看出,RASTA处理完全可以从对数频率谱扩展到倒谱,即先求出MFCC,然后再做带通滤波处理,从而减少计算代价。
3.2语音识别算法
    在对语音信号提取MFCC特征参数及RASTA滤波去噪以后,语音信号就转化成为一组组特征向量,而语音识别算法的作用就是将待识别的语音信号的特征向量同系统中已建立起来的特征向量模板进行比较,找出最优的匹配模板。目前,常用的语音识别算法有隐马尔可夫模型(HMM)算法、动态时间规正(DTW)算法和人工神经网络(ANN)算法。其中,DTW算法具有系统开销小、运算速度快、对孤立词和小词汇表的识别简单而有效等特点,非常适合嵌入式系统的研制,而改进的DTW算法进一步减小了对计算量和存储空间的需求,因而本系统选用它作为系统的识别算法。
    DTW算法是利用动态规划的思想, 将一个复杂的全局最优化问题化为许多局部最优化问题来处理,并自动寻找一条路径,使两个特征矢量之间的积累失真量最小,从而避免由于时长不同而可能引入的误差。
    设参考模板共有M帧矢量,待测语音模板共有N帧矢量(一般M≠N),则动态时间归正就是寻找一个时间归正函数m=ω(n),它将测试矢量的时间轴n非线性地映射到模板的时间轴m上并使得测试矢量和模板矢量各帧之间的距离测度的累积和最小,从而使得两矢量之间的匹配路径最小,这样就保证了待测模板与参考模板之间具有最大的声学相似特性。通常,规正函数m=ω(n)被限制在一个平行四边形(设为ABCD)网格内,它的起点坐标是(1,1),终点坐标为(N,M ),相邻两边的斜率分别为2和1/2,如图4所示。

 

 


    即只需对位于平行四边形ABCD内的各点对应的帧匹配距离进行计算即可,然而传统的DTW算法却对整个矩形区域MBND都进行了计算,增加了系统的计算量。此外,传统的DTW算法还保存了所有的帧匹配距离矩阵和累积距离矩阵,而实际上每一列各个点上的匹配计算只用到了前一列的3个网格。改进的DTW算法对以上两点进行了改进,把实际的动态规正拆分为(1, Xa), (Xa+1,Xb),(Xb+1,N)3段,其中,Xa和Xb为最相近的整数且满足下式


    
    当不满足以上条件时,认为两者差别实在太大,无法进行动态规正匹配。
    而在X轴上的每一帧不再与Y轴上的每一帧进行比较,而只与Y轴上[ymax,ymin]间的帧进行比较,其中ymax,ymin由以下二式计算得到:

   
    当Xa>Xb时, DTW可拆分为(1,Xb),(Xb+1,Xa)和(Xa+1,N)3段,计算过程类似。
    对于X 轴上,每前进一帧,弯折特征都是一样的,累积距离的更新用下式实现
    D(x,y)=d(x,y)+min[D(x-1,y),D(x-1,y-1),D(x-1,y-2)]
    上式中,矢量 D 用于保存前一列的累积距离,矢量 d 用于计算当前列的累积距离。根据上式,当在X轴上每前进一帧时,按上式可求出当前的累积距离,而它又可供下一列使用。如此不断的更新,当进行到待测模板的最后一帧时,矢量 D 的最后一个元素即为两个模板经过动态规正后的匹配距离。可以看出,该算法并没有像传统的DTW算法一样保存整个距离矩阵,从而节约了系统的存储空间[3]。
    系统通过DTMF信号密码验证方式对用户身份进行识别,采用语音命令方式对家电进行控制,具有交流方式流畅自然、可实现随时随地控制、较高的安全性能等特点。实验结果表明,在一般的背景环境下,对孤立词的语音命令识别正确率达到95%以上,具有一定的应用价值。

参考文献
[1] 赵建光.嵌入式连续语音识别系统研究[D].河北工程大学硕士学位论文,2007.
[2] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. IEEE Trans on Speech and Audio Processing, 1994, 2(4): 578-589.
[3] 林波,吕明.基于DTW改进算法的孤立词识别系统的仿真与分析[J].信息技术, 2006(4): 56-59.

 

 

投诉建议

提交

查看更多评论
其他资讯

查看更多

助力企业恢复“战斗状态”:MyMRO我的万物集·固安捷升级开工场景方案

车规MOSFET技术确保功率开关管的可靠性和强电流处理能力

未来十年, 化工企业应如何提高资源效率及减少运营中的碳足迹?

2023年制造业“开门红”,抢滩大湾区市场锁定DMP工博会

2023钢铁展洽会4月全新起航 将在日照触发更多商机