基于切分的汉语连续语音识别技术研究
Research of Segmentation Based Chinese Continuous Speech Recognition Technology
连续语音识别作为人机交互的关键技术之一,已取得长足进步.如何将声学、语音学和语言学知识融入到基于统计的连续语音识别系统中,进一步提高其性能,是当前连续语音识别研究的热点.由于端点检测不够精确,连续语音识别中会出现较多的删除错误和插入错误,本文针对此问题,研究了语音的切分技术和搜索算法,实现了一个基于切分知识的汉语连续语音识别系统.主要成果如下:研究了连续语流中男声共振峰的特点,对10名男性8个元音的前4个共振峰进行统计分析,结果显示男性的第二共振峰F2和第三共振峰F3,以及其比值F3/F2更适合作男声单元音的细节辨识.构建了基于隐马尔可夫模型的连续语音识别基线系统,在此基础上,研究了共振峰、LPC、LPCC、MFCC、PLP等特征参数的连续语音识别性能.实验结果表明,考虑人耳听觉特性的倒谱特征更适用于连续语音识别.对识别错误进一步分析发现,切分不准确是造成系统性能下降的主要原因之一.提出了一种基于听觉事件检测的汉语语音声韵母切分方法.首先使用耳蜗滤波器组对语音进行滤波,然后在每个频带上检测对应于能量突变的听觉事件,并分别在不同频率范围对听觉事件进行融合以确定候选边界,最后按照二叉树判决,顺序检测清辅音声母、浊辅音声母、零声母音节和普通韵母.实验结果表明,对8KHz采样的干净语音切分准确率可达到88.9%;对信噪比10dB的语音切分准确率可达到82.9%以上.提出了一种声学层和语言层独立解码的连续语音识别搜索策略.该策略针对切分语段特点,首先在声学层分别构建单音节词法网络和双音节词法网络,进行声学层解码;然后分别采用A*和令牌传递搜索算法进行语言层解码.实验结果表明,声学层采用双音节句法网络,语言层采用令牌传递搜索算法,系统的插入错误和删除错误大幅降低,准确率有较大提高.
- 作者:
- 张宝奇
- 学位授予单位:
- 解放军信息工程大学
- 专业名称:
- 军事情报学
- 授予学位:
- 硕士
- 学位年度:
- 2010年
- 导师姓名:
- 张连海
- 中图分类号:
- TN912.34
- 关键词:
- 语音识别;隐马尔可夫模型;共振峰;听觉事件;声韵切分;句法网络;词图搜索算法
- speech recognition;hidden markov model;formants;auditory events;initial and final segmentation;syntax net;word graph search algorithm