汉语连续语音声韵母类别属性检测技术研究
Research on Initials and Finals Category Attribute Detection of Chinese Continuous Speech
基于隐马尔可夫模型(HMM)的语音识别是主流的大词汇量语音识别方法,但是该方法没有考虑人的思维认知过程,忽略了很多语音及语言学知识,目前发展遇到了瓶颈.因此,一个以知识为基础并结合统计模型的新型语音识别框架应运而生.而语音知识属性的获取以及如何运用语音知识属性是该框架亟待解决的关键问题.本文重点研究了汉语连续语音声韵母边界和类别知识属性的提取,并将其应用于汉语语音识别中,具体工作如下:提出了一种基于Seneff听觉谱特征的汉语连续语音声韵母边界检测方法.通过研究声韵母能量集中区域和共振峰结构的差异性,利用Seneff听觉谱能够很好的凸显语音信号中变化剧烈区域和共振峰结构等特点,构建基于Seneff听觉谱的优选特征参数集,并对各种特征参数的候选边界点进行融合,实现了对声韵母边界点的检测.与基于模型的方法相比较,该方法克服了训练数据量大、检测鲁棒性差的缺点;与以帧长为单位的方法相比较,该方法克服了分帧处理精度低和容易漏检的问题.实验结果表明,本文算法具有较高的边界检测准确率、精确度和较强的鲁棒性,且算法复杂度较低.提出了一种基于能量和共振峰结构信息的鼻音检测方法.根据语音能量值大小和共振峰结构上的差异将语音分为响音与阻塞音,并进一步对响音中的鼻音进行检测,在保证鼻音检测正确率的前提下,通过分析易与鼻音混淆音段在能量和共振峰结构的区别,采用后处理逐步去除插入错误,与经典算法相比较,提高了鼻音检测的准确率.提出了一种基于能量变化率的塞音检测方法.通过分析塞音的音段时长和能量变化过程,提取能量变化率参数进行塞音检测,克服了传统采用爆发谱特征方法不稳定、非塞音也可能存在爆发谱等缺点,提高了塞音检测的性能,最后通过交叉验证得知本文方法具有较好的稳定性和泛化性能.提出了一种基于音段能量分布特性和谱统计量的塞擦音和摩擦音分类方法.通过分析非塞音中塞擦音和摩擦音发音过程及谱形状上的差异,提取音段能量分布特征和谱统计量参数,实现了塞擦音和摩擦音的分类,实验证明了该方法的有效性.最后,结合前面提出的声韵母边界检测和多种类别检测方法,采用二叉树的形式,实现了对汉语连续语音声韵母边界和类别知识属性的检测.并将其应用到基于分段条件随机场整合模型的连续语音识别基线系统中.实验结果表明,本文方法检测得到的声韵母边界和类别知识属性,能够有效提高基线系统的性能.
- 作者:
- 陈斌
- 学位授予单位:
- 解放军信息工程大学
- 专业名称:
- 信号与信息处理
- 授予学位:
- 硕士
- 学位年度:
- 2011年
- 导师姓名:
- 张连海
- 中图分类号:
- TN912.34
- 关键词:
- 连续语音识别;语音知识属性;知识属性整合;声韵母边界检测;声韵母类别检测;鼻音检测;塞音检测;摩擦音检测;塞擦音检测
- Continuous speech recognition;Speech knowledge attribute;Knowledge attribute integration;Intials and finals boundary detection;Intials and finals category detection;Nasal detection;Stop detection;Affricate detection;Fricative detection