语音识别的关键技术:特征参数和匹配模型

语音识别的关键技术:特征参数和匹配模型

语音系统设计的关键技术

语音技术的关键技术包括特征参数提取技术,模式匹配准则及模型训练技术、语音技术单元选取。

1.特征参数提取技术

所谓特征参数提取,就是从语言信号中提取用于语音技术的有用信息。研究人员已对许多可以表征说话人个人特征的语音特征进行了探讨,大多数特征选取方案不是试图集中在声道构造的个体差异方面,就是试图集中在说话习惯的个人特征方面。

特征参数提取所考虑的参数为:

(1)单词中选定位置上的基音﹔

(2)鼻辅音的频谱特性;

(3)选定元音的频谱特性﹔

(4)激励频谱的估计斜率﹔

(5)擦音的频谱特性﹔

(6)选定元音的时长﹔

(7)选定语言环境中提前发声的存在。

采用试验句进行录音时所考虑的特征参数为:

(1)元音的共振峰频率和共振峰带宽以及声门源的极点(由12阶线性预测分析来计算);

(2〉鼻辅音中极点频率的位置﹔

(3)选定实验句的基音轮廓;

(4)时变特性,尤其是在复合元音的整个发音期间和音位的收尾阶段第共振峰的变化率。

线性预测分析是应用较广的特征参数提取技术,其核心是由信号的过去值预测其将来值。线性预测的概念早在20世纪40年代就已被提出,然而将其应用于语音技术,不仅希望利用其页测功能,而且要求它为我们提供1个非常好的声道模型,而这样的声道模型对于理论研究和际应用都是相当有用的。此外,声道模型的优良性能不仅意味着线性预测是语音编码的特合适的编码方法,而且意味着预测参数是语音技术的非常重要的信息来源。

梅尔频率倒谱系数 ( Mel-Frequency Cepstral Coefficients,MFCCs )就是组成梅尔频率倒谱的系数。它衍生自音讯片段的 倒频谱 (cepstrum)。倒谱和梅尔频率倒谱的区别在于,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数 倒频谱 中的线性间隔的频带更能近似人类的听觉系统。 这样的非线性表示,可以在多个领域中使声音信号有更好的表示。例如在音讯压缩中。

梅尔频率倒谱系数(MFCC)广泛被应用于 语音识别 的功能。他们由Davis和Mermelstein在1980年代提出,并在其后持续是最先进的技术之一。在MFCC之前,线性预测系数(LPCS)和线性预测倒谱系数(LPCCs)是自动语音识别的的主流方法。

梅尔频率倒谱系数(MFCC)原理

声音信号是连续变化的,为了将连续变化信号简化,我们假设在一个短时间尺度内,音频信号不发生改变。因此将信号以多个采样点集合成一个单位,称为'''讯框'''。一个音讯框多为20-40毫秒,如果讯框长度更短,那每个讯框内的采样点将不足以做出可靠的频谱计算,但若长度太长,则每个讯框信号会变化太大。

预强化的目的就是为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分。并且能突显高频的共振峰。

由于信号在时域上的变化通常很难看出信号的特性,所以通常透过傅里叶变换将它变换成频域上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。

由于能量频谱中还存在大量的无用讯息,尤其人耳无法分辨高频的频率变化,因此让频谱通过梅尔滤波器。梅尔滤波器,也就是一组20个非线性分布的三角带通滤波器(Triangular Bandpass Filters),能求得每一个滤波器输出的对数能量。必须注意的是:这 20 个三角带通滤波器在'''梅尔刻度'''的频率上是平均分布的。 梅尔频率代表一般人耳对于频率的感受度,由此也可以看出人耳对于频率 f 的感受是呈对数变化的。

2.模式匹配及模型训练技术

模式匹配是指根据一定准则,使未知模式与模型库中某一模型获得最佳匹配。模型训练是指按照一定准则,从大量已知模式中提取表示该模式特征的模型参数。语音技术所应用的模式匹配和模型训练技术有:动态时间规整技术,隐马尔克夫模型、人工神经网络。

时间规整即时间校正,是把1个单词内的时变特征变为一致的过程。隐马尔克夫模型(Hidden Markov Model简称HMM)是把未知量均匀地伸长或缩短,直到它与参考模式的长度一致时为止。在时间规整过程中,未知单词的时间轴要不均匀地扭曲或弯折,以便使其特征与模型特征对正。HMM是1种非常有力的对正措施,对提高系统的识别精度极为有效。HMM是语言信号时变特征的参数表示法,由相互关联的两个随机过程共同描述信号的统计特性。模型参数包括HMM拓扑结构,状态转移概率和描述观察符号统计特性的一组随机函数。HMM的性能在很多应用中都可以和动态时间弯曲(Dynamic Time Warping简称DTW)相比,而计算代价只有后者的几分之一。采用这种技术,我们要以1个只具有有限不同状态的系统作为语音生成模型。每个状态皆可产生有限个输出。在生成1个单词时,系统不断地由1个状态转移到另一个状态,每个状态都产生1个输出,直到整个单词输出完毕。状态之间的转移是随机的,每个状态下的输出也是随机的。由于允许随机转移和随机输出,所以 HMM能适应发音的各种微妙变化。在识别词表中,每个单词都要用1个这样的模型来表示。识别器要做的工作就是输出,识别的任务就是决定由哪一个模型提供输出。因为模型本身对识别器来说是看不见的,它只能根据获得的数据推导出来,故称为隐马尔可夫模型。

人工神经网络(ANN)在语音技术中的应用是目前研究的热点。该网络本质上是1个自适应非线性动力学系统,模拟了人类大脑神经元活动的基本原理,具有学习、记忆判断、联想、对比.推理、概括等能力。与HMM和ANN相比,DTW是较早的1种模式匹配和模型训练技术,它应用动态规划法成功地解决了在语音信号特征参数序列比较时时长不等的难题,在孤立词语音技术中获得了良好的性能。但由于它不适合连续语音大词汇量语音技术系统,目前已被HMM 和ANN.所代替。

3.语音技术单元的选取

语音技术单元的选取是语音技术研究工作很重要的-步,语音技术单元有单词、音节、音素3种,具体选哪种﹐由研究任务决定。单词单元适用于中小词汇语音技术系统,不适合于大词汇系统。因为庞大的模型库意味着繁重的模型训练任务和复杂的模型匹配算法﹐这难以满足实时性要求。音节单元多见于汉语识别,主要因为汉语是单音节结构的语言,而英语等语言是多音节。如果不考虑声调的话,汉语大约有400个音节,这个数量相对较少。所以,对于大词汇量汉语语音技术系统而言,以音节为识别单元是较为合适的。音素单元多用于英语语音技术研究,因为英语是多音节语言。但大、中词汇汉语语音技术系统也在越来越多地采用。

毫无疑问,飞速发展的计算机技术推动了语音技术的突破性进展,语音技术又反过来作用于计算机。假如微软公司的语音技术真正能使计算机彻底丢掉键盘和鼠标的话,这将不仅是计算机发展史上的又一场革命,而且将改变我们许多人的工作和生活方式,因为动口比动手要容易得多。

摘自:《计算机语音技术(修订版)》 作者:朱民雄、闻新

发布于 2021-01-10 15:51