激励型线性预测语音编码技术是低速率(4.8Kb/s以下)语音编码所采用的编码技术。
1、二元激励线性预测语音编码(LPC)
线性预测编码(LPC,Linear Prediction Coding)是最基本的低速率语音编码方法,LPC语音编码的基础是语音信号产生的数字模型,如图1-1所示。在这个模型中,激励源由浊音和清音两个分支分别组成,是最典型的二元激励语音编码模型。而语音信号则是由激励源来激励一个自适应滤波器(即LPC滤波器)产生。LPC滤波器的参数是通过线性预测的方法,即用过去的样值预测当前样值提取的。LPC在军事通信和其它通信领域都得到越来越广泛的应用。
图1-1:语音信号产生的数字模型框图
美国联邦标准FS-1015的2.4Kb/s的LPC-10声码器和LPC-l0e(LPC-10的改进型)就是二元激励LPC语音编码的典型例子,主要用于电话线上的窄带语音保密通信。1976年,美国国家安全局(NSA)制定了LPC-10声码器作为在2.4Kb/s速率上语音通信的标准技术;1981年,这个算法被美国国防部所接受,作为美国联邦政府标准FS-1015公布。基于这个标准的声码器被用于美国第二代保密电话单元(STU-Ⅱ)。利用LPC-10声码器可以合成清晰、可懂的语音,但是抗噪声能力和自然度尚有欠缺。自1986年以来,美国第三代保密电话单元(STU-Ⅲ)采用了速率为2.4Kb/s的LPC-10e声码器作为语音通信标准,使得语音的自然度和鲁棒性有所提高,目前STU-Ⅲ的语音质量被评为“良好”。
LPC-10声码器的采样速率是8kHz,每180个样点为一帧,帧长为22.5ms,每帧量化比特为54,总的速率为2.4Kb/s。
2、码激励线性预测语音编码(CELP)
1985年,Manfred R.Schroeder和Bishnu S Atal在电气电子工程师协会(IEEE)的国际语言语音和信号处理会议(ICASSP)年会上首先提出了用码本作为激励源的码激励线性预测(CELP,Code Excited Linear Prediction )编码技术。CELP以高质量的合成语音以及优良的抗噪声和多次转接性能,在低速率语音编码上得到了广泛的应用。
1987年美国国家安全局(NSA)发起了4.8Kb/s语音编码的标准化工作。为了选择一种好的编码方案,NSA对各种4.8Kb/s速率的编码算法进行了一次调查,测试结果表明3种CELP型的编码算法优于其它方案,但没有充足的理由选择其中的某一种作为联邦标准。1988年5月,美国国防部开始评价几种4.8Kb/s速率上的语音编码器,希望找到一种能用于未来政府通信系统中的高质量低速率语音编码算法。1988年12月,美国国防部结束了这次评价,所选的算法是由美国国防部与美国电报电话公司的贝尔实验室共同研制的CELP编码器,它构成了美国联邦FS-1016标准语音编码器的基础。实验和测试表明该编码器优于当时其它低于16Kb/s的声码器,并且具有很好的抗噪声和信道误码的能力。
1991年2月14日美国政府正式颁布了联邦第1016号标准FS -1016,即4.8Kb/s码激励线性预测(CELP)语音编码标准,它是第一个十分重要的CELP算法国际标准。FS-1016标准语音编码器基于合成分析(ABS)、感知加权矢量量化(VQ)和线性预测(LP)等技术。它采用10阶线性预测滤波器来模拟语音信号的短时频谱或声道特性,并且采用了两种码本:自适应码本和随机码本。自适应码本用来模拟长时信号或基音的周期激励;固定的随机码本用来逼近经过了矢量量化的短时线性预测和长时预测后的预测误差。译码端合成部分的激励信号由自适应码本和随机码本经过增益加权后得到,感知加权滤波利用人耳的掩蔽效应来提高语音的质量。
FS-1016标准语音编码器要求输入语音信号的采样频率为8kHz,并且至少12比特线性量化,实际上是16比特线性量化脉冲编码调制(PCM)语音信号。编码分析时以帧为单位,帧长是240个样点(30ms),一帧又分为4个子帧,子帧长是60个样点(7.5ms)。编码(发送端)分析部分包含有3个大的功能:短时线性预测分析与量化;长时自适应码本搜索与编码;固定(随机)码本搜索与编码。编码发送的参数是:10个线谱对(LSP)参数;自适应码本索引及增益;固定码本索引及增益;加上帧同步,前向纠错和未来扩展比特共144比特每帧。FS-1016标准语音编码的特点详见下表2-1。
表2-1:FS- 1016标准语音编码的特点表
3、混合激励线性预测语音编码(MELP)
美国在1981年公布了联邦标准线性预测编码算法LPC-10,即FS-1015标准。但音质不令人满意,主要是对爆破音的处理不好,后来又提出了增强型的LPC-10e,但终因当时对语音的研究深度不够,效果也不理想。
在1993年,美国国防部语音信号数字处理协会(DDVPC)开始选择新的美国国防部2.4Kb/s标准,DDVPC研究制定了一组最低要求并设计了一整套测试方案。组织听觉测试开始于1995年9月,最后在1996年3月最终选用TI(Texas Instuments)公司推出的混合激励线性预测(MELP,Mixed Excited Linear Prediction)声码器来取代旧标准FS-1015。1997年3月,这个MELP声码器算法被最终确定为新的美国联邦标准并被公布,以替换原有的2.4Kb/s联邦标准FS-1015 (LPC-10声码器)。
基本线性预测编码(LPC)产生模型将语音分为清音和浊音两大类。清音模型采用白噪声作为激励信号,浊音模型采用周期等于基音周期的脉冲序列作为激励信号。实际上,由于声门张开时,除了主要的声门激励(形成共振峰)外,还可能有一些次要的激励,会影响共振峰结构;声门关闭时,有时不够完全,会产生一些吸气噪声。这些都会破坏浊音时激励气流的周期性。尤其是在清音、浊音之间过渡时,这种现象更加显著,这是由于过渡帧往往既存在周期成分,又存在一定的非周期成分。
为了改善LPC声码器的音质,MELP算法把语音分为清音、浊音和抖动浊音3种状态。抖动浊音采用非周期脉冲加白噪声作为合成激励信号,浊音采用周期脉冲加白噪声作为合成激励信号。采用这种新的分类模式,对语音的分类更加精细。更为重要的是,它从方法上解决了二元模型对大量“中间”语音不能正确分类的难题,诸如过渡音或较弱浊音等语音的分类。因为那些具有比较强的非周期性的语音(清音)和比较强的浊音是比较容易判别出来的。其它语音采用混合激励后,无论是把它判作浊音还是抖动浊音,都能够通过混合比例的调整给予较好的近似。采用的新的分类模式对于诸如过渡音、弱浊音等“中间”语音的处理更加准确。因而,可以较好地改善合成语音的自然度,同时,也可以减少激励信号中脉冲成分或噪声成分过多所带来的合成噪声,使语音听起来更清晰。
混合激励的实现利用了多带模型:通过一组带通滤波器将语音信号分成5个子频带,分别判断每个子带的清浊状况,在译码端利用这5个子带信号相加得到混合激励,其主要功能是减少通常的LPC声码器所带有的蜂鸣声。MELP声码器在传统的二元激励线性预测模型基础上做了改进,吸收了多带激励(MBE)、LPC-10e等算法的一些思想。并采用了一些新的措施,如改进了基音提取法,引入了非周期脉冲和傅里叶级数幅度值来合成激励信号等,使得在2.4Kb/s速率上能够得到更高质量的合成语语音,也就是使得合成语音能更好地拟合自然语音。(MELP)的关键技术详见附录3,与LPC-10声码器类似,MELP声码器的采样速率也是8kHz,每180个样点为一帧,帧长为22.5ms,每帧量化比特为54,总的速率为2.4Kb/s。
附录3:混合激励线性预测语音编码(MELP)的关键技术
欲更多了解国际窄带语音编码标准的请进入。
欲详细了解相关激励型线性预测语音编码技术原理介绍的请进入。
欲进一步了解激励型线性预测语音编码技术的合成语音质量指标的请进入。