自从1937年A.H.Reeves提出脉冲编码调制(PCM)编码以来,语音编码技术就开创了语音数字化通信的历程。近年来,随着通信技术的发展和人类社会信息化进程的加快,语音编码技术也正在迅速地发展,各种语音编码的新技术和新算法更是层出不穷,这里汇集了31种语音压缩编码方式(或算法)的中英文对照详见下表0。因此,对语音编码算法进行合理地分类,可以让大家从整体上把握语音编码技术的各个发展领域。根据对语音信号不同的处理角度,语音编码可有下述9种不同的分类方法。
表0:语音压缩编码方式的中英文对照表(31种)
欲更多了解各类已标准化的语音及音频编码技术的性能比较的请进入。
1、按语音信号带宽分类
按语音信号带宽分类是根据语音信号本身在频域内所占的频谱宽度进行的一种语音编码分类方法,据此方法可以将语音编码分为3种:普通话带语音编码、宽带语音编码和高宽带语音编码。
目前应用得最多的是普通话带语音编码。标准的话路频带(话带)语音信号是0.3kHz~3.4kHz,再加上少量的保护带宽,则一般意义上所说的一路标准话路频带宽度就为4kHz。由于人类发声的频率范围主要集中在1kHz~3kHz左右,因此这种设定对于传递语音的主要信息是可以接受的。根据奈奎斯特准则,带宽为4kHz的模拟信号变成数字信号时,采样频率应为8kHz才能在还原时不会出现频谱重叠。因此,通常所说的语音编码一般都指的是这种对话带范围内的语音信号经8kHz采样后的数字语音信号进行的有损压缩过程。
宽带语音编码可以用于电视会议系统等对语音要求较高的应用领域中。宽带语音信号带宽在7kHz左右,采样率一般在20kHz左右。国际电信联盟(ITU-T)第16工作组于2002年1月公布的自适应多速率宽带(AMR-WB)语音编码器的标准为G.722.2协议,其语音信号带宽为50Hz~7000Hz,采样率为16kHz,属于宽带语音编码的一种。AMR-WB语音编码器已被第三代伙伴计划(3GPP)选定为全球移动通信系统(GSM)和第三代宽带码分多址(WCDMA)通信系统的语音编码器,并应用于因特网协议(IP)电话、第三代移动通信、综合业务数字网(ISDN)宽带电话、ISDN可视电话和电视会议等领域。这标志着无线和有线业务第一次采用同样的语音编码器。
另外,还有对更高带宽的语音信号的编码,这就是高宽带语音编码。它不仅仅是对话音信号的处理,而且还将人耳听力范围内的音频信号(带宽在20kHz左右)进行压缩,此时的采样率一般都在50kHz左右。这一研究领域的应用范围也十分广泛,比如在电影、高保真音响、电脑音乐及艺术创作等方面的应用。该技术的应用为人类进入多媒体信息社会提供了更为丰富的声音资源。
欲具体了解各类多媒体信息(音视频)压缩编码技术的请进入。
2、按语音编码方法分类
语音信号是一种时变的准周期信号,它可以近似地被看做由许多振幅和相位都随时间变化的正弦波构成的信号,因此可以用语音的抽样波形来描述语音信号,同时也可以用语音的参数特征来描述语音信号。人们根据描述语音信号的不同方法将语音编码分为3类:波形编码、参数编码和混合编码。这种按语音编码方法进行的分类也是最传统和最常用的一种分类方法,目前被大多数相关学者所采用。其特点介绍详见下表2。
表2:按语音编码方法进行分类的各方法特点
常用的波形编码方式包括脉冲编码调制(PCM)、自适应增量调制(ADM)、自适应差分脉码调制(AD-PCM),自适应预测编码(APC)和自适应变换编码(ATC)等。共振峰声码器和线性预测声码器都是典型的参数编码器。多脉冲激励线性预测编码(MPLPC)、规则脉冲激励线性预测编码(RPE- LPC)和码激励线性预测(CELP)编码等都属于混合编码。
欲详细了解各类语音编码方法的技术原理介绍的请进入。
3、按语音编码处理域分类
语音信号是一种典型的非平稳信号,但由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号常常可假定为短时平稳信号,即在l0ms~30ms这样的时间段内,语音信号的某些物理特征参量可近似地看做是不变的。这就决定了语音信号可以进行时域处理。同时语音信号的短时平稳性决定了语音频谱在l0ms~30ms这样短的时间段中也是平稳的,因此也可以对语音信号进行频谱分析,即频域处理。
人们根据语音信号处理域的不同将语音编码分为两类:时域编码和频域编码(变换域编码)。顾名思义,时域编码就是对语音信号在时间域内进行相关处理并进行压缩编码;频域编码就是将语音信号由时间域变换到频域内进行相关处理并进行压缩编码。利用语音信号本身的性质和人类的听觉特性,可以确定时域编码和频域编码的分类关系,如图3所示。
图3:时域编码和频域编码的分类关系图
4、按语音编码速率分类
按语音编码速率分类是根据语音信号进行压缩编码后进行传输或存储所需要的数据速率(比特率)进行的一种语音编码分类方法。据此方法可以大致将语音编码分为3种:高速率(32Kb/s以上)语音编码、中速率(4.8Kb/s~32Kb/s)语音编码和低速率(4.8Kb/s以下)语音编码,如图4所示。另外,也有学者按编码速率将语音编码分为5种,详见下表4。表4和图4的分类方法没有本质的区别,只是此方法分得更为详细而已。
图4:语音编码速率划分图(3种) 表4:语音编码速率划分表(5种)
从图4可以看出,编码速率分类和编码方法分类基本上是对应的。波形编码方法通常称为高速率编码,其比特率一般都在32Kb/s以上;参数编码方法通常称为低速率编码,其比特率一般都在4.8Kb/s以下;介于中间的编码方法属于中速率语音编码,也就是混合编码方法。当然,编码速率分类和编码方法分类的对应并不是绝对的,这种对应是一个相对的概念,有时它们相互之间存在着交叉关系。
欲具体了解按语音编码速率分类的国际标准编码技术性能的请进入。
欲更多了解几种低速率语音编码器的合成语音质量的主观和客观评价指标的请进入。
5、按编码所使用的主要技术的分类
按照编码所使用的主要技术,可以将语音编码划分为线性预测编码、自适应编码、矢量编码和变换域编码等。其特点详见下表5。应该指出,广义来说,子带编码等频域编码也是一种变换域编码,但其变换通常并非采用正交变换,因此,一般不把它们归为变换域编码。而变换域编码中的DFT变换编码也可称为频域编码,但其变换属于正交变换,故一般仍将其归为变换域编码。
表5:按编码所使用的主要技术进行分类的各方法特点
6、按编码算法是否依赖于某种模型假定的分类
按照编码算法是否依赖于某种模型的假定,可以将语音编码划分为基于模型的编码和不基于模型的编码两大类。有的文献资料又称之为模型编码和非模型编码。
不基于模型的编码或非模型编码,主要是指波形编码(包括变换编码)。这类编码是以波形逼近为原则,直接对时域波形或在变换域进行编码。其重建语音的质量好,但是编码所需速率较高。基于模型的编码是指那些以某种模型的假定为基础的编码。这里的模型假定包括语音产生模型和听觉模型两方面。基于语音产生模型的编码有很多种,通道声码器、同态声码器、相位声码器、共振峰声码器、基于全极点声道模型的线性预测声码器(LPC)和许多由LPC改进而得到的混合编码方法,都是基于模型的编码。
7、按被编码信号的属性的分类
按照被编码信号的属性可分为语音编码和声频编码。所谓声频编码,是指那些非语音的声音信号的编码,例如各种乐器发出的音乐声、鸟叫声、流水声等的编码。声频编码又称为音频编码,是语音编码的一个重要分支。
8、按编码速率是否固定的分类
按照编码速率是否固定,可以将语音编码分为固定速率语音编码和变速率语音编码两类。在语音编码过程中,始终保持输出数据速率固定的称为定速率语音编码。PCM、ADPCM、MPELP、CELP等大多数语音编码都是定速率语音编码。在语音编码过程中,根据输入信号的不同情况而改变输出数据速率的称为变速率语音编码。第三代移动通信中使用的QCELP、EVRC等,就是变速率语音编码。
9、按编码出现和应用时间以及技术发展情况的分类
按照编码出现和应用的时间以及技术发展情况,可以将语音编码分为经典语音编码和现代语音编码两类。20世纪70年代末以前出现和应用的语音编码,其技术发展已经相当成熟和完善,例如PCM,称为经典的语音编码。20世纪80年代以后出现和应用、目前在技术上仍在继续发展和完善的语音编码,例如CELP、QCELP等,称为现代语音编码。