协议标准篇导引

ITU-T关于语音编码技术的G.7xx系列建议介绍

浏览：10519 来源：通信人在线日期：2017-10-16

ITU-T的G.7xx系列建议包括语音（窄带，300~3400Hz）编码技术和音频（宽带，50Hz~7kHz）编码技术。这里重点介绍PSTN电话通信中的语音编码的ITU-T标准。对于语音编码技术，ITU-T分别研制采用了如下不同的编码技术。关于下述ITU-T的窄带语音编码技术的一些技术性能比较被列于下表0中。

表0：ITU-T所研制使用的窄带语音技术的性能简单比较

一、PCM语音编码技术

脉冲编码调制（PCM，Pulse Code Modulation）语音编码技术是ITU-T研究制定的 PSTN电话通信最高通信质量的标准，它就是ITU-T G.711建议。ITU-T在1972年12月发布了G.711的第1个版本，已经过了1976、1980、1984、1988年修订的第5个版本，即ITU-T G.711（11/1988）《语音频率的脉冲编码调制（PCM）》。

欲详细了解ITU-T G.711建议的高质量64 kb/s的PCM编码技术的请进入。

二、ADPCM语音编码技术

ITU-T研究制定的自适应差分脉冲编码调制（ADPCM，Adaptive Differential Pulse Code Modulation）语音编码标准有以下几个：

欲进一步了解ADPCM编码技术概念的请进入。

1、ITU-T G.721建议的高音质32 kb/s的ADPCM编码技术

1984年ITU-T公布了G.721建议，这一建议规定了关于高音质32 kb/s ADPCM语音编码的国际标准，该建议于1986年做了进一步的修改。这种算法的话音质量十分接近G.711 A律或μ律64 kb/s PCM的话音质量，MOS分为4.1，达到了网络质量等级。经过4次非同步转接后MOS分仍在3.5分以上。其抗误码性能优于PCM，带内数据传输率能达4800 b/s，其音频带宽为200~3400 Hz，采样频率为8 kHz，每一样点用4 bit编码。由于G.721建议的高音质32 kb/s ADPCM主要用来对现有PCM信道扩容，即把2个2048 kb/s 30路PCM基群信号转换成一个2048 kb/s 60路ADPCM信号，因此ADPCM编码输入与译码器输出都采用标准A律或μ律PCM信码。该建议被后来的G.726所代替。

欲更多了解MOS音质评价法的请进入。

2、ITU-T G.726建议的高音质多速率的ADPCM编码技术

ITU-T在1984年10月发布了G.726的第1个版本，已经过了1987、1988、1990年修订的第4个版本，即ITU-T G.726（12/1990）《40、32、24、16kbit/s自适应差分脉冲编码调制（ADPCM）》。

G.726建议将64kbit/的A律μ律脉码调制(PCM)通道转换为40、32、24或16 kbit / s通道。使用ADPCM代码转换技术将转换应用于PCM位流。24和16 kbit/s通道的主要应用是在数字电路倍增设备(DCME)中传输声音的重载通道，40kbit/s通道的主要应用是在DCME中传输数据调制解调器信号，特别是对大于4800kbit/s的调制解调器。

3、ITU-T G. 727建议的镶嵌式ADPCM

本建议书包含每个样本具有5-，4-，3-和2-位的嵌入式自适应差分脉冲编码调制（ADPCM）算法的规范（即，以40、32、24和16kbit/s的速率）。描述的特性推荐用于64 kbit/s的转换，即A律或μ律PCM通道到/从可变速率嵌入式ADPCM通道的转换。

ITU-T公布了G.721建议的高质量32 kb/s ADPCM之后，在G.723建议中将编码的速率扩充到40 kb/s和24 kb/s，又在G.726建议中将编码速率扩充为16 ~40 kb/s的一套完整速率的ADPCM算法。同语音插空技术相结合，采用变速率ADPCM可以使原有PCM信道扩容到8~10倍，这称为数字话路倍增设备(DCME)。这种设备适用于点到点之间的固定线路扩容，例如卫星或海缆的DCME系统。但随着社会对通信需求量的不断提高，仅两点之间通信效率提高还不够，需要整个网的通信效率都能提高，办法之一是采用语音装包传输系统，它不仅具有DCME系统的扩容能力，并且适合交换，便于成网。

语音包交换关键问题之一是线路拥塞及对拥塞的处理。在一段短时间内到达包交换机的语音包数量太多，包交换机来不及处理产生拥塞，一般有两种解决办法。一种解决办法是丢弃一些过量的语音包，当丢包量比较大时，语声质量受到严重的损害。另一种办法是不丢弃整个语音包，而只丢弃包中不重要的比特，仍将重要比特或称核心比特传送到译码器，以此缓解拥塞问题。当然，这也会使语音质量下降，但比起整段语音被丢弃总要好。采用这种方法时要求语音编译码算法具有如下的特性：它可以允许传输网络自主地丢弃一些比特，而译码器仍能根据剩下的比特恢复语音信号。镶嵌式语音编码就具有这种特性。AT&T以及NTT等公司分别研究了包交换用镶嵌式语音编码，都主张采用镶嵌式ADPCM。在经过细致的研究工作之后，ITU-T于1990年12月通过了40~16kb/s镶嵌式ADPCM标准G.727。

G.727镶嵌式ADPCM编码器与G.721的编码器基本相同，只是在反馈支路上，逆量化器比之前多了一个反馈比特屏蔽单元。G. 727译码器同G. 721译码器差别稍大一些。除了上面提到的反馈比特屏蔽单元之外，还多了一条前馈支路，用来产生实际输出的重建语音信号。G.727建议也包括40、32、24、16 kb/s四个速率，其采样频率为8kHz。对于32 kb/s和24kb/s，G.727 ADPCM比G.726 ADPCM的MOS分仅下降0.03分。

三、LD-CELP语音编码技术

1992年9月ITU-T G.728建议规定采用低延时码激励线性预测（LD-CELP，low-delay code excited linear prediction）编码作为16 kb/s语音编码标准化方案，2012年6月又对其进行了修订，即ITU-T G.728（06/2012）《使用低延迟码激励线性预测16 kbit/s语音编码》。

16 kb/s低延时线性预测编码（LD-CELP）之前的各种线性预测编码方案，都是利用前向自适应预测器去除语音信号的冗余度，需要有足够的编码延时和存储空间，典型的编码延时为40~60 ms之间。LD-CELP声码器使用后向自适应预测器对短时谱包络和增益进行预测，其算法延时为0.625ms，一路编码延时小于 2 ms。合成语音质量良好，MOS分可达4.17分。

四、CS-ACELP语音编码技术

1996年3月ITU-T G. 729建议规定8 kb/s共扼结构代数码激励线性预测(CS-ACELP，conjugate-structure algebraic-code-excited linear prediction)。CS-ACELP编码作为8 kb/s语音编码标准化方案，2007年和2012年又经过了两次修订，即ITU-T G. 729（06/2012）《使用共轭结构代数码激励线性预测（CS-ACELP）在8 kbit / s的语音编码》。

CS-ACELP编码其合成语音质量较好，其编码时延为25 ms，复杂度较低，可在现有DSP上实现。共扼结构代数码激励线性预测（CS-ACELP）的编码方案是由共扼结构码激励线性预测（CS-CELP）和代数码激励线性预测（ACELP）的思想整合而来的。“共扼”（conjugate structure，CS）的含义是指编码器对增益的矢量量化过程中采用了共扼结构；而所谓“代数”（algelraic，A）码书是指其固定码书采用了代数结构，它的特点是码书矢量为40维，其中只有4个非零脉冲，其幅度为+1或-1，位置在限定的范围内。这种码书的优点是无需任何存储空间，只要译码端获得非零脉冲的幅度和位置信息，即可得到响应的输出矢量。

欲更多了解激励线性预测编码概念的请进入。

欲更多了解语音编码知识的请进入。：关于国际上窄带语音编码的标准；关于常用语音编码及特性；关于音频信号的特性

附录

本文所有附表2017-09-04