语音可压缩编码的原因及极限速率

浏览：8448 来源：通信人在线日期：2020-03-02

一、语音可压缩编码的原因

语音信号可以进行压缩编码的基本依据包括两个方面的原因：一方面是语音信号本身存在很大的冗余度，这是语音可压缩编码的外因；另一方面是由于人耳的听觉感知机理，这是语音可压缩编码的内因。

1、外因：语音信号本身存在很大的冗余度

根据统计分析，语音信号中存在着多种冗余度，可以分别从时域和频域来进行描述。

1）语音信号存在时域冗余度

语音信号时域冗余度主要表现在：幅度非均匀分布、语音信号样本间的相关性很强、浊音语音段具有准周期性和存在静止系数（语音间隙）等5个方面。这5个方面的具体释义汇总于下表1-1中。

表1-1：语音信号时域冗余度表现的5个方面

2）语音信号存在频域冗余度

（1）非均匀的长时功率谱密度。在相当长的时间段内进行统计平均，可得到长时功率谱密度，它呈现出强烈的非平坦性。这种非平坦性表现为功率谱的低频能量较高、高频能量较低，这恰好对应于时域上相邻样本间的相关性。这就意味着没有充分利用给定的语音频段，或者说存在着固定的冗余度。

（2）语音特有的短时功率谱密度。语音信号的短时功率谱在某些频率上出现峰值，在另一些频率上出现谷值。而这些峰值频率，也就是能量较大的频率，通常称为共振峰(Formant)频率。此频率不止一个，最主要的是前3个，由它们决定了不同的语音特征。另外，整个短时谱也是随着频率增加而递减。更重要的是，整个功率谱的细节以基音频率为基础，形成了高次谐波结构。

2、内因：人耳的听觉感知机理

语音信号可以进行压缩编码的第二个依据是利用人类听觉的某些特点，即人耳的听觉感知机理。人的听觉生理和心理特性对于语音感知的影响主要表现在以下3个方面。

1）人类听觉系统(HAS)具有掩蔽效应(ME)。HAS特性曲线随不同声音压、不同频率声音的影响而变化形成了所谓的掩蔽曲线（掩蔽阈），它大致表现为声级越高的一个单音对其周围频率声音的掩蔽作用越强。通俗地讲，掩蔽曲线反映了人耳的掩蔽效应，即一个强音能抑制一个同时存在的弱音而导致人耳听不到或不敏感这个弱音。对人耳听不到或极不敏感的声音分量可以看做是冗余。语音压缩编码本质上就是设法去掉这些冗余度，从而达到压缩比特率的目的。

2）人耳对不同频段声音的敏感程度不同。由于浊音的周期和共振峰主要集中在低频段，因此人耳对低频端比较敏感，而对高频端不太敏感，即较强的低频音能妨碍同时存在的高频音。

3）人耳对语音信号的相位变化不敏感。人耳能做短时的频率分析，对语音信号的周期性很敏感，但对语音信号的相位感知却很迟钝。因此人耳听不到或感知很不灵敏的声音相位分量可以被当作冗余信号。

二、语音编码的极限速率

由于语音信号本身存在很大的冗余度和人耳的听觉感知机理，全语音进行压缩编码成为了可能，即只对语音信号主观上非常重要的属性进行编码，并把它们进行存储或者进行传输。这样，即使在低比特率的情况下也能保持合成语音的高质量。

那么，究竟把比特率降低到何种地步而又不会使合成语音发生明显的失真（不自然）呢？也就是说，语音信号压缩编码的潜力究竟有多大，其极限速率为多少？

在回答这个问题之前，首先来简单了解一下音素的概念。音素是人类发音的最基本单位，它跟声音的联系最直接，属于听觉符号。比如说，英语f、1、m、n和s这5个字母都含有一个共同的音素[e]。又比如说，汉语‘爸’、‘妈’和‘他’这3个汉字都含有一个共同的音素[a]。

下面我们就分别从语音和语言的角度来分析语音编码的极限速率。

从语音的角度来看，语音中最基本的单位是音素，世界上语音的音素一般约为128~256个，如果按通常的说话速度，每秒平均发出10个音素。则根据信息论的观点，此时的信息率为

V = log₂（256）¹⁰ = 80 (b/s)

从语言的角度来看，把发音看成是以语音的速率来发报文。对英语来讲，每一个字母用7b编码，每分钟发125个英语单字可以认为达到了通信语音速率。如果每个单字平均由7个字母组成，则此时的信息率为

V = 7×7×（125/60）≈100 (b/s)

因此，一般可以认为语音编码的极限速率为80b/s~100b/s。当然，这时只能传送句子的内容，至于讲话者的音质、音调等重要信息已全部丢失。但是，从标准的语音编码速率(64Kb/s)到语音编码的极限速率(80b/s~100b/s)之间存在着很大的跨距（约640倍），这对于理论研究和实践制作有着很大的吸引力。

欲进一步了解语音编码知识的请进入：语音编码分类；ITU-T语音编码标准介绍；语音信号的特征

附录

本文的所有附表2017-10-16