1、概述
当时对广播来说已经有相当完备的系统标准,但对于通信和计算机应用仍是不足,随着数字广播、网络游戏、视频点播等交互式多媒体应用的增多,对视频、音频内容的表示要求更为有效和灵活。于是MPEG-4在1995年7月开始研究,1998年11月被ISO/IEC批准为正式标准,正式标准编号是ISO/IEC14496。
在信源方面,不是简单地对连续的图像和声音进行压缩,而是对图像和声音进行详细的分解和描述,将计算机中“对象”(Objects)的概念引入MPEG-4,称为AV对象(Audio/Visual Objects),对音视频对象和背景及文字分别进行压缩,使得更多的交互操作成为可能。甚至采用参数控制综合合成的办法还原图像和声音,使效率大大提高。
“AV对象”可以是一个孤立的人,也可以是这个人的语音或一段背景音乐等。它具有高效编码、高效存储与传播及可交互操作的特性。MPEG-4对AV对象的操作主要有:采用AV对象来表示听觉、视觉或者视听组合内容;组合已有的AV对象来生成复合的AV对象,并由此生成AV场景;对AV对象的数据灵活地多路合成与同步,以便选择合适的网络来传输这些AV对象数据;允许接收端的用户在AV场景中对AV对象进行交互操作等。
MPEG-4的系统层在原有ES流复用层(FlexMux)的基础上扩展了传送复用层(TransMux),几乎包括了所有多媒体、存贮媒体和通信的接口,如(RTP)UDP IP,PES MPEG-2 TS,AAL ATM,H223 PSTN,DABMux等等。使得MPEG-4的系统应用极其广泛。如播音员脸部动画的综合,文字到声音的语音合成等,使解码处理可扩展到对象的缩放,具有a通道的对象透明度调整等复杂场景。也即除自然图像外,增加了人工合成,创造和处理的痕迹。
2、MPEG-4的组成
MPEG-4标准是由6个主要部分构成:
1)多媒体传送整体框架DMIF:DMIF(The Dellivery Multimedia Integration Framework)主要解决交互网络中、广播环境下以及磁盘应用中多媒体应用的操作问题。通过传输多路合成比特信息来建立客户端和服务器端的交互和传输。通过DMIF,MPEG4可以建立起具有特殊品质服务(QoS)的信道和面向每个基本流的带宽。
2)数据平面:MPEG4中的数据平面可以分为两部分:传输关系部分和媒体关系部分。为了使基本流和AV对象在同一场景中出现,MPEG4引用了对象描述(OD)和流图桌面(SMT)的概念。OD传输与特殊AV对象相关的基本流的信息流图。桌面把每一个流与一个CAT(Channel Assosiation Tag)相连,CAT可实现该流的顺利传输。
3)缓冲区管理和实时识别:MPEG4定义了一个系统解码模式(SDM),该解码模式描述了一种理想的处理比特流句法语义的解码装置,它要求特殊的缓冲区和实时模式。通过有效地管理,可以更好地利用有限的缓冲区空间。
4)音频编码:MPEG-4的优越之处在于--它不仅支持自然声音,而且支持合成声音。MPEG4的音频部分将音频的合成编码和自然声音的编码相结合,并支持音频的对象特征。
5)视频编码:与音频编码类似,MPEG4也支持对自然和合成的视觉对象的编码。 合成的视觉对象包括2D、3D动画和人面部表情动画等。
6)场景描述:MPEG-4提供了一系列工具,用于组成场景中的一组对象。一些必要的合成信息就组成了场景描述,这些场景描述以二进制格式BIFS(Binary Format for Scene description)表示,BIFS与AV对象一同传输、编码。场景描述主要用于描述各AV对象在一具体AV场景坐标下,如何组织与同步等问题。同时还有AV对象与AV场景的知识产权保护等问题。MPEG4为我们提供了丰富的AV场景。
3、MPEG-4的类和级
MPEG的类(Profile)规定了用于协同操作点(interoperability point)的技术,等级(level)规定了一个类的范围或大小。
就类而言,对视像描述来说,分为自然视频内容、自然和合成混合图像内容两部分。自然视频内容部分的类分为五类;合成的自然图像混合视像内容部分的类分为四类。对图形描述来说共有两类。对场景描述共有五类。对音频的描述有四类。详见下表1。
表1:MPEG-4的类
就级而言,级是对比特率、取样率、图像分辨率及复杂性进行分级。不可能有没有级的类,但有的类只有一级。MPEG-4目前有了版本1、版本2,将包括以对象为基础的空间可分级性。MPEG-4版本2应用的例子是HomeNet Processing Laboratory 和逐行扫描清晰度电视编码器,使用MPEG-4空间可分级对1080行 60帧逐行扫描高清晰度电视进行编码,MPEG-4空间可分级的性能通常优于MPEG-2/4单层编码,而且所需的帧存也要少12.5%,而且1080P很容易下变换到1080I和720P,该实验将高质量1080P/60的传输码率降至18Mb/s。
标准的修正通常都会增加更多的类和级,如MPEG-4的第二版修正1和2就增加了FGS类,而修正3又增加了简单可扩展level 0和高级简单可扩展level 3b。
4、MPEG-4的应用
与MPEG-1和MPEG-2相比,MPEG-4更适于交互AV服务以及远程监控,它的设计目标使其具有更广的适应性和可扩展性:MPEG-4传输速率在4800~64000bps之间,分辨率为176×144,可以利用很窄的带宽通过帧重建技术压缩和传输数据,从而能以最少的数据获得最佳的图像质量。因此,它将在数字电视、动态图像、互联网、实时多媒体监控、移动多媒体通信、Internet/Intranet上的视频流与可视游戏、DVD上的交互多媒体应用等方面大显身手。
当然,对于普通用户来说,MPEG-4在目前来说最有吸引力的地方还在于它能在普通CD-ROM上基本实现DVD的质量。用MPEG-4压缩算法的ASF(Advanced Streaming format,高级格式流)可以将120分钟的电影压缩为300MB左右的视频流;采用MPEG-4压缩算法的DIVX(视频编码技术)可以将120分钟的电影压缩600MB左右,也可以将一部DVD影片压缩到2张CD-ROM上!也就是说,有了MPEG-4,你不需要购买DVD-ROM就可以享受到和它差不多的视频质量。播放这种编码的影片对机器的要求并不高,只要你的电脑有300MHz以上(无论是哪种型号)的CPU、64MB内存、8MB的显卡就可以流畅地播放。
不过,和DVD相比,MPEG-4属于一种高比率有损压缩算法,其图像质量始终无法和DVD的MPEG-2相比,毕竟DVD的存储容量比较大。此外,要想保证高速运动的图像画面不失真,必须有足够的码率,目前MPEG-4的码率虽然可以调到和DVD差不多,但总体效果还有不小的差距。因此,现在的MPEG-4只能面向娱乐、欣赏方面的市场,那些对图像质量要求较高的专业视频领域暂时还不能采用。