压缩(Compress)是指在保证一定重构质量(不失真或少失真)的前提之下,通过去除图像、视频、音频等原始数据的冗余信息甚至一些无关紧要的数据信息,实现以尽量少的比特数来表征图像、视频、音频等原始数据信息,从而最大限度地降低数据码率、传输带宽和存储空间,以便于记录、传输和存储。

      数据压缩是在编码过程中实现的,因而压缩常常被称为压缩编码。

      图像、视频、音频等原始数据具有很大的相关性,这些相关性被称为冗余度(Redundancy),减少或去除这些冗余度就能够实现数据压缩。冗余度主要包括时间冗余、空间冗余、视觉冗余、听觉冗余、统计冗余、结构冗余和知识冗余。

      图像压缩编码通常利用以下两个基本原理:

      (1)利用图像信号的统计特性来实现压缩。即图像在相邻像素间、相邻行间及相邻帧间存在较强的相关性,从而可依据信息论中信息编码的原理,去除空间、时间冗余度。

      (2)利用人类视觉特性来实现图像压缩。例如,由于斜方向的图像清晰度的视觉敏感度低于水平与垂直方向的视觉敏感度,故压缩斜方向的高频信号部分对图像清晰度影响很小;人们对高频信号的视觉敏感度低,故在一定程度上压缩高频成分对图像质量并无太大影响;色度信号的视觉敏感度低于亮度信号,故可对色度信号频带在行、帧方向进行压缩。

      从频域分析,图像信号的能量主要集中在低频附近,高频信号能量随频率的增加而迅速衰减。通过频域变换,可将原始图像信号用直流分量及少数低频交流分量系数来表示,这就是著名的离散余弦变换(DCT)的基本思想,从而可对图像的空间冗余度进行有效压缩。JPEG、MPEG-1、MPEG-2、MPEG-4等图像压缩算法均基于离散余弦变换(DCT)。又如,对于一串由许多数值构成的数据来说,如果其中某些值经常出现,而另外一些值很少出现,则这种取值上的统计不均匀性就构成了统计冗余度,可对那些经常出现的值用短码表示,对不经常出现的值用长码表示,从而使最终的码长降低,即实现了压缩。

      传统的视频压缩编码技术,通常称之为第一代视频压缩编码技术,基于像素和像素块,并未考虑信息接收者的主观特性和事件本身的具体含义、重要程度及引起后果,同时也未考虑人类视觉特性对编码图像的影响,因而只能去除数据冗余,属于低层压缩编码的范畴。按照不同的压缩域划分,其压缩效率如表6所示

blob.png

       在传统的视频压缩编码中,应用了许多关键技术,例如变换编码、预测编码、运动估计(ME, Motion Estimation)、运动补偿(MC, Motion Compensation)、熵编码(Entropy Coding)等,这些技术是视频压缩编码技术的重要基础。随着相关学科、新兴学科的迅速发展以及人类视觉生理学和心理学研究的不断深入,新一代视频压缩编码技术诞生并不断成熟和完善,通常称为第二代视频压缩编码技术,其编码思想由基于像素和像素块转变为基于内容(Content-based),它充分考虑了人类视觉特性与信源特性,通过去除内容冗余来实现数据压缩。第二代视频压缩编码技术又可分为基于对象(Object-based)和基于语义(Semantics-based)两大类,前者属于中层压缩编码的范畴,后者属于高层压缩编码的范畴。

      对于数字电影,图像信息数据量很大,必须进行压缩编码,以利于传输和存储。但是,图像质量是数字电影考虑的首要因素,其优先级高于传输带宽和存储空间,因此必须在保证不影响图像质量的前提之下进行适度的数据压缩。数字电影图像压缩遵循JPEG2000核心编码系统(ISO/IEC 15444-1),它基于离散小波变换(DWT),且数字电影2K/4K压缩图像的码率不能超过250Mb/s,2K部分中单个色彩分量的码率不能超过200Mb/s。