在FPGA上实现H.264/AVC视频编码标准_FPGA_H.264/AVC

在FPGA上实现H.264/AVC视频编码标准

2010/5/7 16:23:00

尽管H.264/AVC承诺将比已有视频编码标准具有更高的编码效率，它仍为系统架构师、DSP工程师和硬件设计人员带来了巨大的工程设计挑战。H.264/AVC标准引入了自1990年推出H.261之后视频编码标准演进过程中出现的大部分重大改变和算法间断(algorithmic discontinuities)。

实现H.264/AVC编码标准所需的算法计算复杂毒、数据局部性，以及算法和数据并行性，常常会直接影响系统级别的整体架构决策。这种影响又会决定在广播、视频编辑、电话会议以及消费电子领域开发H.264/AVC解决方案所需的最终开发成本。

复杂度分析

为了实现实时H.264/AVC标准清晰度(SD)或高清晰度(HD)分辨率编码解决方案，系统架构师常常需要使用多个FPGA和可编程DSP。为了说明所需计算的巨大复杂度，先探讨一下H.264/AVC编码器的典型运行时的周期要求。H.264/AVC编码器基于由联合视频工作组(JVT)提供的软件模型，该工作组由来自ITU-T的视频编码专家组(VCEG)和ISO/IEC的运动图像专家组(MPEG)的专家组成。

采用Intel的VTune软件，在Intel Pentium III 1.0GHz通用CPU、512MB内存的平台上运行，按照主要配置编码解决方案实现H.264/AVC SD，需要约1,600 BOPS (每秒十亿次运算)。

表1显示了基于Pentium III通用处理器架构的H.264/AVC编码器的复杂度的典型情况。请注意，在表1中，运动估计、宏块/块处理(包括模式决策)，以及运动补偿模块是基本候选硬件加速单元。

然而，单凭计算复杂度并不能决定一个功能模块是否应映射为硬件或是使其保持为软件。为了评估在由FPGA、可编程DSP或通用主处理器混合组成的平台上实现H.264/AVC编码标准时，软件和硬件分割的可行性、需要分析将会影响整体设计决策的大量架构问题。

数据局部性。在同步设计中，按照特定的顺序和粒度访问内存，同时根据延迟、总线竞争、对准、DMA传输率以及所用内存的类型(如ZBT内存、SDRAM和SRAM等)使时钟周期数降至最小的能力至关重要。数据局部性问题主要是由数据单元和算术单元(或处理引擎)之间的物理接口体现的。

数据并行性。大多数信号处理算法都是对高度并行的数据进行操作(如FIR滤波)。单指令多数据(SIMD)和向量处理器对可被并行化或做成向量格式(或长数据宽度)的数据具有较高的处理效率。

FPGA可通过提供大量块RAM支持大量极高总计带宽要求来实现这一点。在新的Xilinx Virtex-4 SX器件中，块RAM的数量与Xtreme DSP的逻辑片数精密匹配(例如，SX25具有128个块RAM，128个DSP逻辑片；SX35具有192个块RAM，192个DSP逻辑片；SX55具有320个块RAM，512个DSP逻辑片)。

信号处理算法并行机制。在典型的可编程DSP或通用处理器中，信号处理算法并行机制通常是指指令集并行(ILP)。超长指令字(VLIW)处理器是此类采用ILP的机器中的一个例子，它将多条指令(ADD、MULT及BRA)组合起来，在一个周期内执行。处理器中高度流水线化的执行单元也是实现并行机制的典型硬件示例。现在已经有可编程DSP采用这种架构(如TI的TMS320C6x)。

但是，并非所有算法都能使用这种并行机制。递归算法，如IIR滤波、MPEG 1/2/4中的变长编码(VLC)、上下文自适应变长编码(CAVLC)，以及H.264/AVC中的上下文自适应二进制算术编码(CABAC)，当映射到这些可编程DSP时，均无法达到最优且效率不高。这是因为数据递归阻碍了ILP的有效利用。作为取代方案，可在FPGA结构中有效地构建专用硬件引擎。

计算复杂度。可编程DPS受计算复杂度的限制，可通过处理器的时钟速率来度量。在FPGA中实现的信号处理算法通常为计算密集算法。其中的例子有运动估计中的绝对差值和(SAD)引擎以及视频缩放。

通过将这些模块映射到FPGA中，主处理器或可编程DSP就可有额外的周期来处理其他算法。此外，FPGA结构还可以具有多种域，从而允许选择性硬件模块根据各自的计算要求使用独立的时钟速度。

理论上质量的最优性。当且仅当对复杂度没有限制时，任何基于速率失真曲线的理论最优解决方案均可实现。在可编程DSP或通用处理器中，计算复杂度常受可用的时钟周期的限制。而FPGA则相反，通过对硬件引擎的多重实例化，或提高结构中块RAM和寄存器组的利用率，实行数据和算法并行机制，从而提供更高的灵活性。

可编程DSP或通用处理器通常受每个周期发出的指令数、执行单元中的流水级数以及完全馈给执行单元所需最大数据宽度的限制。在可编程DSP中，受每个任务可用周期数的限制，视频质量常常大受影响。而在FPGA结构中，硬件资源则可得到完全分配(三步和完全搜索运动估计对比)。

使用FPGA实现功能模块

为定义了主功能块和数据流的整个H.264/AVC宏块级编码器。H.264/AVC标准的主要优势在于能够通过以不同的方式和方向分析像数冗余，预测要编码的图像内容的值，而这种分析以前从未在其他标准中进行过。但与以前的标准相比，其复杂度和内存访问带宽增加了4倍。

改进预测方法

下面重点分析一下在H.264/AVC视频编码设计中实现其增强编码效率的主要特点，根据前文讨论过的设计准则对这些功能模块进行评估。

四分之一像素精度(Quarter-pixel-accurate)运动补偿。以前的标准采用二分之一像素运动向量精度。新设计通过采用四分之一像数运动向量精度对此进行了改善。二分之一像数位置的预测值是通过沿横向和纵向采用一个一维6抽头FIR滤波器[1,-5,20,20,-5,1]/32计算得到的。

四分之一像数位置的预测值是通过将全像素和二分之一像素位置的采样值进行平均得到的。这些二次采样内插运算可在FPGA内的硬件中高效地实现。

小块尺寸可变块大小运动补偿。该标准在16 x16像素宏块尺寸中为铺瓦结构(tiling structure)提供了更多的灵活性。它允许使用16x16、16x8、8x16、8x8、8x4、4x8和4x4子宏块尺寸。

由于给定16x16宏块铺瓦结构的组合增多，因此要找到一个速率失真优化铺瓦解决方案需要很高的计算强度。这一额外特性为运动估计、细化和模式决策过程中所用的计算引擎增加了巨大负荷。

环中自适应去块(deblocking)滤波。去块滤波器已经在H.263+和MPEG-4第2部分的实现中作为后处理滤波器被成功采用。在H.264/AVC中，去块滤波器将在运动补偿环路中移动，对在预测和解码过程中的残留差值编码阶段造成的块边缘进行滤波。滤波对4x4块和16x16宏块边缘均可进行，两个边上的两个像数可能会被一个三抽头滤波器更新。滤波器系数或强度由内容自适应非线形滤波器决定。

帧内编码有向空间预测。当无法采用运动估计时，可以采用帧内有向空间预测来估计空间冗余。这种技术通过从相邻块沿预先定义的一组方向向相邻像数外插来预测当前块。然后就可以对预测块和实际块之间的差值进行编码了。

这种方法在存在空间冗余的平面背景中特别有用。对于Intra_4x4预测，总共有九种预测方向，对于Intra_16x16，则有4种预测方向。注意，在Intra_4x4情况下，由于数据因果性，将导致当前块上边和左边相邻的13个像素值的快速内存访问。对于Intra_16x16，每边将使用16个像素来预测一个16x16块。

多参考图像运动补偿。H.264/AVC标准为帧间编码提供了多参考帧选项。除非参考图像的数量为1，否则必须指定参考图像在多图像缓冲区内的索引位置。多图像缓冲区的尺寸决定编码器和解码器中内存的使用情况。这些参考帧缓冲区必须在编码器的运动估计和补偿阶段分别访问。

加权预测。JVT认为在对一些有衰弱现象的视频图像进行编码时，采用加权运动补偿预测可以极大地改善编码效率。

改善编码效率

除了预测方法得到改进以外，该标准设计的其他部分也对编码效率的改善进行了增强。下面两个附加特性最容易对基于关于软件和硬件分割的设计准则的整体系统架构产生影响。

小块尺寸，层次化，精确匹配反变换和短字长变换。同其他标准一样，H.264/AVC也是对运动补偿预测残留施加变换编码。

但是，与以前采用8x8离散余弦变换(DCT)的标准不同，这种变换是施加于4x4块上，并且采用16位整数格式，可以精确地进行反变换。小块有助于减小分块和振铃结果，而精确整数规范则消除了编码器与反变换中的解码器之间的一切不匹配问题。

此外，还采用了一种基于阿达玛阵(Hadamard matrix)的附加变换，以实现已变换块的16个DC系数的冗余。与DCT相比，所有整数变换矩阵中只