H.264 H.264の概要

Advanced Video Coding / H.264 / MPEG-4 Part 10
	Advanced video coding for generic audiovisual services
開始年	2003年
初版	2004年8月17日
最新版	14.0; 2021年8月22日
組織	ITU-T, ISO, IEC
委員会	SG16 (VCEG), MPEG
元になった標準	H.261, H.262 (MPEG-2 Video), H.263, MPEG-1
関連する標準	H.265 (HEVC), H.266 (VVC)
ドメイン	Video compression
ライセンス	MPEG LA
ウェブサイト	https://www.itu.int/rec/T-REC-H.264

ITU-Tでは「H.264」として、2003年初めに勧告された。ISO/IECでは、ISO/IEC 14496-10「MPEG-4 Part 10 Advanced Video Coding（通称：MPEG-4 AVC）」として規定されている。どちらも技術的には同一のものであり、ITU-TとISO/IECが共同で策定したため、両者の呼称を「H.264/MPEG-4 AVC」「MPEG-4 AVC/H.264」と併記することが多い。規格文書では「ITU-T Rec. H.264 | ISO/IEC 14496-10 Advanced Video Coding」と縦線で区切られているため、「H.264|MPEG-4 AVC」などとすることもある。主にソフトウェア内部の識別子として「AVC1」も使われている。

従来方式であるMPEG-2などの2倍以上の圧縮効率を実現する。携帯電話などの低ビットレート用途から、HDTVクラスの高ビットレート用途に至るまで幅広く利用されることを想定している。

技術概要

圧縮アルゴリズムの原理は、従来方式のMPEG-1、MPEG-2、H.261、H.263、MPEG-4などと基本的には同様で、空間変換やフレーム間予測、量子化、エントロピー符号化を採用している。H.264ではこれらのツールに対して非常に多数の改良が施されており、算術符号化やフィルタなどのツールも追加されている。さらに、画像特徴に応じて多彩なモードを適応的に使い分けることで、従来方式をはるかにしのぐ圧縮効率を達成している。

整数変換

従来規格のMPEG-1、MPEG-2やH.261では16×16画素、H.263、MPEG-4では8×8画素のブロック（マクロブロック）を単位として、原画像ないしフレーム間予測の予測誤差画像の離散コサイン変換 (DCT) 係数を求め、その係数を量子化している。このとき、コサイン関数を用いるため、実数精度の演算が必要となる。これに対しH.264では、16ビット整数精度で演算が可能な整数変換を採用している。この整数変換は、加減算とビットシフトのみによって演算可能となるように設計されているため、ソフトウェア、ハードウェアいずれの場合でも実装が非常に容易となる。

演算がすべて整数精度で行われることで、実数演算の実装差による「デコーダごとの演算結果の差分」を生じさせることなくエンコードすることが可能となった。これは、エンコード時の局部復号器の結果とすべてのデコーダでの出力結果が全く同一になることを意味している。エンコード時の局部復号器の結果とデコーダの出力結果が異なる場合、エンコーダが作成する再構成画像とデコーダが作成する再構成画像が異なることとなるため、フレームが経過するごとに画像にノイズが蓄積してしまう。これを回避するため従来技術ではそのDCT演算誤差の帳消しのために定期的にイントラマクロブロックを挿入する必要があった。H.264では整数変換を用いており誤差の問題が生じないため、定期的にイントラマクロブロックを挿入する必要がない。

デコーダの実装差による出力結果の違いが生じないことは、デコーダの規格適合性を検証する上でも有利となる。H.264の関連規格であるH.264.1はH.264規格適合性の検証手法を定めるもので、H.264で符号化済の試験用ビットストリームとそのデコード結果の組が多数付属している。開発中のデコーダに試験用ビットストリームを入力し、その出力結果とH.264.1付属のデコード結果が厳密に一致しているかどうかを確かめることで、規格適合性の判断を行うことができる。

当初、H.264で使用可能な整数変換のブロックサイズは4×4画素のみだった。このサイズでは、低解像度の動画の圧縮では比較的好適な画質を示すが、HDTVなどのような高解像度の動画で画質の再現性に弱いという問題点があった。そのため、後に導入されたプロファイル群では、これを克服するために8×8サイズの整数変換が導入されている。これらのプロファイルでは、フレーム内で4×4変換と8×8変換を適応的に切り替えて使用することができる。

フレーム間予測

複数参照フレーム

従来技術では、フレーム間予測で参照フレームとして指定できるフレームは、Pフレームについては直前のI, Pフレーム、Bフレームについては直前および直後のI, Pフレームに固定されている。

H.264では、複数の参照フレームを持つことによって、例えばシーンチェンジや移動物体を考慮してより前のフレームを参照フレームとして指定することが可能となっている。また、Bフレームについては未来方向のフレームを使わずに過去の2フレームを参照フレームとして指定したり、別のBフレームを参照フレームとして指定することが可能となっている。

複数参照フレームの導入に伴いIフレームより前のフレームも参照可能となっている。この場合、Iフレームから再生を開始しようとしても、後続のフレームが、再生を開始しようとするIフレームより前のフレームの情報を必要とすることがある。このため、H.264ではIフレームから再生を開始することができるとは限らない。この問題を解決するため、参照フレームが格納されているバッファのクリアを行うことでそのフレームから再生が可能であることを保証する、IDR (Instantaneous Decoder Refresh) フレームが導入されている。すなわち、P, BフレームはIDRフレームをまたいで参照フレームを指定することができないように定められている。

可変ブロックサイズ

従来技術では、動き補償の単位は16×16画素のマクロブロックが基本であり、H.263およびMPEG-4においては8×8画素ブロック単位の動き補償も利用できた。

H.264ではさらに単位ブロックサイズを追加し、16×16, 16×8, 8×16, 8×8の4種類から選択可能となっている。さらに、8×8画素ブロックについては、8×8, 8×4, 4×8, 4×4の4種類のサブブロック分割も指定できる。

このように多数のブロックサイズを利用することで、形状や動きに適したブロックから予測が可能である。これは、原理的には符号化効率が上がることとなる。ただし、サブブロックを指定することは余分なヘッダが付加されることになり、これがオーバーヘッドとなって符号化効率に影響を与える可能性もある。シーンに適した動き補償ブロックサイズを選択することが、エンコーダには求められる。

重み付け予測

H.264では、従来方式では画質向上が困難だったフェードやディゾルブなどの特殊効果が用いられている動画の画質向上のため、参照フレームの予測誤差に重み付け係数を掛けてデコードする、重み付け予測 (Weighted Prediction) が採用されている。フェードやディゾルブは、前フレームと現フレームで一定のオフセットがかかったような画像であるため、そのことで予測差分に大きな値が生じることとなり、MPEG-4などでは画質劣化の原因として問題となっていた。

1/4画素精度動き補償

動き補償の精度としては、MPEG-4 ASPで導入された1/4画素精度（クォーターペル精度）動き補償を使用している。ゆっくり動くパンなどで特に効果的である。1/2画素精度動き補償では6tapフィルターを用いて高周波まで再現を行っており、MPEG-4で使用された線形補間よりも再現性が良くなっている。1/4画素の生成は、再現性の高い1/2画素を用いてその線形補間で作成を行う。

イントラ予測

H.264では、フレーム間予測を用いないマクロブロックに対して、上や左などに隣接するマクロブロックの隣接画素から補間によって予測画像を生成し、その予測画像との差分を符号化する、イントラ予測 (Intra prediction) が採用されている。予測画像の生成単位となるブロックサイズは、輝度 (Y) 成分については4×4および16×16画素の2種類であり、色差 (Cb, Cr) 成分の8×8画素については8×8画素単位の1種類である。また、予測画像生成における補間パターンは、輝度成分の4×4単位の場合は9種類、輝度成分の16×16単位および色差成分の場合は4種類が利用できる。

さらに、ハイプロファイル以上のプロファイル（後述）では、8×8画素単位のイントラ予測も利用可能である。補間パターンは4×4の場合と同様の9種類が利用できる。なお、8×8、4×4の場合は、整数変換も同じ行列サイズに固定される。

MPEG-4で導入されているAC/DC予測では、予測する係数がDCT係数の行列のうちの最上列ないし最左行の係数に限られているため、縦方向ないし横方向の画素変化に対してしか予測効率を高めることができない。これに対して、H.264のイントラ予測ではDCT係数ではなく画素レベルでの予測を行い、かつ縦・横方向以外にも斜め方向の画素予測パターンも利用できるため、予測効率が大幅に向上している。

エントロピー符号化

H.264では、ハフマン符号をベースとした可変長符号化 (VLC; Variable Length Coding) と、算術符号化のいずれかを選択できる。

前者はBaseline Profileで採用され、従来の3次元VLCに近いCAVLC (Context-based Adaptive VLC) と、指数ゴロム (Exponential-Golomb) 符号を用いることによって変換テーブルを用いずに符号化するUVLC (Universal VLC) が用いられる。CAVLCでは隣接MBのDCT係数の状態に依存して現在のMBの符号化に使用する符号化テーブルを切り替える。このように切り替えを行うことで、現在の画像のテクスチャに応じた符号化テーブルが使用でき、より短い符号への圧縮が期待できる。

後者はCABAC (Context-based Adaptive Binary Arithmetic Coding) と呼ばれ、Main Profileで採用されている。

H.264ではこのように複数の符号化方式が用いられている。これは、処理量は少ないが効果もそこそこのCAVLCと、処理量は大きいが効果も高いCABACではその用途が異なるため、そのことによって「符号化」という同じ目的を持ったツールが複数存在することとなった。

デブロッキングフィルタ

H.264では、かつてH.261で採用されたループ内フィルタ (In-loop Filter) と似たように、ループ内にデブロッキングフィルタ (Deblocking Filter) が設置されている。このフィルタはH.261のようなブロック全体の平滑化フィルタではなく、整数変換のブロック境界のみを平滑化してブロックノイズの発生を抑制するものである。H.261のループ内フィルタは、MPEG-2以降で採用された半画素精度動き補償が数学上同等の役割を果たすため、その意味を失った。

デブロッキングフィルタは圧縮率向上のためには効果的であるが処理量が大きいために、そのON/OFFがヘッダによって指定可能とされている。したがって、処理量に懸念がある場合にはデブロッキングフィルタを使用しないといった選択肢も可能である。

SI, SPフレーム

例えば番組のチャンネルを切り替えたり、再生の途中でプレビューを見ながら早送りしたりする場合のように、ある動画ストリームから途中で別のストリームに切り替えて再生する場合、次のストリームの再生はフレーム間予測を用いないIフレームを受信するまでできなくなる。そこでH.264では、切替用の中間フレームとして、SI, SP（SはSwitchingの意）フレームが採用されている。特にSPフレームの場合は、切替前の動画のフレームを参照画像として切替後の動画がデコードできるように符号化される。

NAL構造

H.264のビット列の規則（シンタックス）は、圧縮符号化された画像データをビット列に変換するための規則を定めたVCL (Video Coding Layer) と、VCLやヘッダ情報などのデータを分割および識別するためのNAL (Network Abstraction Layer) の2層構造を持つ。

従来技術では、シンタックスに従って1つの動画を圧縮符号化した場合、1つのビット列（エレメンタリストリーム）となる。これに対し、H.264では複数の種類のNALユニットに分割して符号化される。なお、従来のエレメンタリストリームと同様に1つのビット列として圧縮データを扱うことができるように、バイトストリームフォーマットがAnnex Bで規定されている。

NAL構造によって、MP4などのファイルフォーマットに格納したり、RTP パケットに分割して伝送したりするなど、圧縮データをさまざまな用途に柔軟に適用できるようになっている。

脚注

^ MPEG-4, Advanced Video Coding (Part 10) (H.264) (Full draft). Sustainability of Digital Formats. Washington, D.C.: Library of Congress. 5 December 2011. 2021年12月1日閲覧。
^ 関昭一・井下雅美「「JNN次世代HD-SNG中継車」標準仕様車について」、『放送技術』第67巻（2014年5月号）、兼六館出版、2014年5月、 ISSN 0287-8658
^ 平樹・田嶋亨「ロボットカメラモニタリングシステムの更新」、『放送技術』第62巻（2009年3月号）、兼六館出版、2009年3月、 ISSN 0287-8658
^ Wild Fox Project
^ Mozilla が H.264 をサポートへ、webM 一本化を断念 Engadget 2012年03月20日
^ HTML5 Extension for Windows Media Player Firefox Plug-in Interoperability Bridges and Labs Center

[前の解説]

[続きの解説]

「H.264」の続きの解説一覧

[1] MPEG-4, Advanced Video Coding (Part 10) (H.264) (Full draft). Sustainability of Digital Formats. Washington, D.C.: Library of Congress. 5 December 2011. 2021年12月1日閲覧。

[2] 関昭一・井下雅美「「JNN次世代HD-SNG中継車」標準仕様車について」、『放送技術』第67巻（2014年5月号）、兼六館出版、2014年5月、 ISSN 0287-8658

[3] 平樹・田嶋亨「ロボットカメラモニタリングシステムの更新」、『放送技術』第62巻（2009年3月号）、兼六館出版、2009年3月、 ISSN 0287-8658

[4] Wild Fox Project

[5] Mozilla が H.264 をサポートへ、webM 一本化を断念 Engadget 2012年03月20日

[6] HTML5 Extension for Windows Media Player Firefox Plug-in Interoperability Bridges and Labs Center

[1]

コーデック	MPEG-2 VP8 H.264 Indeo Harmonic and Individual Lines plus Noise >>固有名詞 >>製品一覧 >>コンピュータ一覧 >>ソフトウェア一覧
MPEG	MPEG-4 CELP MPEG-2 H.264 Harmonic and Individual Lines plus Noise MPEG-2システム >>製品 >>コンピュータ一覧 >>その他コンピュータ製品一覧