Harmonic Vector eXcitation Codingとは - わかりやすく解説 Weblio辞書

索引トップ用語の索引ランキングカテゴリー

Harmonic Vector Excitation Coding

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2020/08/12 23:07 UTC 版)

Harmonic Vector Excitation Coding、あるいは HVXC は、MPEG-4 オーディオ（MPEG-4 Part 3）で採用された低ビットレートの音声符号化方式である。人間の音声を対象とし、2 kbps と 4 kbps の2種類の固定ビットレート、および 1.2 ～ 1.7 kbps 程度の可変ビットレートをサポートする。

HVXC は、デジタル放送、携帯電話、インターネット電話、音声データベースなどの様々な用途に使うことができる。

概要

HVXC は MPEG-4 オーディオの音声符号化方式の1つで、1999年に ISO/IEC 14496-3 Subpart 2 で定義され ^[1]、その後 MPEG-4 Audio バージョン 2（ISO/IEC 14496-3:1999/Amd 1:2000）で拡張された ^[2]^[3]。

MPEG-4 オーディオの中で最も低いビットレートでの音声符号化を受けもち、固定ビットレート（2 kbps、4 kbps）、可変ビットレート（2 kbps 以下、4 kbps 以下）の両方をサポートする。サンプリング周波数 8 kHz の 100 Hz - 3800 Hz の帯域幅の音声信号を、低ビットレートでは了解度のみが確保された通信用の品質で、高ビットレートでは有線電話に近い品質で符号化できる ^[4]。

また、HVXC では音声の波形を直接符号化するのではなくパラメータ化して符号化するため、デコード時に音声の速度とピッチ（音声の基本周波数）を独立して変えることができる。

HVXC の特徴は以下の通りである。

サンプリング周波数 8 kHz、帯域幅 100 Hz - 3800 Hz
フレーム長 20 ms
固定ビットレート（2 kbps、4 kbps）、可変ビットレート（2 kbps 以下、4 kbps 以下）の両方をサポート
符号化遅延 36 ms ^[5]
デコード時に音声の速度とピッチ（音声の基本周波数）を変更可能

MPEG-4 オーディオでの位置付け

MPEG-4 オーディオは多くのツールの組み合わせからなり、HVXC や MPEG-4 CELP は人間の自然な音声の符号化を行う自然音声符号化ツール（natural speech coding tools）の1つである^[4]。 MPEG-4 CELP が2種類のサンプリング周波数（8 kHz, 16 kHz）と比較的高いビットレートをカバーするのに対し、HVXC は MPEG-4 CELP でカバーできない超低ビットレートでの符号化を担当する。

さらに低ビットレートでの音声表現が必要な場合は、文字から音声を合成するツールである MPEG-4 TTS Interface（Text-to-speech interface）を使用する。

また、HVXC が音声のみをサポートするのに対し、音楽をパラメトリックに符号化/復号するツールとして MPEG-4 HILN（Harmonic and Individual Lines plus Noise）があり、超低ビットレートで音楽の符号化ができ、また HVXC と同様デコード時に音声の速度とピッチ（音声の基本周波数）を変更できる^[4]。音楽と音声を含む信号の低ビットレート符号化には、HVXC と HILN とを信号の内容に応じ切り替えながら使うこともできる。

アルゴリズム

HVXC の符号化アルゴリズムは、線形予測符号化（LPC）をベースに、LPC の残差信号の表現方法を工夫したものである^[5]。

人間の声は、声道の周波数選択特性と音源である声帯などの音の特性や有声・無声の区別でモデル化できる。 HVXC では、線形予測符号化と同様、声道に相当する合成フィルターのパラメータとして線形予測（LP）フィルターの係数を用い、有声音・無声音で LPC の残差信号にあたる音源のパラメータのモデル化方法を切り替える。

有声音での残差信号は、ハーモニックコーディング（harmonic coding）と呼ばれる方法を用い、声帯音の基本周波数にあたるピッチ周波数と共にそのスペクトル形状とゲインとをパラメータ化する。スペクトル形状は残差信号を離散フーリエ変換（DFT）を使って分析することで求める。無声音での残差信号は、単純なホワイトノイズでモデル化するのではなく、CELP のようにあらかじめ用意した固定型コードブックを用い、コードブック値の中で適切なものを選ぶ VXC（vector excitation coding）と呼ばれる方法で信号の形状とゲインのパラメータ化を行う。

有声・無声の区別を単純に行うのではなく４段階（有声1/2/3、無声）に区別することで音質の向上を行う。

ビットレートが高い場合は、線形予測係数の数や有声音でのスペクトル形状を表すビット数、無声音での形状/ゲインパラメータの更新周期を増やし、より音声信号が適切に表現できるようにする。

具体的な符号化は以下のように行われる^[5]。

線形予測パラメータの計算とLSPの量子化
- 音声信号から線形予測係数を計算
- 係数を量子化特性に優れた線スペクトル対（LSP）に変換
- 量子化にはベクトル量子化の一種（PPM-VQ）を使用
音声を分析フィルターに通し残差信号を計算
- 線形予測係数から生成した分析フィルターに音声信号を入力し、線形予測の残差信号を計算
オープンループでのピッチ分析
- 残差信号の自己相関から大まかなピッチ周波数を推定
残差信号のハーモニック強度を推定
- オープンループでのピッチ周波数をベースに正確なピッチ周波数を求める
- 残差信号の離散フーリエ変換（DFT）より倍音成分の強度を求める
有声・無声の判定
- ハーモニック強度などを用い、周期的な波形を持つ有声音とそうでない無声音の区別を判定
ハーモニック強度のベクトル量子化（有声音のみ）
- ピッチ周波数の倍音成分の強度をベクトル量子化
無声音の残差信号を符号化（無声音のみ）
- あらかじめ用意した形状とゲインのコードブックを用い残差信号を符号化

復号時には、符号化とは逆に、有声/無声判定や各種パラメータから残差信号を生成し、線形予測係数から生成した合成フィルターの入力として加えることで、最終的な音声信号を再合成する。

復号時に音声の速度を変えたい場合には、各パラメータを時間軸方向に補間しながら再合成を行う。ピッチ周波数や線形予測フィルターで表現されたフォルマント周波数などを変えることなく速度の変更ができる。

ピッチ周波数も音声データの一部としてパラメータ化されているため、ピッチ周波数だけを独立して変えることも容易である。

脚注

参考文献

ISO/IEC. Information technology — Coding of audio-visual objects — Part 3:Audio. ISO/IEC 14496-3:2009, Fourth edition, 2009.
Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
Nishiguchi, Masayuki (2006-11). “Harmonic vector excitation coding of speech”. Acoustical science and technology (社団法人日本音響学会) 27 (6): 375-383. doi:10.1250/ast.27.375. NAID 110004836513.

外部リンク

Speech coding in MPEG-4 Audio (Overview of the MPEG-4 Natural Speech Coding Tools) - MPEG-4 音声符号化ツールの概要(英語)
Overview of MPEG-4 Audio and its Applications in Mobile Communications MPEG-4 オーディオとアプリケーションの概要(PDF, 130 kByte, 英語)

マルチメディア圧縮フォーマット

動画ファイルフォーマット

ISO/IEC	MJPEG Motion JPEG 2000 MPEG-1 MPEG-2 Part 2（英語版） MPEG-4 Part 2/ASP（英語版） Part 10/AVC MPEG-H Part 2/HEVC MPEG-I VVC
ITU-T	H.120（英語版） H.261 H.262 H.263 H.264 H.265 DV H.266
SMPTE	VC-1 VC-2 (Dirac) VC-3 VC-5（英語版）
AOMedia	AV1
IETF	VP8
SAC	AVS（英語版）
その他	Apple Video（英語版） Bink（英語版） Daala DVI（英語版） EVC（英語版） GIFアニメーション Indeo Microsoft MPEG-4 Microsoft Video 1（英語版） MSU Lossless（英語版） OMS Video（英語版） Pixlet ProRes 422 ProRes 4444 QuickTime Animation（英語版） Graphics（英語版） RTVideo（英語版） SheerVideo（英語版） Smacker（英語版） Snow Sorenson Video, Spark（英語版） VP6 VP9 WMV YULS（英語版） XVC Xvid
可逆圧縮	FFV1（英語版） Ut Video Codec Suite（英語版）
開発停止	Zlib Cinepak Huffyuv Lagarith（英語版） RealVideo RMP4 Theora Thor VP3 VP7 XEB XVD

音声ファイルフォーマット

ISO/IEC	MPEG-1 Layer III (MP3) MPEG-1 Layer II Multichannel（英語版） MPEG-1 Layer I（英語版） AAC HE-AAC AAC-LD（英語版） MPEG Surround（英語版） MPEG-4 ALS MPEG-4 SLS MPEG-4 DST MPEG-4 HILN MPEG-4 HVXC MPEG-4 CELP MPEG-D USAC（英語版） MPEG-H 3D Audio（英語版）
ITU-T	G.711 (A-law, µ-law) G.718 G.719 G.721 G.722 G.722.1 G.722.2 G.723 G.723.1 G.726 G.728 G.729 G.729.1
IETF	Opus iLBC Speex Vorbis
3GPP	AMR AMR-WB AMR-WB+ EVRC EVRC-B（英語版） EVS GSM-HR GSM-FR GSM-EFR
ETSI	AC-3 AC-4（英語版） DTS
SAC	AVS（英語版） DRA（英語版）
その他	ACELP ADPCM ALAC Asao（英語版） ATRAC CELT Codec 2（英語版）Codec 2 Cook FLAC iSAC（英語版） La Monkey's Audio MT9（英語版） Musepack OptimFROG（英語版） OSQ（英語版） PASC PCM QCELP（英語版） RCELP RealAudio RTAudio（英語版） SD2 SHN SILK（英語版） Siren（英語版） SMV SVOPC（英語版） TAK TTA True Audio TwinVQ VMR-WB VSELP（英語版） WavPack WMA MQA（英語版） aptX LDAC

画像ファイルフォーマット

IEC, ISO, ITU-T, W3C, IETF	CCITT Group 4（英語版） GIF HEIF HEVC JBIG JBIG2 JPEG JPEG-LS JPEG 2000 JPEG XR JPEG XT（英語版） JPEG XL Lossless JPEG PNG TIFF TIFF/EP（英語版） TIFF/IT（英語版）
その他	APNG BPG DjVu DNG EXR FLIF（英語版） ICER（英語版） ILBM JPEG Network Graphics MNG PCX PGF（英語版） QTVR（英語版） TGA WBMP WebP

マルチメディアコンテナフォーマット

ISO/IEC	MPEG-ES（英語版） MPEG-PES（英語版） MPEG-PS（英語版） MPEG-TS ISO base media file format（英語版） MPEG-4 Part 14 (MP4) Motion JPEG 2000 MPEG-21 Part 9 MPEG media transport（英語版）
ITU-T	H.222.0 T.802
IETF	RTP Ogg
SMPTE	GXF（英語版） MXF
3GPP	3GP and 3G2（英語版） 3GP 3G2
その他	AMV ASF AIFF AVI AU BPG Bink（英語版） Smacker（英語版） BMP DivX Media Format DPX DSM EVO（英語版） Flash Video (FLV) IFF M2TS（英語版） Matroska WebM QuickTime File Format（英語版） (MOV) RatDVD RealMedia RIFF WAV MOD and TOD（英語版） VOB, IFO and BUP（英語版）

団体

NETVC（英語版）
MPEG LA（英語版）

圧縮技術についてはデータ圧縮を、コーデックについてはデータ圧縮ソフトウェアを参照

固有名詞の分類

コーデック	Oggページ FLAC Harmonic Vector Excitation Coding Combined Community Codec Pack MPEG-4 ALS >>固有名詞 >>製品一覧 >>コンピュータ一覧 >>ソフトウェア一覧
MPEG	Microsoft MPEG-4 MP4 Harmonic Vector Excitation Coding MPEG-4 ALS MPEG-4 Part 3 >>製品 >>コンピュータ一覧 >>その他コンピュータ製品一覧

>> 「Harmonic Vector eXcitation Coding」を含む用語の索引
Harmonic Vector eXcitation Codingのページへのリンク

Harmonic Vector eXcitation Codingとは？わかりやすく解説