EVRC EVRCの概要

通話中に音声の内容によりビットレートを変えることができ、また雑音抑制の機能が組み込まれているため騒がしい環境でも比較的音質が良い特徴がある。

概要

EVRC は、それ以前に CDMA ネットワークで使われていた 13kbps QCELP（Qualcomm's code excited linear prediction）に代わるものとして提案された音声符号化方式で、1997年に TIA/EIA IS-127 として規格化され、その後1999年に 3GPP2 の標準規格 C.S0014-0 として採用された ^[1]。 CDMA2000 ネットワークでの標準コーデックの1つとして使われている。

現在の EVRC は元の規格をベースに様々な拡張が加えられ、オリジナルの EVRC（EVRC revision 0）以外に EVRC-A（EVRC revision A）、EVRC-B（EVRC revision B、EVRC-Aに平均ビットレート低減などの拡張を行った規格）、EVRC-WB（EVRC wideband、EVRC-Bを2倍の帯域幅に広帯域化した規格）、EVRC-NB（EVRC narrowband-wideband、EVRC-BとEVRC-WBを統合した規格）がある。上位の規格は全て下位の規格と互換性がある。

オリジナルの EVRC はこれらの規格のベースとなるもので、CELPの一種である RCELP をアルゴリズムとして用い、その中で使う固定コードブックとしては ACELP の形式を使う^[1]。

ビットレートは入力となる音声信号の種類（有声音/無声音/無音状態など）により動的に変わる。音声信号の内容に応じて8.55 kbps（フルレート）、4.0 kbps（ハーフレート）、0.8 kbps（1/8レート）のいずれかのビットレートに符号化する。1/8レートは無音状態（しゃべっていない状態）のみで使われる。

これらの符号化データはそれぞれ CDMA2000 ネットワークのレートセット1（9.6 Kbps を基準とする通信レート）でのフレームレート 9600 bps、4800 bps、1200 bps を使い送受信される。CDMA2000 ネットワークで使われている CDMA 方式は、各利用者のビットレートが下がるほど多くの利用者が同時接続できる特性があり、コーデックのビットレートを可変にして平均ビットレートを下げることは1基地局あたりの収容数（同時に通話可能な利用者数）の向上に役立っている。

EVRC の特徴は以下の通りである。

入出力のサンプリング周波数は 8 kHz/ 16 bit
入力となる音声信号の種類による可変ビットレート、8.55 kbps/4.0 kbps/0.8 kbps
CELPの一種である RCELP と ACELP を使用
20 msのフレーム長
雑音抑制の機能が規格自体に組み込まれている

CDMA2000 ネットワークでのサービス種別を表すサービスオプションとしては SO3（Service Option 3）が割り当てられている。

EVRC の符号化データを RTP を用いインターネット上で送るためのデータ形式は、IETF標準の RFC 4788 と RFC 5188 で定義されている ^[2] ^[3]。

EVRC は 3GPP2 でのマルチメディア用ファイルフォーマットである 3G2 でも使うことができる。携帯電話での音声通信用以外に、マルチメディアメッセージングサービスやマルチメディアストリーミングサービスなどの 3GPP2 で定義された各種マルチメディアサービスで使用することができる。

アルゴリズム

EVRC のコアとなる技術は、ベル研究所が開発した以下の2つのアルゴリズムを組み合わせたものである。

雑音抑制アルゴリズム
RCELP（Relaxed CELP）アルゴリズム

雑音抑制

携帯電話を雑音の多い野外や車の中で使うケースは多いが、携帯電話で使われているCELPなどの音声符号化アルゴリズムは音声信号を特定の音声モデルにあてはめパラメータ化を行うため、雑音が含まれるとパラメータ化がうまく行えず音質は悪化する。特にパラメータの冗長度が低い低ビットレートの場合に音質の劣化が激しくなる。雑音抑制はこのような劣化を軽減するためのものである。

雑音抑制の機能はコーデックのフロントエンドとして使われ、大まかには以下のアルゴリズムを用いて雑音を抑制する ^[4]。

時間領域の信号を周波数領域の信号に変換
周波数ごとのエネルギーを推定
周波数ごとの背景雑音を推定
周波数ごとのエネルギーと背景雑音の平均値とから周波数ごとのSN比を推定
必要に応じ推定SN比の値を補正
推定SN比の値を用いて入力信号をフィルタリング
時間領域の信号に変換

信号の音声部分の周波数ごとのエネルギーは時間/周波数で大きく変化するのに対し背景雑音は比較的一定なのを利用し、背景雑音の推定を行う。雑音が多い周波数は推定SN比が低くそうでない周波数は高くなるので、推定SN比の低い周波数の信号を弱めることで雑音の抑制を行う。

RCELP

RCELP（Relaxed CELP）は音声符号化で良く使われるCELPを改良し符号化の圧縮率を高めたアルゴリズムで、1993年にベル研究所のクレイジン（W.B. Kleijn）らが発表した ^[5]。

元となる CELP は、人間の音声を声道に相当する線形予測フィルターと声帯に相当する適応型と固定型のコードブックとでモデル化する。合成による分析（analysis-by-synthesis）の手法を用い、音声波形を再合成し元の信号とを比較することで、コードブックから誤差が最小になるものを探索する。 CELP では元の信号をそのまま比較対象とするのに対し、RCELP はその制限を緩め、時間軸方向に波形を修正した信号を比較対象にする手法である。

一般に、人間の音声の大部分はほぼ同じ波形の特定周波数（ピッチ周波数）での繰り返しからなる。ピッチ周波数は細かい周期で変動しているため、この波形を忠実に再現しようとすると 5 ms 程度の短い周期での分析と符号化が必要になり、必要な情報量が増加してしまう。 20 ms 程度の周期で分析と符号化を行えば情報量は削減できるが、合成による分析の手法を用いた場合、ピッチ周波数の誤差のため実信号との比較がうまくできず音質が低下する。

RCELP ではピッチ周波数の細かい変動を無視し 20 ms 程度の大まかな周期でピッチ周波数の分析と符号化を行い、その間は実際のピッチ周波数との誤差分だけ元の信号を時間軸方向に修正することで、合成による分析の手法を用いた場合の音質低下を避ける。ピッチ周波数の細かい変動を無視しても聴感上の音質はほとんど変わらないことが分かっており ^[6]、元信号の修正のため符号化時の演算量は増加するが、音質を低下させることなく情報量を削減することができる。

EVRC では、入力信号自体を修正するのではなく、線形予測フィルターを通した後の残差信号を時間軸方向に修正している ^[7]。

また、固定コードブックの表現方法として演算量とメモリ使用量が少ない ACELP の形式を用いている^[1]。

脚注

^ ^a ^b ^c 3GPP2. C.S0014-0 Version 1.0 Enhanced Variable Rate Codec (EVRC). 3GPP2, December, 1999.
^ IETF (2007年1月). “Enhancements to RTP Payload Formats for EVRC Family Codecs”. IETF Network Working Group.. 2010年7月14日閲覧。
^ IETF (2008年2月). “TP Payload Format for the Enhanced Variable Rate Wideband Codec (EVRC-WB) and the Media Subtype Updates for EVRC-B Codec”. IETF Network Working Group.. 2010年7月14日閲覧。
^ 3GPP2. C.S0014-0 Version 1.0 Enhanced Variable Rate Codec (EVRC). pp.4-4 - 4-12, 3GPP2, December, 1999.
^ W.B. Kleijn, P. Kroon, L. Cellario, D. Sereno: A 5.85 kb/s CELP algorithm for cellular applications, Proc. IEEE Int. Conf. Acoust. Speech Signal Process. pp.596-599(vol.2), 1993.
^ W.B. Kleijn, R.P. Ramachandran, P. Kroon: Interpolation of the pitch-predictor parameters in analysis-by-synthesis speech coders, IEEE Trans. Speech Audio Process. 2(1), pp.42–53, 1994.
^ 3GPP2. C.S0014-0 Version 1.0 Enhanced Variable Rate Codec (EVRC). pp.4-30 - 4-31, 3GPP2, December, 1999.
^ ^a ^b ^c A. Ryan Heidari. 4GV Technology Presentation CDG Forum April 20 2006.(pdf) Qualcomm, 2006.
^ ^a ^b 3GPP2. C.S0014-B Version 1.0 Enhanced Variable Rate Codec, Speech Service Option 3 and 68 for Wideband Spread Spectrum Digital Systems. 3GPP2, May, 2006.
^ ^a ^b 3GPP2. C.S0014-C Version 1.0 Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems. 3GPP2, February , 2007.
^ ^a ^b 3GPP2. C.S0014-D Version 2.0 Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems. 3GPP2, January, 2010.

[前の解説]

[続きの解説]

「EVRC」の続きの解説一覧

[C.S0014-0-1] 3GPP2. C.S0014-0 Version 1.0 Enhanced Variable Rate Codec (EVRC). 3GPP2, December, 1999.

[RFC4788-2] IETF (2007年1月). “Enhancements to RTP Payload Formats for EVRC Family Codecs”. IETF Network Working Group.. 2010年7月14日閲覧。

[RFC5188-3] IETF (2008年2月). “TP Payload Format for the Enhanced Variable Rate Wideband Codec (EVRC-WB) and the Media Subtype Updates for EVRC-B Codec”. IETF Network Working Group.. 2010年7月14日閲覧。

[4] 3GPP2. C.S0014-0 Version 1.0 Enhanced Variable Rate Codec (EVRC). pp.4-4 - 4-12, 3GPP2, December, 1999.

[5] W.B. Kleijn, P. Kroon, L. Cellario, D. Sereno: A 5.85 kb/s CELP algorithm for cellular applications, Proc. IEEE Int. Conf. Acoust. Speech Signal Process. pp.596-599(vol.2), 1993.

[6] W.B. Kleijn, R.P. Ramachandran, P. Kroon: Interpolation of the pitch-predictor parameters in analysis-by-synthesis speech coders, IEEE Trans. Speech Audio Process. 2(1), pp.42–53, 1994.

[7] 3GPP2. C.S0014-0 Version 1.0 Enhanced Variable Rate Codec (EVRC). pp.4-30 - 4-31, 3GPP2, December, 1999.

[4GV-8] A. Ryan Heidari. 4GV Technology Presentation CDG Forum April 20 2006.(pdf) Qualcomm, 2006.

[C.S0014-B-9] 3GPP2. C.S0014-B Version 1.0 Enhanced Variable Rate Codec, Speech Service Option 3 and 68 for Wideband Spread Spectrum Digital Systems. 3GPP2, May, 2006.

[C.S0014-C-10] 3GPP2. C.S0014-C Version 1.0 Enhanced Variable Rate Codec, Speech Service Options 3, 68, and 70 for Wideband Spread Spectrum Digital Systems. 3GPP2, February , 2007.

[C.S0014-D-11] 3GPP2. C.S0014-D Version 2.0 Enhanced Variable Rate Codec, Speech Service Options 3, 68, 70, and 73 for Wideband Spread Spectrum Digital Systems. 3GPP2, January, 2010.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

EVRC EVRCの概要

EVRC

概要

アルゴリズム

雑音抑制

RCELP

急上昇のことば

「EVRC」の関連用語