Mixed_Excitation_Linear_Predictionとは - わかりやすく解説 Weblio辞書

索引トップ用語の索引ランキングカテゴリー

Mixed Excitation Linear Prediction

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2022/05/26 07:57 UTC 版)

MELP（Mixed-Excitation Linear Prediction、混合励振線形予測）は、1996年に Federal-Standard 1015（LPC-10e）の代替として選ばれた低ビットレートの音声符号化方式で、2.4kbpsで音声を符号化できる^[1]。 MELPe（enhanced Mixed-Excitation Linear Prediction）は 2.4kbps MELP をさらに改良したもので、騒音が多い環境での特性が優れ^[2]、0.6、1.2、2.4kbpsで音声を符号化できる。

2.4kbps MELP は最初、米軍用のMIL-STD-3005 で規格化された^[3]。その拡張版である MELPe は米軍/NATOの共通規格として STANAG4591 で規格化されている。主に軍用の暗号化戦術無線通信システムや政府用の暗号化電話のための音声符号化方式として使用されている。

概要

MELP はアメリカ国防総省が中心となって規格化を行った低ビットレートの音声符号化方式で、Federal-Standard 1015（2.4kbps LPC-10e）の後継として規格化された。2.4kbps MELP符号化方式の選択と規格化は DoD Digital Voice Processor Consortium（DDVPC、国防総省デジタルボイス処理装置コンソーシアム）が1993年から1997年にかけて行い^[1]、MIL-STD-3005 となった。2.4kbps MELPは Federal-Standard 1015（2.4kbps LPC-10e）より優れており、 Federal-Standard 1016（4.8kbps CELP）と同等か優れた音質で、騒音の多い環境での性能が優れていた。

MIL-STD-3005 はその後、雑音抑制の前処理追加などの拡張が行われると共に 1.2kbps での符号化がサポートされ、MELPe（enhanced MELP）となった。軍用車両のハンヴィー（HMMWV）やCH-47ヘリコプターの騒音環境での評価では、2.4kbps MELPe はオリジナルの 2.4kbps MELP より優れており、1.2kbps MELPe も 2.4bps MELP に近く、Federal-Standard 1015（2.4kbps LPC-10e）より優れた音質だった^[4]^[2]。1.2kbps/2.4 kbps MELPe は NATO で様々な評価が行われ^[5]、2002年に NATO の規格としても採用され STANAG4591 となった。

その後、2005年には STANAG4591 に 0.6kbps（600bps）での符号化が追加され、MIL-STD-3005 は STANAG4591 に統合されて^[6]、米軍/NATOの共通規格となっている。

MELPe は0.6、1.2、2.4kbpsの音声符号化をサポートし、2.4kbps MELPe の性能は Federal-Standard 1016（4.8kbps CELP）より優れている。ビットレートが下がるにつれて性能も低下するが、0.6kbps MELPe でも Federal-Standard 1015（2.4kbps LPC-10e）より性能が優れている^[7]。

アルゴリズム

MELP

MELP のアルゴリズムは、線形予測符号（LPC）を用いたLPCボコーダーに以下のような拡張を加え、性能の向上を行ったものである。

Mixed Excitation（混合励振）
Aperiodic Pulses（非周期パルス）
Adaptive Spectral Enhancement（適応スペクトル強調）
Pulse Dispersion Filter（パルス分散フィルタ）
Fourier Series Modeling（フーリエ級数モデリング）

人間の声は、声道の周波数選択特性と音源である声帯などの音の特性や有声・無声の区別でモデル化できる。有声時、声帯からは特定の周波数(ピッチ周波数)のパルス状の波形の並びで表されるブザーのような音が生成され、無声時には口腔、舌、歯、唇などの調音器官からスペクトルの広い雑音が生成される。人間の声の有声・無声の区別は単純ではなく、有声音にも周期的な成分（有声音）と雑音成分（無声音）とが混じっていることも多い。

Mixed Excitation（混合励振）はこの考え方に基づき、声帯音にあたる励振信号をパルス列と雑音との組み合わせでモデル化する方法で、その比率は周波数ごとに変える。MELPでは 0-500Hz、500-1000Hz、1000-2000Hz、2000-3000Hz、3000-4000Hz の5つのバンドに分け有声・無声の判定を行っている。Mixed Excitation の方法はLPCボコーダーより自然な音質を実現でき、また騒音による音質の低下がLPCボコーダーと比べ少ないという特徴がある^[8]。

Aperiodic Pulses（非周期パルス）は無声音と有声音の中間の状態で現れるトーン性の歪みを減らすための情報で、 MELP では1ビットのフラグで表現される。無声音と有声音の中間の状態ではピッチ周波数を非周期的に変動させ、不自然な歪みを減らしている。

Adaptive Spectral Enhancement（適応スペクトル強調）は生成される音声がフォルマント周波数の領域で自然に聞こえるようにするためのもので、フォルマント周波数を強調するように働く。

Pulse Dispersion Filter（パルス分散フィルタ）はフォルマントを含まない領域での音質の改善を行うためのフィルタである。

Fourier Series Modeling（フーリエ級数モデリング）は有声時の声帯音に当たる励振信号をフーリエ変換の係数で表現する方法である。線形予測の残差信号（励振信号）にピッチ周期に同期した離散フーリエ変換を行い、その係数のピーク値（フーリエ強度、Fourier magnitude）の列でモデル化する。フーリエ強度はベクトル量子化により符号化される。単純で固定的な波形を用いるのに比べ、より自然な音声を生成できる。

符号化は 22.5ms のフレーム単位に行い、1フレーム当たり54ビットに符号化される。音声全体のスペクトル情報は10次の線形予測係数として抽出され、線スペクトル対（LSP）に変換した後にマルチステージベクトル量子化される。

MELPe

MELPe では、MELP のアルゴリズムに加え、雑音抑制の前処理追加などの拡張が行われ、騒音の多い環境での音質が向上している。雑音抑制のアルゴリズムとしては、MMSE-STSA法（minimum mean-square-error short-time spectral amplitude estimator）を対数スペクトルに拡張したものが用いられている^[9]。

1.2kbps MELPe は、3フレームをひとまとまりのスーパーフレームとし、フレーム間のパラメータの相関を利用して線スペクトル対などがベクトル量子化やコードブックによりまとめて符号化され、ビット数の削減が行われる。まとめて処理する単位が長くなったため、有声時のピッチ周波数の誤差を減らすために音声信号の先読み長が MELP より129サンプル長くなった。処理フレーム数が増えたことと先読み長の変更により符号化遅延時間は MELP での 42.625ms から 103.75ms になった。

0.6kbps MELPe は、4フレームがスーパーフレームとして扱われ、各種パラメータがさらに効率的にベクトル量子化される。量子化の方法も複数用意され、スーパーフレーム内の有声・無声のパターンによって切り替えを行う^[10]。有声時のピッチ周波数の変化を補間し滑らかにする機能も強化された^[10]。フレーム長は 22.5ms のままで変わらない。またフーリエ級数モデリングでのフーリエ強度や非周期パルスの情報は使用されない。符号化対象となるフレーム数が 1.2kbps MELPe より1フレーム多いため、0.6kbps MELPe の符号化遅延時間は 126.25ms である^[10]。

圧縮率

MELPe は圧縮率が非常に高い。同じ 8 kHz のサンプリング周波数の音声入力に対し、64 kbit/s μ-Law G.711を基準とした MELPe の圧縮比とフレーム長などのパラメータをまとめると以下の表のようになる。

ビットレート	G.711に対する圧縮比	フレーム長	フレーム周期
2400 bps	26.7倍	54 ビット	22.5 ms
1200 bps	53.3倍	54 ビット	67.5 ms
600 bps	106.7倍	54 ビット	90 ms

多くの低ビットレート音声符号化方式と同様、圧縮率が高くなるに従って音質は低下し、ノイズなどによるパケットロスが発生した場合の影響も大きくなる。

歴史

MELP の基本的な考え方は、当時ジョージア工科大学の学生だったアラン・マクレー（Alan McCree）が1992年から1995年にかけて発表した^[8]^[11]^[12]。その後アトランタシグナルプロセッサー（Atlanta Signal Processors Inc.、2001年にポリコム社が買収）に商業用にライセンスされ、テキサス・インスツルメンツ（Texas Instruments Inc.）が中心となって 2.4kbps MELP のインプリメントが行われた。これが MIL-STD-3005 となった。

1.2kbps/2.4kbps MELPe はシグナルコム（SignalCom Inc. 、後にマイクロソフトに買収）が中心となり1998年頃から2001年頃にかけて開発された。雑音抑制フロントエンドのアルゴリズムには AT&T の技術が使われた。これは NATO の STANAG4591 として2002年に規格化された。

0.6kbps MELPe の仕様はフランスのタレス・グループ（Thales Group）により2005年に STANAG4591 に追加された^[10]。

知的財産権

MELPe とその派生コーデックについて、以下の企業を含むいくつかの企業が知的財産権を所有している。テキサス・インスツルメンツ（2.4kbps基本アルゴリズム）、マイクロソフト（1.2kbpsアルゴリズム）、AT&T（雑音抑制）などである。

MELP や MELPe はアメリカ国防総省やNATOが中心になって研究・開発の援助を行ってきたため、アメリカ国防総省やNATO向けのアプリケーションのみロイヤリティは無償となっている。

脚注

^ ^a ^b L. Supplee, R. Cohn, J. Collura, A. McCree. MELP: The New Federal Standard at 2400 Bps. IEEE icassp, vol.2, pp.1591. 1997.
^ ^a ^b J. S. Collura. Noise Pre-Processing for Tactical Secure Voice Communications. Tactical Mobile Communications, RTO Meeting Proceedings 26. NATO RTO. Nov. 1999. ISBN 92-837-1022-3
^ Department of Defense. MIL-STD-3005 Analog-to-Digital Conversion of Voice by 2,400 bit/second Mixed Excitation Linear Prediction (MELP). United States Department of Defense. Dec. 1999.
^ J.S. Collura, D.F. Brandt, D.J. Rahikka. The 1.2kbps/2.4kbps MELP speech coding suite with integrated noise pre-processing. IEEE Mil. Commun.Conf. Proc., Vol.2, pp.1449-1453. 1999.
^ M. D. Street, J.S. Collura. Interoperable Voice Communications: Test and Selection of STANAG 4591. RTO-MP-065. NATO RTO. 2001.
^ Department of Defense. MIL-STD-3005 NOTICE 1. United States Department of Defense. Feb. 2008.
^ J. Benesty, M. M. Sondhi, Y. Huang (ed). Springer Handbook of Speech Processing. pp.346. Springer, 2007. ISBN 978-3540491255.
^ ^a ^b A. McCree, T.P. Barnwell III. A 2400 bps mixed excitation LPC vocoder. Proc. IEEE Conf. Military Communications, vol.1, pp.381-384. 1992.
^ J. Benesty, S. Makino, J. Chen (ed). Speech Enhancement. pp.60. Springer, 2005. ISBN 978-3540240396.
^ ^a ^b ^c ^d G. Guilmin, F. Capman, B. Ravera, F. Chartier. New NATO STANAG narrow band voice coder at 600 bits/s. Proc. IEEE Int. Conf. Acoust. Speech Signal Process, pp.689-693. 2006.
^ A. McCree, T.P. Barnwell III. Improving the performance of amixed excitation LPC vocoder in acoustic noise. Proc. IEEE Int. Conf. Acoust. Speech Signal Processing, pp.137-140. 1992.
^ A. McCree, T.P. Barnwell III, A mixed excitation LPC vocoder model for low bit rate speech coding, IEEE Trans. Speech Audio Process. 3(4), pp.242-250. 1995.

参考文献

J. Benesty, M. M. Sondhi, Y. Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
J. Benesty, S. Makino, J. Chen (ed). Speech Enhancement. Springer, 2005. ISBN 978-3540240396.
L. Supplee, R. Cohn, J. Collura, A. McCree. MELP: The New Federal Standard at 2400 Bps. IEEE icassp, vol.2, pp.1591. 1997.
J. S. Collura. Noise Pre-Processing for Tactical Secure Voice Communications. Tactical Mobile Communications, RTO-MP-26. NATO RTO. Nov. 1999. ISBN 92-837-1022-3
J.S. Collura, D.F. Brandt, D.J. Rahikka. The 1.2kbps/2.4 kbps MELP speech coding suite with integrated noise pre-processing. IEEE Mil. Commun.Conf. Proc., Vol.2, pp.1449-1453. 1999.
M. D. Street, J.S. Collura. Interoperable Voice Communications: Test and Selection of STANAG 4591. RTO-MP-065. NATO RTO. 2001.
Department of Defense. MIL-STD-3005 Analog-to-Digital Conversion of Voice by 2,400 bit/second Mixed Excitation Linear Prediction (MELP). United States Department of Defense. Dec. 1999.
Department of Defense. MIL-STD-3005 NOTICE 1. United States Department of Defense. Feb. 2008.
NATO. STANAG 4591 C3(EDITION 1), 600 BIT/S, 1200 BIT/S AND 2400 BIT/S NATO INTEROPERABLE NARROW BAND VOICE CODER. NATO Standardization Agency. 3, Oct. 2008.

関連項目

マルチメディア圧縮フォーマット

動画ファイルフォーマット

ISO/IEC	MJPEG Motion JPEG 2000 MPEG-1 MPEG-2 Part 2（英語版） MPEG-4 Part 2/ASP（英語版） Part 10/AVC MPEG-H Part 2/HEVC MPEG-I VVC
ITU-T	H.120（英語版） H.261 H.262 H.263 H.264 H.265 DV H.266
SMPTE	VC-1 VC-2 (Dirac) VC-3 VC-5（英語版）
AOMedia	AV1
IETF	VP8
SAC	AVS（英語版）
その他	Apple Video（英語版） Bink（英語版） DVI（英語版） EVC（英語版） GIFアニメーション Microsoft Video 1（英語版） MSU Lossless（英語版） OMS Video（英語版） ProRes 422 ProRes 4444 RTVideo（英語版） SheerVideo（英語版） Smacker（英語版） Snow Sorenson Video, Spark（英語版） VP6 VP9 WMV YULS（英語版） XVC Xvid
可逆圧縮	FFV1（英語版） Ut Video Codec Suite
開発停止	Zlib Cinepak Daala Huffyuv Lagarith（英語版） RealVideo RMP4 Indeo Microsoft MPEG-4 QuickTime Pixlet Animation（英語版） Graphics（英語版） Theora Thor VP3 VP7 XEB XVD

音声ファイルフォーマット

ISO/IEC	MPEG-1 Layer III (MP3) MPEG-1 Layer II Multichannel（英語版） MPEG-1 Layer I（英語版） AAC HE-AAC AAC-LD（英語版） MPEG Surround（英語版） MPEG-4 ALS MPEG-4 SLS MPEG-4 DST MPEG-4 HILN MPEG-4 HVXC MPEG-4 CELP MPEG-D USAC（英語版） MPEG-H 3D Audio（英語版）
ITU-T	G.711 (A-law, µ-law) G.718 G.719 G.721 G.722 G.722.1 G.722.2 G.723 G.723.1 G.726 G.728 G.729 G.729.1
IETF	Opus iLBC Speex Vorbis
3GPP	AMR AMR-WB AMR-WB+ EVRC EVRC-B（英語版） EVS GSM-HR GSM-FR GSM-EFR
ETSI	AC-3 AC-4（英語版） DTS
SAC	AVS（英語版） DRA（英語版）
その他	ADPCM ALAC Codec 2（英語版） FLAC Monkey's Audio OptimFROG（英語版） PCM WavPack TAK MQA（英語版）
開発停止	ACELP Asao（英語版） ATRAC CELT iSAC（英語版） La Musepack MT9（英語版） OSQ（英語版） PASC QCELP（英語版） RealAudio RCELP RTAudio（英語版） SD2 SHN SILK（英語版） Siren（英語版） SMV SVOPC（英語版） VMR-WB TTA TwinVQ VSELP（英語版） WMA
Bluetooth	aptX LDAC

画像ファイルフォーマット

IEC, ISO, ITU-T, W3C, IETF	CCITT Group 4（英語版） GIF HEIF HEVC JBIG JBIG2 JPEG JPEG-LS JPEG 2000 JPEG XR JPEG XT（英語版） JPEG XL Lossless JPEG PNG TIFF TIFF/EP（英語版） TIFF/IT（英語版）
その他	APNG BPG DjVu DNG EXR FLIF（英語版） ICER（英語版） ILBM JPEG Network Graphics MNG PCX PGF（英語版） QTVR（英語版） TGA WBMP WebP

マルチメディアコンテナフォーマット

ISO/IEC	MPEG-ES（英語版） MPEG-PES（英語版） MPEG-PS（英語版） MPEG-TS ISO base media file format（英語版） MPEG-4 Part 14 (MP4) Motion JPEG 2000 MPEG-21 Part 9 MPEG media transport（英語版）
ITU-T	H.222.0 T.802
IETF	RTP Ogg
SMPTE	GXF（英語版） MXF
3GPP	3GP and 3G2（英語版） 3GP 3G2
その他	AMV ASF AIFF AVI AU BPG Bink（英語版） Smacker（英語版） BMP DivX Media Format DPX DSM EVO（英語版） Flash Video (FLV) IFF M2TS（英語版） Matroska WebM QuickTime File Format（英語版） (MOV) RatDVD RealMedia RIFF WAV MOD and TOD（英語版） VOB, IFO and BUP（英語版）

団体

NETVC（英語版）
MPEG LA（英語版）

圧縮技術についてはデータ圧縮を、コーデックについてはデータ圧縮・伸張を行うコーデックを参照

固有名詞の分類

コーデック

MPEG-4 Part 3 On2 VP6 Mixed Excitation Linear Prediction G.718 G.729

>>固有名詞 >>製品一覧 >>コンピュータ一覧 >>ソフトウェア一覧

>> 「Mixed_Excitation_Linear_Prediction」を含む用語の索引
Mixed_Excitation_Linear_Predictionのページへのリンク

Mixed_Excitation_Linear_Predictionとは？わかりやすく解説