音声符号化
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/03/09 08:52 UTC 版)
音声符号化(おんせいふごうか、英: speech coding)は、アナログの音声信号をデジタル符号化するための技術で、音声の性質を使ってデータ圧縮を行うことに特徴がある。音楽などの一般的なオーディオ信号を対象とするMP3などのオーディオ圧縮技術は、人間の聴覚心理学上の特性やデータの冗長性を利用して不要なデータの除去を行うが、音声符号化ではそれに加えて音声固有のモデル化を行うことができるため、さらにビットレートを下げることが可能である。
- ^ John Makhoul, Michael Berouti. High-Frequency Regeneration in Speech Coding Systems. IEEE Proc. ICASSP, pp.428-431. 1979.
- ^ Springer Handbook of Speech Processing には、当時のスーパーコンピュータであるCRAY-1を用い1秒の信号を符号化するのに125秒必要だった、との記述がある。
- ^ Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
- ^ a b Robert M. Gray. California Coding: Early LPC Speech in Santa Barbara, Marina del Rey, and Silicon Valley 1967-1982. Special Workshop in Maui. January, 2004.
- ^ 例えば、John S. Collura. Noise Pre-Processing for Tactical Secure Voice Communications. Tactical Mobile Communications, RTO Meeting Proceedings 26. NATO RTO. Nov. 1999. ISBN 92-837-1022-3 参照。MELPe方式のCH-47ヘリコプタの騒音下での評価は、他の方式と比べて優れている。
- ^ 米 Digital Voice Systems 社の技術資料IMBE and AMBEより 2010-05-15検索
- ^ John S. Collura. Noise Pre-Processing for Tactical Secure Voice Communications. Tactical Mobile Communications, RTO Meeting Proceedings 26. NATO RTO. Nov. 1999. ISBN 92-837-1022-3
- ^ 例えば、LPCボコーダーやCELPなど多くの符号化で使われる線形予測係数は時間領域のパラメータだが、いったん線スペクトル対(LSP)という周波数領域の等価なパラメータに変換された後に処理される。線形予測係数と比べて量子化誤差の影響が小さく、また変化が滑らかで補間が行いやすい。
- ^ “Enhanced Variable Rate Codec, Speech Service Option 3 and 68 for Wideband Spread Spectrum Digital Systems” (PDF). 3rd Generation Partnership Project 2 (2006年). 2010年5月17日閲覧。
- ^ a b c d 板倉 文忠. 音声分析合成の基礎技術とその音声符号化への応用(pdf) フェロー&マスターズ未来技術時限研究専門委員会 第6回研究会資料, 電子情報通信学会, 2006.
- ^ Homer Dudley. The Vocoder. Bell Laboratories Record, Vol.18, pp.122-126. 1939.
- ^ Homer Dudley. Signal Transmission US Patent No.2151019, May 21, 1939. (Filed Oct. 30, 1935)
- ^ a b JOSEPH CAMPBELL, JR., RICHARD DEAN. A History of Secure Voice Coding. Digital Signal Processing, July, 1993.
音声符号化
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/03/04 16:58 UTC 版)
詳細は「音声符号化 」を参照 人間の話し声を対象とする音声符号化は、音声圧縮の重要なカテゴリである。人間の耳を近似した知覚モデルは、話し声と音楽では若干異なる。扱わなければならない周波数の範囲が、話し声の方が音楽よりずっと狭くてすみ、波形もそれほど複雑でない。結果として、人間の声は低ビットレートで高い音質の符号化が可能である。 これは、一般に次のような手法を組み合わせることで実現される。 人間の話し声だけを対象として符号化する。 人間の聴覚が聴ける範囲の周波数だけを対象とし、それ以外の部分を捨てる。 音声符号化の初期のアルゴリズムとして、A-lawアルゴリズムとμ-lawアルゴリズムがある(→G.711)。
※この「音声符号化」の解説は、「音声圧縮」の解説の一部です。
「音声符号化」を含む「音声圧縮」の記事については、「音声圧縮」の概要を参照ください。
固有名詞の分類
- 音声符号化のページへのリンク