音声モデルベースの雑音抑制
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2014/05/12 14:23 UTC 版)
「音声強調」の記事における「音声モデルベースの雑音抑制」の解説
通常のオーディオ信号と異なり、音声は固有の特性を持つ。人間の声は、音源である声帯の音の特性と、咽喉と口腔、鼻腔、舌、唇などの調音器官(声道)の共鳴による周波数選択特性で特徴づけられ、その変化にも何らかの規則性がある。音声に対し何らかのモデル化を行い他の方法と組み合わせることで、より優れた雑音抑制を行うことが期待できる。以下のようなモデル化が知られている。 調波モデル(harmonic model) 線形予測モデル(linear prediction model) 隠れマルコフモデル(hidden Markov model) 調波モデル(harmonic model)では、音声を特定の周波数の整数倍の音の組み合わせとしてモデル化する方法である。人間の有声音が声帯の基本周波数(ピッチ周波数)の音とその倍音の組み合わせからなることに着目した手法で、特定の周波数の倍音のみを通過させるくし型フィルターにより音声と雑音とを分離する。無声音はこの方法ではうまくモデル化できず歪みが発生するため、調波と雑音の組み合わせでモデル化する方法などが提案されている。一般的に、この方法は他の雑音抑制の手法と比べ音声の歪みが多くなることが多い。 線形予測モデル(linear prediction model)は音声を線形予測によりモデル化する方法で、人間の声道の特性が線形予測係数による全極フィルターでうまく表現できることを利用している。雑音抑制は線形予測係数の推定の問題として形式化できる。 線形予測モデルはウィーナーフィルタリング法など他の方式と組み合わせて使用されることも多い。 隠れマルコフモデル(hidden Markov model)は、音声の時間的・スペクトル的変化を状態遷移の統計モデルである隠れマルコフモデルとして扱う方法である。多くの場合、最初にあらかじめ雑音を含まない音声と雑音とを用意してそれぞれの隠れマルコフモデルを作成し、次にそれらのパラメータを用いて雑音を含む音声から元の音声を推定する。
※この「音声モデルベースの雑音抑制」の解説は、「音声強調」の解説の一部です。
「音声モデルベースの雑音抑制」を含む「音声強調」の記事については、「音声強調」の概要を参照ください。
- 音声モデルベースの雑音抑制のページへのリンク