音声強調
音声強調(おんせいきょうちょう、英: speech enhancement)は音声の特定成分を相対的に強調し質を改善する音声信号処理である[1]。
改善の対象としては音声の明瞭度や音質など様々なものがある。SN比を改善する雑音抑制の技術は最も重要なもので、携帯電話、VoIP、電話会議などの通信の分野や、音声認識、補聴器での応用など多くの分野で利用されている。
概要
ハンズフリー通話や、野外での携帯電話の使用など、音声アプリケーションを雑音や反響音の多い環境で使うケースは多い。雑音や反響音で歪んだ音声信号に対して音声強調を行うことで、音声の明瞭度の向上、聞く人の疲労の軽減などの効果が期待できる。
また、携帯電話や衛星電話などで使用されている低ビットレートの音声符号化や、音声認識の処理では、音声を何らかのモデルに当てはめパラメータ化を行うため、音声信号に雑音が含まれるとパラメータ化がうまく行えない。音声符号化では音質の劣化、音声認識では認識率の低下に繋がる。このような分野でも音声強調の技術はよく使われている。
音声強調では、音声と雑音などそれ以外の成分との統計的な性質の違いなどを利用し、信号に含まれる本来の音声や雑音などを様々なアルゴリズムを用いて推定し、雑音などを抑制する。 音声成分や雑音成分の推定は一般に難しく、それらの性質は時間の経過やアプリケーション、環境の違いにより大幅に変わるため、音声強調のアルゴリズムは異なった実環境での評価が必要になる。また、音声の評価についても様々な指標があり、アプリケーションや目的ごとに異なる。 一般に、音声の音質と明瞭度との両立は難しく、例えば雑音の多い周波数をフィルターでカットすると音声の明瞭度は向上するが音質はカットされた分だけ悪化する。
音声強調で使われる代表的な雑音抑制の方法としては以下のものがある。大きく分けて、1つの入力のみを扱う単一チャンネルの手法と、複数のマイクロフォンなどを用いたマルチチャネルの方法がある。
- 単一チャンネル
- フィルタリングによる雑音抑制
- スペクトルサブトラクション法(spectral subtraction method)
- ウィーナーフィルタリング法(Wiener filtering)
- 信号部分空間法(signal subspace approach、SSA)
- スペクトル復元による雑音抑制
- MMSE-STSA法(minimum mean-square-error short-time spectral amplitude estimator)
- 音声モデルベースの雑音抑制
- フィルタリングによる雑音抑制
- マルチチャネル(マイクロフォンアレー)
歴史
音声信号に対する雑音や歪みの抑制を行う技術の歴史は古く、1960年代にはアナログ技術を用いた雑音抑制の特許がベル研究所の M.R.Schroeder により取得されている [2] [3]。 これには現在のスペクトルサブトラクション法に当たる考え方も含まれていた [4]。その後のデジタル信号処理の発展に伴い、1979年にデジタル処理によるスペクトルサブトラクション法が再発明された。同じ年に Jae Lim と Alan Oppenheim はそれまで知られていた雑音抑制の手法を形式化してまとめ[5]、 音声強調の分野が注目されるきっかけとなった。その後、MMSE-STSA法(1984)などの主要な手法が発表され、コンピュータの小型化・高性能化に伴い、携帯電話、電話会議システム、DSP内蔵の補聴器など多くの機器で使用されるようになった。
フィルタリングによる雑音抑制
フィルタリングによる雑音抑制は最も古典的な方法で、何らかのフィルターにより雑音成分を取り除く方法である。
雑音を含んだ入力信号 x(t) が元の音声信号 s(t) と雑音信号 n(t) との和で表される「加法性雑音」を考えると、信号の関係は以下のようになる。
- この節は検証可能な参考文献や出典が全く示されていないか、不十分です。(2023年10月)
通常のオーディオ信号と異なり、音声は固有の特性を持つ。人間の声は、音源である声帯の音の特性と、咽喉と口腔、鼻腔、舌、唇などの調音器官(声道)の共鳴による周波数選択特性で特徴づけられ、その変化にも何らかの規則性がある。音声に対し何らかのモデル化を行い他の方法と組み合わせることで、より優れた雑音抑制を行うことが期待できる。以下のようなモデル化が知られている。
調波モデル
調波モデル(英: harmonic model)は音声を調波加算モデル、すなわち基本周波数+倍音で表現し利用するモデルである。
調波モデルでは声帯を介した声生成過程に着目し音声を調波加算モデルで表現した上で、倍音のみを通過させるくし型フィルターによって音声と雑音を分離する。声帯振動を伴わない無声音はうまくモデル化できず歪むため、調波+雑音によるモデル化(例: SMS)などが提案されている。他の雑音抑制法と比べ音声が歪む傾向にある[要出典]。
線形予測モデル
線形予測モデル(英: linear prediction model)は音声を線形予測によりモデル化する方法である。
この手法は人間の声道の特性が線形予測係数による全極フィルターでうまく表現できることを利用している。雑音抑制は線形予測係数の推定の問題として形式化できる。 線形予測モデルはウィーナーフィルタリング法など他の方式と組み合わせて使用されることも多い。
隠れマルコフモデル
隠れマルコフモデル(英: hidden Markov model)は音声の時間的・スペクトル的変化を隠れマルコフモデルとして扱う方法である。
多くの場合、最初にあらかじめ雑音を含まない音声と雑音とを用意してそれぞれの隠れマルコフモデルを作成し、次にそれらのパラメータを用いて雑音を含む音声から元の音声を推定する。
マルチチャネル(マイクロフォンアレー)
この節は検証可能な参考文献や出典が全く示されていないか、不十分です。(2023年10月)単一チャンネルでの音声強調は、音声と雑音などとの性質の違い(音声は時間・周波数での変動が激しいが雑音は変動が少ない、音声には無声期間がある、など)のみを利用して分離を行う必要があり、変動の大きい雑音など音声と似た性質の音に対してはうまく対応できない。
複数のマイクロフォンなどによるマルチチャネル化は、複数の異なった入力信号を用いることで、より効果的な音声強調を行う方法である。 以下のような様々なアプローチがある。
- 単一チャンネルでの雑音抑制のマルチチャネル化(ウィーナーフィルタリング法、MMSE-STSA法など)
- 以下のようなマルチチャネル固有の技術を応用、あるいは単一チャンネル手法と組み合わせ
- マイクロフォンアレーによるビームフォーミング(microphone-array beamforming)
- ブラインド信号分離(blind source separation)
脚注
- ^ "音声強調は観測信号 x から目的信号 s を取り出す音響信号処理である." 竹内. (2020). 軽量な RNN を用いた音声強調. 日本音響学会 2020年春季研究発表会.
- ^ M.R.Schroeder. PROCESSING OF COMMUNICATIONS SIGNALS TO REDUCE EFFECTS OF NOISE US Patent No.3403224, Sep 24, 1968. (Filed May. 28, 1965)
- ^ M.R.Schroeder. APPARATUS FOR SUPPRESSING NOISE AND DISTORTION IN COMMUNICATION SIGNALS US Patent No.3180936, Apr 26, 1965. (Filed Dec. 1, 1960)
- ^ Jacob Benesty, Shoji Makino, Jingdong Chen (ed). Speech Enhancement. Springer, 2005. ISBN 978-3540240396.
- ^ J. S. Lim, A. V. Oppenheim. Enhancement and bandwidth compression of noisy speech. Proc. of IEEE. Vol.67, pp.1586-1604. 1979.
- ^ S. F. Boll. Suppression of Acoustic Noise in Speech Using Spectral Subtraction. IEEE Trans. ASSP., Vol.27, pp.113-120. 1979.
- ^ Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.の 43.4 Noise Reduction via Filtering Techniques など参照のこと。
- ^ a b c Y. Ephraim, H. L. Van Trees. A signal subspace approach for speech enhancement. IEEE Trans. Speech Audio Processing, vol.3, pp.251-266, 1995.
- ^ a b Y. Ephraim, D. Malah. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator. IEEE Trans. ASSP. Vol.32, pp.1109-1121. 1984.
- ^ Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.の 43.5 Noise Reduction via Spectral Restoration など参照のこと。
参考文献
- J. Benesty, M. M. Sondhi, Y. Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
- J. Benesty, S. Makino, J. Chen (ed). Speech Enhancement. Springer, 2005. ISBN 978-3540240396.
- S. F. Boll. Suppression of Acoustic Noise in Speech Using Spectral Subtraction. IEEE Trans. ASSP., vol.27, pp.113-120. 1979.
- Y. Ephraim, D. Malah. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator. IEEE Trans. ASSP. vol.32, pp.1109-1121. 1984.
- Y. Ephraim, H. L. Van Trees. A signal subspace approach for speech enhancement. IEEE Trans. Speech Audio Processing, vol.3, pp.251-266. 1995.
- J. S. Lim, A. V. Oppenheim. Enhancement and bandwidth compression of noisy speech. Proc. of IEEE, vol.67, pp.1586-1604. 1979.
関連項目
外部リンク
- Speech Enhancement OGI School of Science and Engineering のウェブページ
- 音声強調のページへのリンク