フェーズボコーダとは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > ウィキペディア小見出し辞書 > フェーズボコーダの意味・解説 

フェーズボコーダ

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/11/12 17:30 UTC 版)

フェーズボコーダ英語: Phase vocoder)は音声信号を周波数領域の振幅と位相でモデル化するボコーダである[1][注釈 1]

フェーズボコーダの心臓部は短時間フーリエ変換 (STFT)であり、次の段階を経る。

  1. 分析:  STFTによる時間領域表現→時間-周波数表現英語版変換
  2. 変更:  任意の周波数成分の振幅・位相操作
  3. 再合成: 逆STFTによる周波数領域表現→時間領域表現変換

フェーズボコーダは周波数領域での変更処理により音声信号の時間伸縮とピッチ変換などを可能にする。また再合成前にSTFT分析フレームの時間的位置を変更すれば、再合成結果の時間発展を変更でき、たとえば音の時間スケール変更を実現できる。

位相コヒーレンス問題

位相コヒーレンス問題はSTFTによる時間-周波数表現 (STFT表現) の操作で必ず解決が必要な主要問題である。これは、時間軸方向にオーバーラップした分析窓(窓関数)を使用する事により、個々の信号成分 (正弦波、インパルス) が、複数のフレームやSTFT周波数ビン(bin)へ拡散しまう問題である(周波数については「スペクトル漏れ」にあたる。)。窓関数の時間的オーバーラップは、隣接するSTFT分析結果が互いに強い相関を持つという事実に基づいている (時刻 t の分析フレームに存在する正弦波成分は、後続フレームにも同様に存在し続ける可能性が高い)。

STFT表現上で行なう全ての変更は、隣接する 周波数ビン (垂直コヒーレンス) や 時間フレーム (水平コヒーレンス) との間で 「適切な相関関係」を維持する必要がある。これは、フェーズボコーダによる信号変形の問題に関連している。合成音が極めて単純な場合以外、この「適切な相関関係」を正確に維持ですることは困難である。フェーズボコーダの発明以来、研究は主にSTFT表現変更後に垂直/水平コヒーレンスを維持するアルゴリズムの発見のために行われてきた。なお、振幅コヒーレンスは、時間スケール操作に関してマイナーな問題に過ぎない。なぜなら、分析フレームの時間シフトは、振幅に小さな影響しか与えないからである。しかし位相コヒーレンスの問題は、適切な解決策が得られるまでかなり長い期間の検討を要した。

歴史

フェーズボコーダは Flanagan & Golden (1966) によって、正弦波成分を表す各ビンの位相間で水平コヒーレンスを維持するアルゴリズムとして導入された[2]。このオリジナルのフェーズボコーダは、隣接する周波数ビン間の垂直コヒーレンスを考慮しなかったので、このシステムによるタイムストレッチ(時間伸縮)の音響信号は明瞭さが欠けていた。

振幅変更後のSTFT表現から音響信号を再構築する最適な方法は、Griffin & Lim (1984) により提案された[3]。このアルゴリズムはコヒーレントSTFT生成の問題を考慮していないが、たとえ変更済みSTFTがコヒーレントでなくとも(いかなる信号も表現していなくとも)、それに可能な限り近いSTFTに相当する音響信号の発見を可能にする。

垂直コヒーレンスの問題は、タイム・スケーリング操作の品質に関する大きな問題として、Laroche & Dolson (1999)[4] が周波数ビン間の位相的整合性を保つずっと簡単な方法を提案するまで、(問題が)残り続けた。LarocheとDolsonの提案は、フェーズボコーダの歴史的転換点と看做すべきだろう。垂直位相の整合性保証により、非常に高品質なタイムスケーリング変換が得られることが示されている。

Larocheが提案したアルゴリズムは、発声(あるいはノート発音)の瞬間の水平位相コヒーレンスの維持は不可能だった。この問題の解決策はRöbel (2003) が提案した[5] 。ここで説明したRöbel提案までの音質改善策を施した、フェーズボコーダ・ベースの信号変換のソフトウェア実装例として、IRCAM SuperVPを挙げることができる [6]

音楽での使用

イギリスの作曲家 トレヴァー・ウィシャート英語版は、人間の声のフェーズボコーダ分析/変換に基づいて、“Vox V()” (アルバム “Vox Cycle英語版”) を制作した[7]。アメリカの作曲家 ロジャー・レイノルズの作品 “Transfigured Wind()” は、フェーズボコーダをフルート音のタイムストレッチに使用した[8]

商用音楽制作で広く活用されているプロプライエタリなピッチ修正ソフトウェア「Auto-Tune」も、フェーズボコーダの動作原理に基づいているとみなされている[9][10]

関連項目

注釈

  1. ^ 信号の位相情報とは、信号を極形式表示した場合の偏角
ソフトウェア



フェーズボコーダ

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/03/10 09:08 UTC 版)

タイムストレッチ/ピッチシフト」の記事における「フェーズボコーダ」の解説

詳細は「フェーズボコーダ」を参照 ピッチ影響与えず信号長さ変える一つ方法は、Flanagan & Golden 1966, Portnoff 1976 らに従ってフェーズボコーダを組み立てる事である。 基本ステップ: 分析: STFT使って信号瞬時周波数瞬時振幅の組を計算する: STFTとは、短くて互いにオーバーラップした、スムーズな窓関数適用ブロック化した信号サンプルを、離散フーリエ変換 (DFT) したものである。 変更: STFT位相振幅なんらかの処理を適用 (たとえばFFTブロックリサンプリング[要説明]); 合成: 逆STFT実行: 各FFTブロック逆フーリエ変換 (IFT) し、得られた短いサンプル波形足し合わせる波形重畳法 (OLA)とも呼ばれる。 フェーズボコーダは正弦波成分をうまく扱うことができるが、初期実装系では非整数比時間スケール伸縮トランジェント ("beat") 波形かなりの不鮮明さ(smearing)が生じ、これが位相のずれ散漫な結果(the results phasey and diffuse)をもたらす。[要説明](訳注: フェーズボコーダ#位相コヒーレンス問題参照) 最近改善により全ての比の時間スケール伸縮でより品質の高い結果得られるようになったが、 依然として不鮮明な残留成分残っている。[要説明] またフェーズボコーダ技術は、ピッチシフト/コーラス効果/音色操作/ハーモナイズ効果/その他特殊な変更などの実現使用でき、これらは全て時間関数として変化させる事ができる。[要説明]

※この「フェーズボコーダ」の解説は、「タイムストレッチ/ピッチシフト」の解説の一部です。
「フェーズボコーダ」を含む「タイムストレッチ/ピッチシフト」の記事については、「タイムストレッチ/ピッチシフト」の概要を参照ください。

ウィキペディア小見出し辞書の「フェーズボコーダ」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「フェーズボコーダ」の関連用語

フェーズボコーダのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



フェーズボコーダのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのフェーズボコーダ (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのタイムストレッチ/ピッチシフト (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS