パイプラインモデル
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/11 00:45 UTC 版)
例えば補助変数として言語特徴量と音響特徴量を導入し次のように定式化する。音声信号の性質を表す音響特徴量を O {\displaystyle {\mathcal {O}}} (データベース)および o {\displaystyle {\boldsymbol {o}}} (合成)、テキストの性質を表す言語特徴量を L {\displaystyle {\mathcal {L}}} (データベース)および l {\displaystyle {\boldsymbol {l}}} (任意に与えられたテキスト)、言語特徴量が与えられた際の音響特徴量の生起確率を表現するパラメトリックな音響モデルを λ {\displaystyle \lambda } としたとき、予測分布は以下のように分解できる。 p ( x ∣ w , X , W ) = ∭ ∑ ∀ l ∑ ∀ L p ( x , o , l , O , L , λ ∣ w , X , W ) d o d O d λ = ∑ ∀ l ∑ ∀ L ∭ p ( x ∣ o ) p ( o ∣ l , λ ) p ( l ∣ w ) p ( X ∣ O ) p ( O ∣ L , λ ) p ( λ ) p ( L ∣ W ) p ( X ) d o d O d λ {\displaystyle {\begin{aligned}p({\boldsymbol {x}}\mid {\boldsymbol {w}},\mathrm {X} ,{\mathcal {W}})&=\iiint \sum _{\forall {\boldsymbol {l}}}\sum _{\forall {\mathcal {L}}}p({\boldsymbol {x}},{\boldsymbol {o}},{\boldsymbol {l}},{\mathcal {O}},{\mathcal {L}},\lambda \mid {\boldsymbol {w}},\mathrm {X} ,{\mathcal {W}})d{\boldsymbol {o}}d{\mathcal {O}}d\lambda \\&=\sum _{\forall {\boldsymbol {l}}}\sum _{\forall {\mathcal {L}}}\iiint p({\boldsymbol {x}}\mid {\boldsymbol {o}})p({\boldsymbol {o}}\mid {\boldsymbol {l}},\lambda )p({\boldsymbol {l}}\mid {\boldsymbol {w}}){\frac {p(\mathrm {X} \mid {\mathcal {O}})p({\mathcal {O}}\mid {\mathcal {L}},\lambda )p(\lambda )p({\mathcal {L}}\mid {\mathcal {W}})}{p(\mathrm {X} )}}d{\boldsymbol {o}}d{\mathcal {O}}d\lambda \\\end{aligned}}} あとは補助変数について周辺化を行えばよいが、これを補助変数の同時確率を最大化する点で近似すると、予測分布は以下のように近似できる。 p ( x ∣ w , X , W ) ≈ p ( x ∣ o ^ ) {\displaystyle p({\boldsymbol {x}}\mid {\boldsymbol {w}},\mathrm {X} ,{\mathcal {W}})\approx p({\boldsymbol {x}}\mid {\hat {\boldsymbol {o}}})} ただし、 { o ^ , l ^ , λ ^ , O ^ , L ^ } = a r g m a x o , l , λ , O , L { p ( x ∣ o ) p ( o ∣ l , λ ) p ( l ∣ w ) p ( X ∣ O ) p ( O ∣ L , λ ) p ( λ ) p ( L ∣ W ) } {\displaystyle \{{\hat {\boldsymbol {o}}},{\hat {\boldsymbol {l}}},{\hat {\lambda }},{\hat {\mathcal {O}}},{\hat {\mathcal {L}}}\}={\rm {arg~max}}_{{\boldsymbol {o}},{\boldsymbol {l}},\lambda ,{\mathcal {O}},{\mathcal {L}}}{\big \{}p({\boldsymbol {x}}\mid {\boldsymbol {o}})p({\boldsymbol {o}}\mid {\boldsymbol {l}},\lambda )p({\boldsymbol {l}}\mid {\boldsymbol {w}})p(\mathrm {X} \mid {\mathcal {O}})p({\mathcal {O}}\mid {\mathcal {L}},\lambda )p(\lambda )p({\mathcal {L}}\mid {\mathcal {W}}){\big \}}} である。 しかし、同時確率の最大化もなお困難であるため、さらに逐次最適化で近似すると、以下の6つの副問題をそれぞれ最適化することになる。 O ^ = a r g m a x O p ( X ∣ O ) {\displaystyle {\hat {\mathcal {O}}}={\rm {arg~max}}_{\mathcal {O}}p(\mathrm {X} \mid {\mathcal {O}})} (音響特徴量の抽出) L ^ = a r g m a x L p ( L ∣ W ) {\displaystyle {\hat {\mathcal {L}}}={\rm {arg~max}}_{\mathcal {L}}p({\mathcal {L}}\mid {\mathcal {W}})} (言語特徴量の抽出) λ ^ = a r g m a x λ p ( O ^ ∣ L ^ , λ ) {\displaystyle {\hat {\lambda }}={\rm {arg~max}}_{\lambda }p({\hat {\mathcal {O}}}\mid {\hat {\mathcal {L}}},\lambda )} (音響モデルの学習) l ^ = a r g m a x l p ( l ∣ w ) {\displaystyle {\hat {\boldsymbol {l}}}={\rm {arg~max}}_{\boldsymbol {l}}p({\boldsymbol {l}}\mid {\boldsymbol {w}})} (言語特徴量の予測) o ^ = a r g m a x o p ( o ∣ l ^ , λ ^ ) {\displaystyle {\hat {\boldsymbol {o}}}={\rm {arg~max}}_{\boldsymbol {o}}p({\boldsymbol {o}}\mid {\hat {\boldsymbol {l}}},{\hat {\lambda }})} (音響特徴量の予測) x ^ ∼ p ( x ∣ o ^ ) {\displaystyle {\hat {\boldsymbol {x}}}\sim p({\boldsymbol {x}}\mid {\hat {\boldsymbol {o}}})} (音声波形の生成)
※この「パイプラインモデル」の解説は、「音声合成」の解説の一部です。
「パイプラインモデル」を含む「音声合成」の記事については、「音声合成」の概要を参照ください。
- パイプラインモデルのページへのリンク