単位選択型音声合成
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/11 00:45 UTC 版)
単位選択型音声合成は、コーパスベース音声合成とも呼ばれるが、生成モデル型音声合成でもモデルの学習にコーパスを使用する。データベースの作成では、音声を録音し、その録音した音声に対して、文・フレーズ・アクセント句・形態素・音素・アクセントなどを表すラベルを付与するとともに、音声認識や人手での調整により、ラベルと音声区間の対応を取る。音声を合成する際には一般に、まず入力テキストをテキスト解析器により解析し、そのテキストの文・フレーズ・アクセント句・形態素・音素・アクセントなどの情報(言語特徴量)を得る。次いで、得られた言語特徴量から基本周波数や音素継続長などを予測し、それに最も合致する(ターゲットコスト)音声素片を、接続部分の滑らかさ(接続コスト)も考慮しつつ、データベース中から選んで接続する。これにより、肉声に近く自然な音声を合成することを可能としている。しかし、あらゆる入力テキストに対してより自然に聞こえる音声を合成するには、想定される入力テキストに応じて録音する音声を増やす必要があり、その分データベースが巨大になる。波形接続型音声合成では合成器が音声素片を保持しておく必要があるため、容量の小さな補助記憶装置しか持たないシステムではこれが問題になることがある。
※この「単位選択型音声合成」の解説は、「音声合成」の解説の一部です。
「単位選択型音声合成」を含む「音声合成」の記事については、「音声合成」の概要を参照ください。
- 単位選択型音声合成のページへのリンク