音声合成とは？わかりやすく解説

音声合成（おんせいごうせい、英: speech synthesis）とは、人間の音声を人工的に作り出すことである^[1]。

概要

ヒトは発声器官を通じて音声を生成し、コミュニケーションを行なう（会話や演説、講演、各種芸能およびその中継や録音・録画など）。この音声を人工的に生成するタスクが音声合成である。合成された音声を合成音声（ごうせいおんせい）と呼ぶ。

音声合成は様々な手法で実現できる。ある種の楽器は人の声に似た音を発し、また人の喉を模倣した機械に風を吹き込むことで人の声に似た音が生成できる。コンピューターを用い、音声情報処理の一種としてデジタル的に音声を合成することもできる。

2020年代においては、コンピューターを使えば実音声と聞き分け不可能な音声合成が可能になっている^[要出典]。さらに人工知能（AI）を用いることで、ある人物が実際には話していない発言を映像とともに偽造すること（ディープフェイク）や、自分の声を学習させて癌手術による声帯手術などで発声ができなくなった後でもスマートフォンに入力したテキスト文を自分の声色に似せて音声合成する技術^[2]も実用化されている。

音声には言語内容・話者性・感情など様々な情報が含まれており、音声合成では望んだ属性をもつ合成音声の生成が求められる^[3]。生成にあたり望む属性を外部から入力し生成がおこなわれる。テキスト（文章）を入力し、望む言語内容の音声を生成するタスクは テキスト音声合成（英: Text-To-Speech; TTS）と呼ばれる。歌声を合成するものは特に歌声合成と呼ばれる。また、音声を別の個人あるいはキャラクターの音声に変換する手法は声質変換と呼ばれる。

音声合成は幅広い用途で実利用されている（⇒ #用途）。その発展を目指して様々な団体が研究をおこなっている（⇒ #研究）。

歴史

現代的な信号処理手法が発明されるずっと以前から、西アフリカのトーキングドラム等のように音声を模倣する試みがなされてきた。

1779年には、クリスティアン・クラッツェンシュタインにより母音を発声できる機械が製作された^[4]。この流れはふいごを使った機械式音声合成器を作ったオーストリアのヴォルフガング・フォン・ケンペレンに引き継がれた。彼は1791年に論文Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine（『音声の仕組みとしゃべる機械の解説』）を発表し、その機械について説明している。この機械は舌と唇をモデル化しており、母音だけでなく子音も発音できた。1837年、チャールズ・ホイートストンがフォン・ケンペレンのデザインを元にしゃべる機械を製作し、1857年には、M. FaberがEuphoniaを製作した。ホイートストンの機械は、1923年にPagetが再現している^[5]。

1930年代、ベル研究所のホーマー・ダドリー（Homer Dudley）は通信用の電子式音声分析・音声合成器であるボコーダー（vocoder、voice coderの略）を開発した。その後これを応用し、音声合成部にキーボードを付加した鍵盤演奏型の音声合成器であるvoderを製作し、ニューヨーク万国博覧会 (1939年)に出展した。その発声は十分理解可能だったと言われる^[要出典]。1940年代には、ハスキンズ研究所のフランクリン・S・クーパー（Franklin S. Cooper）らがPattern playbackという機械の開発に取り組み、1950年に完成した。この機械にはいくつかのバージョンがあるが、実際に機能したのは一つだけである^[要出典]。この機械は、スペクトル形式の音声パターンの図を音に変換するものであった。アルヴィン・リバーマン（Alvin Liberman）らは、これを音声学の研究に利用した。

コンピュータを使った最初の音声合成器は1950年代終盤に開発され、最初のテキスト音声合成器は1968年に開発された。1961年、物理学者のJohn Larry Kelly, Jr.とLouis Gerstmen^[6]は、ベル研究所でIBM 704を使った音声合成を行った。そしてデイジー・ベルという歌をコンピュータに歌わせた。友人のジョン・ピアースを訪ねてベル研究所に来ていたアーサー・C・クラークはこのデモを聴いて感銘を受け、2001年宇宙の旅でHAL 9000が歌うクライマックスシーンが生まれた^[7]。

1999年には、東京工業大学のチームにより統計的な生成モデルを用いた音声合成の先駆けである隠れマルコフモデル音声合成が提案された。2013年にはGoogleのチームにより深層学習（ディープラーニング）に基づいた音声合成が提案され、2017年にはテキスト処理部が不要なend-to-endテキスト音声合成が提案された。

用途

三重県御浜町の防災行政無線の放送。

防災行政無線における使用例1

山梨県上野原市の防災行政無線の放送。

防災行政無線における使用例2

これらの音声や映像がうまく視聴できない場合は、Help:音声・動画の再生をご覧ください。

音声合成は幅広い用途で実利用されている。以下はその一例である：

情報提示
- 防災無線^{[† 1]}
- 構内放送・車内放送・案内放送（工場・駅・バスターミナル・空港）^{[† 2]}
- コミュニティ放送^[8]・ハイウェイラジオ^{[† 3]}
操作・対話
- コールセンター自動応答
- 音声アシスタント（スマートフォン、スマートスピーカー）^{[† 4]}^{[† 5]}^{[† 6]}^{[† 7]}^{[† 8]}^{[† 9]}
- ATMや複合機などの電子機器、カーナビゲーション、電子辞書^{[† 10]}^{[† 11]}、家電^{[† 12]}
エンタメ
- アニメ^{[† 13]}
- テレビ番組^{[† 14]}^{[† 15]}
- エンターテインメントロボット^[9]^{[† 16]}
医療・介助
- スクリーンリーダー（視覚障害、読字障害）
- 代替声帯^{[† 17]}^{[† 18]}

理論

音声合成では統計的機械学習がしばしば用いられる。すなわち音声データベース（コーパス）に基づき波形生成の確率モデルを学習し合成器とするアプローチである。人の音声生成において、同一話者が同じ文を何回か読み上げたときに全く同一の波形が得られることは極めて稀である。このように音声生成過程および音声信号は非決定的な性質をもち、確率的な枠組みは有効である^[要出典]。

例えば統計的機械学習を用いたテキスト音声合成では、コーパス内のテキスト ${\mathcal {W}}$

この節は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）
出典検索^?: "音声合成" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2025年3月)

例えば補助変数として言語特徴量と音響特徴量を導入し次のように定式化する。音声信号の性質を表す音響特徴量を ${\mathcal {O}}$

この節は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。（このテンプレートの使い方）
出典検索^?: "音声合成" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2025年3月)

→詳細は「調音音声合成」を参照

調音音声合成は人間の発声過程モデルに基づいた音声合成の総称である。分析合成が「出てきた音」に着目するのに対し、調音合成では「音が出てくる身体」に着目する。例えば音声を声道長や調音部位のパラメータとして表現し、発声過程の物理モデルを用いて音声を合成する。

商用でも使われた例があり、NeXTで使われていたシステムは、カルガリー大学の研究チームがスピンオフして作ったTrillium Sound Research Inc.が開発したものである。Trilliumはこれをフリーな gnuspeech として公開しており、GNU savannah siteで入手可能である。

波形接続型音声合成

→詳細は「波形接続型音声合成」を参照

波形接続型音声合成 （はけいせつぞくがたおんせいごうせい、（英: concatenation-based synthesis）は音声素片を調整・連結して音声を合成する手法の総称である^[18]。

波形接続型音声合成では、短い音声波形を素片としこれらを調整したうえで連結して音声を合成する^[18]。出力目標に近い素片があれば繋ぐだけで自然な音声を合成できる一方、無ければ素片の調整が必要となり自然性が調整法の品質に依存する。また幅広い表現のためには幅広い表現の素片を用意する、あるいは自然かつ表現力のある調整法を採用する必要があり^[19]、様々な手法が開発されている（例: PSOLA - 音高操作^[19]、 MBROLA^[要出典]）。これらの前提として、表現を言語化しその音響的特徴を理解する必要がある（収集基準の設定、調整法の考案、合成時の選択に必須）。

単位選択型音声合成

単位選択型音声合成 （たんいせんたくがたおんせいごうせい、（英: unit selection speech synthesis）は事前収集された要素の選択に基づく音声合成の総称である^[20]^[21]。単位選択型合成（英: unit selection synthesis）とも^[22]。古くはコーパスベース音声合成（英: corpus based synthesis）とも呼ばれた^{[注 2]}^[22]。

単位選択型音声合成では合成のもととなる「ユニット unit」をラベルと共に事前収集し、合成入力に基づいてユニットを選択し合成することで音声を生み出す。

ユニット収集はデータベース作成とも呼ばれる。データベース作成音声を録音し、その録音した音声に対して、文・フレーズ・アクセント句・形態素・音素・アクセントなどを表すラベルを付与するとともに、音声認識や人手での調整により、ラベルと音声区間の対応を取る。

音声を合成する際には一般に、まず入力テキストをテキスト解析器により解析し、そのテキストの文・フレーズ・アクセント句・形態素・音素・アクセントなどの情報（言語特徴量）を得る。次いで、得られた言語特徴量から基本周波数や音素継続長などを予測し、それに最も合致する（ターゲットコスト）音声素片を、接続部分の滑らかさ（接続コスト）も考慮しつつ、データベース中から選んで接続し、音声を得る。

これにより、肉声に近く自然な音声を合成することを可能としている。しかし、あらゆる入力テキストに対してより自然に聞こえる音声を合成するには、想定される入力テキストに応じて録音する音声を増やす必要があり、その分データベースが巨大になる^[23]。単位選択型音声合成では合成器が音声素片を保持しておく必要があるため、容量の小さな補助記憶装置しか持たないシステムではこれが問題になることがある。システムの利用分野を限定する（例: 駅の定型読み上げに限定する）ことでデータベースのサイズを絞ることが可能である一方、これは柔軟性を下げ変更コストを大きくする。

ダイフォン音声合成

ダイフォン音声合成は音声素片にダイフォン（英: diphone、音素ペア）波形を利用した波形接続型音声合成の一種である。

ダイフォン音声合成ではダイフォン波形が収められたデータベースから入力にマッチする音声素片を選択し、韻律を与えながら素片を接続することで音声を生む。ダイフォンの個数（~音素素片数）は各言語の音素配列論で決定される（例: スペイン語約800、ドイツ語約2,500）。ゆえに単位選択型音声合成と比べてデータベースが小さくなる一方、合成音質に劣る。単位選択型音声合成の発展などのため、近年では使われることが少ない^[要出典]。

統計的パラメトリック音声合成

統計的パラメトリック音声合成（英: statistical parametric speech synthesis; SPSS）は統計モデルに基づく音声合成、すなわち確率的音声合成の総称である^[24]。

録音された音声から音声の特徴を学習したパラメトリックな生成モデルを作り、その生成モデルの出力を元に音声を合成する。波形接続型音声合成では条件次第で合成された音声の滑らかさに問題が生じうるが、統計的音声合成では基本的には滑らかな音声を合成できる。また手法により、複数話者の中間声質、感情が込められた変化の激しい音声など、柔軟で多様な音声合成が可能である。

隠れマルコフモデル音声合成

隠れマルコフモデル (HMM) を音響モデルに用いた音声合成である。HMMにより音響特徴量系列を確率的に生成し、これをボコーダーにより音声波形へと変換する。

統計的パラメトリック音声合成の先駆けであり、東京工業大学のチームによって1999年に提案された^[25]。少数のパラメータで音声の特徴を表現でき、モデルの大きさや、モデルの学習および音声の合成に要する計算コストは小さい。携帯電話（フィーチャーフォン）や電子手帳など、ハードウェアの制約が大きい端末でも動作する。また必要な録音時間も（商用の）単位選択型音声合成に比べて短くて済む。

モデルの単純さからスペクトルが人間の音声と比べて平滑なものになりがちであり、このため合成された音声は肉声感に乏しい^[要出典]。また、基本周波数の軌跡も単純なものになりがちである^[要出典]。

ニューラルネットワーク音声合成

ニューラルネットワーク音声合成はニューラルネットワークを音声合成モデルに利用した音声合成である。

音響モデル（言語特徴量 to 音響特徴量）をニューラルネットワークでモデル化する、言語特徴量で条件付けられる音声波形確率分布（生成モデル）自体をニューラルネットワークでモデル化する等の方法がある。ニューラルネットワークモデルは隠れマルコフモデルに比べて表現力が高く自然性が高い一方、モデルのパラメータ数、学習・音声合成計算コストは大きい^[要出典]。

最初のニューラルネットワーク音声合成モデルは2013年に発表された^[26]。初期の研究では隠れマルコフモデル音声合成と同様に音響特徴量を出力していた。2016年には音声波形の直接出力（波形生成モデル）で人間と同等品質の合成が可能な WaveNet が登場した^[27]。高い声質をより速く、軽く、シンプルなモデルで実現するための様々な研究が行われてる（例: WaveNet Vocoder^[28]、Clarinet^[29]、WaveGlow^[30]、WaveRNN^[31]、RNN_MS^[32]）。

また従来はモデル入力に（入力テキストをテキスト解析器によって解析した）言語特徴量が用いられていた。2017年には言語特徴量（テキスト解析器）を不要としたChar2Wav^[33]、Deep Voice^[34]、Tacotron^[35]などのいわゆるend-to-end音声合成が提案された。

表. ニューラルTTS
モデル名	入力	出力	モデル	出典
Tacotron 2	テキスト	メルスペクトログラム	Autoregressive	arxiv
FastSpeech 2	音素	メルスペクトログラム	Transformer^[36]	arxiv
FastSpeech 2s	音素	波形	Transformer^[36]	arxiv

このように、設計された言語・音響特徴量を用いたパラメトリックな音声合成（統計的パラメトリック音声合成）は、特徴量によらない波形生成すなわち統計的音声波形合成（statistical speech waveform synthesis / SSWS）へと範囲を広げつつある^[37]。

2017年には自然言語処理向けとして効率の良い Transformer が登場し、2018年にはそれを音声合成向けに応用した Transformer TTS が登場した^[38]。その後、拡散モデルと組み合わせた音声合成モデルが多数登場した。

また Transformer はハードウェアの限界までスケールするため大規模言語モデル (LLM) の技術が発展していき、2021年には画像生成で LLM の GPT-3 を用いた DALL-E が登場し、その後、音声合成でも DALL-E に影響を受けて LLM の GPT-2 を用いた TorToiSe TTS が登場した^[39]。次いで2024年にはそれを改良して多言語化した XTTS が登場した^[40]。

一方、汎用ニューラルオーディオコーデックの技術も発展し、2023年には EnCodec コーデックを音響トークンとして用いるVALL-Eや^[41]、SoundStream コーデックを音響トークンとして用いる SPEAR-TTS が登場した^[42]^[43]。

2024年には WavTokenizer コーデックを音響トークンとして用いて、それを大規模言語モデル (LLM) の LLaMA と組み合わせた OuteTTS　が登場した^[44]。

表. ニューラルオーディオコーデックとLLMを組み合わせたTTS
モデル名	サイズ	ニューラルオーディオコーデック	大規模言語モデル	出典
OuteTTS 0.1	350M	WavTokenizer	LLaMA	^[45]^[44]
OuteTTS 0.2	500M	WavTokenizer	Qwen 2.5	^[46]
OuteTTS 0.3	500M / 1B	WavTokenizer	Qwen 2.5 / OLMo	^[47]
OuteTTS 1.0	1B	DAC.speech.v1.0	LLaMA 3.2	^[48]^[49]
LLaSA	1B / 3B / 8B	XCodec2	LLaMA 3.2 (1B・3B) / LLaMA 3.1 (8B)	^[49]^[50]
Spark-TTS	0.5B	BiCodec	Qwen 2.5	^[49]
Orpheus	3B	SNAC	LLaMA	^[49]

分類

音声合成はいくつかの観点から分類できる。

生成元

テキスト: テキスト音声合成
音声: 音声変換
- 歌声: 歌声変換（Singing Voice Conversion）
脳活動: Brain-Machine Interfaceの一種^[51]
（音響特徴量: ボコーダー。しばしばテキスト音声合成や音声変換に組み込まれる）

合成先

歌声: 歌声合成（英: singing voice synthesis; SVS）^[52]

テキスト音声合成

テキスト音声合成 （テキストおんせいごうせい、（英: text-to-speech, TTS）はテキスト（文章）を音声に変換するタスクである。この変換は「テキストとそれに対応する音声波形の組があるとき、任意に与えられたテキストに対応する音声波形を求める」問題と捉えられる^[53]^[54]。

テキスト音声合成においては、入力されたテキスト（文章）の読み方を正しく推定することが必要である。一般には規則・辞書・統計的手法などを組み合わせて行う。しかし、これには様々な困難がある。例えば日本語では、漢字の音読み・訓読みの区別（あるいはそれぞれが複数ある場合にどの読み方か推定する）、同形異音語の区別、アクセントの推定、人名や地名の読み方の推定などを正しく行うには困難が伴う。

音声変換

音声変換 （おんせいへんかん、（英: voice conversion, VC）は入力音声がもつ特徴の一部を変換するタスクである^[55]。言語内容を維持したまま話者を変える話者変換^[56]、声のトーンのみを変える感情変換など、様々なサブタスクに分類できる。話者性や音色を維持し言語内容のみを外国語に変えるタスクは音声翻訳タスクとも音声変換タスクとも捉えられる。

→「ボイスチェンジャー」も参照

帯域拡張

帯域拡張 （たいいきかくちょう、（英: bandwidth extension, BWE）は入力音の実効周波数帯域を合成により引き上げるタスクである^[57]。周波数帯域拡張（英: frequency bandwidth extension）、音響超解像（英: audio super-resolution）とも^[58]。

ヒトは20kHzまでの音を聞き取る能力をもつ（可聴域）が、様々な制約によりそれ以下の周波数成分までしか持たない合成音は様々存在する（例: 固定電話）。下限についても同様であり、この失われた周波数帯域を推定し補完する音声合成タスクが帯域拡張である。帯域拡張を実現できれば音響・音声の明瞭性や自然性を向上でき、また帯域拡張を前提とした高圧縮アルゴリズムにも貢献できる。

帯域拡張は狭帯域音声を入力として広帯域音声を合成するタスクであるため、条件付け音声合成の一種と見做せる^[59]。

属性

音声合成では特性の属性を指定した合成音声を生成する場合が多い^[3]。属性には音響的特徴から音声認知的特徴まで以下のようなものがある。属性の組み合わせにより個人性や訛りが生まれる。

言語内容（字句情報）
- 話速
- 音素表現
  - 異音、音素長、子音VOT
大きさ（ラウドネス）
- 音量遷移/強弱アクセント
音高（ピッチ）
- Voiced/Unvoiced（VUV）
- 基本周波数
- 音高遷移
  - ピッチアクセント
  - イントネーション
音色
- 非周期性成分比
性別

課題

品質の客観評価

音声合成の品質のうち、合成音声の自然性を客観的に評価するのは困難である。専門家の間で共通して有効であると認識されているような客観指標は存在しない。目的話者との類似性や、目的の発話スタイルの再現性などについても同様である。

性能の公平な比較

音声合成の手法は研究者によってそれぞれ独自のデータセットを用いてモデル学習を行い、かつ独自の課題により評価することが少なくなく、性能を公平に比較することが困難な場合がある。そこで、音声に関する国際学会であるInternational Speech Communication Association（ISCA）のSpeech Synthesis Special Interest Group（SynSIG）では、2005年より毎年Blizzard Challenge^[60]という競技会を行っている。この競技会では、共通のデータセットを学習に用いた音声合成システムを、共通の課題により評価することで、性能の公平な比較を可能としている。

なお、特に商用の音声合成システムではその目的に応じたデータセットを用いることでその目的に特化した性能向上を図ることがあり、これは各社のノウハウとなっている。

音声合成システム

2020年代において、主要なパーソナルコンピュータおよびスマートフォンのオペレーティングシステムは音声合成による読み上げ機能（スクリーンリーダー）を搭載している。歴史的にも様々な音声合成システムが実用されてきた。以下はその一例である。

Apple
- Mac OS、macOS、iOS
  - MacInTalk（英語版）（Macintosh, 1984~）
  - PlainTalk（英語版）: 音声認識とMacInTalkによる視覚障害者サポート
  - VoiceOver（Mac OS X v10.4 ~）
  - Siri
Microsoft
- Microsoft Windows
  - SAPI
  - Narrator（Windows XP）
  - Cortana
Google
- Android
  - Googleアシスタント
- Gemini^[61]

TI-99/4Aには音声合成機能をオプションで追加可能であった^[62]。
PC-6001は音声合成カートリッジが追加でき、PC-6001mkIIには音声合成機能が内蔵されていた。後継のPC-6001mkIISRやPC-6601では歌うことも可能であった。
FM-7/FM-77シリーズには音声合成ボード (MB22437/FM-77-431) がオプションとして用意されていた。
MZ-1500/2500/2861にはオプションとしてボイスボード (MZ-1M08) が存在した。五十音と、いくつかのフレーズを外部チップにサンプリングされROMとして焼きこまれており、制御によって再生するものである。
富士通は、セントロニクス規格プリンタポートに接続する外付けハードウエアFMVS-101日本語音声合成装置を出していた。ASCIIもOEMしていた。これはプリンタポートさえあれば機種を問わず動作していた。
NEC PC-9801シリーズにて、外付けハードウェア無しに（BEEP音スピーカを使う）ソフトだけで実現する音声合成ソフトが複数でていた。校了Jrなど。
OSS
- Festival Speech Synthesis System
- gnuspeech
- HMM-based Speech Synthesis System (HTS)
- Open JTalk（HTSに基づいた日本語向け音声合成システム）
- MaryTTS
- eSpeak（英語版）
- Coqui-TTS（Mozilla TTSの後継^[63]）- 日本語未対応。
- PaddleSpeech - 英語および中国語。
- ESPnet
- NVIDIA NeMo
- llama.cpp（英語版） (llama-tts)

研究

音声合成の研究について議論されている学術雑誌や学会には、以下のようなものがある（太字は一部または全部の論文について査読を行っているもの）。また様々な機関が音声合成の研究をおこなっている。

学術雑誌

European Association for Signal Processing (EURASIP) Speech Communication（ISCAと合同）
IEEE
- IEEE Transaction on Information and Systems
- IEEE Transaction on Signal Processing
International Speech Communication Association (ISCA)
- Computer Speech and Language
- Speech Communication（EURASIPと合同）
シュプリンガー・サイエンス・アンド・ビジネス・メディア International Journal of Speech Technology

日本音響学会
- 日本音響学会誌
- Acoustical Science and Technology (AST)
電子情報通信学会 電子情報通信学会論文誌
情報処理学会 情報処理学会論文誌

学会

国際学会

Asia Pacific Signal and Information Processing Association Annual Summit Conference (APSIPA ASC)
IEEE
- International Conference on Acoustics, Speech, and Signal Processing (ICASSP)
- Spoken Language Technology (SLP)
International Speech Communication Association (ISCA)
- INTERSPEECH
- Speech Prosody
- Speech Synthesis Workshop (SSW)

国内学会

日本音響学会
- 音声研究会（SP。電子情報通信学会と合同）
- 日本音響学会研究発表会
電子情報通信学会音声研究会（SP。日本音響学会と合同）
情報処理学会音声言語情報処理研究会 (SLP)

研究機関

大学

宇都宮大学大学院工学研究科システム創生工学専攻森研究室
京都大学大学院情報学研究科知能情報学専攻河原研究室
熊本大学大学院自然科学教育部情報電気工学専攻緒方研究室
神戸大学大学院システム情報学研究科情報科学専攻滝口研究室
総合研究大学院大学国立情報学研究所コンテンツ科学研究系山岸研究室
東京大学
- 大学院工学系研究科技術経営戦略学専攻松尾研究室
- 大学院工学系研究科電気系工学専攻峯松・齋藤研究室
- 大学院情報理工学系研究科システム情報学専攻システム情報第1研究室（猿渡・小山研究室）
東京工業大学工学院情報通信系小林研究室
東北大学大学院工学研究科通信工学専攻伊藤・能勢研究室
名古屋工業大学大学院工学研究科情報工学専攻徳田・南角研究室
名古屋大学
- 大学院情報学研究科知能システム学専攻武田研究室
- 大学院情報学研究科知能システム学専攻戸田研究室
奈良先端科学技術大学院大学先端科学技術研究科情報科学領域知能コミュニケーション研究室
山梨大学大学院総合研究部森勢将雅^{[要検証 – ノート]}
立命館大学立命館大学情報理工学部メディア情報学科山下研究室

公的研究機関

国立情報学研究所
情報通信研究機構

その他にも多数の企業が音声合成の研究を行っている（国内の代表例: NHK放送技術研究所/NHK技研、国際電気通信基礎技術研究所/ATR、日本電信電話/NTT）。

その他

音声合成マークアップ言語 (Speech Synthesis Markup Language; SSML)

→詳細は「Speech Synthesis Markup Language」を参照

音声合成においてテキスト解析を100%正しく行うことは困難である。また、テキストからは解釈できない、特定の読み方をさせたいこともある。そこで何らかの方法により情報を指定する必要があるが、ドメイン固有言語により行う方法のほか、W3Cにより定義された音声合成マークアップ言語 (Speech Synthesis Markup Language; SSML) により行う方法がある。

脚注

[脚注の使い方]

注釈

^ 有声音無声音共通の第一～第六フォルマントと、有声音専用のバズバー及びナザル(鼻音)フォルマントを組み合わせて音を生成する歌声合成音源
^ 2025年現在幅広く利用されている統計的音声合成がコーパスを学習に利用する（例: ディープラーニング）ため、この呼称は現在では語弊を生みやすい。

出典

^ "Speech synthesis is the task of generating speech waveforms" Wang, et al. (2021). FAIRSEQ S² : A Scalable and Integrable Speech Synthesis Toolkit.
^ 【Hope】失った私の声で会話を／AI学習そっくり再現：ベンチャー無償提供がん患者らに希望『東京新聞』夕刊2022年8月20日1面（2022年8月27日閲覧）
^ ^a ^b "with desired characteristics, including but not limited to textual content ..., speaker identity ..., and speaking styles" Wang, et al. (2021). FAIRSEQ S² : A Scalable and Integrable Speech Synthesis Toolkit.
^ History and Development of Speech Synthesis (Helsinki University of Technology) - 英語
^ Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), Current Trends in Linguistics, Volume 12, Mouton, The Hague, pp. 2451-2487, 1974.
^ http://query.nytimes.com/search/query?ppds=per&v1=GERSTMAN%2C%20LOUIS&sort=newest Louis Gerstmanの死亡記事（NYタイムス）
^ Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website)
^ 「“AIアナウンサー”がラジオ放送　Amazonの音声合成技術で」『ITmedia NEWS』。2018年11月28日閲覧。
^ “ロボホン”. robohon.com. 2018年11月28日閲覧。
^ 全, 炳河 (2018). “テキスト音声合成技術の変遷と最先端”. 日本音響学会誌 74 (7): 387–393.
^ Klatt, Dennis H. (1980). “Real‐time speech synthesis by rule”. The Journal of the Acoustical Society of America 68: S18.
^ "規則合成は ... 三つの処理に分けることができる ... 第三は韻律情報により規定された音源波形で，パラメータ表現された声道伝達フィルタを駆動して合成波形を生成する処理 ... 音声合成方式は，波形編集方式，分析合成方式，ホルマント合成方式などが規則合成に用いられており" 広川. (1993). 規則合成における音声合成単位及び音声合成法 - より高品質を求めて. 日本音響学会誌 49巻, 12号. pp. 847-853.
^ "分析合成方式は音声生成過程を音源モデルと声道モデルに分け，それぞれの分析パラメータを独立に制御することにより規則合成音を得る方法である。 " 広川. (1993). 規則合成における音声合成単位及び音声合成法 - より高品質を求めて. 日本音響学会誌 49巻, 12号. pp. 847-853.
^ "Formant synthesis versus articulatory synthesis" Klatt. (1979). Software for a cascade/parallel formant synthesizer. J. Acoust. Soc. Am. 67(3).
^ "A formant synthesizer is a source-filter model in which the source models the glottal pulse train and the filter models the formant resonances of the vocal tract." Smith. (2010). Formant Synthesis Models. Physical Audio Signal Processing. ISBN 978-0-9745607-2-4
^ "Constrained linear prediction can be used to estimate the parameters ... more generally ... directly from the short-time spectrum" Smith. (2010). Formant Synthesis Models. Physical Audio Signal Processing. ISBN 978-0-9745607-2-4
^ PLG100-SG取扱説明書 YAMAHA
^ ^a ^b concatenation-based synthesis systems ... the synthesis stage generally involves ... a concatenation process: the sequence of acoustical units must be concatenated after an appropriate modification of their intrinsic prosody.(Moulines 1990, p. 454)
^ ^a ^b PSOLA ... a family of methods for modifying the prosody ... These methods are used to improve the voice quality of text-to-speech systems based on the concatenation of elementary speech units,(Moulines 1990, p. 453)
^ Andrew J., Hunt; Black, Alan W. (1996). “Unit selection in a concatenative speech synthesis system using a large speech database” (English). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings (IEEE): 373–376. doi:10.1109/ICASSP.1996.541110. ISBN 0-7803-3192-3. ISSN 1520-6149.
^ 河井, 恒; 戸田, 智基; 山岸, 順一; 平井, 俊男; 倪, 晋富; 西澤, 信行; 津崎, 実; 徳田, 恵一 (2006). “大規模コーパスを用いた音声合成システムXIMERA”. 電子情報通信学会論文誌 J89-D (12): 2688–2698. ISSN 18804535. NAID 110007380404.
^ ^a ^b Unit selection synthesis is also referred as corpus based synthesis.以下より引用。 Kayte, Sangramsing (2015). “A Review of Unit Selection Speech Synthesis”. International Journal of Advanced Research in Computer Science and Software Engineering. 5 (10): 475–479.
^ concatenation-based synthesis systems require the use of rather large databases of acoustical units(Moulines 1990, p. 454)
^ "Statistical parametric speech synthesis ... as a framework to generate a synthetic speech signal based on a statistical model" Tachibana, et al. (2018). An Investigation of Noise Shaping with Perceptual Weighting for Wavenet-Based Speech Generation. doi: 10.1109/ICASSP.2018.8461332
^ Masuko, Takashi; Keiichi, Tokuda; Takao, Kobayashi; Satoshi, Imai (1999-05-09). “Speech synthesis using HMMs with dynamic features” (English). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings (IEEE): 389–392. doi:10.1109/ICASSP.1996.541114. ISBN 0-7803-3192-3. ISSN 1520-6149.
^ Zen, Heiga; Senior, Andrew; Schuster, Mike (2013-05-26). “Statistical parametric speech synthesis using deep neural networks” (English). 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (IEEE): 7962–7966. ISBN 978-1-4799-0356-6. ISSN 1520-6149.
^ van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew et al. (2016-09-12). “WaveNet: A Generative Model for Raw Audio” (English). arXiv. arXiv:1609.03499.
^ J. Shen, R. Pang, R. J. Weiss, et al., “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” arXiv preprint arXiv:1712.05884, 2017.
^ W. Ping, K. Peng, and J. Chen, “Clarinet: Parallel wave generation in end-to-end text-to-speech,” arXiv preprint arXiv:1807.07281, 2018
^ R. Prenger, R. Valle, and B. Catanzaro, “Waveglow: A flowbased generative network for speech synthesis,” arXiv preprint arXiv:1811.00002, 2018
^ N. Kalchbrenner, E. Elsen, K. Simonyan, et al., “Efficient neural audio synthesis,” arXiv preprint arXiv:1802.08435, 2018.
^ Jaime Lorenzo-Trueba, Thomas Drugman, Javier Latorre, Thomas Merritt, Bartosz Putrycz, Roberto Barra-Chicote, Alexis Moinet, Vatsal Aggarwal (2019) TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING. Interspeech 2019
^ Sotelo, Jose; Mehri, Soroush; Kumar, Kundan; Santos, Joao Felipe; Kastner, Kyle; Courville, Aaron; Bengio, Yoshua (2017-02-18). “Char2Wav: End-to-End Speech Synthesis” (English). ICLR 2017 workshop submission.
^ Arik, Sercan O.; Chrzanowski, Mike; Coates, Adam; Diamos, Gregory; Gibiansky, Andrew; Kang, Yongguo; Li, Xian; Miller, John et al. (2017-02-25). “Deep Voice: Real-time Neural Text-to-Speech” (English). arXiv. arXiv:1702.07825.
^ Wang, Yuxuan; Skerry-Ryan, RJ; Stanton, Daisy; Wu, Yonghui; Weiss, Ron J.; Jaitly, Navdeep; Yang, Zongheng; Xiao, Ying et al. (2017-03-29). “Tacotron: Towards End-to-End Speech Synthesis” (English). arXiv. arXiv:1703.10135.
^ ^a ^b We use the feed-forward Transformer block, …, as the basic structure for the encoder and mel-spectrogram decoder. arxiv
^ Jaime (2018) TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING https://arxiv.org/abs/1811.06292
^ Naihan Li, et al. Neural Speech Synthesis with Transformer Network
^ Better speech synthesis through scaling James Betker 2023年5月23日
^ XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model Edresson Casanova et al. 2024年6月7日
^ Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers p.5 Chengyi Wang, et al. 2023年
^ Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision Google Research
^ Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision Eugene Kharitonov, et al. 2023年
^ ^a ^b OuteTTS-0.1-350M Released: A Novel Text-to-Speech (TTS) Synthesis Model that Leverages Pure Language Modeling without External Adapters Marktechpost Media 2024年11月4日
^ OuteAI/OuteTTS-0.1-350M Hugging Face
^ OuteAI/OuteTTS-0.2-500M Hugging Face
^ OuteAI/OuteTTS-0.3-1B Hugging Face
^ OuteAI/Llama-OuteTTS-1.0-1B Hugging Face
^ ^a ^b ^c ^d SpeechLMs: LLM-Powered Text-to-Speech and Neural Audio Codecs Explored Hugging Face 2025年4月3日
^ Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis Zhen Ye et al. 2025年2月22日
^ Gopala K. Anumanchipalli, et al.. (2019) Speech synthesis from neural decoding of spoken sentences [paper]
^ "Singing voice synthesis (SVS) aims to generate humanlike singing voices from musical scores with lyrics" Wu. (2022). DDSP-based Singing Vocoders: A New Subtractive-based Synthesizer and A Comprehensive Evaluation.
^ 徳田, 恵一 (2015). “統計的音声合成技術の現在・過去・未来”. 音声言語シンポジウム IEICE-115 (346). ISSN 0913-5685.
^ 徳田, 恵一 (2017). “風雲急を告げる音声合成研究の最新動向”. 情報・システムソサイエティ誌 (電子情報通信学会) 21 (4): 10–11. doi:10.1587/ieiceissjournal.21.4_10. ISSN 2189-9797. NAID 130005312792.
^ "Voice conversion (VC) refers to a technique that converts a certain aspect of speech from a source to that of a target without changing the linguistic content" Huang, et al. (2021). S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations. p.1.
^ "speaker conversion, which is the most widely investigated type of VC." Huang, et al. (2021). S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations. p.1.
^ "Bandwidth extension ... Frequency bandwidth extension ... can be viewed as a realistic increase of signal sampling frequency." Andreev. (2023). HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement.
^ "Bandwidth extension ... also known as audio super-resolution" Andreev. (2023). HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement.
^ "The applications of conditional speech generation include ... bandwidth extension (BWE)" Andreev. (2023). HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement.
^ “Blizzard Challenge 2018 - SynSIG” (英語). www.synsig.org. 2018年11月30日閲覧。
^ 音声生成（テキスト読み上げ） Google
^ Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002
^ KI-Sprachforschungsteam von Mozilla macht allein weiter （ドイツ語） Golem.de（ドイツ語版） 2021年3月15日

一次文献

^ 「防災無線が機械音声に 11月１日から本格開始 | 厚木 | タウンニュース」『タウンニュース』2016年11月11日。2018年11月28日閲覧。
^ “阪急電鉄、訪日外国人向け多言語アナウンスサービスを導入--案内情報の印刷も” (日本語). CNET Japan. (2018年5月24日) 2018年11月28日閲覧。
^ 「ハイウェイラジオのヒミツ　情報の早さ、エリアの細かさ、その仕組みは？ | 乗りものニュース」『乗りものニュース』。2018年11月28日閲覧。
^ “Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis - Apple” (英語). Apple Machine Learning Journal. 2018年11月28日閲覧。
^ “WaveNet launches in the Google Assistant | DeepMind”. DeepMind. 2018年11月28日閲覧。
^ “5/30サービス開始！NTTドコモの新しいAIエージェント「my daiz」にエーアイの音声合成AITalkが採用株式会社AI（エーアイ）”. 株式会社エーアイ(AI). 2018年11月28日閲覧。
^ “エモパー｜機能・サービス｜AQUOS ZETA SH-01G｜製品ラインアップ｜AQUOS：シャープ”. シャープスマートフォン・携帯電話　AQUOS公式サイト. 2018年11月28日閲覧。
^ “Amazon PollyでAlexaの音声をカスタマイズしよう” (英語) 2018年11月28日閲覧。
^ “音声ニュース配信　朝日新聞アルキキ”. www.asahi.com. 2018年11月28日閲覧。
^ “エクスワードに搭載された快適機能 - 電子辞書 - CASIO”. arch.casio.jp. 2018年11月28日閲覧。
^ “Amazon.co.jp ヘルプ: 読み上げ機能を使用する”. www.amazon.co.jp. 2018年11月28日閲覧。
^ “音声対話”. AX-XW400 | ウォーターオーブンヘルシオ：シャープ. 2018年11月28日閲覧。
^ 「テレビの歴史で初となる、全キャラクターが音声合成でしゃべるアニメがスタート | ロボスタ - ロボット情報WEBマガジン」『ロボスタ』。2018年11月28日閲覧。
^ “VoiceTextホーム | HOYA音声合成ソフトウェア”. HOYA音声合成ソフトウェア「VoiceText」. 2018年11月28日閲覧。
^ 「NHKが「人造アナウンサー」開発、コップのフチにいそうな「ニュースのヨミ子」さん」『ITmedia NEWS』。2018年11月28日閲覧。
^ CORPORATION., TOYOTA MOTOR. “トヨタ KIROBO mini | KIBO ROBOT PROJECT | KIROBO・MIRATA | トヨタ自動車WEBサイト”. トヨタ KIROBO mini | KIBO ROBOT PROJECT | KIROBO・MIRATA | トヨタ自動車WEBサイト. 2018年11月28日閲覧。
^ “Remembering Stephen Hawking’s iconic synthesized voice” (英語). What’s next. (2018年3月19日) 2018年11月28日閲覧。
^ “受け入れ態勢は？「筆談ホステス」当選の北区議会に聞いた”. 日刊ゲンダイDIGITAL. 2018年11月28日閲覧。

参考文献

Moulines, Eric (1990). “Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones”. Speech Communication. 9 (5–6): 453–467. doi:10.1016/0167-6393(90)90021-Z.

外部リンク

Watson Text to Speech - IBM
Windows XP での音声合成の構成および使用方法 - マイクロソフト
Audio of 1962 Bell Laboratories computer speech demonstration （英語）
Talking Heads website （英語）
Intelligent Speaker （英語） - スピーチテキストブラウザ拡張機能
『音声合成』 - コトバンク

この項目は、工学・技術に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（Portal:技術と産業）。

[35] 有声音無声音共通の第一～第六フォルマントと、有声音専用のバズバー及びナザル(鼻音)フォルマントを組み合わせて音を生成する歌声合成音源

[42] 2025年現在幅広く利用されている統計的音声合成がコーパスを学習に利用する（例: ディープラーニング）ため、この呼称は現在では語弊を生みやすい。

[1] "Speech synthesis is the task of generating speech waveforms" Wang, et al. (2021). FAIRSEQ S² : A Scalable and Integrable Speech Synthesis Toolkit.

[2] 【Hope】失った私の声で会話を／AI学習そっくり再現：ベンチャー無償提供がん患者らに希望『東京新聞』夕刊2022年8月20日1面（2022年8月27日閲覧）

[:2-3] "with desired characteristics, including but not limited to textual content ..., speaker identity ..., and speaking styles" Wang, et al. (2021). FAIRSEQ S² : A Scalable and Integrable Speech Synthesis Toolkit.

[Helsinki-4] History and Development of Speech Synthesis (Helsinki University of Technology) - 英語

[5] Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), Current Trends in Linguistics, Volume 12, Mouton, The Hague, pp. 2451-2487, 1974.

[6] ttp://query.nytimes.com/search/query?ppds=per&v1=GERSTMAN%2C%20LOUIS&sort=newest Louis Gerstmanの死亡記事（NYタイムス）

[bell_labs_hal-7] Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website)

[10] 「“AIアナウンサー”がラジオ放送　Amazonの音声合成技術で」『ITmedia NEWS』。2018年11月28日閲覧。

[24] “ロボホン”. robohon.com. 2018年11月28日閲覧。

[:0-28] 全, 炳河 (2018). “テキスト音声合成技術の変遷と最先端”. 日本音響学会誌 74 (7): 387–393.

[29] Klatt, Dennis H. (1980). “Real‐time speech synthesis by rule”. The Journal of the Acoustical Society of America 68: S18.

[30] "規則合成は ... 三つの処理に分けることができる ... 第三は韻律情報により規定された音源波形で，パラメータ表現された声道伝達フィルタを駆動して合成波形を生成する処理 ... 音声合成方式は，波形編集方式，分析合成方式，ホルマント合成方式などが規則合成に用いられており" 広川. (1993). 規則合成における音声合成単位及び音声合成法 - より高品質を求めて. 日本音響学会誌 49巻, 12号. pp. 847-853.

[31] "分析合成方式は音声生成過程を音源モデルと声道モデルに分け，それぞれの分析パラメータを独立に制御することにより規則合成音を得る方法である。 " 広川. (1993). 規則合成における音声合成単位及び音声合成法 - より高品質を求めて. 日本音響学会誌 49巻, 12号. pp. 847-853.

[32] "Formant synthesis versus articulatory synthesis" Klatt. (1979). Software for a cascade/parallel formant synthesizer. J. Acoust. Soc. Am. 67(3).

[33] "A formant synthesizer is a source-filter model in which the source models the glottal pulse train and the filter models the formant resonances of the vocal tract." Smith. (2010). Formant Synthesis Models. Physical Audio Signal Processing. ISBN 978-0-9745607-2-4

[34] "Constrained linear prediction can be used to estimate the parameters ... more generally ... directly from the short-time spectrum" Smith. (2010). Formant Synthesis Models. Physical Audio Signal Processing. ISBN 978-0-9745607-2-4

[36] PLG100-SG取扱説明書 YAMAHA

[:3-37] tenation-based synthesis systems ... the synthesis stage generally involves ... a concatenation process: the sequence of acoustical units must be concatenated after an appropriate modification of their intrinsic prosody.(Moulines 1990, p. 454)

[:4-38] PSOLA ... a family of methods for modifying the prosody ... These methods are used to improve the voice quality of text-to-speech systems based on the concatenation of elementary speech units,(Moulines 1990, p. 453)

[39] Andrew J., Hunt; Black, Alan W. (1996). “Unit selection in a concatenative speech synthesis system using a large speech database” (English). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings (IEEE): 373–376. doi:10.1109/ICASSP.1996.541110. ISBN 0-7803-3192-3. ISSN 1520-6149.

[40] 河井, 恒; 戸田, 智基; 山岸, 順一; 平井, 俊男; 倪, 晋富; 西澤, 信行; 津崎, 実; 徳田, 恵一 (2006). “大規模コーパスを用いた音声合成システムXIMERA”. 電子情報通信学会論文誌 J89-D (12): 2688–2698. ISSN 18804535. NAID 110007380404.

[:5-41] Unit selection synthesis is also referred as corpus based synthesis.以下より引用。 Kayte, Sangramsing (2015). “A Review of Unit Selection Speech Synthesis”. International Journal of Advanced Research in Computer Science and Software Engineering. 5 (10): 475–479.

[43] tenation-based synthesis systems require the use of rather large databases of acoustical units(Moulines 1990, p. 454)

[44] "Statistical parametric speech synthesis ... as a framework to generate a synthetic speech signal based on a statistical model" Tachibana, et al. (2018). An Investigation of Noise Shaping with Perceptual Weighting for Wavenet-Based Speech Generation. doi: 10.1109/ICASSP.2018.8461332

[45] Masuko, Takashi; Keiichi, Tokuda; Takao, Kobayashi; Satoshi, Imai (1999-05-09). “Speech synthesis using HMMs with dynamic features” (English). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings (IEEE): 389–392. doi:10.1109/ICASSP.1996.541114. ISBN 0-7803-3192-3. ISSN 1520-6149.

[46] Zen, Heiga; Senior, Andrew; Schuster, Mike (2013-05-26). “Statistical parametric speech synthesis using deep neural networks” (English). 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (IEEE): 7962–7966. ISBN 978-1-4799-0356-6. ISSN 1520-6149.

[47] van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew et al. (2016-09-12). “WaveNet: A Generative Model for Raw Audio” (English). arXiv. arXiv:1609.03499.

[48] J. Shen, R. Pang, R. J. Weiss, et al., “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” arXiv preprint arXiv:1712.05884, 2017.

[49] W. Ping, K. Peng, and J. Chen, “Clarinet: Parallel wave generation in end-to-end text-to-speech,” arXiv preprint arXiv:1807.07281, 2018

[50] R. Prenger, R. Valle, and B. Catanzaro, “Waveglow: A flowbased generative network for speech synthesis,” arXiv preprint arXiv:1811.00002, 2018

[51] N. Kalchbrenner, E. Elsen, K. Simonyan, et al., “Efficient neural audio synthesis,” arXiv preprint arXiv:1802.08435, 2018.

[52] Jaime Lorenzo-Trueba, Thomas Drugman, Javier Latorre, Thomas Merritt, Bartosz Putrycz, Roberto Barra-Chicote, Alexis Moinet, Vatsal Aggarwal (2019) TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING. Interspeech 2019

[53] Sotelo, Jose; Mehri, Soroush; Kumar, Kundan; Santos, Joao Felipe; Kastner, Kyle; Courville, Aaron; Bengio, Yoshua (2017-02-18). “Char2Wav: End-to-End Speech Synthesis” (English). ICLR 2017 workshop submission.

[54] Arik, Sercan O.; Chrzanowski, Mike; Coates, Adam; Diamos, Gregory; Gibiansky, Andrew; Kang, Yongguo; Li, Xian; Miller, John et al. (2017-02-25). “Deep Voice: Real-time Neural Text-to-Speech” (English). arXiv. arXiv:1702.07825.

[55] Wang, Yuxuan; Skerry-Ryan, RJ; Stanton, Daisy; Wu, Yonghui; Weiss, Ron J.; Jaitly, Navdeep; Yang, Zongheng; Xiao, Ying et al. (2017-03-29). “Tacotron: Towards End-to-End Speech Synthesis” (English). arXiv. arXiv:1703.10135.

[:1-56] We use the feed-forward Transformer block, …, as the basic structure for the encoder and mel-spectrogram decoder. arxiv

[57] Jaime (2018) TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING https://arxiv.org/abs/1811.06292

[58] Naihan Li, et al. Neural Speech Synthesis with Transformer Network

[59] Better speech synthesis through scaling James Betker 2023年5月23日

[60] XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model Edresson Casanova et al. 2024年6月7日

[61] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers p.5 Chengyi Wang, et al. 2023年

[62] Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision Google Research

[63] Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision Eugene Kharitonov, et al. 2023年

[marktechpost-outetts-64] OuteTTS-0.1-350M Released: A Novel Text-to-Speech (TTS) Synthesis Model that Leverages Pure Language Modeling without External Adapters Marktechpost Media 2024年11月4日

[65] OuteAI/OuteTTS-0.1-350M Hugging Face

[66] OuteAI/OuteTTS-0.2-500M Hugging Face

[67] OuteAI/OuteTTS-0.3-1B Hugging Face

[68] OuteAI/Llama-OuteTTS-1.0-1B Hugging Face

[hf-speechlms-69] SpeechLMs: LLM-Powered Text-to-Speech and Neural Audio Codecs Explored Hugging Face 2025年4月3日

[70] Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis Zhen Ye et al. 2025年2月22日

[71] Gopala K. Anumanchipalli, et al.. (2019) Speech synthesis from neural decoding of spoken sentences [paper]

[72] "Singing voice synthesis (SVS) aims to generate humanlike singing voices from musical scores with lyrics" Wu. (2022). DDSP-based Singing Vocoders: A New Subtractive-based Synthesizer and A Comprehensive Evaluation.

[73] 徳田, 恵一 (2015). “統計的音声合成技術の現在・過去・未来”. 音声言語シンポジウム IEICE-115 (346). ISSN 0913-5685.

[74] 徳田, 恵一 (2017). “風雲急を告げる音声合成研究の最新動向”. 情報・システムソサイエティ誌 (電子情報通信学会) 21 (4): 10–11. doi:10.1587/ieiceissjournal.21.4_10. ISSN 2189-9797. NAID 130005312792.

[75] "Voice conversion (VC) refers to a technique that converts a certain aspect of speech from a source to that of a target without changing the linguistic content" Huang, et al. (2021). S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations. p.1.

[76] "speaker conversion, which is the most widely investigated type of VC." Huang, et al. (2021). S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations. p.1.

[77] "Bandwidth extension ... Frequency bandwidth extension ... can be viewed as a realistic increase of signal sampling frequency." Andreev. (2023). HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement.

[78] "Bandwidth extension ... also known as audio super-resolution" Andreev. (2023). HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement.

[79] "The applications of conditional speech generation include ... bandwidth extension (BWE)" Andreev. (2023). HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement.

[80] “Blizzard Challenge 2018 - SynSIG” (英語). www.synsig.org. 2018年11月30日閲覧。

[81] 音声生成（テキスト読み上げ） Google

[82] Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002

[83] KI-Sprachforschungsteam von Mozilla macht allein weiter （ドイツ語） Golem.de（ドイツ語版） 2021年3月15日

[8] 「防災無線が機械音声に 11月１日から本格開始 | 厚木 | タウンニュース」『タウンニュース』2016年11月11日。2018年11月28日閲覧。

[9] “阪急電鉄、訪日外国人向け多言語アナウンスサービスを導入--案内情報の印刷も” (日本語). CNET Japan. (2018年5月24日) 2018年11月28日閲覧。

[11] 「ハイウェイラジオのヒミツ　情報の早さ、エリアの細かさ、その仕組みは？ | 乗りものニュース」『乗りものニュース』。2018年11月28日閲覧。

[12] “Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis - Apple” (英語). Apple Machine Learning Journal. 2018年11月28日閲覧。

[13] “WaveNet launches in the Google Assistant | DeepMind”. DeepMind. 2018年11月28日閲覧。

[14] “5/30サービス開始！NTTドコモの新しいAIエージェント「my daiz」にエーアイの音声合成AITalkが採用株式会社AI（エーアイ）”. 株式会社エーアイ(AI). 2018年11月28日閲覧。

[15] “エモパー｜機能・サービス｜AQUOS ZETA SH-01G｜製品ラインアップ｜AQUOS：シャープ”. シャープスマートフォン・携帯電話　AQUOS公式サイト. 2018年11月28日閲覧。

[16] “Amazon PollyでAlexaの音声をカスタマイズしよう” (英語) 2018年11月28日閲覧。

[17] “音声ニュース配信　朝日新聞アルキキ”. www.asahi.com. 2018年11月28日閲覧。

[18] “エクスワードに搭載された快適機能 - 電子辞書 - CASIO”. arch.casio.jp. 2018年11月28日閲覧。

[19] “Amazon.co.jp ヘルプ: 読み上げ機能を使用する”. www.amazon.co.jp. 2018年11月28日閲覧。

[20] “音声対話”. AX-XW400 | ウォーターオーブンヘルシオ：シャープ. 2018年11月28日閲覧。

[21] 「テレビの歴史で初となる、全キャラクターが音声合成でしゃべるアニメがスタート | ロボスタ - ロボット情報WEBマガジン」『ロボスタ』。2018年11月28日閲覧。

[22] “VoiceTextホーム | HOYA音声合成ソフトウェア”. HOYA音声合成ソフトウェア「VoiceText」. 2018年11月28日閲覧。

[23] 「NHKが「人造アナウンサー」開発、コップのフチにいそうな「ニュースのヨミ子」さん」『ITmedia NEWS』。2018年11月28日閲覧。

[25] CORPORATION., TOYOTA MOTOR. “トヨタ KIROBO mini | KIBO ROBOT PROJECT | KIROBO・MIRATA | トヨタ自動車WEBサイト”. トヨタ KIROBO mini | KIBO ROBOT PROJECT | KIROBO・MIRATA | トヨタ自動車WEBサイト. 2018年11月28日閲覧。

[26] “Remembering Stephen Hawking’s iconic synthesized voice” (英語). What’s next. (2018年3月19日) 2018年11月28日閲覧。

[27] “受け入れ態勢は？「筆談ホステス」当選の北区議会に聞いた”. 日刊ゲンダイDIGITAL. 2018年11月28日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[† 1]

[† 2]

[8]

[† 3]

[† 4]

[† 5]

[† 6]

[† 7]

[† 8]

[† 9]

[† 10]

[† 11]

[† 12]

[† 13]

[† 14]

[† 15]

[9]

[† 16]

[† 17]

[† 18]

[18]

[19]

[20]

[21]

[22]

[注 2]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]

[51]

[52]

[53]

[54]

[55]

[56]

[57]

[58]

[59]

[60]

[61]

[62]

[63]

典拠管理データベース
国立図書館	イスラエル日本チェコ
その他	MusicBrainz楽器


	(C)Shogakukan Inc. 株式会社小学館
	All text is available under the terms of the GNU Free Documentation License. この記事は、ウィキペディアの音声合成 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのアディティブ・シンセシス (改訂履歴)、ゾンビハンター (改訂履歴)、AmigaOS (改訂履歴)、MIDI (改訂履歴)、音声合成LSI (改訂履歴)、パトライト (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。
TANAKA Corpus	Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います： Creative Commons Attribution (CC-BY) 2.0 France.
京大-NICT 日英中基本文データ	この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
	Copyright © 1995-2025 Hamajima Shoten, Publishers. All rights reserved.
	Copyright © Benesse Holdings, Inc. All rights reserved.
	Copyright (c) 1995-2025 Kenkyusha Co., Ltd. All rights reserved.
	日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved. WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
	Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved. 「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
	This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

音声合成とは？ わかりやすく解説

おんせい‐ごうせい〔‐ガフセイ〕【音声合成】

音声合成

概要

歴史

用途

理論