調音音声合成とは? わかりやすく解説

アーティキュレートリー・シンセシス

(調音音声合成 から転送)

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/04/18 23:47 UTC 版)

調音音声合成: 合成音声と声道モデル
ドイツ語文 "Lea und Doreen mögen Bananen"
(日本語訳: リーとドリーンはバナナが好き) を 子音+母音 調音結合モデルを使って
自然発話文の基本周波数音長から再現。[1]

アーティキュレートリー・シンセシス (: articulatory synthesis)、調音合成 (ちょうおんごうせい) あるいは 調音音声合成 とは、人間の声道のモデルと そこで行なわれる調音プロセス (articulation) に基づいて音声合成を行なうための計算手法である。声道の形状は通常、といった調音器官の位置変更と関連した数多くの調音方法で制御できる。声道の表現を介した空気の流れのデジタル・シミュレーションで、音声が生成される。

機械式語り手

機械式「語り手」(talking heads) の製作の試みには長い歴史がある。[2] オーリヤックのジェルベール (–1003)、アルベルトゥス・マグヌス (1198–1280)、ロジャー・ベーコン (1214–1294) らは皆、喋る頭 (speaking heads) を作ったと言われている (Wheatstone 1837[要出典])。しかしながら、歴史的に確認された音声合成の始まりは訳注: クリスティアン・クラッツェンシュタイン (1723–1795)[3]ヴォルフガング・フォン・ケンペレン (1734–1804)であり、ケンペレンは1791年に研究報告[4]を出版した。(Dudley & Tarnoczy (1950)も参照)

電子式声道

最初の電子式アナログ声道は、Dunn (1950)Stevens, Kasowski & Fant (1953)Fant (1960)のように静的なものだった。Rosen (1958)は動的な声道 (DAVO)を組み立て、後にDennis (1963)がコンピュータ制御を試みた。Dennis & et al. (1964))[要出典]、比企 & et al. (1968))[要出典]Baxter & Strong (1969)らもアナログ声道ハードウェアについて説明している。

最初のコンピュータ・シミュレーションは、Kelly & Lochbaum (1962)が行なった; その後デジタルコンピュータによるシミュレーションを、例えば中田 & 光岡 (1965)松井 (1968)Mermelstein (1971))[要出典]が行なった。本多, 井上 & 小川 (1968)アナログコンピュータによるシミュレーションを行なった。

Haskinsと前田のモデル

研究室の実験で定期的に使用される 最初のソフトウェアによる調音シンセサイザーは、1970年代半ばにHaskins LaboratoriesPhilip Rubin, Tom Baer, Paul Mermelstein により開発された。ASY (Articulatory Synthesis)[5]として知られるこのシンセサイザーは、1960年代–1970年代にベル研究所Paul Mermelstein, Cecil Coker, およびその同僚らによって開発された声道モデルに基づく音声生成の計算モデルだった。もう一つの頻繁に使用された著名なモデルは、前田 眞治 (Shinji Maeda)による、の形状制御に因子ベースのアプローチ (factor-based approach) を使ったモデルである。[要出典][要説明]

現代的なモデル

音声生成イメージング、調音制御モデリング、舌の生体力学モデリング の最近の進展は、調音合成が行われる方法に変化をもたらしている。[6] 一例として、Philip Rubin, Mark Tiede,[7] Louis Goldstein[8] が設計したHaskins CASYモデル (Configurable Articulatory Synthesis)[9]では、声道の縦断面を実際の核磁気共鳴画像(MRI)データと一致させており、MRIデータを声道の3次元モデルの構築に使用している。 フル3次元の調音合成モデルは Olov Engwall[10]が説明している。[11] 幾何学的に基づいた[要出典]3次元調音スピーチ・シンセサイザーはPeter Birkholzにより開発されている。(VocalTracLab[12]参照) ArtiSynthプロジェクト[13]は、 ブリティッシュコロンビア大学Sidney Fels[14]が率いており、人間の声道と上気道のための3次元生体力学モデリング・ツールキットを提供している。 などの調音器官の生体力学モデリングは、Reiner Wilhelms-Tricarico,[15] Yohan Payan[16]Jean-Michel Gerard, [17] 党 建武 (Jianwu Dang)[18] と 本多 清志 (Kiyoshi Honda)[19] など数多くの科学者によって開拓されている。

商用モデル

数少ない商用の調音スピーチ・シンセシス・システムの一つは、NeXTベースのシステムで、多数の独自研究が実施されていたカナダカルガリー大学のスピンオフ企業 Trillium Sound Researchにより開発・販売された。 1980年代後半スティーブ・ジョブスが設立し、1997年Apple Computerと合併した NeXTの様々な転生が消滅した後、TrilliumのソフトウェアはGNU General Public Licenseで公開され、Gnuspeech[20]として継続している。 1994年に最初に発売されたこのシステムは、René Carré[21]"Distinctive Region Model" (DRM)[22][23]で制御される、人間の口腔および鼻腔の導波路 (waveguide) モデルもしくは 伝送路アナログ(transmission-line analog) を使った[24](訳注: Tube Resonance Model (TRM)[25])、フル調音ベースのテキスト読み上げ変換を提供する。

関連項目

脚注

  1. ^ Birkholz, Peter (2013). “Modeling Consonant-Vowel Coarticulation for Articulatory Speech Synthesis”. PLOS ONE 8 (4): e60603. Bibcode2013PLoSO...860603B. doi:10.1371/journal.pone.0060603. PMC 3628899. PMID 23613734. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3628899/. 
  2. ^ Rubin, Philip; Vatikiotis-Bateson, Eric (1998–2006), Talking Heads, Haskins Laboratories, http://www.haskins.yale.edu/featured/heads/heads.html . (PDF)
  3. ^ Paget 1930
  4. ^ Kempelen 1791
  5. ^ Articulatory Synthesis, Haskins Laboratories, http://www.haskins.yale.edu/facilities/asy.html 
  6. ^ “15th ICPhS - Barcelona 2003 - Programme”, The 15th International Congress of Phonetic Sciences, Barcelona, 2003 (International Phonetic Association), オリジナルの2007-05-22時点におけるアーカイブ。, https://web.archive.org/web/20070522223702/http://shylock.uab.es/icphs/plenariesandsymposia.htm 
  7. ^ Mark Tiede, Haskins Laboratories, http://www.haskins.yale.edu/staff/tiede.html 
  8. ^ Louis M. Goldstein, Haskins Laboratories, http://www.haskins.yale.edu/staff/goldstein.html 
  9. ^ CASY, Haskins Laboratories, http://www.haskins.yale.edu/facilities/casy.html 
  10. ^ Olov Engwall, Sweden: Royal Institute of Technology (KTH), http://www.speech.kth.se/~olov/ 
  11. ^ Engwall 2003
  12. ^ Peter Birkholz, VocalTractLab, http://www.vocaltractlab.de/, "An articulatory speech synthesizer and tool to visualize and explore the mechanism of speech production with regard to articulation, acoustics, and control." 
  13. ^ ArtiSynth, Canada: University of British Columbia, http://www.magic.ubc.ca/artisynth/pmwiki.php, "A 3D Biomechanical Modeling Toolkit for Physical Simulation of Anatomical Structures" 
  14. ^ Sidney Fels, Canada: University of British Columbia, http://www.ece.ubc.ca/~ssfels/ 
  15. ^ Reiner Wilhelms-Tricarico, Haskins Laboratories, http://www.haskins.yale.edu/staff/tricarico.html 
  16. ^ Yohan Payan, TIMC-IMAG, http://www-timc.imag.fr/Yohan.Payan/ 
  17. ^ http://www-timc.imag.fr/gmcao/en-fiches-projets/modele-langue.htm, TIMC-IMAG, http://www-timc.imag.fr/gmcao/en-fiches-projets/modele-langue.htm 
  18. ^ Intelligent Information Processing Laboratory (Dang Lab), JAIST, http://iipl.jaist.ac.jp/dang-lab/en/ 
  19. ^ 本多 清志 (Spring 2004), “生体イメージングによる音声生成機構の観測”, ATR Journal (51), http://results.atr.jp/atrj/ATRJ_51/12/12.html 
  20. ^ Gnuspeech, GNU Project, Free Software Foundation (FSF), http://www.gnu.org/software/gnuspeech/ 
  21. ^ René Carré, Dynamique Du Langage, CNRS, http://www.ddl.ish-lyon.cnrs.fr/Annuaires/Index.asp?Langue=EN&Page=Rene%20CARRE 
  22. ^ Mrayati, Carre & Guerin 1988
  23. ^ Mrayati, Carre & Guerin 1990
  24. ^ Hill, David; Manzara, Leonard; Schock, Craig (1995), “Real-time articulatory speech-synthesis-by-rules”, Proc. AVIOS Symposium: 27–44, http://pages.cpsc.ucalgary.ca/~hill/papers/avios95/body.htm . (PDF)
  25. ^ Manzara, Leonard, “The Tube Resonance Model Speech Synthesizer”, 49th Meeting of the Acoustical Society of America (ASA), http://www.gnu.org/software/gnuspeech/trm-write-up.pdf , poster

参考文献

外部リンク



調音音声合成

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/11 00:45 UTC 版)

音声合成」の記事における「調音音声合成」の解説

調音音声合成は、人間の声道の構造モデル化して、それを元に音声合成する商用でも使われた例があり、NeXT使われていたシステムは、カルガリー大学研究チームスピンオフして作ったTrillium Sound Research Inc.開発したのであるTrilliumはこれをフリーなgnuspeechとして公開しており、GNU savannah site入手可能である。

※この「調音音声合成」の解説は、「音声合成」の解説の一部です。
「調音音声合成」を含む「音声合成」の記事については、「音声合成」の概要を参照ください。

ウィキペディア小見出し辞書の「調音音声合成」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「調音音声合成」の関連用語

調音音声合成のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



調音音声合成のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアのアーティキュレートリー・シンセシス (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの音声合成 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS