音声合成とは? わかりやすく解説

Weblio 辞書 > 辞書・百科事典 > デジタル大辞泉 > 音声合成の意味・解説 

おんせい‐ごうせい〔‐ガフセイ〕【音声合成】


音声合成

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/12/04 20:15 UTC 版)

音声合成(おんせいごうせい、: speech synthesis)とは、人間音声を人工的に作り出すことである[1]


一次文献

  1. ^ "Speech synthesis is the task of generating speech waveforms" Wang, et al. (2021). FAIRSEQ S2 : A Scalable and Integrable Speech Synthesis Toolkit.
  2. ^ 【Hope】失った私の声で会話を/AI学習 そっくり再現:ベンチャー無償提供がん患者らに希望東京新聞』夕刊2022年8月20日1面(2022年8月27日閲覧)
  3. ^ a b "with desired characteristics, including but not limited to textual content ..., speaker identity ..., and speaking styles" Wang, et al. (2021). FAIRSEQ S2 : A Scalable and Integrable Speech Synthesis Toolkit.
  4. ^ History and Development of Speech Synthesis (Helsinki University of Technology) - 英語
  5. ^ Mattingly, Ignatius G. Speech synthesis for phonetic and phonological models. In Thomas A. Sebeok (Ed.), Current Trends in Linguistics, Volume 12, Mouton, The Hague, pp. 2451-2487, 1974.
  6. ^ http://query.nytimes.com/search/query?ppds=per&v1=GERSTMAN%2C%20LOUIS&sort=newest Louis Gerstmanの死亡記事(NYタイムス)
  7. ^ Bell Labs: Where "HAL" First Spoke (Bell Labs Speech Synthesis website)
  8. ^ ロボホン”. robohon.com. 2018年11月28日閲覧。
  9. ^ “AIアナウンサー”がラジオ放送 Amazonの音声合成技術で」『ITmedia NEWS』。2018年11月28日閲覧。
  10. ^ 徳田, 恵一 (2015). “統計的音声合成技術の現在・過去・未来”. 音声言語シンポジウム IEICE-115 (346). ISSN 0913-5685. 
  11. ^ 徳田, 恵一 (2017). “風雲急を告げる音声合成研究の最新動向”. 情報・システムソサイエティ誌 (電子情報通信学会) 21 (4): 10–11. doi:10.1587/ieiceissjournal.21.4_10. ISSN 2189-9797. NAID 130005312792. 
  12. ^ 全, 炳河 (2018). “テキスト音声合成技術の変遷と最先端”. 日本音響学会誌 74 (7): 387–393. 
  13. ^ Klatt, Dennis H. (1980). “Real‐time speech synthesis by rule”. The Journal of the Acoustical Society of America 68: S18. 
  14. ^ "規則合成は ... 三つの処理に分けることができる ... 第三は韻律情報により規定された音源波形で,パラメータ表現された声道伝達フィルタを駆動して合成波形を生成する処理 ... 音声合成方式は,波形編集方式,分析合成方式 ,ホルマント合成方式などが規則合成に用いられており" 広川. (1993). 規則合成における音声合成単位及び音声合成法 - より高品質を求めて. 日本音響学会誌 49巻, 12号. pp. 847-853.
  15. ^ "分析合成方式は音声生成過程を音源モデルと声道モデルに分け,そ れぞれの分析パラメータを独立に制御することにより規則合成音を得る方法である。 " 広川. (1993). 規則合成における音声合成単位及び音声合成法 - より高品質を求めて. 日本音響学会誌 49巻, 12号. pp. 847-853.
  16. ^ "Formant synthesis versus articulatory synthesis" Klatt. (1979). Software for a cascade/parallel formant synthesizer. J. Acoust. Soc. Am. 67(3).
  17. ^ "A formant synthesizer is a source-filter model in which the source models the glottal pulse train and the filter models the formant resonances of the vocal tract." Smith. (2010). Formant Synthesis Models. Physical Audio Signal Processing. ISBN 978-0-9745607-2-4
  18. ^ "Constrained linear prediction can be used to estimate the parameters ... more generally ... directly from the short-time spectrum" Smith. (2010). Formant Synthesis Models. Physical Audio Signal Processing. ISBN 978-0-9745607-2-4
  19. ^ Andrew J., Hunt; Black, Alan W. (1996). “Unit selection in a concatenative speech synthesis system using a large speech database” (English). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings (IEEE): 373–376. doi:10.1109/ICASSP.1996.541110. ISBN 0-7803-3192-3. ISSN 1520-6149. 
  20. ^ 河井, 恒; 戸田, 智基; 山岸, 順一; 平井, 俊男; 倪, 晋富; 西澤, 信行; 津崎, 実; 徳田, 恵一 (2006). “大規模コーパスを用いた音声合成システムXIMERA”. 電子情報通信学会論文誌 J89-D (12): 2688–2698. ISSN 18804535. NAID 110007380404. 
  21. ^ "Unit selection synthesis is also referred as corpus based synthesis." Kayte. (2015). A Review of Unit Selection Speech Synthesis. IJARCSSE.
  22. ^ "Statistical parametric speech synthesis ... as a framework to generate a synthetic speech signal based on a statistical model" Tachibana, et al. (2018). An Investigation of Noise Shaping with Perceptual Weighting for Wavenet-Based Speech Generation. doi: 10.1109/ICASSP.2018.8461332
  23. ^ Masuko, Takashi; Keiichi, Tokuda; Takao, Kobayashi; Satoshi, Imai (1999-05-09). “Speech synthesis using HMMs with dynamic features” (English). 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings (IEEE): 389–392. doi:10.1109/ICASSP.1996.541114. ISBN 0-7803-3192-3. ISSN 1520-6149. 
  24. ^ Zen, Heiga; Senior, Andrew; Schuster, Mike (2013-05-26). “Statistical parametric speech synthesis using deep neural networks” (English). 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (IEEE): 7962–7966. ISBN 978-1-4799-0356-6. ISSN 1520-6149. 
  25. ^ van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew et al. (2016-09-12). “WaveNet: A Generative Model for Raw Audio” (English). arXiv. arXiv:1609.03499. 
  26. ^ J. Shen, R. Pang, R. J. Weiss, et al., “Natural tts synthesis by conditioning wavenet on mel spectrogram predictions,” arXiv preprint arXiv:1712.05884, 2017.
  27. ^ W. Ping, K. Peng, and J. Chen, “Clarinet: Parallel wave generation in end-to-end text-to-speech,” arXiv preprint arXiv:1807.07281, 2018
  28. ^ R. Prenger, R. Valle, and B. Catanzaro, “Waveglow: A flowbased generative network for speech synthesis,” arXiv preprint arXiv:1811.00002, 2018
  29. ^ N. Kalchbrenner, E. Elsen, K. Simonyan, et al., “Efficient neural audio synthesis,” arXiv preprint arXiv:1802.08435, 2018.
  30. ^ Jaime Lorenzo-Trueba, Thomas Drugman, Javier Latorre, Thomas Merritt, Bartosz Putrycz, Roberto Barra-Chicote, Alexis Moinet, Vatsal Aggarwal (2019) TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING. Interspeech 2019
  31. ^ Sotelo, Jose; Mehri, Soroush; Kumar, Kundan; Santos, Joao Felipe; Kastner, Kyle; Courville, Aaron; Bengio, Yoshua (2017-02-18). “Char2Wav: End-to-End Speech Synthesis” (English). ICLR 2017 workshop submission. 
  32. ^ Arik, Sercan O.; Chrzanowski, Mike; Coates, Adam; Diamos, Gregory; Gibiansky, Andrew; Kang, Yongguo; Li, Xian; Miller, John et al. (2017-02-25). “Deep Voice: Real-time Neural Text-to-Speech” (English). arXiv. arXiv:1702.07825. 
  33. ^ Wang, Yuxuan; Skerry-Ryan, RJ; Stanton, Daisy; Wu, Yonghui; Weiss, Ron J.; Jaitly, Navdeep; Yang, Zongheng; Xiao, Ying et al. (2017-03-29). “Tacotron: Towards End-to-End Speech Synthesis” (English). arXiv. arXiv:1703.10135. 
  34. ^ a b We use the feed-forward Transformer block, …, as the basic structure for the encoder and mel-spectrogram decoder. arxiv
  35. ^ Jaime (2018) TOWARDS ACHIEVING ROBUST UNIVERSAL NEURAL VOCODING https://arxiv.org/abs/1811.06292
  36. ^ Naihan Li, et al. Neural Speech Synthesis with Transformer Network
  37. ^ Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers p.5 Chengyi Wang, et al. 2023年
  38. ^ Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision Google Research
  39. ^ Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision Eugene Kharitonov, et al. 2023年
  40. ^ Gopala K. Anumanchipalli, et al.. (2019) Speech synthesis from neural decoding of spoken sentences [paper]
  41. ^ "Singing voice synthesis (SVS) aims to generate humanlike singing voices from musical scores with lyrics" Wu. (2022). DDSP-based Singing Vocoders: A New Subtractive-based Synthesizer and A Comprehensive Evaluation.
  42. ^ "Voice conversion (VC) refers to a technique that converts a certain aspect of speech from a source to that of a target without changing the linguistic content" Huang, et al. (2021). S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations. p.1.
  43. ^ "speaker conversion, which is the most widely investigated type of VC." Huang, et al. (2021). S3PRL-VC: Open-source Voice Conversion Framework with Self-supervised Speech Representations. p.1.
  44. ^ "Bandwidth extension ... Frequency bandwidth extension ... can be viewed as a realistic increase of signal sampling frequency." Andreev. (2023). HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement.
  45. ^ "Bandwidth extension ... also known as audio super-resolution" Andreev. (2023). HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement.
  46. ^ "The applications of conditional speech generation include ... bandwidth extension (BWE)" Andreev. (2023). HiFi++: a Unified Framework for Bandwidth Extension and Speech Enhancement.
  47. ^ Blizzard Challenge 2018 - SynSIG” (英語). www.synsig.org. 2018年11月30日閲覧。
  48. ^ Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002
  49. ^ KI-Sprachforschungsteam von Mozilla macht allein weiter (ドイツ語) Golem.deドイツ語版 2021年3月15日
  1. ^ 防災無線が機械音声に 11月1日から本格開始 | 厚木 | タウンニュース」『タウンニュース』、2016年11月11日。2018年11月28日閲覧。
  2. ^ “阪急電鉄、訪日外国人向け多言語アナウンスサービスを導入--案内情報の印刷も” (日本語). CNET Japan. (2018年5月24日). https://japan.cnet.com/article/35119705/ 2018年11月28日閲覧。 
  3. ^ エクスワードに搭載された快適機能 - 電子辞書 - CASIO”. arch.casio.jp. 2018年11月28日閲覧。
  4. ^ 音声対話”. AX-XW400 | ウォーターオーブン ヘルシオ:シャープ. 2018年11月28日閲覧。
  5. ^ 音声ニュース配信 朝日新聞アルキキ”. www.asahi.com. 2018年11月28日閲覧。
  6. ^ Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis - Apple” (英語). Apple Machine Learning Journal. 2018年11月28日閲覧。
  7. ^ WaveNet launches in the Google Assistant | DeepMind”. DeepMind. 2018年11月28日閲覧。
  8. ^ 5/30サービス開始!NTTドコモの新しいAIエージェント 「my daiz」にエーアイの音声合成AITalkが採用 株式会社AI(エーアイ)”. 株式会社 エーアイ(AI). 2018年11月28日閲覧。
  9. ^ エモパー|機能・サービス|AQUOS ZETA SH-01G|製品ラインアップ|AQUOS:シャープ”. シャープ スマートフォン・携帯電話 AQUOS公式サイト. 2018年11月28日閲覧。
  10. ^ “Amazon PollyでAlexaの音声をカスタマイズしよう” (英語). https://developer.amazon.com/blogs/alexa/post/0e88bf72-ac90-45f1-863b-32ca8e2ae197/amazon-polly-voices-in-alexa-jp 2018年11月28日閲覧。 
  11. ^ CORPORATION., TOYOTA MOTOR. “トヨタ KIROBO mini | KIBO ROBOT PROJECT | KIROBO・MIRATA | トヨタ自動車WEBサイト”. トヨタ KIROBO mini | KIBO ROBOT PROJECT | KIROBO・MIRATA | トヨタ自動車WEBサイト. 2018年11月28日閲覧。
  12. ^ テレビの歴史で初となる、全キャラクターが音声合成でしゃべるアニメがスタート | ロボスタ - ロボット情報WEBマガジン」『ロボスタ』。2018年11月28日閲覧。
  13. ^ VoiceTextホーム | HOYA音声合成ソフトウェア”. HOYA音声合成ソフトウェア「VoiceText」. 2018年11月28日閲覧。
  14. ^ NHKが「人造アナウンサー」開発、コップのフチにいそうな「ニュースのヨミ子」さん」『ITmedia NEWS』。2018年11月28日閲覧。
  15. ^ ハイウェイラジオのヒミツ 情報の早さ、エリアの細かさ、その仕組みは? | 乗りものニュース」『乗りものニュース』。2018年11月28日閲覧。
  16. ^ Amazon.co.jp ヘルプ: 読み上げ機能を使用する”. www.amazon.co.jp. 2018年11月28日閲覧。
  17. ^ “Remembering Stephen Hawking’s iconic synthesized voice” (英語). What’s next. (2018年3月19日). https://whatsnext.nuance.com/in-the-labs/stephen-hawking-famous-text-to-speech-voice/ 2018年11月28日閲覧。 
  18. ^ 受け入れ態勢は?「筆談ホステス」当選の北区議会に聞いた”. 日刊ゲンダイDIGITAL. 2018年11月28日閲覧。



音声合成

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/02/20 09:49 UTC 版)

アディティブ・シンセシス」の記事における「音声合成」の解説

詳細は「音声合成」を参照 言語学研究では1950年代初頭より、合成あるいは変更した音声スペクトログラム再生にハーモニック・アディティブ・シンセシスが使用されている。 1980年代初頭には、音声音響的手がかりacoustic cues)の意義評価するために、それらを取り去った合成音声聴取テストが行われた。 また線形予測符号抽出したフォルマント周波数振幅時系列を使う音声合成手法一つ sinewave synthesis は、インハーモニックな正弦波パーシャル加算合成を行う。(関連Sinusoidal Modeling

※この「音声合成」の解説は、「アディティブ・シンセシス」の解説の一部です。
「音声合成」を含む「アディティブ・シンセシス」の記事については、「アディティブ・シンセシス」の概要を参照ください。


音声合成

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2021/04/06 07:05 UTC 版)

ゾンビハンター」の記事における「音声合成」の解説

本作はいくつかのシーンで、ファミコンDPCM利用して音声再生される。以下はその音声の一覧。 女性ハイスコア」(メーカーロゴ) 低い声「ゾンビハンタァー」(タイトル画面女性しっかりしろ!!」(ステージ1〜2でゲームオーバー女性がんばれ!!」(ステージ3〜4でゲームオーバー男性「あとすこし!!」(ステージ5〜6でゲームオーバー女性おめでとう!!」(エンディング数分放置する

※この「音声合成」の解説は、「ゾンビハンター」の解説の一部です。
「音声合成」を含む「ゾンビハンター」の記事については、「ゾンビハンター」の概要を参照ください。


音声合成

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/18 07:08 UTC 版)

AmigaOS」の記事における「音声合成」の解説

Amigaには当初からSoftvoice, Inc.開発した音声合成ソフトウェアがあった。これは大まかに3つの部分分けられるアメリカ英語使用するすべての音素音響信号変換するnarrator.device、英文テキストアメリカ英語音素列に変換するtranslator.library、コマンドラインユーザー出力音声リダイレクトできるSPEAK:ハンドラである。 AmigaOS 1.xにはユーティリティとしてSayプログラムがあり、AmigaBASICで音声出力するデモプログラムが付属していた。 音声合成機能サードパーティープログラムでも使われ、特に教育ソフトでの利用多かったワープロソフトのProwriteと Excellence!には文書読み上げる機能があった。 narrator.deviceの扱える音素には限界があったが、Francesco Devittは任意の言語音素列に変換するtranslator.libraryを開発した。ただし対象言語には規則群を設定する必要があり、限定的な多言語音声合成を可能とした。 Workbench 2.0まで音声合成がサポートされていたが、2.1以降は音声合成ソフトウェア省かれている。

※この「音声合成」の解説は、「AmigaOS」の解説の一部です。
「音声合成」を含む「AmigaOS」の記事については、「AmigaOS」の概要を参照ください。


音声合成

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/06/11 06:36 UTC 版)

MIDI」の記事における「音声合成」の解説

2009年頃、音声フーリエ解析周波数ごとに分離して正弦波にし、それをMIDI再生することで音声擬似的再現する技術発明された。

※この「音声合成」の解説は、「MIDI」の解説の一部です。
「音声合成」を含む「MIDI」の記事については、「MIDI」の概要を参照ください。


音声合成

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/11/10 09:16 UTC 版)

音声合成LSI」の記事における「音声合成」の解説

音声合成の技術的側面については「音声合成」を参照 現在ではパソコン用いて録音された音声文章読み上げるさせることができるが、これらは音声合成LSI内蔵せず、汎用性の高いCPU使ってデジタル録音データファイルか音声再構成したり、文章解析してイントネーションなどの傾向分析しソフトウェア内で音声合成して発声させている。この方式は高度な処理能力を必要とするため、性能限りのあるLSI実現することは困難だが、現在のパソコンであれば十分な処理能力を持つため、音声合成LSI凌ぐ機能実現することが可能となっている。 ことこれらでは、より自然な発声が行えるよう様々なアルゴリズム開発・利用されており、2000年代においては処理能力向上したパソコンで、音程付けて歌う製品流通している。

※この「音声合成」の解説は、「音声合成LSI」の解説の一部です。
「音声合成」を含む「音声合成LSI」の記事については、「音声合成LSI」の概要を参照ください。


音声合成

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/07/12 09:59 UTC 版)

パトライト」の記事における「音声合成」の解説

音声アナウンスは、旧機種より田中千架子木ひめかを経て、現在は秀平真由美女声)、奥生史生男声)が担当している。

※この「音声合成」の解説は、「パトライト」の解説の一部です。
「音声合成」を含む「パトライト」の記事については、「パトライト」の概要を参照ください。

ウィキペディア小見出し辞書の「音声合成」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ

「音声合成」の例文・使い方・用例・文例

Weblio日本語例文用例辞書はプログラムで機械的に例文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。


英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「音声合成」の関連用語

音声合成のお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



音声合成のページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
デジタル大辞泉デジタル大辞泉
(C)Shogakukan Inc.
株式会社 小学館
ウィキペディアウィキペディア
All text is available under the terms of the GNU Free Documentation License.
この記事は、ウィキペディアの音声合成 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaのアディティブ・シンセシス (改訂履歴)、ゾンビハンター (改訂履歴)、AmigaOS (改訂履歴)、MIDI (改訂履歴)、音声合成LSI (改訂履歴)、パトライト (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。
Tanaka Corpusのコンテンツは、特に明示されている場合を除いて、次のライセンスに従います:
 Creative Commons Attribution (CC-BY) 2.0 France.
この対訳データはCreative Commons Attribution 3.0 Unportedでライセンスされています。
浜島書店 Catch a Wave
Copyright © 1995-2024 Hamajima Shoten, Publishers. All rights reserved.
株式会社ベネッセコーポレーション株式会社ベネッセコーポレーション
Copyright © Benesse Holdings, Inc. All rights reserved.
研究社研究社
Copyright (c) 1995-2024 Kenkyusha Co., Ltd. All rights reserved.
日本語WordNet日本語WordNet
日本語ワードネット1.1版 (C) 情報通信研究機構, 2009-2010 License All rights reserved.
WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved. License
日外アソシエーツ株式会社日外アソシエーツ株式会社
Copyright (C) 1994- Nichigai Associates, Inc., All rights reserved.
「斎藤和英大辞典」斎藤秀三郎著、日外アソシエーツ辞書編集部編
EDRDGEDRDG
This page uses the JMdict dictionary files. These files are the property of the Electronic Dictionary Research and Development Group, and are used in conformance with the Group's licence.

©2024 GRAS Group, Inc.RSS