Text-to-Imageモデル
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/06/08 07:34 UTC 版)

an astronaut riding a horse, by Hiroshige
というプロンプトから出力された画像。2022年に初めて公開されたStable Diffusion 3.5によって生成されたものである。
Text-to-Imageモデル(テキストトゥイメージモデル)は、入力された自然言語プロンプトを読み取り、その内容に一致する画像を生成する機械学習モデル。
Text-to-Imageモデルは、AIブームの黎明期である2010年代半ばの、ディープニューラルネットワークの進歩を背景に開発が始まった。2022年には、DALL-E 2、Stable Diffusion、Midjourneyといった最先端のText-to-Imageモデルの出力結果は、実際の写真や人間が描いたアートの品質に肉薄していると考えられるようになった。
最も効果的なモデルは一般的に、ウェブスクレイピングされた大量の画像とテキストデータで学習されている[1]。
参考文献
- ^ Vincent, James (2022年5月24日). “All these images were generated by Google's latest text-to-image AI”. The Verge (Vox Media) 2022年5月28日閲覧。
関連項目
- Text-to-Imageモデルのページへのリンク