フレシェ開始距離
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/04/12 00:08 UTC 版)
フレシェ開始距離 (英:Fréchet Inception Distance; FID)は、生成モデル(例えば敵対的生成ネットワーク(GAN)[1] や拡散モデル)によって生成された画像の品質を評価するために使用される評価指標である。[2][3]
FIDは、生成画像の分布と、実画像(「グラウンドトゥルース」)の分布とを比較する。個々の画像ではなく、多数の画像に対する平均と共分散を比較するため、視覚的特徴を捉える高次元の特徴ベクトルが必要となる。この特徴抽出には、Inception系の畳み込みニューラルネットワークが用いられる。
FIDは、以前から使われていたInception Score(IS)を改良する形で考案された[1]。ISが生成画像の分布のみを見るのに対し、FIDは実画像との類似性も考慮する。FIDスコアが小さいほど、より現実的で多様性のある画像が生成されたことを意味する。一方、ISが高いモデルは、個々の画像の品質が高い傾向にある[2]。
この指標は2017年に初めて提案され[1]、2024年現在では画像生成タスクにおける標準的な評価指標の1つとされている。StyleGAN[4] やStyleGAN2[5] などの高解像度画像生成モデルにも使われている。
最近では、CLIP埋め込み空間での比較により、FIDの限界を補完しようとする研究も進められている[6][7]。
概要
FID スコアの目的は、生成モデルによって作られた画像の分布と、参照データセット内の画像の分布との多様性を比較することである。参照データセットには、ImageNet や COCO-2014 が用いられることがある。[3][8] 参照画像セットは、モデルが作ろうとしている画像の全多様性を代表するものでなければならないため、大規模なデータセットを使用することが重要である。
拡散モデルなどの生成モデルは、訓練データセットに含まれる画像とは異なるが、参照画像の特徴をもつ新しい画像を生成する。このため、生成された画像を訓練セット内の画像と画素単位で比較することでモデルの品質を評価することはできない。例えばL2ノルムを用いた比較がこれにあたる。
代わりに、FID は2つの画像集合をそれぞれ多変量ガウス分布
- フレシェ開始距離のページへのリンク