アースムーバー距離
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2025/06/03 06:21 UTC 版)
アースムーバー距離(アースムーバーきょり、英: Earth Mover's Distance, EMD)は、密度関数、度数分布、または測度の間の類似度を評価するための距離関数であり、計量空間 D 上に定義される。
直感的には、分布を「土を積み上げた山」と見なすとき、一方の分布からもう一方を作るのに必要な最小の「労力」を表す。ここでの労力は、移動させた土の量と、それを動かした距離の積として定義される[1]。
確率分布間におけるEMDは、ワッサースタイン距離 、カントロヴィッチ-ルビンシュタイン距離、またはモローズ距離(Mallows distance)としても知られている[2]。
これは最適輸送問題の解として定式化されており、モンジュ-カントロヴィッチ問題とも呼ばれる。また、離散的な要素の上で定義される場合、最小重み二部マッチング問題と等価である[3]。
定義
確率分布 , に対し、EMDは以下のように定義される:
ここで は、 および を周辺分布とする結合分布全体の集合である。
カントロヴィッチ-ルビンシュタイン双対性を用いると、以下のようにも表せる:
ここで上限は全ての1-リプシッツ連続関数 にわたって取られる(すなわち .)
シグネチャ間のEMD
一部の応用では、分布を「シグネチャ」すなわち質量付きクラスタの集合として表現するのが便利である。たとえば: .
クラスタ との距離を とすると、全体のコストを最小化するようなフロー を求めて次のように定義する:
制約条件は:
EMDは以下のように定義される:
拡張と変種
質量が異なる場合
と の全体質量が異なる場合、部分一致を許すことで対応できる[1]。
以下のように定式化される:
ここで は、 および 以上の測度を持つ結合測度全体。 また、土の「生成・消失」を許し、その際にペナルティコスト を加えることで、真の距離関数を定義できる[4]。
多分布間のEMD
EMDは2つ以上の分布に拡張することもできる。このとき、複数分布の「距離」は線形計画問題の最適解として定義され、Minkowski加法性と単調性を持つことが知られている[5]。
EMDの計算
EMDは輸送問題として定式化され、最小費用流問題のアルゴリズム(たとえばネットワーク単体法)で解ける。
特別な場合として、1次元のヒストグラムにおけるEMDは以下のように効率的に計算できる:
応用
EMDは画像検索における類似度計算や、パターン認識でのシグネチャ間の比較に用いられる。[1]
また、フローサイトメトリーなどのバイオマーカー比較にも応用されている[6]。
脚注
- ^ a b c Rubner, Y.; Tomasi, C.; Guibas, L.J. (1998). “A metric for distributions with applications to image databases”. Sixth International Conference on Computer Vision (IEEE Cat. No.98CH36271). Narosa Publishing House. pp. 59–66. doi:10.1109/iccv.1998.710701. ISBN 81-7319-221-9
- ^ C. L. Mallows (1972). “A note on asymptotic joint normality”. Annals of Mathematical Statistics 43 (2): 508–515. doi:10.1214/aoms/1177692631.
- ^ Singiresu S. Rao (2009). Engineering Optimization: Theory and Practice (4th ed.). John Wiley & Sons. pp. 221. ISBN 978-0-470-18352-6
- ^ Pele, Ofir; Werman, Michael (2008). “A Linear Time Histogram Metric for Improved SIFT Matching”. Computer Vision – ECCV 2008. Lecture Notes in Computer Science. 5304. Springer Berlin Heidelberg. pp. 495–508. doi:10.1007/978-3-540-88690-7_37. ISBN 978-3-540-88689-1. ISSN 0302-9743
- ^ Kline, Jeffery (2019). “Properties of the d-dimensional earth mover's problem”. Discrete Applied Mathematics 265: 128–141. doi:10.1016/j.dam.2019.02.042.
- ^ Orlova, DY; Zimmerman, N; Meehan, C; Meehan, S; Waters, J; Ghosn, EEB (23 March 2016). “Earth Mover's Distance (EMD): A True Metric for Comparing Biomarker Expression Levels in Cell Populations”. PLOS One 11 (3): e0151859. Bibcode: 2016PLoSO..1151859O. doi:10.1371/journal.pone.0151859. PMC 4805242. PMID 27008164 .
外部リンク
- C code for the Earth Mover's Distance (archived here)
- Python implementation with references
- Python2 wrapper for the C implementation of the Earth Mover's Distance
- C++ and Matlab and Java wrappers code for the Earth Mover's Distance, especially efficient for thresholded ground distances
- Java implementation of a generic generator for evaluating large-scale Earth Mover's Distance based similarity analysis
- Demonstration of Minkowski additivity, convex monotonicity, and other properties of the Earth Movers distance
- アースムーバー距離のページへのリンク