ワッサースタイン計量
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/05/24 03:07 UTC 版)
ナビゲーションに移動 検索に移動直感的な説明としては、各分布をM上に堆積した土の単位量と見なすとき、ワッサースタイン計量とは一つの堆積を別の物へと移すときにかかる最小のコストである。そのようなコストは、移されるべき土の量に移す距離を掛けた値であるとされる。このアナロジーに従い、この計量は計算機科学の分野においてEMD(earth mover's distance)として知られている。
「ワッサースタイン計量」という名前は、この概念を1969年に導入したロシアの数学者レオニード・ワッサースタインの名にちなみ、1970年にローランド・ドブルシンによって付けられた。多くの英語の出版物においてはドイツ語のスペル "Wasserstein" が用いられている(これは、"Vasershtein" という名がドイツに起源を持つことに起因している)。
定義
(M, d) を、M上のすべての確率測度がラドン測度であるような距離空間(いわゆるラドン空間)とする。p ≥ 1 に対し、有限p次モーメントを備えるM上のすべての確率測度μの系を Pp(M) で表す。すなわち、そのようなμはM内のあるx0 に対して
を満たすようなものである。このとき、Pp(M) に含まれる二つの確率測度μとνの間のワッサースタイン計量(ワッサースタイン距離)は、
で定義される。ここで Γ(μ, ν) は第一変数と第二変数にそれぞれ周辺分布μとνを備えるM × M上のすべての測度の系を表す。集合 Γ(μ, ν) はμとνのすべてのカップリングからなる集合とも呼ばれる。
上述の距離は通常 Wp(μ, ν) ("Wasserstein"という綴りより)、あるいは ℓp(μ, ν) ("Vasershtein"という綴りより)の記号によって表される。この記事の残りの部分ではWpを使用する。
ワッサースタイン計量には、次のような同値な定義も存在する。
ここで E[Z] は確率変数Zの期待値を表し、下限はそれぞれ周辺分布μ とνを備える確率変数XとYのすべての結合分布に対して取られる。
応用
ワッサースタイン計量は、一つの変数がもう一方の(確率論的あるいは決定論的に)非一様な小さい摂動によって得られるような、二つの変数 X と Y の確率分布を比較する際に自然に用いられる。
例えば計算機科学の分野においては、二つのデジタル画像の色ヒストグラムといった離散分布を比較する際に、ワッサースタイン計量 W1 が広く用いられている。詳細についてはEMDを参照されたい。
- 1 ワッサースタイン計量とは
- 2 ワッサースタイン計量の概要
- 3 性質
- 4 関連項目
- ワッサースタイン計量のページへのリンク