ダメラウ・レーベンシュタイン距離(ダメラウ・レーベンシュタインきょり、: Damerau–Levenshtein distance)は、2つの配列の間の編集距離を測定するために情報理論計算機科学で使われる文字列計量である。2つの単語間のダメラウ・レーベンシュタイン距離は、一方の単語を他方の単語に変換するのに必要な最小の操作回数である。ここで1回の「操作」とは1文字の挿入、削除、置換、あるいは2つの隣り合う文字の交換である。ダメラウ・レーベンシュタイン距離はフレデリック J. ダメラウ英語版ウラジミール I. レーベンシュタインにちなんで名付けられた[1] [2] [3]

次は、真のダメラウ・レーベンシュタイン距離を求めアルゴリズムである。このアルゴリズムでは、アルファベット含まれる全文字 Σ の個数 | Σ | {\displaystyle |\Sigma |} が必要になる成分が [0, |Σ|) に含まれる配列を使うからである:A:93擬似コードは: algorithm DL-distance is input: strings a[1..length(a)], b[1..length(b)] output: distance, integer da := |Σ|個の整数からなる配列 for i := 1 to |Σ| inclusive do da[i] := 0 let d[−1..length(a), −1..length(b)] // d は次元length(a)+2, length(b)+2 の二次元整数配列 // d の添字は -1 から始まり、a, b, および da添字は 1 から始まることに注意 maxdist := length(a) + length(b) d[−1, −1] := maxdist for i := 0 to length(a) inclusive do d[i, −1] := maxdist d[i, 0] := i for j := 0 to length(b) inclusive do d[−1, j] := maxdist d[0, j] := j for i := 1 to length(a) inclusive do db := 0 for j := 1 to length(b) inclusive do k := da[b[j]] ℓ := db if a[i] = b[j] then cost := 0 db := j else cost := 1 d[i, j] := minimum(d[i−1, j−1] + cost, //置換 d[i, j−1] + 1, //挿入 d[i−1, j ] + 1, //削除 d[k−1, ℓ−1] + (i−k−1) + 1 + (j-ℓ−1)) //交換 da[a[i]] := i return d[length(a), length(b)] 非制限ダメラウ・レーベンシュタイン距離求め正しアルゴリズム作るには次のことに注意する1度交換され文字そのあと2度編集されないよう編集操作最適配列存在する交換コスト W T {\displaystyle W_{T}} が挿入コスト W I {\displaystyle W_{I}} と削除コスト W D {\displaystyle W_{D}} の平均以上つまり 2 W T ≥ W I + W D {\displaystyle 2W_{T}\geq W_{I}+W_{D}} の場合成立する)。したがって1つ部分文字列を2回以上編集する2つ対称方法隣接文字交換して任意の個数文字その間挿入する 文字列削除し、その削除によって新たに隣り合うことになった隣接文字交換するいずれかだけを考えればよい。このアイディア素直に実行するアルゴリズムは、文字列長さ M {\displaystyle M} および N {\displaystyle N} に対して O ( M Nmax ( M , N ) ) {\displaystyle O(MN\cdot \max(M,N))} の計算複雑性を持つ。ローランスとワグナーアイディア使ったアルゴリズムでは、最悪場合でも O ( M N ) {\displaystyle O(MN)} に改善されるBitapアルゴリズムを、隣接交換処理するように変更できる。この例について参考文献情報収集の節を見よ


