画像スケーリングアルゴリズムの比較ギャラリーとは？わかりやすく解説

このギャラリーは、さまざまな画像スケーリングアルゴリズムの結果を示したものである。

スケーリング方法

画像サイズはいくつかの方法で変更できる。 160×160ピクセルの写真を以下の40×40ピクセルのサムネイルにリサイズし、次にそのサムネイルを160×160ピクセルの画像に拡大することを取り上げた。また、以下のテキストを含む画像（109×40ピクセル）のサイズを2倍にする（218×80ピクセルにする）ことも取り上げた。

低解像度画像
サムネイル	テキスト

スケーリング方法の比較
オリジナル写真	拡大されたサムネイル	拡大されたテキスト	アルゴリズムと説明
			最近傍補間サイズを大きくする最も簡単な方法の一つで、すべてのピクセルを同じ色の複数のピクセルに置き換える。結果として得られる画像は元の画像よりも大きくなり、元のディテールはすべて保持されるが、（おそらく望ましくない）ジャギー（ギザギザ）が残る。例えば、"W"の斜線は、最近傍補間の特徴である"階段状"の形状になっている。以下に挙げる他のスケーリング方法では、画像の滑らかな輪郭がより良く維持される。
			バイリニア補間線形補間（2次元では双線形またはバイリニア補間）は、通常、画像のサイズを変更するのに適しているが、細部が若干ぼやけてしまい、多少ギザギザした感じになることがある。
			バイキュービック補間より優れたスケーリング方法には、ランチョス再サンプリング（英語版）とミッチェル・ネトラバリ・フィルターがある。
			フーリエ変換ベースの補間周波数領域をゼロ成分でパディングする、シンプルなフーリエベースの補間（平滑化ウィンドウベースのアプローチはリンギングを軽減する）。細部の良好な保存性の一方で、リンギングと、左端から右端（およびその逆）へのコンテンツの循環ブリーディングが顕著である。
			エッジ保存補間エッジ保存補間アルゴリズムは、斜線や曲線の周囲に階段状のアーティファクトが生じる可能性のある他のアルゴリズムとは異なり、スケーリング後に画像のエッジを保持することを目的としている。このタスクのアルゴリズムの例としては、新エッジ指向補間（英語版）（New Edge-Directed Interpolation、略称：NEDI） ^[1] ^[2] 、エッジガイド画像補間（Edge-Guided Image Interpolation、略称：EGGI） ^[3] 、反復曲率ベース補間（英語版）（Iterative Curvature-Based Interpolation、略称：ICBI）^[要出典] 、および方向性3次畳み込み補間（英語版）（Directional Cubic Convolution Interpolation、略称：DCCI） ^[4] などがあげられる。ある研究では、一連のテスト画像でDCCIがPSNRとSSIM（英語版）において最高のスコアを示した ^[5] 。
			ピクセルアートスケーリングアルゴリズム（英語版）（hqx）低解像度で色数が少ない（通常2から256色）コンピュータグラフィックスを拡大するには、hqxやxbrなどのピクセルアートスケーリングアルゴリズムを使用すると、より良い結果が得られる。これらのアルゴリズムは、鋭いエッジを生成し、高レベルのディテールを維持する。 "Wiki"画像は、218×80ピクセルという拡大後サイズのため、残念ながらHQ4xや4xBRZを使用できず、行シフトなどのアーティファクトの発生を分かりやすく示すことができない。サンプル画像ではそれぞれHQ4xとHQ2xを使用している。
			ピクセルアートスケーリングアルゴリズム（英語版）（xbr） xbrファミリーは滑らかなエッジを生成するのに非常に便利である。形状が大きく変化するが、多くの場合、非常に魅力的な結果が得られる。ただし、局所的な領域を単一の色にまとめることで、ポスタリゼーション（英語版）に似た効果が生み出されてしまう。また、大きなディテールが繋がっている場合、その間にある小さなディテールが削除されてしまう。サンプル画像ではそれぞれ4xBRZと2xBRZを使用している。
			ピクセルアートスケーリングアルゴリズム（英語版）（GemCutter）さまざまな詳細度や滑らかさを実現できる適応性の高い手法である。元のディテールを隣接どうしでぼかすことなく、その形状と座標を保持することを目的としている。直接接するピクセルどうしのブレンドを避け、代わりに対角線上にあるピクセルのみをブレンドする。 "Cutter"という名称は、正方形の角を切り取ってダイヤモンドにする傾向と、階段状のピクセルに沿って、つまりダイヤモンドのエッジの角度に沿って存在する明確な面を作成する傾向に由来する。 "Gem"という接頭辞は、ダイヤモンドのカットだけでなく、角を45度の角度でカットする多くの伝統的な宝石のカットも指している。サンプル画像では、GemCutter Preserve Details (上) と GemCutter Smooth Edges (下) を使用している。
			画像トレース（英語版）ベクター化（英語版）では、まず、拡大・縮小するグラフィックの解像度に依存しないベクター表現を生成する。次に、解像度に依存しないバージョンを、目的の解像度でラスター画像としてレンダリングする。この手法は、Adobe Illustrator Live Trace、Inkscape、そして最近のいくつかの論文で使用されている ^[6] 。スケーラブルベクターグラフィックス（英語版）は単純な幾何学的画像に適しているが、写真は複雑なためベクター化に適していない。ベクターの特殊な特性により、サンプル画像はより高解像度で表示されることに注意。他のアルゴリズムは、それぞれ160x160ピクセルと218x80ピクセルの解像度に標準化されている。
			深層畳み込みニューラルネットワーク機械学習を用いることで、訓練データセットから共通のパターンを学習することで、説得力のあるディテールを最善の推測として生成することができる。アップスケールされた結果は、取り込まれた情報がソースの内容と一致しない場合があるため、ハルシネーションと表現されることがある。 EDSR（Enhanced Deep Residual Network）法は、従来の残差ニューラルネットワークアーキテクチャを最適化することで開発された ^[7] 。この手法を使用するプログラムには、waifu2x、Imglarger、Neural Enhanceなどがある。
			知覚損失を用いた深層畳み込みニューラルネットワーク超解像敵対的生成ネットワーク法（Super-Resolution Generative Adversarial Network、略称：SRGAN） ^[8] をベースに開発された拡張SRGAN（略称：ESRGAN） ^[9] は、同じ敵対的生成ネットワークの基盤を段階的に改良したものである。どちらの手法も、反復学習の評価に知覚損失関数 ^[10] を利用している。

各種画像の拡大例

以下は各種画像を各スケーリング方法で4倍に拡大した例である。

各種画像の4倍拡大例
スケーリング方法	人物写真^{[* 1]}	テキスト^{[* 2]}	ピクセルアート（ドット絵）^{[* 3]}	アニメ絵^{[* 4]}
最近傍補間
バイリニア補間
バイキュービック補間 ( $a=-0.5$
ランチョス再サンプリング
拡張超解像敵対的生成ネットワーク（Real-ESRGAN^{[* 5]}）

^ https://dome.mit.edu/handle/1721.3/195767 4倍拡大後、x:420,y:210,w:170,h:200を切り出し
^ File:Image-before-scaling.png 外周2px幅拡張、トーン-25%、4倍拡大後、x:75,y:0,w:170,h:192を切り出し
^ File:Pixelart-tv-iso.png 4倍拡大後、x:25,y:15,w:170,h:200を切り出し
^ File:Wikipe-tan face.svg 128px画像ファイルを4倍拡大後、x:110,y:80,w:170,h:200を切り出し
^ https://github.com/xinntao/Real-ESRGAN 使用モデルは、人物写真：realesrgan-x4plus その他：realesrgan-x4plus-anime

脚注

[脚注の使い方]

^ “Edge-Directed Interpolation”. 2016年2月19日閲覧。
^ Xin Li; Michael T. Orchard. “NEW EDGE DIRECTED INTERPOLATION”. 2000 IEEE International Conference on Image Processing: 311. オリジナルの2016-02-14時点におけるアーカイブ。 2016年7月3日閲覧。.
^ Zhang, D.; Xiaolin Wu (2006). “An Edge-Guided Image Interpolation Algorithm via Directional Filtering and Data Fusion”. IEEE Transactions on Image Processing 15 (8): 2226–38. Bibcode: 2006ITIP...15.2226Z. doi:10.1109/TIP.2006.877407. PMID 16900678.
^ Dengwen Zhou. “Image Zooming Using Directional Cubic Convolution Interpolation”. 2015年9月13日閲覧。
^ Shaode Yu; Rongmao Li; Rui Zhang; Mou An; Shibin Wu; Yaoqin Xie (2013). "Performance evaluation of edge-directed interpolation methods for noise-free images". arXiv:1303.6455 [cs.CV]。
^ Johannes Kopf and Dani Lischinski (2011). “Depixelizing Pixel Art”. ACM Transactions on Graphics 30 (4): 99:1–99:8. doi:10.1145/2010324.1964994. オリジナルの2015-09-01時点におけるアーカイブ。 2012年10月24日閲覧。.
^ Lim, Bee; Son, Sanghyun; Kim, Heewon; Nah, Seungjun; Kyoung Mu Lee (2017). "Enhanced Deep Residual Networks for Single Image Super-Resolution". arXiv:1707.02921 [cs.CV]。
^ “Generative Adversarial Network and Super Resolution GAN(SRGAN)” (2020年4月26日). 2020年8月26日閲覧。
^ Wang, Xintao; Yu, Ke; Wu, Shixiang; Gu, Jinjin; Liu, Yihao; Dong, Chao; Chen Change Loy; Qiao, Yu; Tang, Xiaoou (2018). "ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks". arXiv:1809.00219 [cs.CV]。
^ “Perceptual Loss Functions” (2019年5月17日). 2020年8月26日閲覧。

[11] ttps://dome.mit.edu/handle/1721.3/195767 4倍拡大後、x:420,y:210,w:170,h:200を切り出し

[12] File:Image-before-scaling.png 外周2px幅拡張、トーン-25%、4倍拡大後、x:75,y:0,w:170,h:192を切り出し

[13] File:Pixelart-tv-iso.png 4倍拡大後、x:25,y:15,w:170,h:200を切り出し

[14] File:Wikipe-tan face.svg 128px画像ファイルを4倍拡大後、x:110,y:80,w:170,h:200を切り出し

[15] ttps://github.com/xinntao/Real-ESRGAN 使用モデルは、人物写真：realesrgan-x4plus その他：realesrgan-x4plus-anime

[1] “Edge-Directed Interpolation”. 2016年2月19日閲覧。

[2] Xin Li; Michael T. Orchard. “NEW EDGE DIRECTED INTERPOLATION”. 2000 IEEE International Conference on Image Processing: 311. オリジナルの2016-02-14時点におけるアーカイブ。 2016年7月3日閲覧。.

[3] Zhang, D.; Xiaolin Wu (2006). “An Edge-Guided Image Interpolation Algorithm via Directional Filtering and Data Fusion”. IEEE Transactions on Image Processing 15 (8): 2226–38. Bibcode: 2006ITIP...15.2226Z. doi:10.1109/TIP.2006.877407. PMID 16900678.

[4] Dengwen Zhou. “Image Zooming Using Directional Cubic Convolution Interpolation”. 2015年9月13日閲覧。

[5] Shaode Yu; Rongmao Li; Rui Zhang; Mou An; Shibin Wu; Yaoqin Xie (2013). "Performance evaluation of edge-directed interpolation methods for noise-free images". arXiv:1303.6455 [cs.CV]。

[pixelart-6] Johannes Kopf and Dani Lischinski (2011). “Depixelizing Pixel Art”. ACM Transactions on Graphics 30 (4): 99:1–99:8. doi:10.1145/2010324.1964994. オリジナルの2015-09-01時点におけるアーカイブ。 2012年10月24日閲覧。.

[7] Lim, Bee; Son, Sanghyun; Kim, Heewon; Nah, Seungjun; Kyoung Mu Lee (2017). "Enhanced Deep Residual Networks for Single Image Super-Resolution". arXiv:1707.02921 [cs.CV]。

[8] “Generative Adversarial Network and Super Resolution GAN(SRGAN)” (2020年4月26日). 2020年8月26日閲覧。

[9] Wang, Xintao; Yu, Ke; Wu, Shixiang; Gu, Jinjin; Liu, Yihao; Dong, Chao; Chen Change Loy; Qiao, Yu; Tang, Xiaoou (2018). "ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks". arXiv:1809.00219 [cs.CV]。

[10] “Perceptual Loss Functions” (2019年5月17日). 2020年8月26日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[* 1]

[* 2]

[* 3]

[* 4]

[* 5]

オリジナル写真	拡大されたサムネイル	拡大されたテキスト	アルゴリズムと説明
			最近傍補間サイズを大きくする最も簡単な方法の一つで、すべてのピクセルを同じ色の複数のピクセルに置き換える。結果として得られる画像は元の画像よりも大きくなり、元のディテールはすべて保持されるが、（おそらく望ましくない）ジャギー（ギザギザ）が残る。例えば、"W"の斜線は、最近傍補間の特徴である"階段状"の形状になっている。以下に挙げる他のスケーリング方法では、画像の滑らかな輪郭がより良く維持される。
			バイリニア補間線形補間（2次元では双線形またはバイリニア補間）は、通常、画像のサイズを変更するのに適しているが、細部が若干ぼやけてしまい、多少ギザギザした感じになることがある。
			バイキュービック補間より優れたスケーリング方法には、ランチョス再サンプリング（英語版）とミッチェル・ネトラバリ・フィルターがある。
			フーリエ変換ベースの補間周波数領域をゼロ成分でパディングする、シンプルなフーリエベースの補間（平滑化ウィンドウベースのアプローチはリンギングを軽減する）。細部の良好な保存性の一方で、リンギングと、左端から右端（およびその逆）へのコンテンツの循環ブリーディングが顕著である。
			エッジ保存補間エッジ保存補間アルゴリズムは、斜線や曲線の周囲に階段状のアーティファクトが生じる可能性のある他のアルゴリズムとは異なり、スケーリング後に画像のエッジを保持することを目的としている。このタスクのアルゴリズムの例としては、新エッジ指向補間（英語版）（New Edge-Directed Interpolation、略称：NEDI） ^[1] ^[2] 、エッジガイド画像補間（Edge-Guided Image Interpolation、略称：EGGI） ^[3] 、反復曲率ベース補間（英語版）（Iterative Curvature-Based Interpolation、略称：ICBI）^[要出典] 、および方向性3次畳み込み補間（英語版）（Directional Cubic Convolution Interpolation、略称：DCCI） ^[4] などがあげられる。ある研究では、一連のテスト画像でDCCIがPSNRとSSIM（英語版）において最高のスコアを示した ^[5] 。
			ピクセルアートスケーリングアルゴリズム（英語版）（hqx）低解像度で色数が少ない（通常2から256色）コンピュータグラフィックスを拡大するには、hqxやxbrなどのピクセルアートスケーリングアルゴリズムを使用すると、より良い結果が得られる。これらのアルゴリズムは、鋭いエッジを生成し、高レベルのディテールを維持する。 "Wiki"画像は、218×80ピクセルという拡大後サイズのため、残念ながらHQ4xや4xBRZを使用できず、行シフトなどのアーティファクトの発生を分かりやすく示すことができない。サンプル画像ではそれぞれHQ4xとHQ2xを使用している。
			ピクセルアートスケーリングアルゴリズム（英語版）（xbr） xbrファミリーは滑らかなエッジを生成するのに非常に便利である。形状が大きく変化するが、多くの場合、非常に魅力的な結果が得られる。ただし、局所的な領域を単一の色にまとめることで、ポスタリゼーション（英語版）に似た効果が生み出されてしまう。また、大きなディテールが繋がっている場合、その間にある小さなディテールが削除されてしまう。サンプル画像ではそれぞれ4xBRZと2xBRZを使用している。
			ピクセルアートスケーリングアルゴリズム（英語版）（GemCutter）さまざまな詳細度や滑らかさを実現できる適応性の高い手法である。元のディテールを隣接どうしでぼかすことなく、その形状と座標を保持することを目的としている。直接接するピクセルどうしのブレンドを避け、代わりに対角線上にあるピクセルのみをブレンドする。 "Cutter"という名称は、正方形の角を切り取ってダイヤモンドにする傾向と、階段状のピクセルに沿って、つまりダイヤモンドのエッジの角度に沿って存在する明確な面を作成する傾向に由来する。 "Gem"という接頭辞は、ダイヤモンドのカットだけでなく、角を45度の角度でカットする多くの伝統的な宝石のカットも指している。サンプル画像では、GemCutter Preserve Details (上) と GemCutter Smooth Edges (下) を使用している。
			画像トレース（英語版）ベクター化（英語版）では、まず、拡大・縮小するグラフィックの解像度に依存しないベクター表現を生成する。次に、解像度に依存しないバージョンを、目的の解像度でラスター画像としてレンダリングする。この手法は、Adobe Illustrator Live Trace、Inkscape、そして最近のいくつかの論文で使用されている ^[6] 。スケーラブルベクターグラフィックス（英語版）は単純な幾何学的画像に適しているが、写真は複雑なためベクター化に適していない。ベクターの特殊な特性により、サンプル画像はより高解像度で表示されることに注意。他のアルゴリズムは、それぞれ160x160ピクセルと218x80ピクセルの解像度に標準化されている。
			深層畳み込みニューラルネットワーク機械学習を用いることで、訓練データセットから共通のパターンを学習することで、説得力のあるディテールを最善の推測として生成することができる。アップスケールされた結果は、取り込まれた情報がソースの内容と一致しない場合があるため、ハルシネーションと表現されることがある。 EDSR（Enhanced Deep Residual Network）法は、従来の残差ニューラルネットワークアーキテクチャを最適化することで開発された ^[7] 。この手法を使用するプログラムには、waifu2x、Imglarger、Neural Enhanceなどがある。
			知覚損失を用いた深層畳み込みニューラルネットワーク超解像敵対的生成ネットワーク法（Super-Resolution Generative Adversarial Network、略称：SRGAN） ^[8] をベースに開発された拡張SRGAN（略称：ESRGAN） ^[9] は、同じ敵対的生成ネットワークの基盤を段階的に改良したものである。どちらの手法も、反復学習の評価に知覚損失関数 ^[10] を利用している。

画像スケーリングアルゴリズムの比較ギャラリーとは？ わかりやすく解説

画像スケーリングアルゴリズムの比較ギャラリー

スケーリング方法

最近傍補間

バイリニア補間

バイキュービック補間

フーリエ変換ベースの補間

エッジ保存補間

ピクセルアートスケーリングアルゴリズム（英語版）（hqx）

ピクセルアートスケーリングアルゴリズム（英語版）（xbr）

ピクセルアートスケーリングアルゴリズム（英語版）（GemCutter）

画像トレース（英語版）

深層畳み込みニューラルネットワーク

知覚損失を用いた深層畳み込みニューラルネットワーク

各種画像の拡大例

脚注

急上昇のことば

「画像スケーリングアルゴリズムの比較ギャラリー」の関連用語

画像スケーリングアルゴリズムの比較ギャラリーとは？わかりやすく解説