深層学習によるアプローチ
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/17 07:31 UTC 版)
「物体検出」の記事における「深層学習によるアプローチ」の解説
領域提案(R-CNN、Fast R-CNN、Faster R-CNN 、cascade R-CNN) R-CNNは2014年に提案された手法であり、CNNを用いた検出器としては初めて、それまで用いられていたHOG特徴量をベースとする検出器よりも高い性能を出すことを示した。以降の深層学習を用いた様々な手法の先駆けであり、一般物体検出の進展に大きな影響を与えた。R-CNNはまず画像内から物体領域の候補となる領域を生成し、その各候補領域に対してCNNを用いて物体かどうかを判定するというものである。派生手法であるFast R-CNNやFaster R-CNNも同様の構造を引き継ぎ、ボトルネックになっていた部分にCNNを新たに適用できるようにしたり、複数回適用していた処理を一度にできるように改良したものである。 You Only Look Once(YOLO) 2016年に発表された手法。画像全体を小さなグリッドに分割し、各グリッドに対して物体が存在するかどうかを判定する。物体が存在する場合にはその物体を囲む矩形のサイズとそのクラスを推論する。処理の過程で、R-CNN系であったような物体候補領域を生成する必要がないため、入力から出力まで1ステージで行えることが特徴である。推論処理で45FPSを達成する等速度が向上した半面、小さな物体の認識が苦手であったり、異なるスケールやアスペクト比を持つ物体の認識が苦手という欠点もある。 Single Shot MultiBox Detector(SSD) 2016年に発表された手法。YOLOが抱える課題に対応して改良された1ステージ系の手法。YOLOでは物体位置の推定にネットワークの最終層で得られる特徴量しか用いなかったのに対し、SSDでは入力に近い層の特徴量も用いたことが特徴で、より小さいサイズの物体の検出にも対応できるようになった。また、複数のアスペクト比を持つ矩形内で畳み込みを行うことで、異なるスケール・アスペクト比を持つ物体の検出にも頑健になった。 Single-Shot Refinement Neural Network for Object Detection (RefineDet) 2017年に発表された手法。1ステージの手法で、前半のブロックで物体の有無及びおおまかな位置を検出し、後半のブロックで具体的な物体位置やクラスまで検出する。この2ブロックは接続されており、全体としてはend-to-endで学習ができる。設計者は2ステージ型の検出器の機構を参考にしたと述べており、このように2つのステップを設けることで、より正確な位置を検出することができる。 Retina-Net 2018年に発表された検出モデル。検出タスクについては、検出対象となる前景よりもそれ以外の背景の出現頻度が非常に高いという特徴があり、それを解決するために、検出が難しい事例をより重視してモデルの最適化に反映するFocal lossと呼ばれる損失関数(英語版)を導入したことが特徴。モデルの構造は1ステージの検出器とFeature Pyramid Network(FPN)と呼ばれる物体検出で標準的に用いられる特徴抽出器を組み合わせたもので、開発者は従来の2ステージ系の検出器と同等の精度を達成したとしている。 Deformable convolutional networks(DCN) 2017年に発表された手法。通常の畳み込みニューラルネットワークを用いる場合、正方形あるいは長方形であるフィルタの形状に検出能力が制約されてしまう。そこで本手法では、フィルタを変形可能なネットワークを設計し、物体検出と同時にフィルタの変形具合も学習することで、物体の形状をより的確に認識できるようにしている。
※この「深層学習によるアプローチ」の解説は、「物体検出」の解説の一部です。
「深層学習によるアプローチ」を含む「物体検出」の記事については、「物体検出」の概要を参照ください。
- 深層学習によるアプローチのページへのリンク