深層学習以降の進展
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/17 07:31 UTC 版)
R-CNNの発表後、その欠点を改良した検出システムが発表されていく。2014年に発表されたSPPNetは、入力として固定サイズの画像しか受け取れないというR-CNNの欠点を解消した。2015年に発表されたFast R-CNNは、事前に画像全体に対してCNNを用いて特徴抽出を行い、そこに候補領域の情報を組み合わせることで、候補領域ごとにCNNを毎回適用しなければならないというR-CNNの欠点を解消した。さらに2015年に提案されたFaster R-CNNでは、前段の物体候補領域提案の部分がボトルネックとなっていたことに注目し、新たに物体候補領域提案の部分をニューラルネットワークを用いて置き換えた(Region Proposal Network(RPN)と呼ばれる)。これによりシステム全体がニューラルネットワークを用いて学習できるようになり、大幅な高速化を達成した。これ以降も、クラス分類・Bouding boxの座標推定に加え、Bounding box内の対象物体の領域を推定するブランチを追加しインスタンスセグメンテーション(英語版)を行えるようにしたMask R-CNN等、R-CNNから続く2ステージの検出システムは幅広く研究が進んでいる。 一方で、候補領域を予め抽出し、それについて検出・分類を行うという2ステージの検出システムは計算資源を要するため、特に携帯端末やウェアラブルデバイスといった容量や計算資源の限られた端末での応用が難しいという課題がある。そこで領域提案などを分離せず、入力からクラス分類・Bouding boxの座標推定までをエンドツーエンドで行う1ステージの検出システムの研究も進められている。2013年に発表されたOverFeatは、ILSVRC2013の検出部門にて最高記録を達成する。OverFeatは圧倒的な処理速度を達成するが、一方でその精度は2ステージの検出システムであるR-CNNには及ばなかった。その要因としてはOverFeatに用いられる全畳込みニューラルネットワーク(fully convolutional network)の学習が当時難しかったことが挙げられる。ただ、OverFeatの特徴は後発のYOLOやSSDに引き継がれた。2016年に発表されたYOLOは、画像を任意のピクセルごとのグリッドに区切り、グリッド毎に物体が存在する確率と物体が存在する場合の分類クラスを予測するというものである。YOLOは処理速度で45fpsを記録した。ただしグリッド毎に予測するという性質上、2ステージのFaster R-CNNと比べると位置の正確性は低くなった。特に1つのグリッド内に複数の物体がある場合の検出力が低いという欠点がある。2016年に発表されたSingle Shot MultiBox Detector(SSD)は、Faster R-CNNに用いられたRPNの考え方を持ち込んだもので、YOLOと比較して処理速度がさらに向上するとともに、精度面でもFaster R-CNNと同等の精度を達成した。2019年に発表されたEfficientDet等、1ステージ系でありながら条件によっては2ステージ系のMask R-CNNの精度を上回るシステムも出てきている。
※この「深層学習以降の進展」の解説は、「物体検出」の解説の一部です。
「深層学習以降の進展」を含む「物体検出」の記事については、「物体検出」の概要を参照ください。
- 深層学習以降の進展のページへのリンク