深層学習による革新
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/04/17 07:31 UTC 版)
画像認識の分野では物体検出に限らず、上述のSIFTのような研究者がタスクの性質を分析し手作業で設計された手法が支持されていた。畳み込みニューラルネットワーク(CNN)を用いた手法は研究されていたものの、局所最適解を得られる保証がなかったり学習が収束する保証がなかったこともCNNが活用されなかった背景である。そうした状況の中、2012年にAlex Krizhevskyらが画像認識(画像分類)のコンテストであるILSVRC2012で提出したCNNを用いたシステムが、従来の画像認識システムを大幅に超える精度を記録した。このシステムでは膨大な計算量を前提とし、大量のデータをニューラルネットワークの学習に用いるという特徴がある。GPU等の技術的な計算資源の向上も相まって、深層学習の活用が現実味を帯びてきた。 画像分類タスクにおけるこうしたCNNの成功を物体検出の分野にも応用しようという動きがあり、2014年にはR-CNNと呼ばれる検出システムが発表された。これは従来から存在した物体候補領域提案(region proposal、動画像内の物体が存在しそうな領域を複数提案するもの)手法を動画像に施した後、それらの候補領域それぞれにCNNを用いてその領域に対象クラスの物体が存在するか、存在する場合にはその正確なBounding boxの座標を学習するものであった。欠点として、前段の物体候補領域の提案にはCNNを用いていないことや、後段のクラス分類でも従来の機械学習手法であるSVMを用いていること、また候補領域の提案とクラス・Bounding boxの推論という二段構造になっていることによる推論速度の遅さ等があるが、こうした欠点の存在がその後の改善手法の提案に繋がっていった。
※この「深層学習による革新」の解説は、「物体検出」の解説の一部です。
「深層学習による革新」を含む「物体検出」の記事については、「物体検出」の概要を参照ください。
- 深層学習による革新のページへのリンク