より高速なRCNNのアンカー


10

Faster RCNNの論文で、アンカーについて話しているとき、「参照ボックスのピラミッド」を使用することは何を意味し、これはどのように行われますか?これは、W * H * kの各アンカーポイントで境界ボックスが生成されることを意味するだけですか?

ここで、W =幅、H =高さ、およびk =アスペクト比の数*スケールの数

紙へのリンク:https : //arxiv.org/abs/1506.01497


これは非常に良い質問です。
Michael R. Chernick 2017年

回答:


10

アンカーの説明

アンカー

(HfeaturemapWfeaturemap)(k)それらのうち、それらは画像に対応しています。次に、各アンカーについて、RPNは、オブジェクトを一般的に含む確率と、アンカーを正しい位置に移動およびサイズ変更するための4つの補正座標を予測します。しかし、アンカーのジオメトリはどのようにRPNと何か関係があるのでしょうか。

アンカーが実際に損失関数に表示される

RPNをトレーニングする場合、最初にバイナリクラスラベルが各アンカーに割り当てられます。アンカー交差点オーバー連合IOU一定の閾値より高い地上真実ボックス付)の重なりは、正のラベル(同様にIOUの持つアンカーが少ない与えられたしきい値よりもマイナスにラベル付けされます)が割り当てられています。これらのラベルは、損失関数の計算にさらに使用されます。

RPN損失関数

ppt

ここに画像の説明を入力してください

x,y,w,x,xa,xy,w,h

また、ラベルのないアンカーは分類も再形成もされず、RPMは単にそれらを計算から除外します。RPNのジョブが完了し、提案が生成されると、残りはFast R-CNNに非常に似ています。


@Fathi多くのクラスがある場合はどうですか?私の知る限り、Fast R-CNNでは、各トレーニングRoIに1つのグラウンドトゥルースクラスが割り当てられています。だから、私はここで似たようなことが起こると思いますか?
thanasissdr 2017

@ファティ私はあなたが言っていることに完全に同意するので、あなたは私に同意するでしょう。Faster R-CNNの元の論文の著者は、単純化のために2つのクラス(背景/オブジェクト)のみを使用し、RPNのしくみを説明しようとしました、そうですか?したがって、クラスが2つだけではなく、2つ以上のクラスが存在する可能性があり、既知のクロスエントロピー損失関数を使用できると思います。
thanasissdr 2017

@thanasissdr Faster R-CNNの背後にある基本的な考え方は、「ニューラルネットが他のすべてに非常に優れている場合、それらを地域提案にも使用しないのはなぜですか?」というものでした。Fast R-CNNを標準のR-CNNと比較すると、唯一の違いは、RoIの提案(SelectiveSearchやEdgeBoxesなどの同じ古い手法を使用して作成されたもの)が生の画像から畳み込み機能にマッピングされ、 FC。このように、CNNを介した各RoIの転送パスプロセスは省略されます。
Mahan Fathi 2017

Faster R-CNNでは、RPN 適切な領域を提案すること学習します。RPNが完了すると、残りはFast R-CNNと同様になり、FCは提案を分類して後退します。
Mahan Fathi 2017

@thanasissdrはい。同じページです。RPNで分類できると思いますが、FCネットが再度分類を行うので不要であり、ジャンクの提案を拒否することは難しくありません。また、パイプライン、分類スコアをどのように使用し、それらがどのように役立つかについても検討してください。私の最後の立場は、(背景/オブジェクト)分類はFaster R-CNNの基礎です。
Mahan Fathi 2017

1

私は昨日この論文を読みましたが、一見すると私も混乱しました。もう一度読んだ後、私はこの結論に達しました:

  • 元のネットワークの最後の層(ZFまたはVGG-16)は、地域提案ネットワークとRoIプーリングの入力として機能します。VGG-16の場合、この最後の変換レイヤーは7x7x512 (HxWxD)です。
  • このレイヤーは、3x3変換レイヤーを持つ512次元レイヤーにマップされます。出力サイズは7x7x512(パディングが使用されている場合)です。
  • このレイヤーは、各アンカーボックスの変換レイヤーを持つ7x7x(2k+4k)(例7x7x54)レイヤーにマッピングされます。1x1k

これで、この論文の図1に従って、ピラミッド型の入力画像(同じ画像で異なるスケールを持つ)、ピラミッド型のフィルター(異なるスケールのフィルター、同じレイヤー内)、またはピラミッド型の参照ボックスを作成できます。後者kは、地域提案ネットワークの最終層にあるアンカーボックスを指します。互いに積み重ねられた異なるサイズのフィルター(中央のケース)の代わりに、異なるサイズとアスペクト比のフィルターが互いに積み重ねられます。

要するに、各アンカーポイント(HxWたとえば7x7)に対して、参照ボックスのピラミッド(kたとえば9)が使用されます。


しかし、アンカーボックスとは正確には何ですか?各アンカーボックスの目的:RPNへの入力として使用され、前景の一部と見なされる各アンカーボックスのアンカーボックスの幅と高さのデルタを予測しますか?
BadProgrammer 2017年

RPNは、前景の位置のデルタシフトと客観性スコアの両方を予測します。後者は、それが背景か前景かを明示的に予測しようとします(脚注3も参照)。
Pieter

3x3変換レイヤーがどのように変換されるの7x7か説明してください。prototxtでは、最後のVGG16レイヤーのパディングが1であると書かれています。
Klik
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.