Faster RCNNの論文で、アンカーについて話しているとき、「参照ボックスのピラミッド」を使用することは何を意味し、これはどのように行われますか?これは、W * H * kの各アンカーポイントで境界ボックスが生成されることを意味するだけですか?
ここで、W =幅、H =高さ、およびk =アスペクト比の数*スケールの数
紙へのリンク:https : //arxiv.org/abs/1506.01497
Faster RCNNの論文で、アンカーについて話しているとき、「参照ボックスのピラミッド」を使用することは何を意味し、これはどのように行われますか?これは、W * H * kの各アンカーポイントで境界ボックスが生成されることを意味するだけですか?
ここで、W =幅、H =高さ、およびk =アスペクト比の数*スケールの数
紙へのリンク:https : //arxiv.org/abs/1506.01497
回答:
それらのうち、それらは画像に対応しています。次に、各アンカーについて、RPNは、オブジェクトを一般的に含む確率と、アンカーを正しい位置に移動およびサイズ変更するための4つの補正座標を予測します。しかし、アンカーのジオメトリはどのようにRPNと何か関係があるのでしょうか。
RPNをトレーニングする場合、最初にバイナリクラスラベルが各アンカーに割り当てられます。アンカー交差点オーバー連合(IOU一定の閾値より高い地上真実ボックス付)の重なりは、正のラベル(同様にIOUの持つアンカーが少ない与えられたしきい値よりもマイナスにラベル付けされます)が割り当てられています。これらのラベルは、損失関数の計算にさらに使用されます。
また、ラベルのないアンカーは分類も再形成もされず、RPMは単にそれらを計算から除外します。RPNのジョブが完了し、提案が生成されると、残りはFast R-CNNに非常に似ています。
私は昨日この論文を読みましたが、一見すると私も混乱しました。もう一度読んだ後、私はこの結論に達しました:
7x7x512 (HxWxD)
です。3x3
変換レイヤーを持つ512次元レイヤーにマップされます。出力サイズは7x7x512
(パディングが使用されている場合)です。7x7x(2k+4k)
(例7x7x54
)レイヤーにマッピングされます。1x1
k
これで、この論文の図1に従って、ピラミッド型の入力画像(同じ画像で異なるスケールを持つ)、ピラミッド型のフィルター(異なるスケールのフィルター、同じレイヤー内)、またはピラミッド型の参照ボックスを作成できます。後者k
は、地域提案ネットワークの最終層にあるアンカーボックスを指します。互いに積み重ねられた異なるサイズのフィルター(中央のケース)の代わりに、異なるサイズとアスペクト比のフィルターが互いに積み重ねられます。
要するに、各アンカーポイント(HxW
たとえば7x7
)に対して、参照ボックスのピラミッド(k
たとえば9
)が使用されます。
3x3
変換レイヤーがどのように変換されるの7x7
か説明してください。prototxtでは、最後のVGG16レイヤーのパディングが1であると書かれています。