タグ付けされた質問 「object-detection」

4
可変サイズの画像を畳み込みニューラルネットワークへの入力として与えることは可能ですか?
オブジェクト検出用の畳み込みニューラルネットワークへの入力として、可変サイズの画像を提供できますか?可能であれば、どうすればそれを実行できますか? しかし、画像をトリミングしようとすると、画像の一部が失われ、サイズを変更しようとすると、画像の鮮明さが失われます。画像の鮮明さが主な考慮事項である場合、固有のネットワークプロパティを使用するのが最適であることを意味しますか?

5
Yolo Loss機能の説明
Yolo v2損失関数を理解しようとしています。 λcoord∑i=0S2∑j=0B1objij[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1objij[(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2]+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21obji∑c∈classes(pi(c)−p^i(c))2λcoord∑i=0S2∑j=0B1ijobj[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1ijobj[(wi−w^i)2+(hi−h^i)2]+∑i=0S2∑j=0B1ijobj(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2+∑i=0S21iobj∑c∈classes(pi(c)−p^i(c))2\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align} 誰かが機能の詳細を説明できる場合。

4
オブジェクト検出の平均精度
APやmAPの値をどのように計算できるかについてはかなり混乱しています。特に、オブジェクト検出のためにAP / mAP値を取得したいと考えています。 私が確実に知っているのは、 リコール= TP /(TP + FN)、精度= TP /(TP + FP) たとえば、評価するクラスが1つだけで、500のテスト画像があるとします。各テスト画像には異なる数の予測(境界ボックス提案)が含まれる場合がありますが、各画像には1つのグラウンドトゥルース境界ボックスしかありません。 画像1:[クラス、確率、x1、y1、x2、y2]、[クラス、確率、x3、y3、x4、y4]、[クラス、確率、x5、y5、x6、y6]、[クラス、確率、 x7、y7、x8、y8]、... 画像2:[クラス、確率、x1、y1、x2、y2]、[クラス、確率、x3、y3、x4、y4]、... 。。。(等々) *ほんの一例で、私はこれを作りました TPを取得するには、各予測のIOUを見つけて、選択したしきい値(0.5など)を超えるものをカウントする必要があることを知っています(しきい値を超えるIOUを持つ複数の予測がある場合、1回だけカウントして他を処理しますか? FPとして?) これは私を困惑させるところです: TP + FP =各画像に対して行われた予測の数でしょうか? すべてのテスト画像にネガがないため、TP + FN = 500? 画像ごと、またはクラスごとに計算されますか? 私の例に基づいてAP / mAPを取得するためのステップバイステップガイドを誰かに教えてもらえますか?最も曖昧な部分は、画像ごとに行うのか、クラスごとに行うのか(つまり、一度に500枚の画像を処理する場合)です。 私が見つけたほとんどのガイド/論文は、情報検索を対象としています。これでいくつかの助けをいただければ幸いです。 *注:一部のカスタムデータセットでテストしています。PASCAL VOCにはそれを行うためのコードがいくつかあることは知っていますが、自分のデータに合わせてカスタマイズしたコードを自分で記述したいと思っています。

2
オブジェクトクラスの数が増えると、オブジェクト検出の精度が向上または低下します
k個のオブジェクトクラスがラベル付けされたN個の画像を持つオブジェクト検出データセット(たとえば、MS COCOまたはPascal VOC)があるとします。ニューラルネットワーク(例:Faster-RCNNまたはYOLO)をトレーニングし、精度を測定します(例:IOU@0.5)。 ここで、x個の追加オブジェクトクラスを導入し、対応するラベルを元のデータセットに追加して、k + x個のオブジェクトクラスがラベル付けされたN個の画像を持つデータセットを提供します。 訓練されたネットワークの精度は増加または減少しますか? 具体的には、約20のオブジェクトクラスを持つ交通標識データセットがあります。現在、追加の交通標識クラスを追加することを考えています(新しいイメージを追加したり、ネットワークアーキテクチャを変更したりせずに、新しいクラスにラベルを付けます)。これにより、パフォーマンスが低下するか増加するか疑問に思っています。 一方では、オブジェクトクラスが増えると、クラス間の区別が難しくなると思います。さらに、ニューラルネットワークは限られた量の情報しか保持できません。つまり、クラスの数が非常に多くなると、すべてのクラスに対応するのに十分な重みがない可能性があります。 反対に、オブジェクトクラスが増えると、ニューラルネットワークに役立つラベルが増えることになります。さらに、クラス間で学習効果を伝達すると、ネットワークの精度が向上する場合があります。 私の意見では、各ネットワークアーキテクチャにはある種のスイートスポットがあるはずですが、このトピックに関する文献、研究、実験は見つかりませんでした。

1
ディープラーニングによるワンショットオブジェクト検出
近年、オブジェクト検出の分野は、ディープラーニングパラダイムの普及後、大きな進歩を遂げました。YOLO、SSD、FasterRCNNなどのアプローチは、オブジェクト検出の一般的なタスクにおいて最新技術を保持します[ 1 ]。 ただし、特定のアプリケーションシナリオで、検出するオブジェクト/ロゴの参照画像が1つしか与えられていない場合、ディープラーニングベースの方法は適用性が低く、SIFTやSURFなどの局所特徴記述子がより適切な代替手段として表示されます。導入コストはほぼゼロです。 私の質問は、ディープラーニングがオブジェクトクラスごとに1つのトレーニング画像だけでオブジェクト検出にうまく使用されているアプリケーション戦略(できれば、それらを説明する研究論文だけでなく、利用可能な実装)を指摘できますか? アプリケーションシナリオの例: この場合、SIFTは画像内のロゴを正常に検出します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.