データサイエンス object-recognition

2

Pascal VOCリーダーボードの検出タスクのmAP（平均精度）の計算方法は？http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 そこに-11ページで：http : //homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf 平均精度（AP）。VOC2007チャレンジでは、分類された検出と検出の両方を評価するために、補間された平均精度（Salton and Mcgill 1986）が使用されました。特定のタスクおよびクラスについて、精度/リコール曲線はメソッドのランク付けされた出力から計算されます。リコールは、特定のランクよりも上位にランク付けされたすべての肯定的な例の割合として定義されます。精度は、そのランクより上のすべての例のうち、ポジティブクラスからの割合です。APは精度/リコール曲線の形状を要約し、11個の等間隔のリコールレベル[0,0.1、...、1]のセットでの平均精度として定義されます。 AP = 1/11 ∑ r∈{0,0.1,...,1} pinterp(r) 各リコールレベルrの精度は、対応するリコールがrを超えるメソッドに対して測定された最大精度を取得することにより補間されますpinterp(r) = max p(r˜)。ここで、p（r〜）はリコール〜rで測定された精度です。地図について：http://0agr.ru/wiki/index.php/Precision_and_Recall#Average_Precision それは次のことを意味します： PrecisionとRecallを計算します。 A）多くの異なるものIoU について、> {0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1}真/偽の正/負の値を計算しますここでTrue positive = Number_of_detection with IoU > {0, 0.1,..., 1}、https：//datascience.stackexchange.com/a/16813/37736で述べたように、次に計算します： Precision = True positive / …

22 machine-learning neural-network svm computer-vision object-recognition

4

ディープラーニングは、単一の画像内の複数のオブジェクトの検出にどのように役立ちますか？

画像に2台の車があるとしましょう。画像内の1台の車を検出できる場合、どのようにこれらの車を検出できますか？

8 deep-learning convnet object-recognition

1

HOG記述子とSVM分類器による画像内の人間の認識のパフォーマンスが低い

私は、HOG記述子とSVM分類器を組み合わせて、写真の中の人間を認識しています。OpenCV用のPythonラッパーを使用しています。私はpymagesearchで優れたチュートリアルを使用しました。これは、アルゴリズムが何をするかを説明し、detectMultiScaleメソッドのパラメーターを設定する方法についてのヒントを提供します。具体的には # initialize the HOG descriptor hog = cv2.HOGDescriptor() # Set the support vector machine to be pre-trained for people detection hog.setSVMDetector(cv2.HOGDescriptor_getDefaultPeopleDetector()) # Detect people in the image (rects, weights) = hog.detectMultiScale(image, winStride=(4, 4), padding=(8, 8), scale=1.05) パラメータは、チュートリアル自体の説明に従って、精度とパフォーマンスの両方の微調整に従って選択されます。私の問題は、文献によると写真で人間を認識するための現在最良の方法のように思えるこの方法（元の論文は2005年の日付です）が私の画像でかなりうまく機能しないように見えることです。モデルのある服とない服の両方を含む画像があり、この方法でモデルのある服を認識しようとしています。モデルを含むかどうかをタグ付けするために手動でスキャンした300枚の画像のサブセットでは、メソッドは30％の確率で失敗します。これらは例としていくつかの画像です。ここでそれは行方不明の人間を検出しました：ここでそれは完全な人間を手に入れませんでした：ここではそれをまったく認識しませんでした：検出器が直立した人間に有効であることを理解しています。彼らはまた、完全な数字である必要がありますか？私のイメージは、頭も足もない半身像を含みます。これの前に、Haar機能ベースのカスケード分類器を使用して画像内の顔を認識しました。同じ画像セットの精度は90％でしたので、これを改善しようとしました。また、ここで機能しない理由を理解することにも興味があります。

8 python computer-vision object-recognition

タグ付けされた質問 「object-recognition」

タグ付けされた質問「object-recognition」