タグ付けされた質問 「computer-vision」

コンピュータビジョンは、画像の分析と理解を扱うコンピュータサイエンスのサブフィールドです。これには、画像内の顔や画像のセグメント化などのオブジェクトの検出が含まれます。

2
PASCAL VOC Challengeの検出タスクのmAPを計算する方法は?
Pascal VOCリーダーボードの検出タスクのmAP(平均精度)の計算方法は?http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 そこに-11ページで:http : //homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf 平均精度(AP)。VOC2007チャレンジでは、分類された検出と検出の両方を評価するために、補間された平均精度(Salton and Mcgill 1986)が使用されました。特定のタスクおよびクラスについて、精度/リコール曲線はメソッドのランク付けされた出力から計算されます。リコールは、特定のランクよりも上位にランク付けされたすべての肯定的な例の割合として定義されます。精度は、そのランクより上のすべての例のうち、ポジティブクラスからの割合です。APは精度/リコール曲線の形状を要約し、11個の等間隔のリコールレベル[0,0.1、...、1]のセットでの平均精度として定義されます。 AP = 1/11 ∑ r∈{0,0.1,...,1} pinterp(r) 各リコールレベルrの精度は、対応するリコールがrを超えるメソッドに対して測定された最大精度を取得することにより補間されますpinterp(r) = max p(r˜)。ここで、p(r〜)はリコール〜rで測定された精度です。 地図について:http://0agr.ru/wiki/index.php/Precision_and_Recall#Average_Precision それは次のことを意味します: PrecisionとRecallを計算します。 A)多くの異なるものIoU について、> {0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1}真/偽の正/負の値を計算します ここでTrue positive = Number_of_detection with IoU > {0, 0.1,..., 1}、https://datascience.stackexchange.com/a/16813/37736で述べたように、次に計算します: Precision = True positive / …


3
mAP @ [。5:.95]という表記はどういう意味ですか?
検出に関して、1つのオブジェクトの提案が正しいかどうかを判断する一般的な方法は、Intersection over Union(IoU、IU)です。これは、提案されたオブジェクトピクセルのセットと真のオブジェクトピクセルのセットを取り、以下を計算します。BAAABBB IoU(A,B)=A∩BA∪BIoU(A,B)=A∩BA∪BIoU(A, B) = \frac{A \cap B}{A \cup B} 一般的に、IoU> 0.5はヒットであったことを意味し、それ以外の場合は失敗でした。クラスごとに、 True Positive():クラスに対して提案が行われ、実際にクラスオブジェクトがありましたc cTP(c)TP(c)TP(c)cccccc 偽陽性():提案は、クラスのために作られたが、クラスのオブジェクトがないc cFP(c)FP(c)FP(c)cccccc クラス平均精度:#T P (c )ccc#TP(c)#TP(c)+#FP(c)#TP(c)#TP(c)+#FP(c)\frac{\#TP(c)}{\#TP(c) + \#FP(c)} mAP(平均精度)=1|classes|∑c∈classes#TP(c)#TP(c)+#FP(c)1|classes|∑c∈classes#TP(c)#TP(c)+#FP(c)\frac{1}{|classes|}\sum_{c \in classes} \frac{\#TP(c)}{\#TP(c) + \#FP(c)} より良い提案が必要な場合、IoUを0.5からより高い値(完全な1.0まで)に増やします。これは、mAP @ pで表すことができます。ここで、はIoUです。p∈(0,1)p∈(0,1)p \in (0, 1) しかし、mAP@[.5:.95](このペーパーで見られるように)どういう意味ですか?

3
畳み込みが常に奇数をfilter_sizeとして使用する理由
CNN(ConvNet)を使用して発行された論文の90〜99%をご覧ください。それらの大半は、奇数のフィルターサイズを使用します:{ 1、3、5、7 }。 この状況はいくつかの問題を引き起こす可能性があります:これらのフィルターサイズでは、通常、畳み込み演算は2のパディング(一般的なパディング)では完全ではなく、input_fieldの一部のエッジはプロセスで失われます... 質問1:畳み込みフィルターサイズに奇数番号のみを使用する理由 質問2:畳み込み中にinput_fieldの一部を省略することは実際には問題ですか?なぜそうなのか?

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
拡張型畳み込みとデコンボリューションの違いは何ですか?
これら2つの畳み込み演算は、現在、深層学習で非常に一般的です。 このペーパーで拡張した畳み込み層について読みました:WAVENET:A GENERATIVE MODEL for RAW AUDIO とデコンボリューションはこの論文にあります:セマンティックセグメンテーションのための完全たたみ込みネットワーク どちらも画像をアップサンプリングするようですが、違いは何ですか?

5
教師なし画像セグメンテーション
平面テーブル上に複数のオブジェクトを含む画像があり、各オブジェクトのセグメンテーションマスクの出力が望ましいアルゴリズムを実装しようとしています。CNNとは異なり、ここでの目的は、なじみのない環境でオブジェクトを検出することです。この問題への最善のアプローチは何ですか?また、オンラインで利用可能な実装例はありますか? 編集:申し訳ありませんが、質問は少し誤解を招く可能性があります。「なじみのない環境」とは、オブジェクトがアルゴリズムにとって未知である可能性があるということです。アルゴリズムはオブジェクトが何であるかを理解する必要はありませんが、オブジェクトを検出するだけです。この問題にどのように取り組むべきですか?

2
画像がフォトショップされたかどうかをどのように検出できますか?
JPGファイルを操作してコンテンツを変更したかどうかを確認したい。 私がフォトショップではないと考えていること: トリミング 回転 (スケーリング) 画像解像度 スマートフォンによる自動変更 私がフォトショッピングと考えるもの: 古い画像の一部の上に新しい画像を追加する 画像の一部のテキストを変更する これを自動的に確認するにはどうすればよいですか? (そして、すぐに使えるライブラリはありますか?)

1
畳み込み層のパラメーター数
この高度に引用された論文、著者らは、重みパラメータの数に関する以下の説明を与えます。なぜパラメータがあるのか​​、私にはよくわかりません 私はそれがあるべきだと思う49 Cの各以来、Cの入力チャネルを共有している同じフィルタ、49個のパラメータを。49C249C249C^249C49C49CCCC494949

2
ドロップアウトと他の正規化を検討する研究はありますか?
ニューラルネットワークの正則化手法の違いを、好ましくは異なるドメイン(または少なくとも異なるデータセット)で示す論文はありますか? 私は現在、ほとんどの人がコンピュータービジョンの正則化のためにドロップアウトのみを使用しているように思われるので、私は尋ねています。正則化のさまざまな方法を使用する理由(ない)があるかどうかを確認したいと思います。

1
ニューラルネットワークを使用して画像から複数のパラメーターを抽出する
ニューラルネットワークを使用して画像からパラメーターを抽出したい。 例: レンガの壁の画像が与えられた場合、NNはレンガの幅と高さ、色、粗さを抽出する必要があります。 特定のパラメーターの画像を生成してNNをトレーニングし、それを使用して実際の画像からパラメーターを抽出することができます。 CNNを調査しました。彼らと一緒にこのタスクを実行できますか?分類の代わりに複数のパラメーターを抽出するには、特別な学習アルゴリズムが必要ですか?そのようなタスク用に設計されたNNはありますか?

1
HOG記述子とSVM分類器による画像内の人間の認識のパフォーマンスが低い
私は、HOG記述子とSVM分類器を組み合わせて、写真の中の人間を認識しています。OpenCV用のPythonラッパーを使用しています。私はpymagesearchで優れたチュートリアルを使用しました。これは、アルゴリズムが何をするかを説明し、detectMultiScaleメソッドのパラメーターを設定する方法についてのヒントを提供します。 具体的には # initialize the HOG descriptor hog = cv2.HOGDescriptor() # Set the support vector machine to be pre-trained for people detection hog.setSVMDetector(cv2.HOGDescriptor_getDefaultPeopleDetector()) # Detect people in the image (rects, weights) = hog.detectMultiScale(image, winStride=(4, 4), padding=(8, 8), scale=1.05) パラメータは、チュートリアル自体の説明に従って、精度とパフォーマンスの両方の微調整に従って選択されます。 私の問題は、文献によると写真で人間を認識するための現在最良の方法のように思えるこの方法(元の論文は2005年の日付です)が私の画像でかなりうまく機能しないように見えることです。モデルのある服とない服の両方を含む画像があり、この方法でモデルのある服を認識しようとしています。モデルを含むかどうかをタグ付けするために手動でスキャンした300枚の画像のサブセットでは、メソッドは30%の確率で失敗します。 これらは例としていくつかの画像です。 ここでそれは行方不明の人間を検出しました: ここでそれは完全な人間を手に入れませんでした: ここではそれをまったく認識しませんでした: 検出器が直立した人間に有効であることを理解しています。彼らはまた、完全な数字である必要がありますか?私のイメージは、頭も足もない半身像を含みます。 これの前に、Haar機能ベースのカスケード分類器を使用して画像内の顔を認識しました。同じ画像セットの精度は90%でしたので、これを改善しようとしました。また、ここで機能しない理由を理解することにも興味があります。

2
画像のコピーを識別するためのニューラルネットワークアーキテクチャ
大規模な画像コレクションがあり、コレクションから他の画像をコピーしているように見える、そのコレクション内の画像を特定したいと考えています。 一致として分類したい画像ペアの種類を理解するために、次の例を検討してください。 私はおよそ.25Mの一致する画像のペアを手で分類しました。次に、それらの手でラベル付けされた一致を使用してニューラルネットワークモデルをトレーニングします。どのアーキテクチャがこのタスクに理想的に適しているかはわかりません。 元々は同様のタスクに使用されているので、シャムネットワークが適切かもしれないと思っていましたが、これらの分類子からの出力は、同じオブジェクトの異なる形を見つけるのに理想的です(これは私が望むものではありません)。同じ形の(それが私が欲しいものです)。 私が準備したトレーニングデータを前提として、画像の特定に理想的な論文やアーキテクチャを推奨できる人がいれば、私はあなたが提供できるあらゆる洞察に非常に感謝します。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.