統計とビッグデータ computer-vision

7

ニューラルネットワークを学びたいです。私は計算言語学者です。統計的な機械学習のアプローチを知っており、Pythonでコーディングできます。私はその概念から始め、計算言語学の観点から役に立つかもしれない1つまたは2つの人気のあるモデルを知っています。参考のためにWebをブラウズし、いくつかの本や資料を見つけました。リプリー、ブライアンD.（1996）パターン認識とニューラルネットワーク、ケンブリッジ Bishop、CM（1995）パターン認識のためのニューラルネットワーク、オックスフォード：オックスフォード大学出版局。いくつかのリンクなど、この論文、これらのコースノート（トロント大学の心理学科）、これらのコースノート（ウィスコンシンコンピュータサイエンスの大学）と、このスライドショー（Facebookの研究）。 Courseraコースは、だれかが関連する何かを知っている場合、一般的に素晴らしいです。私は明快な言語と豊富な例のある資料を好みます。

43 neural-networks deep-learning references natural-language computer-vision

4

コンピュータビジョンと畳み込みニューラルネットワークにおける翻訳不変性とは何ですか？

コンピュータビジョンの背景はありませんが、画像処理や畳み込みニューラルネットワークに関連する記事や論文を読んでいるとき、私は絶えず用語translation invariance、またはに直面していtranslation invariantます。または、畳み込み演算が提供する多くのことを読みますtranslation invariance？!! これは何を意味するのでしょうか？どんな形の画像を変更しても、画像の実際の概念は変わらないという意味で、私自身は常に自分自身に翻訳しました。たとえば、レッツ・セイのツリーの画像を回転させると、その写真に対して何をしても、それは再びツリーになります。そして、私自身は、画像に起こりうるすべての操作を考えて、ある方法で変換（トリミング、サイズ変更、グレースケール、色付けなど）をこのようにすることを考えています。これが本当かどうか分からないので、誰かがこれを説明できればありがたいです。

38 machine-learning conv-neural-network convolution computer-vision

5

機械学習で階層/ネストされたデータを処理する方法

例で問題を説明します。いくつかの属性（年齢、性別、国、地域、都市）を与えられた個人の収入を予測するとします。あなたはそのようなトレーニングデータセットを持っています train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

4

可変サイズの画像を畳み込みニューラルネットワークへの入力として与えることは可能ですか？

オブジェクト検出用の畳み込みニューラルネットワークへの入力として、可変サイズの画像を提供できますか？可能であれば、どうすればそれを実行できますか？しかし、画像をトリミングしようとすると、画像の一部が失われ、サイズを変更しようとすると、画像の鮮明さが失われます。画像の鮮明さが主な考慮事項である場合、固有のネットワークプロパティを使用するのが最適であることを意味しますか？

17 deep-learning tensorflow keras computer-vision object-detection

2

機械学習におけるエネルギー最小化とは何ですか？

私はコンピュータービジョンの不適切な問題の最適化について読んでいて、Wikipediaでの最適化に関する以下の説明に出会いました。私が理解していないのは、コンピュータービジョンでこの最適化を「エネルギー最小化」と呼ぶのはなぜですか？最適化の問題は、次の方法で表すことができます。指定：関数集合から実数へのf:A→Rf:A→Rf: A \to RAAA 求め：要素におけるようにすべてのためにおける（ "最小化"）、またはそのすべてのためにおけるA （ "最大化"）。x0x0x_0AAAf(x0)≤f(x)f(x0)≤f(x)f(x_0) ≤ f(x)xxxAAAf(x0)≥f(x)f(x0)≥f(x)f(x_0) ≥ f(x)xxxAAA このような定式化は、最適化問題または数学的プログラミング問題（コンピュータープログラミングに直接関係しないが、たとえば線形プログラミングでまだ使用されている用語-以下の履歴を参照）と呼ばれます。この一般的なフレームワークでは、現実世界および理論上の多くの問題をモデル化できます。物理学およびコンピュータービジョンの分野でこの手法を使用して定式化された問題は、モデル化されているシステムのエネルギーを表す関数fの値といえば、手法をエネルギー最小化と呼ぶ場合がありますfff。

14 machine-learning optimization computer-vision

3

ヒンジ損失とロジスティック損失の長所と短所/制限

ヒンジ損失を使用して定義することができる、ログ損失として定義することができるログ（1つの+ EXP （- Y I W Tは、xは Iを））最大（0 、1 - Y私wTバツ私）最大（0、1−y私wTバツ私）\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)log （1 + exp（− y私wTバツ私））ログ（1+exp⁡（−y私wTバツ私））\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) 次の質問があります。ヒンジ損失の欠点はありますか（例：http://www.unc.edu/~yfliu/papers/rsvm.pdfに記載されている外れ値に敏感）。一方と他方の違い、長所、短所は何ですか？

14 machine-learning svm loss-functions computer-vision

1

誤検知の数を減らす方法は？

私は歩行者検出と呼ばれるタスクを解決しようとしています、そして私は2つのカテゴリーのポジティブ-人々、ネガティブ-バックグラウンドでバイナリクラスシファーをトレーニングします。データセットがあります：陽性の数= 3752 負の数= 3800 私はtrain \ test split 80 \ 20％とRandomForestClassifier形式のscikit-learn をパラメーターで使用します： RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) スコアを取得：95.896757％トレーニングデータのテスト（完全に機能）： true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 テストデータのテスト： true positive: 742 false positive: 57 false negative: 5 true negative: 707 私の質問は、偽陽性の数を減らす方法です（背景は人として分類されます）？また、なぜ偽陰性よりも偽陽性のエラーが多いのですか？ class_weightパラメータを使用しようとしましたが、ある時点でパフォーマンスが低下します（class_weight = {0：1,1：4}で確認できます）。 class_weight= …

12 classification random-forest unbalanced-classes precision-recall computer-vision

1

PRの値が1つしかない場合、精度-再現率曲線を作成するにはどうすればよいですか？

コンテンツベースの画像検索システムを作成するデータマイニングの割り当てがあります。5匹の動物の画像が20枚あります。つまり、合計100枚の画像になります。私のシステムは、最も関連性の高い10個の画像を入力画像に返します。次に、Precision-Recall曲線を使用してシステムのパフォーマンスを評価する必要があります。しかし、私はプレシジョンリコール曲線の概念を理解していません。私のシステムがゴリラ画像に対して10個の画像を返すとしましょう。ただし、ゴリラは4つだけです。返される他の6つの画像は他の動物のものです。したがって、精度は4/10 = 0.4（関連性が返される）/（すべて返される）再現率は4/20 = 0.2（関連性が返される）/（すべての関連）つまり<0.2,0.4>、カーブではなくポイントしかありません。曲線（つまり、ポイントのセット）はどのように作成しますか？返される画像の数を変更する必要がありますか（これは私の場合10に固定されています）？

12 data-mining matlab precision-recall curves computer-vision

5

CNNの顔/非顔検出のバイナリ検出に使用する損失関数は何ですか？

ディープラーニングを使用して顔/非顔のバイナリ検出をトレーニングします。どの損失を使用する必要がありますか、それはSigmoidCrossEntropyLossまたはHinge-lossであると思います。それは正しいですが、ソフトマックスを2つのクラスだけで使用する必要があるのでしょうか？

11 deep-learning loss-functions computer-vision conv-neural-network

3

畳み込みニューラルネットワークのスケール感度

例として、人の写真に基づいて年齢推定器を構築しているとします。以下では2人のスーツを着ていますが、最初の人は2番目の人より明らかに若いです。（ソース：tinytux.com）これを暗示する特徴はたくさんあります。たとえば、顔の構造です。ただし、最も特徴的な特徴は、ヘッドサイズとボディサイズの比率です。（ソース：wikimedia.org）そのため、CNN回帰をトレーニングして、人の年齢を予測したとします。私が試した多くの年齢予測因子では、上記の子供の画像は、スーツのため、そしておそらく彼らが主に顔に依存しているために、予測をだまして彼が年上であると考えさせているようです：バニラCNNアーキテクチャは、頭と胴の比率をどれだけうまく推測できるのでしょうか。体と頭の境界ボックスを取得できる地域のRCNNと比較して、バニラCNNは常にパフォーマンスが低下しますか？バニラCNNのグローバルな平坦化の直前（つまり、すべての畳み込みの直後）、各出力には対応する受容性フィールドがあり、スケール感が必要です。より高速なRCNNは、この段階でバウンディングボックスの提案を正確に行うことでこれを利用するため、以前のすべての畳み込みフィルターがすべてのスケールに自動的にトレーニングします。では、バニラCNNは頭と胴のサイズの比率を推測できるはずだと思いますか？これは正しいですか？もしそうなら、より高速なRCNNフレームワークを使用して、人の検出について事前にトレーニングされている可能性があるという事実を利用する唯一の利点は何ですか？

11 neural-networks computer-vision

1

畳み込みニューラルネットワークのトレーニング

現在、畳み込みニューラルネットワークを使用して顔を認識する顔認識ソフトウェアに取り組んでいます。私の測定値に基づいて、トレーニング中の時間を節約するために、畳み込みニューラルネットワークが重みを共有していることを集めました。しかし、畳み込みニューラルネットワークで使用できるように、逆伝播をどのように適応させるのでしょうか。逆伝播では、これに似た式を使用して重みをトレーニングします。 New Weight = Old Weight + LEARNING_RATE * 1 * Output Of InputNeuron * Delta ただし、畳み込みニューラルネットワークでは重みが共有されているため、各重みは複数のニューロンで使用されるので、どのニューロンを使用するかをどのように決定しOutput of InputNeuronますか？つまり、重みは共有されているので、重みをどれだけ変更するかをどのように決定すればよいのでしょうか。

11 machine-learning neural-networks computer-vision backpropagation conv-neural-network

2

再構築とKL損失変分オートエンコーダーのバランス

顔のデータセットで条件付き変分オートエンコーダをトレーニングしています。KLL損失を再構成損失項に等しく設定すると、オートエンコーダーがさまざまなサンプルを生成できないようです。私はいつも同じタイプの顔が現れます：これらのサンプルはひどいです。ただし、KLL損失の重みを0.001減らすと、妥当なサンプルが得られます。問題は、学習された潜在空間が滑らかでないことです。潜在補間を実行しようとしたり、ランダムサンプルを生成しようとしたりすると、迷惑になります。KLL項の重みが小さい（0.001）場合、次の損失動作が観察されます。VLL損失（再構成項）が減少する一方で、KLLossは増加し続けることに注意してください。潜在空間の次元も増やしてみましたが、うまくいきませんでした。ここで、2つの損失項の重みが等しい場合、KLL項が支配的であるが、再構成損失の減少を許容しないことに注意してください。これは恐ろしい再建をもたらします。これらの2つの損失項のバランスを取る方法、またはオートエンコーダがスムーズで補間的な潜在空間を学習して妥当な再構成を生成できるように、他に可能なことを提案しますか？

11 machine-learning computer-vision autoencoders

2

たたみ込みニューラルネットワークは、異なるサイズの入力画像として使用できますか？

私は画像認識のための畳み込みネットワークに取り組んでおり、さまざまなサイズの画像を入力できるかどうかは疑問に思っていました（ただし、それほど大きくはありません）。このプロジェクト：https : //github.com/harvardnlp/im2markup 彼らが言う： and group images of similar sizes to facilitate batching したがって、前処理を行った後でも、画像のサイズは異なります。これは、式の一部を切り取らないため意味があります。異なるサイズの使用に問題はありますか？ある場合、どのようにこの問題に取り組むべきですか（式がすべて同じ画像サイズに収まらないため）？どんな入力でも大歓迎です

10 neural-networks conv-neural-network computer-vision

1

CNNの畳み込み演算子の数を決定する方法は？

オブジェクト分類などのコンピュータービジョンタスクでは、畳み込みニューラルネットワーク（CNN）を使用して、ネットワークが魅力的なパフォーマンスを提供します。しかし、畳み込みレイヤーでパラメーターを設定する方法がわかりません。たとえば、グレースケール画像（480x480）では、最初のたたみ込み層はのようなたたみ込み演算子を使用できます11x11x10。ここで、10はたたみ込み演算子の数を意味します。問題は、CNNの畳み込み演算子の数をどのように決定するかです。

10 neural-networks deep-learning conv-neural-network computer-vision

2

より高速なRCNNのアンカー

Faster RCNNの論文で、アンカーについて話しているとき、「参照ボックスのピラミッド」を使用することは何を意味し、これはどのように行われますか？これは、W * H * kの各アンカーポイントで境界ボックスが生成されることを意味するだけですか？ここで、W =幅、H =高さ、およびk =アスペクト比の数*スケールの数紙へのリンク：https : //arxiv.org/abs/1506.01497

10 deep-learning computer-vision

タグ付けされた質問 「computer-vision」

タグ付けされた質問「computer-vision」