統計とビッグデータ machine-learning

2

画像分類に関する科学論文を読んでいます。実験結果では、彼らはトップ1とトップ5の正確さについて語っていますが、この用語を聞いたことはなく、グーグルを使用して見つけることもできません。誰かが私に定義を与えるか、どこかに私を指すことができますか？:)

14 machine-learning

3

次元の機械学習の呪いは説明されていますか？

私は次元の呪いを理解するのに苦労しています。具体的にはscikit-learn、Pythonでチュートリアルを実行しているときに遭遇しました。誰かが以下を簡単な方法で説明してもらえますか？申し訳ありませんが、私は長い間理解しようとしていましたが、効率的なKNN推定量を達成するためのトレーニング例の数の計算方法を理解できませんでしたか？説明は次のとおりです。推定器を有効にするには、隣接するポイント間の距離が値dよりも小さい必要がありますが、これは問題によって異なります。1つの次元では、これには平均でn〜1 / dポイントが必要です。上記のKNNの例のコンテキストでは、データが0から1の範囲の値とn個のトレーニング観測値を持つ1つの特徴だけで記述されている場合、新しいデータは1 / nを超えません。したがって、クラス間フィーチャバリエーションのスケールと比較して1 / nが小さいとすぐに、最近傍決定ルールが効率的になります。フィーチャの数がpの場合、n〜1 / d ^ pポイントが必要になりました。1次元で10ポイントが必要だとしましょう：[0、1]空間を舗装するには、p次元で10 ^ pポイントが必要です。pが大きくなると、適切な推定量に必要なトレーニングポイントの数が指数関数的に増加します。ここにリンク編集：また、チルダ（~）はその例で近似を表すことになっていますか？またはPythonのチルダ演算子？

14 machine-learning

3

マルコフ連鎖モンテカルロ（MCMC）のさまざまなアプリケーションに関する良い要約（レビュー、書籍）？

マルコフ連鎖モンテカルロ（MCMC）のさまざまなアプリケーションに関する良い要約（レビュー、書籍）はありますか？実践ではマルコフ連鎖モンテカルロを見ましたが、この本は少し古いようです。マシンラーニング、コンピュータービジョン、計算生物学などの分野におけるMCMCのさまざまなアプリケーションに関する最新の本はありますか？

14 machine-learning mcmc inference references application

5

ランダムフォレストおよび決定木アルゴリズム

ランダムフォレストは、バギングの概念に従う決定木の集合です。ある決定木から次の決定木に移動すると、最後の決定木で学習した情報は次の決定木にどのように進みますか？私の理解では、すべての決定木に対して作成され、次の決定木が誤分類されたエラーから学習を開始する前にロードされる訓練されたモデルのようなものは何もないからです。それでは、どのように機能しますか？

14 machine-learning random-forest cart bagging

2

2Dでの空間ドロップアウトの実装方法

これは、「畳み込みネットワークを使用した効率的なオブジェクトのローカリゼーション」という論文を参照しており、ドロップアウトは2Dで実装されていると理解しています。空間2Dドロップアウトの実装方法に関するコードをKerasから読んだ後、基本的に形状[batch_size、1、1、num_channels]のランダムバイナリマスクが実装されます。しかし、この空間2Dドロップアウトは、形状[batch_size、height、width、num_channels]の入力コンボリューションブロックに対して正確に何をしますか？私の現在の推測では、ピクセルのレイヤー/チャンネルのいずれかが負の値を持っている場合、そのピクセルのチャンネル全体がデフォルトでゼロになります。これは正しいです？しかし、私の推測が正しい場合、元の入力ブロックの次元に正確にある形状[batch_size、height、width、num_channels]のバイナリマスクを使用すると、通常の要素ごとのドロップアウトが得られます（これはバイナリマスクの形状を入力の形状として設定するtensorflowの元のドロップアウト実装）convブロックのピクセルが負の場合、convブロック全体がデフォルトで0になります。これは、私がよく理解していない紛らわしい部分です。

14 machine-learning deep-learning tensorflow dropout

1

ディープラーニングのAdamオプティマイザーにバイアス補正用語を含めることが重要なのはなぜですか？

私はディープラーニングのAdamオプティマイザーについて読んでいて、Begnio、Goodfellow、Courtville の新しい本Deep Learningで次の文章に出会いました。 Adamは、原点での初期化を説明するために、1次モーメント（運動量項）と（非中心化）2次モーメントの両方の推定値に対するバイアス補正を含めます。これらのバイアス補正項を含める主な理由は、mt=0mt=0m_t = 0およびvt=0vt=0v_t = 0の初期化のバイアスを何らかの形で除去するためだと思われます。私はそれが何を意味するのか100％確信していませんが、おそらく1番目と2番目の瞬間がゼロから始まり、何らかの形でゼロから始まることはトレーニングに不公平な（または有用な）方法で値をゼロに近づけることを意味するようです？私はそれがもう少し正確に何を意味するのか、そしてそれがどのように学習にダメージを与えるのかを知りたいのですが。特に、オプティマイザーにバイアスをかけないことは、最適化に関してどのような利点がありますか？これは、ディープラーニングモデルのトレーニングにどのように役立ちますか？また、偏りがない場合はどういう意味ですか？偏りのない標準偏差の意味はよく知っていますが、この文脈でそれが何を意味するのかは明確ではありません。バイアス補正は本当に大したことなのか、それともAdamオプティマイザーの論文で誇張されているのか？私が元の紙を理解しようと一生懸命努力したことは知っているが、元の紙を読んだり再読したりすることはほとんどない。私はこれらの質問のいくつかがそこで答えられるかもしれないと思いますが、答えを解析できないようです。

14 machine-learning neural-networks optimization conv-neural-network adam

3

ランダムフォレスト分類器の最適なパラメーターは何ですか？

現在、バイナリ分類問題のためにMATLABでRFツールボックスを使用していますデータセット：50000サンプルと250を超える機能それで、木を成長させるために、各分割で木とランダムに選択された特徴の数は何ですか？他のパラメータは結果に大きく影響しますか？

14 machine-learning classification random-forest

2

Naive Bayesは連続変数をどのように処理しますか？

私の（非常に基本的な）理解では、Naive Bayesはトレーニングデータの各特徴のクラス頻度に基づいて確率を推定します。しかし、連続変数の頻度をどのように計算するのでしょうか？また、予測を行う場合、トレーニングセットのどの観測値とも同じ値でない可能性がある新しい観測値をどのように分類しますか？ある種の距離測定を使用していますか、それとも1NNを見つけていますか？

14 machine-learning classification bayesian naive-bayes

2

1つのクラスSVMとは何ですか？

私の研究では、scikit-learnで実装された1つのクラスSVMを使用していました。しかし、私はこれをよく理解していません。誰もが1つのクラスのSVMの簡単で良い説明をしていただけますか？

14 machine-learning svm data-mining novelty-detection

3

パラメトリックモデルとノンパラメトリックモデルの違いは何ですか？

このリンクのパラメトリックモデルとノンパラメトリックモデルを読み、別の質問のコメントに回答した後、ノンパラメトリックモデルの定義と混同されています。元々、「パラメトリックvsノンパラメトリック」とは、モデルに分布仮定があるかどうかを意味すると思っていました（パラメトリックまたはノンパラメトリック仮説検定と同様）。しかし、どちらのリソースも、「パラメトリックvsノンパラメトリック」は、モデルのパラメーターの数がデータマトリックスの行の数に依存しているかどうかによって判断できます。カーネル密度推定（ノンパラメトリック）の場合、このような定義を適用できます。しかし、この定義の下では、モデル内のパラメーターの数はデータマトリックスの行数ではなくニューラルネットワーク構造に依存しているため、ニューラルネットワークをノンパラメトリックモデルにするにはどうすればよいでしょうか。パラメトリックモデルとノンパラメトリックモデルの違いは何ですか？

14 machine-learning neural-networks nonparametric terminology parametric

2

決定しきい値はロジスティック回帰のハイパーパラメーターですか？

（バイナリ）ロジスティック回帰からの予測クラスは、モデルによって生成されたクラスメンバーシップ確率のしきい値を使用して決定されます。私が理解しているように、通常はデフォルトで0.5が使用されます。ただし、しきい値を変更すると、予測される分類が変更されます。これは、しきい値がハイパーパラメーターであることを意味しますか？その場合、（たとえば）scikit-learnのGridSearchCV方法を使用して（正則化パラメーターで行うようにC）しきい値のグリッドを簡単に検索できないのはなぜですか。

13 machine-learning logistic scikit-learn hyperparameter

3

ブートストラップが便利なのはなぜですか？

あなたがしているのが経験的分布から再サンプリングするだけなら、なぜ経験的分布を研究するだけではありませんか？たとえば、繰り返しサンプリングによって変動性を調べる代わりに、経験的分布から変動性を定量化するだけではどうですか？

13 machine-learning mathematical-statistics sampling bootstrap resampling

1

ROC曲線が互いに交差するときの2つのモデルの比較

2つ以上の分類モデルを比較するために使用される一般的な尺度の1つは、ROC曲線下面積（AUC）を間接的にパフォーマンスを評価する方法として使用することです。この場合、通常、AUCが大きいモデルは、AUCが小さいモデルよりもパフォーマンスが高いと解釈されます。しかし、Vihinen、2012（https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/）によると、両方の曲線が交差すると、そのような比較はもはや有効ではなくなります。なぜそうですか？たとえば、ROC曲線と以下のAUCに基づいてモデルA、B、Cについて確認できるものは何ですか？

13 machine-learning classification roc auc model-evaluation

2

最適化と機械学習

機械学習で最適化が必要な量を知りたいと思いました。私が聞いたことから、統計は機械学習で働く人々にとって重要な数学的トピックです。同様に、機械学習で働いている人にとって、凸または非凸の最適化について学ぶことはどれほど重要ですか？

13 machine-learning optimization

2

ニューラルネット：ワンホット変数圧倒的連続？

約20列（20フィーチャ）の未加工データがあります。それらのうちの10個は連続データであり、10個はカテゴリカルです。一部のカテゴリデータには、50個の異なる値（米国の州）が含まれる場合があります。データを前処理した後、10個の連続した列が10個の準備された列になり、10個のカテゴリ値が200個のワンホットエンコード変数のようになります。これらの200 + 10 = 210の機能すべてをニューラルネットに入れると、200の1ホットフィーチャ（10のカテゴリ列）が10の連続フィーチャを完全に支配するのではないかと心配しています。おそらく、1つの方法は、列などを「グループ化」することです。これは有効な懸念事項ですか？この問題に対処する標準的な方法はありますか？（私はKerasを使用していますが、それほど重要ではないと思います。）

13 machine-learning neural-networks tensorflow data-preprocessing theano

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」