統計とビッグデータ machine-learning

2

最近cstheory stackexchangeについてMLのような質問があり、Powellの方法、勾配降下法、遺伝的アルゴリズム、またはその他の「近似アルゴリズム」を推奨する回答を投稿しました。コメントで、これらの方法は「近似アルゴリズム」ではなく「ヒューリスティック」であり、理論的な最適値に近づかないことが多いと言われました（「極小値にしばしば行き詰まる」ため）。他の人はそれに同意しますか？また、探索空間の大部分を探索するように設定されている場合（たとえば、パラメータ/ステップサイズを小さく設定する）、どのヒューリスティックアルゴリズムが理論的な最適値に近づくことを保証できるという感覚があるように思えますが、論文ではそれを見ませんでした。これが論文で示されているか証明されているかどうかは誰にもわかりませんか？（アルゴリズムの大規模なクラスではない場合、多分小さなクラスの場合はNNなど）

23 machine-learning optimization approximation

3

予測モデリング競技のサイト

私は上の予測モデリングコンテストに参加Kaggle、TunedIt、およびCrowdAnalytix。これらのサイトは、統計/機械学習の「トレーニング」に適した方法であることがわかりました。他に知っておくべきサイトはありますか？主催者が競合他社の投稿から利益を得ようとする競技について、皆さんはどのように感じていますか？ /編集：より完全なリストは次のとおりです：Kaggle TunedIt Clopinte KDD Cup Innocentive Crowdanalytix Topcoder

23 machine-learning predictive-models

5

予測ツリー（CVなど）のパフォーマンスが向上した分類ツリーの代替手段

私はより良い予測力をもたらすかもしれない分類木に代わるものを探しています。私が扱っているデータには、説明変数と説明変数の両方の要因があります。このコンテキストでランダムフォレストとニューラルネットワークに出くわしたことを覚えていますが、以前に試したことはありませんが、このようなモデリングタスクの別の良い候補はありますか（明らかにRで）？

23 r machine-learning classification cart

1

xgboostアルゴリズムのmin_child_weightの説明

xgboostのmin_child_weightパラメーターの定義は次のとおりです。子に必要なインスタンスの重み（ヘシアン）の最小合計。ツリーパーティションのステップの結果、インスタンスの重みの合計がmin_child_weightより小さいリーフノードが生成される場合、構築プロセスはさらにパーティションを放棄します。線形回帰モードでは、これは単に各ノードに必要なインスタンスの最小数に対応します。アルゴリズムが大きくなるほど、保守的になります。元の論文（式8と式9の直後のもの）、この質問、およびGoogle検索の最初の数ページに表示されるxgboostで行うほとんどのことを含め、xgboostでかなり多くのことを読みました。;）基本的に、ヘシアンの合計に制約を課している理由について、私はまだ満足していませんか？元の論文からの私の唯一の考えは、それが各インスタンスの「重み」としてを持つ重み付き分位点スケッチセクション（および式3の重み付き2乗損失の再定式化）にているということです。hihih_i さらなる質問は、それが単に線形回帰モードのインスタンスの数である理由に関するものですか？これは二乗和方程式の二次導関数に関係していると思いますか？

23 machine-learning xgboost hessian

2

ブースティングはどのように機能しますか？

ブースティングを理解する最も簡単な方法は何ですか？なぜ非常に弱い分類器を「無限に」（完全）にブーストしないのですか？

23 machine-learning boosting

3

素人向けの十分な統計

誰かが非常に基本的な用語で十分な統計を説明してもらえますか？私はエンジニアリングのバックグラウンドを持っており、多くのことを経験しましたが、直感的な説明を見つけることができませんでした。

23 machine-learning mathematical-statistics intuition

1

ResNet経由の勾配バックプロパゲーションは接続をスキップします

ResNetモジュール/スキップ接続を使用してニューラルネットワークを介して勾配がどのように逆伝播されるかについて興味があります。ResNetに関するいくつかの質問（スキップレイヤー接続のニューラルネットワークなど）を見てきましたが、これは特にトレーニング中の勾配の逆伝播について尋ねています。基本的なアーキテクチャは次のとおりです。この論文「画像認識のための残差ネットワークの研究」を読み、セクション2で、ResNetの目標の1つが、勾配がベースレイヤーに逆伝播するためのより短い/より明確なパスを可能にすることについて話します。勾配がこのタイプのネットワークをどのように流れているのか説明できますか？加算操作、および加算後のパラメーター化されたレイヤーの欠如が、より良い勾配伝播を可能にする方法をよく理解していません。加算演算子を介して流れるときに勾配が変化せず、乗算なしで何らかの形で再配布される方法と関係がありますか？さらに、グラデーションがウェイトレイヤーを通過する必要がない場合、消失するグラデーションの問題がどのように軽減されるかを理解できますが、ウェイトを通るグラデーションフローがない場合、逆方向パス後にどのように更新されますか？

22 machine-learning neural-networks conv-neural-network gradient-descent backpropagation

1

ニューラルネットワークのコスト関数が非凸であるのはなぜですか？

ここにも同様のスレッドがあります（ニューラルネットワークのコスト関数は非凸状ですか？）差の二乗コスト関数の合計を使用している場合、最終的にという形式の何かを最適化します。ここではトレーニング中の実際のラベル値ですphaseおよびは予測ラベル値です。これは正方形の形をしているので、これは凸コスト関数でなければなりません。それでは、NNで非凸になる可能性があるのは何ですか？ΣNi=1(yi−yi^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2yyyy^y^\hat{y}

22 machine-learning neural-networks optimization loss-functions convex

3

隠れ層ニューロンとしてのRelu vs Sigmoid vs Softmax

Tensorflowを使用して、1つの隠れ層のみを持つ単純なニューラルネットワークで遊んでいた後、隠れ層に対して異なるアクティベーションを試みました。レルーシグモイドソフトマックス（まあ、通常ソフトマックスは最後のレイヤーで使用されます。.） Reluは、最高の列車精度と検証精度を提供します。これを説明する方法がわかりません。 Reluには、勾配のない消失などのスパース性などの優れた特性があることがわかっていますが、 Q：Reluニューロンはシグモイド/ソフトマックスニューロンよりも一般的に優れていますか？ほとんど常にNN（またはCNNでも）Reluニューロンを使用する必要がありますか？複雑すぎるニューロンはより良い結果をもたらすだろうと考えました。少なくともオーバーフィットを心配する場合は、精度を訓練します。 PS：コードは基本的に「Udacity-Machine learning -assignment2」からのものです。これは、単純な1-hidden-layer-NNを使用したnotMNISTの認識です。 batch_size = 128 graph = tf.Graph() with graph.as_default(): # Input data. tf_train_dataset = tf.placeholder(tf.float32, shape=(batch_size, image_size * image_size)) tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels)) tf_valid_dataset = tf.constant(valid_dataset) tf_test_dataset = tf.constant(test_dataset) # hidden layer hidden_nodes = 1024 hidden_weights = tf.Variable( tf.truncated_normal([image_size …

22 machine-learning neural-networks conv-neural-network tensorflow sigmoid-curve

4

偽陽性率と真陽性率を示すこのチャートの名前とその生成方法は？

以下の画像は、偽陽性率と真陽性率の連続曲線を示しています。ただし、すぐに得られないのは、これらのレートの計算方法です。メソッドがデータセットに適用される場合、特定のFPレートと特定のFNレートがあります。それは、各方法が曲線ではなく単一の点を持つべきだという意味ではないでしょうか？もちろん、メソッドを構成して複数の異なるポイントを生成する方法は複数ありますが、この連続したレートがどのように発生するか、またはどのように生成されるかは明確ではありません。

22 machine-learning data-visualization roc auc

1

適切なスコアリングルールの選択

適切なスコアリングルールに関するほとんどのリソースでは、ログ損失、ブライアースコア、または球形スコアリングなど、さまざまなスコアリングルールに言及しています。しかし、彼らはしばしばそれらの違いについて多くのガイダンスを与えません。（別紙A：ウィキペディア。）対数スコアを最大化するモデルを選択することは、最尤モデルを選択することに対応します。これは、対数スコアリングを使用するための良い議論のようです。ブライアースコアまたは球形スコアリング、または他のスコアリング規則について同様の正当化がありますか？なぜ誰かが対数スコアリングではなく、これらの1つを使用するのでしょうか？

22 machine-learning classification model-selection theory scoring-rules

2

「ベイジアン推論と機械学習」の後の次のステップ

現在、David Barberによる「ベイジアン推論と機械学習」を行っていますが、これは基礎を学ぶための非常によく書かれた魅力的な本です。すでにこれを行った人への質問です。Barberの概念のほとんどを十分に習熟した後、次に進むべき本は何ですか？

22 machine-learning bayesian references graphical-model

3

統計学者が機械学習を学ぶことは重要ですか？

機械学習は、統計学者が知っておくべき重要なテーマですか？機械学習は統計のようです。統計プログラム（学部および大学院）が機械学習を必要としないのはなぜですか？

22 machine-learning careers

2

制限付きボルツマンマシンと多層ニューラルネットワーク

私が直面している分類問題について、ニューラルネットワークで実験したいと思っていました。RBMについての論文に出くわしました。しかし、私が理解できることから、それらは多層ニューラルネットワークを持つことと違いはありません。これは正確ですか？さらに、私はRで働いていますが、RBMの缶詰パッケージは見ていません。私は基本的にスタックされたRBMであるディープラーニングネットワークについて話している文献に出会いましたが、Rでそれらを実装する努力の価値があるかどうかはわかりません。ありがとう

22 r machine-learning classification neural-networks

2

弱い学習者の「強さ」について

アンサンブル学習（ブースティングなど）の弱学習者に関するいくつかの密接に関連した質問があります。これは愚かに聞こえるかもしれませんが、強力な学習者とは対照的に、弱者を使用する利点は何ですか？（たとえば、「強力な」学習方法で強化しないのはなぜですか？）弱い学習者に何らかの「最適な」強度がありますか（たとえば、他のすべてのアンサンブルパラメーターを固定したまま）。彼らの強さになると「スイートスポット」はありますか？結果のアンサンブル法の強度に関して、弱学習器の強度をどのように測定できますか。アンサンブルを使用することの限界利益をどのように定量的に測定しますか？いくつかの弱学習アルゴリズムを比較して、特定のアンサンブルメソッドに使用するアルゴリズムを決定するにはどうすればよいですか？特定のアンサンブルメソッドが強力な分類器よりも弱い分類器を支援する場合、特定の分類器が既に「強すぎる」と判断して、ブースト時に重要なゲインを得るにはどうすればよいでしょうか。

22 machine-learning boosting ensemble

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」