統計とビッグデータ machine-learning

3

RFは非線形性を処理できますが、係数を提供できないため、ランダムフォレストを使用して最も重要な機能を収集し、それらの機能を係数を取得するために多重線形回帰モデルにプラグインするのが賢明でしょうか？

50 regression machine-learning feature-selection random-forest regression-strategies

8

この投稿に基づいて、統計学習の要素をダイジェストします。幸いなことに無料で利用でき、私はそれを読み始めました。私はそれを理解するのに十分な知識を持っていません。本のトピックのより良い紹介である本を推薦できますか？うまくいけば、それを理解するために必要な知識が得られますか？関連する：数学の強力なバックグラウンドはMLの必須条件ですか？

50 machine-learning references

3

K-MeansとEMを使用したクラスタリング：それらはどのように関連していますか？

データのクラスタリング（教師なし学習）アルゴリズム、EM、k-meansを研究しました。私は次を読み続けます： k-meansはEMの変形であり、クラスターが球形であるという仮定があります。誰かが上記の文を説明できますか？1つは確率的割り当てを行い、もう1つは決定論的な方法で行うため、球面が何を意味するのか、およびkmeansとEMがどのように関連するのかがわかりません。また、どのような状況でk-meansクラスタリングを使用したほうがよいでしょうか？またはEMクラスタリングを使用しますか？

50 machine-learning clustering data-mining k-means expectation-maximization

4

分類確率のしきい値

一般的な分類に関する質問があります。fを分類器とし、データDが与えられた場合に確率のセットを出力します。通常、P（c | D）> 0.5の場合、クラス1を割り当てます。分類）。私の質問は、もし私が見つけたら、確率を1として分類する場合、つまり0.2よりも大きい場合、分類器のパフォーマンスは向上するということです。分類を行うときにこの新しいしきい値を使用するのは正当ですか？私は、より小さな信号を発するデータのコンテキストで、より低い分類の必要性を解釈します。まだ分類問題にとって重要です。私はこれがそれを行う1つの方法であると認識していますが、これが正しい思考ではない場合、個々の機能を同様に強調し、しきい値を0.5に保つことができるデータ変換は何ですか？

49 machine-learning classification binary-data threshold

1

確率的勾配降下の場合、バッチサイズはどれくらいの大きさにすべきですか？

確率的勾配降下法を使用して、トレーニングデータセットの異なるサンプルで各反復を更新することにより、バックプロパゲーションを使用してニューラルネットワークを最適化できることを理解しています。バッチサイズはどれくらいの大きさにすべきですか？

49 machine-learning neural-networks gradient-descent backpropagation

1

教師なし学習を評価するパフォーマンスメトリック

教師なし学習（クラスタリングなど）に関して、パフォーマンスを評価するためのメトリックはありますか？

49 machine-learning clustering data-mining unsupervised-learning

3

リカレントニューラルネットワークと再帰的ニューラルネットワーク：NLPのどちらが良いですか？

リカレントニューラルネットワークと再帰ニューラルネットワークがあります。通常、両方とも同じ頭字語RNNで示されます。ウィキペディアによると、リカレントNNは実際には再帰NNですが、説明は本当にわかりません。さらに、私はどちらが自然言語処理のために優れているか（例などを使って）見つけることができないようです。事実、SocherはチュートリアルでNLPにRecursive NNを使用していますが、再帰ニューラルネットワークの適切な実装を見つけることができず、Googleで検索すると、ほとんどの回答がRecurrent NNに関するものです。それに加えて、NLPにより適した別のDNNがありますか、それともNLPタスクに依存しますか？Deep Belief NetsまたはStacked Autoencoders？（私はNLPでConvNetsの特定のユーティリティを見つけていないようで、ほとんどの実装はマシンビジョンを念頭に置いています）。最後に、PythonやMatlab / Octaveではなく、C ++（GPUサポートがある場合はさらに良い）またはScala（Sparkサポートがある場合は良い）のDNN実装を本当に好むでしょう。 Deeplearning4jを試しましたが、絶えず開発されており、ドキュメントは少し時代遅れであり、動作させることができないようです。残念なことに、それは物事のやり方のような「ブラックボックス」を持っているので、scikit-learnやWekaにとてもよく似ています。

48 machine-learning neural-networks deep-learning natural-language

7

経験豊富な開発者向けの統計情報をどこから始めるか

2015年の前半に、機械学習のコースコースを受講しました（Andrew Ng、素晴らしいコースによる）。機械学習の基礎を学びました（線形回帰、ロジスティック回帰、SVM、ニューラルネットワーク...）また、私は10年間開発者でしたので、新しいプログラミング言語を習得しても問題はありません。最近、機械学習アルゴリズムを実装するためにRの学習を開始しました。しかし、学習を続けたい場合は統計のより正式な知識が必要であり、現在は非公式の知識が必要であることに気付きましたが、たとえば、いくつかの線形モデルのどれを適切に決定することができなかったのかより良いでしょう（通常、私はR平方を使用する傾向がありますが、明らかにそれはあまり良い考えではありません）。だから私には統計の基礎を学ぶ必要があることはかなり明白です（私は大学でそれを勉強しましたが、ほとんどのことを忘れました）、どこで学ぶべきか、私は本当に完全に包括的なコースを必要としないことに注意してください1か月以内に十分な知識が得られるので、熱心になり、さらに学ぶことができます:)。これまでに「涙のない統計」について読んだことがありますか？

47 r regression machine-learning references

4

教師あり機械学習のクラスの不均衡

これは一般的な質問であり、メソッドやデータセットに固有のものではありません。データセット内の0の数が約90％、1の数が約10％である教師あり機械学習のクラス不均衡問題にどのように対処しますか？分類器を最適にトレーニングするにはどうすればよいですか？私が従う方法の1つは、データセットのバランスを取り、分類器をトレーニングして複数のサンプルに対してこれを繰り返すためのサンプリングです。これはランダムだと感じています。この種の問題に取り組むための枠組みはありますか。

47 machine-learning unbalanced-classes supervised-learning

3

単純ベイズについて

StatSoft社（2013）、電子統計教科書、「ナイーブベイズ分類器」：単純ベイズ分類の概念を示すために、上の図に表示されている例を考えてください。前述のように、オブジェクトは緑または赤に分類できます。私のタスクは、新しいケースが到着したときに分類することです。つまり、現在終了しているオブジェクトに基づいて、どのクラスラベルに属するかを決定します。 GREENオブジェクトはREDの2倍であるため、新しいケース（まだ観察されていない）がREDではなくGREENのメンバーシップを持っている可能性が2倍であると考えるのが合理的です。ベイジアン分析では、この信念は事前確率として知られています。事前確率は、過去の経験、この場合は緑と赤のオブジェクトの割合に基づいており、実際に発生する前に結果を予測するためによく使用されます。したがって、次のように記述できます。合計60個のオブジェクトがあり、そのうち40個が緑、20個が赤であるため、クラスメンバーシップの事前確率は次のとおりです。事前確率を定式化したので、新しいオブジェクト（白丸）を分類する準備ができました。オブジェクトは十分にクラスター化されているため、Xの近くに緑（または赤）のオブジェクトが多いほど、新しいケースがその特定の色に属する可能性が高いと想定するのが妥当です。この尤度を測定するために、クラスラベルに関係なく（事前に選択される）多数のポイントを含むXの周りに円を描きます。次に、各クラスラベルに属する円内のポイントの数を計算します。これから、尤度を計算します：上記の図から、GREENが与えられたXの尤度は、REDが与えられたXの尤度よりも小さいことが明らかです。副<文>この[前述の事実の]結果として、それ故に、従って、だから◆【同】consequently; therefore <文>このような方法で、このようにして、こんなふうに、上に述べたように◆【同】in this manner <文>そのような程度まで<文> AひいてはB◆【用法】A and thus B <文>例えば◆【同】for example; as an example： XがGREENに属している可能性があることを事前確率が示していますが（REDと比較して2倍のGREENがあると仮定）、そうでない可能性は示されます。XのクラスメンバーシップがREDであること（Xの近くにGREENよりも多くのREDオブジェクトがあると仮定）。ベイズ分析では、いわゆるベイズの規則（トーマス・ベイズ牧師1702-1761にちなんで名付けられた）を使用して事後確率を形成するために、両方の情報源、つまり事前確率と尤度を組み合わせることによって最終分類が生成されます。最後に、クラスメンバーシップが最大の事後確率を達成するため、XをREDとして分類します。これが私の数学の理解の難しさの出番です。 p（Cj | x1、x2、x ...、xd）は、クラスメンバーシップの事後確率、つまり、XがCjに属する確率ですが、なぜこのように書くのですか？尤度の計算？事後確率？私は数学を学んだことは一度もありませんが、単純なベイズに対する私の理解は大丈夫です。これらのメソッドの視覚化と、わかりやすい方法で数学を書き出す方法を教えてください。

47 machine-learning naive-bayes

2

畳み込みニューラルネットワークがサポートベクターマシンを使用して分類しないのはなぜですか？

近年、畳み込みニューラルネットワーク（CNN）は、コンピュータービジョンにおけるオブジェクト認識の最先端技術になりました。通常、CNNは複数の畳み込み層で構成され、その後に2つの完全に接続された層が続きます。この背後にある直感は、畳み込み層が入力データのより良い表現を学習し、完全に接続された層がラベルのセットに基づいてこの表現を分類することを学習することです。ただし、CNNが支配を開始する前は、サポートベクターマシン（SVM）が最先端でした。そのため、SVMは2層の完全に接続されたニューラルネットワークよりも依然として強力な分類器であると言えます。したがって、なぜ最新のCNNがSVMではなく完全に接続されたレイヤーを分類に使用する傾向があるのか疑問に思っていますか？このように、強力な特徴表現ではなく、強力な特徴表現と弱い分類子のみの両方の長所があります。何か案は？

46 machine-learning neural-networks svm deep-learning conv-neural-network

3

ランダムフォレストの最適なツリー数は予測子の数に依存しますか？

予測子の数が多いときに、ランダムフォレストに多数の木が必要な理由を誰かが説明できますか？どのようにして最適なツリー数を決定できますか？

46 machine-learning random-forest

1

「ほぼすべての局所的最小値は、グローバルな最適値と非常に類似した関数値を持っています」を理解する

で、最近のブログ記事：栄GEが、それはと言われていましたディープネットの学習を含む多くの問題では、ほとんどすべてのローカルミニマムはグローバル最適と非常に類似した関数値を持っているため、ローカルミニマムを見つけるだけで十分であると考えられています。この信念はどこから来たのですか？

46 machine-learning neural-networks optimization deep-learning

6

Gradient Descentの代替手段は何ですか？

Gradient Descentには、Local Minimaで立ち往生する問題があります。グローバルミニマムを見つけるために、勾配降下法の指数関数的時間を実行する必要があります。誰もが、長所と短所とともに、ニューラルネットワーク学習に適用される勾配降下法の代替案について教えてもらえますか？

46 machine-learning svm neural-networks

1

GradientDescentOptimizerとAdamOptimizer（TensorFlow）の違いは？

XOR-GateをモデリングしているTensorFlowで簡単なMLPを作成しました。だから： input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] 次のものが生成されます。 output_data = [[0.], [1.], [1.], [0.]] このネットワークには、入力層、隠れ層、出力層があり、それぞれ2、5、1個のニューロンがあります。現在、私は次のクロスエントロピーを持っています： cross_entropy = -(n_output * tf.log(output) + (1 - n_output) * tf.log(1 - output)) 私はこの簡単な代替手段も試しました： cross_entropy = tf.square(n_output - output) 他のいくつかの試みと一緒に。ただし、私の設定が何であっても、のエラーはのエラーよりもはるかに遅くGradientDescentOptimizer減少していましたAdamOptimizer。実際tf.train.AdamOptimizer(0.01)、どのクロスエントロピー計算または学習率が使用されたとして0.01も、tf.train.GradientDescentOptimizer常に2000を超える学習ステップが必要でしたが、（最高の結果が得られた学習率に応じて）400から800の学習ステップ後に本当に良い結果が得られました。これはなぜですか？そうですAdamOptimizer、常により良い選択です！

45 machine-learning neural-networks error gradient-descent supervised-learning

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」