統計とビッグデータ machine-learning

3

高次元で2クラスデータセットの線形分離性をテストする方法はありますか？私の特徴ベクトルの長さは40です。ロジスティック回帰実験を常に実行し、ヒット率と誤警報率を決定して、2つのクラスが線形に分離可能かどうかを判断できることはわかっていますが、それを行うための標準的な手順が既に存在するかどうかを知ることは有益です。

20 machine-learning classification

1

libsvm「反復の最大数に達する」警告および相互検証

次数2の多項式カーネルでC-SVCモードでlibsvmを使用しており、複数のSVMをトレーニングする必要があります。各トレーニングセットには、10個の機能と5000個のベクトルがあります。トレーニング中に、トレーニングするほとんどのSVMでこの警告が表示されます。 WARNING: reaching max number of iterations optimization finished, #iter = 10000000 誰かがこの警告が何を意味するのか、おそらく、それを回避する方法を説明してもらえますか？また、ガンマとC（正則化）の最適な選択を決定するために、モデルに相互検証を適用したいと思います。私の計画は、これらの10個の値のすべての組み合わせを試すことです：0.00001、0.0001、0.001、0.01、0.1、1、10、100、1000、10000の両方のパラメーターで、交差検証中にどの組み合わせが最高の精度をもたらすかを確認します。これで十分ですか？この間隔でより多くの値を使用する必要がありますか、それともより広い間隔を選択する必要がありますか？

20 machine-learning cross-validation svm regularization libsvm

1

ランダムフォレストツリーに剪定が不要なのはなぜですか？

ブライマンは、木は剪定せずに成長していると言います。どうして？ランダムフォレストのツリーが剪定されないのは確かな理由があるに違いないということです。一方、過剰なフィッティングを避けるために、単一の決定木を切り取ることが非常に重要であると考えられています。この理由で読むことができる文献はありますか？もちろん、ツリーは相関していないかもしれませんが、それでも過剰適合の可能性があります。

20 machine-learning

2

AdaBoostはオーバーフィッティングになりやすいですか？

私は、AdaBoost（または他のブースティングテクニック）が他の学習方法と比較して過剰適合になりやすいかどうかにかかわらず、さまざまな（一見）矛盾するステートメントを読みました。どちらかを信じる正当な理由はありますか？依存する場合、何に依存しますか？AdaBoostがオーバーフィットしにくい/多い傾向がある理由は何ですか？

20 machine-learning boosting

3

「カーネルトリック」を線形メソッドに適用しますか？

カーネルトリックは、いくつかの機械学習モデル（例えばに使用されているSVM）。1964年に「パターン認識学習における潜在的な関数法の理論的基礎」論文で初めて紹介されました。ウィキペディアの定義によれば、線形分類アルゴリズムを使用して、元の非線形観測値を高次元空間にマッピングすることにより非線形問題を解決する方法。線形分類はその後使用されます。これにより、新しい空間での線形分類が元の空間での非線形分類と同等になります。非線形問題に拡張された線形モデルの一例は、カーネルPCAです。カーネルトリックを任意の線形モデルに適用できますか、または特定の制限がありますか？

20 machine-learning kernel-trick

2

ランダムフォレストがランダムフォレストを生成する方法

私はランダムフォレストの専門家ではありませんが、ランダムフォレストの重要な問題は（ランダム）ツリーの生成であることを明確に理解しています。木がどのように生成されるのか説明してもらえますか？（つまり、ツリー生成に使用される分布は何ですか？）前もって感謝します！

20 machine-learning r algorithms cart random-forest

5

機能エンジニアリングが機能する理由

最近、MLの問題に対するより良い解決策を見つける方法の1つが、機能の作成によることであることを学びました。たとえば、2つの機能を合計することにより、これを行うことができます。たとえば、ある種のヒーローの「攻撃」と「防御」という2つの機能があります。次に「攻撃」と「防御」の合計である「合計」と呼ばれる追加機能を作成します。奇妙に見えるのは、厳しい「攻撃」と「防御」でさえ、「合計」とほぼ完全に相関しているということです。その背後にある数学は何ですか？それとも、私が間違っていると推論していますか？さらに、kNNなどの分類子にとって、「合計」は常に「攻撃」または「防御」よりも大きいということは問題ではありませんか？したがって、標準化した後でも、異なる範囲の値を含む機能がありますか？

20 machine-learning feature-construction

1

機械学習アルゴリズムの欠損データとスパースデータの違い

スパースデータと欠落データの主な違いは何ですか？そして、それは機械学習にどのように影響しますか？より具体的には、スパースデータと欠損データが分類アルゴリズムおよび回帰（予測数）タイプのアルゴリズムに与える影響。欠落しているデータの割合が重要であり、欠落しているデータを含む行を削除できない状況について話しています。

20 machine-learning dataset missing-data sparse

2

バイアス分散トレードオフの導出を理解する

私は、統計学習の要素のバイアス分散トレードオフの章を読んでいます。29ページの式には疑問があります（はランダム）期待値と数と分散。モデルの誤差の期待値を E [（Y-f_k（x））^ 2]とします。ここで、f_k（x）は学習者のxの予測です。本によると、エラーは E [（Y-f_k（x））^ 2] = \ sigma ^ 2 + Bias（f_k）^ 2 + Var（f_k（x））です。 Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilonε = E [ ε ] = 0 E [ （ε - ε）2 ] = E [ ε 2 ] = σ 2 E [ （Y - F K（X …

20 machine-learning unbiased-estimator mse bias-variance-tradeoff

2

LSTMに最適な最適化方法は何ですか？

theanoを使用してLSTMを実験してきましたが、どの最適化方法（SGD、Adagrad、Adadelta、RMSprop、Adamなど）がLSTMに最適か疑問に思っていましたか？このトピックに関する研究論文はありますか？また、答えは、私がLSTMを使用しているアプリケーションのタイプに依存しますか？もしそうなら、私はテキスト分類のためにLSTMを使用しています（テキストは最初に単語ベクトルに変換されます）。最後に、RNNの回答は同じですか、それとも異なりますか？研究論文へのポインタ、または個人的な洞察は大歓迎です！ LSTMは非常に強力であると思われるため、LSTMの最適な使用方法について詳しく知りたいと思っています。

20 machine-learning neural-networks optimization lstm

2

glmnetのキャレットトレーニング関数は、アルファとラムダの両方を相互検証しますか？

Rのいcaretの両方の上にパッケージクロス検証をalphaしてlambdaためglmnetのモデル？このコードを実行すると、 eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = Control) トレーニングログは次のようになります。 Fold10.Rep3: alpha=1.0, lambda=NA どういうlambda=NA意味ですか？

20 r machine-learning cross-validation caret glmnet

2

重みを同じ値に初期化すると、逆伝播が機能しないのはなぜですか？

すべての重みを同じ値（たとえば0.5）に初期化すると、逆伝播が機能しないのに、乱数を指定すると正常に機能するのはなぜですか？重みが最初は同じであるという事実にもかかわらず、アルゴリズムはエラーを計算してそこから機能するべきではないでしょうか？

20 machine-learning neural-networks backpropagation

5

ディープラーニング：どの変数が重要であるかを知るにはどうすればよいですか？

ニューラルネットワークの用語（y =重み* x +バイアス）の観点から、どの変数が他の変数よりも重要であるかをどのようにして知ることができますか？ 10個の入力を持つニューラルネットワーク、20個のノードを持つ1つの隠れ層、1つのノードを持つ1つの出力層があります。どの入力変数が他の変数よりも影響力があるかを知る方法がわかりません。私が考えているのは、入力が重要な場合、最初のレイヤーへの重みの高い接続がありますが、重みは正または負になる可能性があるということです。したがって、入力の重みの絶対値を取得し、それらを合計することができます。より重要な入力は、より高い合計を持ちます。したがって、たとえば、髪の長さが入力の1つである場合、次のレイヤーの各ノードに1つの接続、つまり20の接続（したがって20の重み）が必要です。各重量の絶対値を取り、それらを合計することはできますか？

20 machine-learning neural-networks bias tensorflow theano

3

遺伝的アルゴリズムはいつ最適化に適していますか？

遺伝的アルゴリズムは、最適化手法の1つの形式です。多くの場合、関数の最適化には確率的勾配降下法とその導関数が最適な選択ですが、遺伝的アルゴリズムが依然として使用されることもあります。たとえば、NASAのST5宇宙船のアンテナは、遺伝的アルゴリズムを使用して作成されました。一般的な勾配降下法よりも遺伝的最適化法の方が適しているのはいつですか？

20 machine-learning optimization gradient-descent genetic-algorithms

3

RNN / LSTMネットワークの重みが時間を超えて共有されるのはなぜですか？

私は最近LSTMに興味を持ち始めましたが、その重みが時を越えて共有されていることを知って驚きました。時間にわたって重みを共有する場合、入力時間シーケンスは可変長になる可能性があることを知っています。共有ウェイトを使用すると、トレーニングするパラメーターがはるかに少なくなります。私の理解から、LSTMと他の学習方法を比較する理由は、学習したいデータにある種の時間的/シーケンシャルな構造/依存性があると信じているためです。可変長の「豪華」を犠牲にして、長い計算時間を受け入れると、共有ウェイトのないRNN / LSTM（つまり、異なるウェイトを持つタイムステップごとに）のパフォーマンスが向上しませんか？

20 machine-learning lstm rnn

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」