タグ付けされた質問 「train」

統計モデルまたはアルゴリズムのトレーニング(または推定)。

5
ニューラルネットワークをトレーニングするためのトレードオフバッチサイズと反復回数
ニューラルネットワークをトレーニングする場合、設定するとどのような違いがありますか? バッチサイズを、反復回数をaaabbb vs.バッチサイズ、反復回数cccddd ここで、?ab=cdab=cd ab = cd 別の言い方をすれば、同じ量のトレーニング例でニューラルネットワークをトレーニングすると仮定して、最適なバッチサイズと反復回数を設定する方法は?(ここで、バッチサイズ*反復数=ニューラルネットワークに表示されるトレーニング例の数、同じトレーニング例が複数回表示される可能性があります) バッチサイズが大きいほど、必要なメモリスペースが多くなり、多くの場合計算が速くなることを認識しています。しかし、訓練されたネットワークのパフォーマンスに関して、それはどのような違いをもたらしますか?

1
分類でトレーニングデータを生成するための層別サンプリングとランダムサンプリングの利点
元のデータセットを分類用のトレーニングとテストセットに分割するときに、ランダムサンプリングではなく層別サンプリングを使用する利点があるかどうかを知りたいと思います。 また、層化サンプリングは、ランダムサンプリングよりも分類器により多くのバイアスを導入しますか? データ準備に層化サンプリングを使用したいアプリケーションは、元のデータセットのでトレーニングされたRandom Forests分類器です。分類器の前に、クラスのサイズのバランスをとる合成サンプル生成(SMOTE [1])のステップもあります。2323\frac{2}{3} [1] Chawla、Nitesh V.、他 「SMOTE:合成マイノリティオーバーサンプリングテクニック。」Journal of Artificial Intelligence Research 16(2002):321-357。

3
電車とテストに分割する前後の代入?
N〜5000のデータセットがあり、少なくとも1つの重要な変数で約1/2が欠落しています。主な分析方法は、コックス比例ハザードです。 複数の代入を使用する予定です。また、トレインとテストセットに分割します。 データを分割してから個別に代入するか、または代入してから分割する必要がありますか? 問題があれば、で使用PROC MIしSASます。

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
キャレットと基本的なrandomForestパッケージを介したrandomForestからの異なる結果
私は少し混乱しています:キャレットを介してトレーニングされたモデルの結果は、元のパッケージのモデルとどう違うのですか?キャレットパッケージでRandomForestのFinalModelを使用して予測する前に前処理が必要かどうかを読みました。ただし、ここでは前処理を使用しません。 キャレットパッケージを使用して、さまざまなmtry値を調整することにより、さまざまなランダムフォレストをトレーニングしました。 > cvCtrl = trainControl(method = "repeatedcv",number = 10, repeats = 3, classProbs = TRUE, summaryFunction = twoClassSummary) > newGrid = expand.grid(mtry = c(2,4,8,15)) > classifierRandomForest = train(case_success ~ ., data = train_data, trControl = cvCtrl, method = "rf", metric="ROC", tuneGrid = newGrid) > curClassifier = classifierRandomForest mtry = …

3
生存分析問題のトレーニング、テスト、検証
ここではさまざまなスレッドを閲覧していますが、正確な質問に答えられるとは思いません。 〜50,000人の学生のデータセットとドロップアウトまでの時間を持っています。多数の潜在的な共変量を使用して比例ハザード回帰を実行します。また、ドロップアウト/滞在のロジスティック回帰分析を行います。主な目標は、学生の新しいコホートの予測ですが、昨年のコホートと大きく異なると信じる理由はありません。 通常、このような贅沢なデータはなく、何らかのペナルティを適用してモデルフィッティングを行いますが、今回はintトレーニングとテストデータセットを分割し、トレーニングセットで変数選択を行うことを考えました。次に、テストデータセットを使用して、パラメーターと予測容量を推定します。 これは良い戦略ですか?そうでない場合、何が良いですか? 引用は歓迎しますが、必須ではありません。

2
ScikitがCalibratedClassifierCVで分類子を調整する正しい方法
ScikitにはCalibratedClassifierCVがあり、これにより特定のX、yペアでモデルを調整できます。また、明確に述べていますdata for fitting the classifier and for calibrating it must be disjoint. それらがばらばらでなければならない場合、分類器を次のもので訓練することは合法ですか? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) 同じトレーニングセットを使用することで、disjoint data規則に違反しているのではないかと心配しています。別の方法として、検証セットを用意することもできます my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) これには、トレーニング用のデータが少なくなるという欠点があります。また、CalibratedClassifierCVが別のトレーニングセットに適合するモデルにのみ適合しなければならない場合、なぜデフォルトのオプションはでありcv=3、これも基本推定量に適合しますか?相互検証は、独立したルールを単独で処理しますか? 質問:CalibratedClassifierCVを使用する正しい方法は何ですか?


4
応用機械学習(ML自体だけでなく)について学ぶための良い例/本/リソース
私は以前にMLコースを受講しましたが、自分の仕事でML関連のプロジェクトに取り組んでいるため、実際にそれを適用するのにかなり苦労しています。私がやっていることは以前に調査/処理されたと確信していますが、特定のトピックを見つけることができません。 私がオンラインで見つけた機械学習の例はすべて非常に単純です(たとえば、PythonでKMeansモデルを使用して予測を確認する方法)。これらを実際に適用する方法に関する優れたリソース、そしておそらく大規模な機械学習の実装とモデルトレーニングのコード例を探しています。MLアルゴリズムをより効果的にすることができる新しいデータを効果的に処理および作成する方法について学びたいです。

3
巨大なデータセットから学ぶときのアプローチ?
基本的に、巨大なデータセットに対して学習するには、2つの一般的な方法があります(時間/スペースの制限に直面している場合)。 不正行為:)-「管理可能な」サブセットのみをトレーニングに使用します。リターンの減少の法則により、精度の損失は無視できる場合があります。モデルの予測パフォーマンスは、すべてのトレーニングデータがモデルに組み込まれる前に、通常はフラットになります。 並列計算-問題を小さな部分に分割し、それぞれを別々のマシン/プロセッサーで解決します。ただし、アルゴリズムの並列バージョンが必要ですが、よく知られたアルゴリズムの多くは自然に並列です:最近傍、決定木など。 他の方法はありますか?それぞれを使用するときの経験則はありますか?それぞれのアプローチの欠点は何ですか?

1
トレイン/テストスプリットの代わりにAICまたはBICをどのように使用できますか?
最近、いくつかの「非公式」ソースに出くわしました。これは、状況によっては、AICまたはBICを使用して時系列モデルをトレーニングする場合、データをテストに分割してトレーニングする必要がないことを示しています。トレーニング用のデータ。(出典には、CVに関するRob Hyndmanのブログ投稿に関するディスカッション、スタンフォード大学からのこのプレゼンテーション、またはこのテキストのセクション4が含まれます)。 特に、データセットが小さすぎてトレインとテストを分割できない場合に、AICまたはBICを使用できることを示しているようです。 たとえば、Rob Hyndmanのコメント:「AIC / BICを使用する方がテストセットやCVを使用するよりもはるかに効率的であり、そうでない場合に十分なデータがない短い時系列では不可欠になります。」 しかし、これについて詳細に説明しているテキストや論文を見つけることはできません。 特に私を困惑させることの1つは、AICとBICが相互検証に漸近的になる傾向があるということです。つまり、可能であれば、それらは大きなデータセットのCVを置き換えることになります。 誰かが私にこのアイデアの正式な議論(本の章、論文、チュートリアル)を指摘できますか?

6
機能選択と交差検証に同じデータを使用しているか、偏っているか?
最適なフィーチャサブセットを選択した後にバイナリ分類器を構築する小さなデータセット(約250サンプル* 100フィーチャ)があります。データを次のように分割するとします。 トレーニング、検証、テスト 特徴選択については、分類子X、Y、Zのパフォーマンスを個別に最適化する特徴の選択に基づくラッパーモデルを適用します。この前処理ステップでは、分類器をトレーニングするためのトレーニングデータと、すべての候補フィーチャサブセットを評価するための検証データを使用します。 最後に、さまざまな分類子(X、Y、Z)を比較します。もちろん、データのテスト部分を使用して、公正な比較と評価を行うことができます。ただし、私の場合、テストデータは非常に小さく(約10から20サンプル)、モデルの評価に相互検証を適用します。 正と負の例の分布は非常に不均衡です(約8:2)。したがって、交差検証では、パフォーマンスの評価に失敗する可能性があります。これを克服するために、2番目の比較方法としてテスト部分(10〜20サンプル)を用意し、相互検証を検証する予定です。 まとめると、トレーニング、検証、テストにデータを分割しています。トレーニングおよび検証パーツは、機能の選択に使用されます。次に、同じデータに対する交差検証を適用してモデルを推定します。最後に、テストを使用して、データの不均衡を考慮した相互検証を検証します。 問題は、分類器X、Y、Zのパフォーマンスを最適化する機能の選択に使用したのと同じデータ(トレーニング+検証)を使用する場合、特徴選択に使用した同じデータ(トレーニング+検証)に交差検証を適用できるかどうかです。最終的なパフォーマンスを測定し、分類子を比較するには? この設定が偏りのある相互検証メジャーにつながり、正当化されない比較になるかどうかはわかりません。

1
列車(キャレット)の相互検証はどのように正確に機能しますか?
キャレットパッケージに関する多くの投稿を読みましたが、特にtrain関数に興味があります。ただし、列車の機能がどのように機能するかを正しく理解したかどうかは、完全にはわかりません。 私の現在の考えを説明するために、簡単な例を作成しました。 最初に、パラメーターグリッドを指定します。メソッドgbmを使用しているとすると、モデルのパラメーターグリッドは次のようになります。 grid <- expand.grid( .n.trees=seq(10,50,10), .interaction.depth=seq(1,4,1), .shrinkage=c(0.01,0.001), .n.minobsinnode=seq(5,20,5)) 続いて、train(trainControl)の制御パラメーターが定義されます。trainを使用した交差検証に関する私の考えが正しいかどうか知りたいので、この例では次のように使用します。 train_control <- trainControl('cv',10) 最後に、train関数が実行されます。例えば: fit <- train(x,y,method="gbm",metric="Kappa",trControl=train_control,tuneGrid=grid) 今、私は電車がうまくいくと推定する方法は次のとおりです: 上記の例では、160(5 * 4 * 2 * 4)の可能なパラメーターの組み合わせがあります。 各パラメーターの組み合わせトレインは、10分割交差検証を実行します パラメーターの組み合わせごと、および(10分割の)分割ごとに、パフォーマンスメトリック(この例ではKappa)が計算されます(この例では、これは1600 Kappaが計算されることを意味します) 各パラメーターの組み合わせについて、パフォーマンスメトリックの平均が10倍にわたって計算されます。 最高の平均パフォーマンスメトリックを持つパラメーターの組み合わせは、モデルの最適なパラメーターと見なされます 私の質問は簡単です、私の現在の考えは正しいですか?

3
テストサンプルのAUCが高すぎるモデルは、オーバーフィットしないモデルよりも優れています
私は、列車セットで70%の AUC、ホールドアウトテストセットで70%の AUC を実行するモデルを作成したチャレンジに参加しています。 他の参加者は、トレーニングセットでAUC を96%、ホールドアウトテストセットでAUC を76%実行するモデルを作成しました。 私の意見では、ホールドアウトセットと同じレベルで機能するため、私のモデルの方が優れています。Q:テストセットでの彼の76%は単なる偶然であり、別のホールドアウトテストセットでは彼のモデルのパフォーマンスが低下する可能性があると主張することは有効ですか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.