タグ付けされた質問 「cross-validation」

保留されたデータのサブセットでのモデルのパフォーマンスを定量化するために、モデルのフィッティング中にデータのサブセットを繰り返し保留する。

2
leave-one-out交差検証の高い分散
「Leave-one-out」クロス検証は、トレーニングフォールドの大きな重なりのために、分散が大きいことを繰り返し読みました。ただし、その理由はわかりません。トレーニングセットがほぼ同一であるため、相互検証のパフォーマンスが非常に安定(分散が小さい)である必要はありませんか。または、「分散」の概念を完全に間違って理解していますか? また、LOOがどのように偏りがないかを完全には理解していませんが、大きなばらつきがありますか?LOO推定値が期待値の真の推定値に等しい場合、どのようにして高い分散を得ることができますか? 注:ここに同様の質問があることを知っています: なぜエラーの平均推定値に関するleave-one-out cross-validation(LOOCV)分散が高いのですか?しかし、答えた人はコメントの後半で、賛成にもかかわらず彼の答えが間違っていることに気付いたと言っています。

1
検証の精度は高いが、研究のテストの精度が低い場合はどうなりますか?
機械学習の研究における検証について具体的な質問があります。 私たちが知っているように、機械学習体制は、トレーニングデータでモデルをトレーニングし、検証セットで候補モデルから選択し、テストセットで精度を報告するように研究者に求めます。非常に厳密な研究では、テストセットは1回しか使用できません。しかし、論文を発表する(または提出する)前に、テストの精度が最新の結果よりも良くなるまでパフォーマンスを改善する必要があるため、研究シナリオになることはありません。 ここで問題が発生します。50%が最も最先端の結果であり、私のモデルは一般に50--51の精度を達成できるとしましょう。これは平均して優れています。 ただし、私の最高の検証精度(52%)では、テスト精度が非常に低くなります(例:49%)。次に、検証accをさらに改善できない場合、全体的なパフォーマンスとして49%を報告する必要がありますが、これは望みではありません。これは本当に私が問題を研究することを妨げますが、私の仲間にとっては問題ではありません。52%のaccが見られないからです。 では、人々は通常どのように研究を行っていますか? 同じ状況が発生する可能性があるため、ps k-fold検証は役に立ちません。


3
非負行列因子分解で潜在因子の最適数を選択する方法は?
行列の所与Vm×nVm×n\mathbf V^{m \times n}、非負行列因子分解(NMF)は、2つの非負行列発見Wm×kWm×k\mathbf W^{m \times k}及びHk×nHk×n\mathbf H^{k \times n}(すなわち、すべての要素と≥0≥0\ge 0)として分解行列を表します。 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, WW\mathbf WHH\mathbf H∥ V−WH∥2.‖V−WH‖2。\|\mathbf V-\mathbf W\mathbf H\|^2. NMFで数値を推定する一般的な方法はありますか?たとえば、そのためにクロス検証をどのように使用できますか?kkk

1
lmerモデルに使用する多重比較方法:lsmeansまたはglht?
1つの固定効果(条件)と2つのランダム効果(被験者内のデザインとペアによる参加者)を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました:exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。 次に、固定効果(条件)のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。 私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

2
scikit-learnブートストラップ関数がテストセットをリサンプルするのはなぜですか?
モデルの評価にブートストラップを使用するとき、私は常に、out-of-bagのサンプルがテストセットとして直接使用されると思っていました。ただし、これは非推奨の scikit-learnBootstrapアプローチの場合には当てはまらないようです。これは、out-of-bagデータサブセットからの置き換えで描画からテストセットを構築しているようです。これの背後にある統計的推論は何ですか?この手法が、out-of-bag-sampleで評価するよりも優れている、またはその逆の特定のシナリオはありますか?

3
データ増強と訓練検証分割の方法
機械学習を使用して画像分類を行っています。 トレーニングデータ(画像)があり、そのデータをトレーニングセットと検証セットに分割するとします。また、ランダムな回転とノイズ注入によってデータを増強します(元の画像から新しい画像を生成します)。拡張はオフラインで行われます。 データ増強を行う正しい方法はどれですか? 最初にデータをトレーニングセットと検証セットに分割し、次にトレーニングセットと検証セットの両方でデータ拡張を行います。 最初にデータをトレーニングセットと検証セットに分割してから、トレーニングセットでのみデータの拡張を行います。 最初にデータのデータ増強を行い、次にデータをトレーニングと検証セットに分割します。

3
生存分析問題のトレーニング、テスト、検証
ここではさまざまなスレッドを閲覧していますが、正確な質問に答えられるとは思いません。 〜50,000人の学生のデータセットとドロップアウトまでの時間を持っています。多数の潜在的な共変量を使用して比例ハザード回帰を実行します。また、ドロップアウト/滞在のロジスティック回帰分析を行います。主な目標は、学生の新しいコホートの予測ですが、昨年のコホートと大きく異なると信じる理由はありません。 通常、このような贅沢なデータはなく、何らかのペナルティを適用してモデルフィッティングを行いますが、今回はintトレーニングとテストデータセットを分割し、トレーニングセットで変数選択を行うことを考えました。次に、テストデータセットを使用して、パラメーターと予測容量を推定します。 これは良い戦略ですか?そうでない場合、何が良いですか? 引用は歓迎しますが、必須ではありません。

4
信頼性の低い/混乱した/無効な研究またはモデルが悪用された公衆衛生政策研究のケーススタディとは何ですか?
データが混同されている現在の公衆衛生問題に関する文献レビューを起草しています。 無効または交絡した関係または推論が公衆衛生政策および法律で意図的または誤って採用された公衆衛生/疫学教育で使用される一般的な歴史的事例研究とは何ですか? 法律によって要求されなければならないエアバッグ最終的にシートベルトを決定し、1960年とその後の証拠に基づく、政府主導の研究の自動車致死サージが良い例であるHOW統計的に強力な推論やモデルによって駆動されるべき公衆衛生政策。 私は反対のタイプのケースの例をもっと探しています(政策を急いで作るのは悪い科学です)。しかし、他に何もなければ、公衆衛生の利益を成功させるための強力な研究の前の例と同様の事例をもっと知りたいと思います。 これらを例として使用し、エビデンスに基づいた統計的公衆衛生研究が政策立案にとって重要であることを示したいと思います。

2
最適化:統計のすべての悪の根源?
以前に次の表現を聞いたことがあります。 「最適化は統計上のすべての悪の根源です」。 たとえば、このスレッドの一番の答えは、モデルの選択中に過度に最適化する危険性について言及しています。 私の最初の質問は次のとおりです。この引用は特定の人に起因するものですか?(例えば、統計文献など) 私が理解していることから、声明は過剰適合のリスクに言及しています。従来の知恵では、適切な相互検証はすでにこの問題と戦っていると言われていましたが、この問題にはそれ以上のものがあるようです。 統計学者とMLプラクティショナーは、厳密な相互検証プロトコル(例:100個のネストされた10倍CV)を順守している場合でも、モデルの過剰最適化に注意する必要がありますか?もしそうなら、「最高の」モデルの検索をいつ停止するかをどのようにして知るのでしょうか?

6
データセットを分割して10倍の交差検証を行う方法
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 これでRデータフレーム(トレーニング)ができました。このデータセットをランダムに分割して10倍の交差検証を行う方法を教えてもらえますか?

3
Rのブートパッケージのcv.glmのコスト関数とは何ですか?
leave-one-outメソッドを使用して相互検証を行っています。バイナリ応答があり、Rのブートパッケージとcv.glm関数を使用しています。私の問題は、この機能の「コスト」の部分を完全に理解していないことです。私が理解できることから、これは推定値を1または0に分類するかどうか、つまり分類のしきい値を決定する関数です。これは正しいです? また、Rのヘルプでは、二項モデルにこの関数を使用していますcost <- function(r, pi = 0) mean(abs(r-pi) > 0.5)。この関数をどのように解釈しますか?そのため、分析のために正しく変更できます。 助けていただければ幸いです。理解できない機能を使いたくないのです。

2
機械学習のための時系列の順序付け
クロスバリデーションと時系列に関するRJ Hyndman の「研究のヒント」の1つを読んだ後、ここで定式化しようとする古い質問に戻りました。分類または回帰の問題では、データの順序は重要ではないため、k分割交差検証を使用できるという考え方です。一方、時系列では、データの順序が明らかに非常に重要です。 予測時系列のモデルを機械学習を使用する場合しかし、一般的な方法は、一連再形成することである{y1,...,yT}{y1,...,yT}\{y_1, ..., y_T\}を一連の「入出力ベクトル」に変換します。これは、時間に対して。ttt(yt−n+1,...,yt−1,yt;yt+1)(yt−n+1,...,yt−1,yt;yt+1)(y_{t-n+1}, ..., y_{t-1}, y_{t}; y_{t+1}) さて、この再整形が完了したら、結果の「入出力ベクトル」のセットを順序付ける必要がないと考えることができますか?たとえば、これらのデータを「学習」するためにn入力のフィードフォワードニューラルネットワークを使用すると、モデルにベクトルを表示する順序に関係なく、同じ結果に到達します。したがって、毎回モデルを再適合させる必要なしに、k分割交差検証を標準的な方法で使用できますか?

2
ScikitがCalibratedClassifierCVで分類子を調整する正しい方法
ScikitにはCalibratedClassifierCVがあり、これにより特定のX、yペアでモデルを調整できます。また、明確に述べていますdata for fitting the classifier and for calibrating it must be disjoint. それらがばらばらでなければならない場合、分類器を次のもので訓練することは合法ですか? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) 同じトレーニングセットを使用することで、disjoint data規則に違反しているのではないかと心配しています。別の方法として、検証セットを用意することもできます my_classifier.fit(X_train, y_train) model = CalibratedClassifierCV(my_classifier, cv='prefit') model.fit(X_valid, y_valid) これには、トレーニング用のデータが少なくなるという欠点があります。また、CalibratedClassifierCVが別のトレーニングセットに適合するモデルにのみ適合しなければならない場合、なぜデフォルトのオプションはでありcv=3、これも基本推定量に適合しますか?相互検証は、独立したルールを単独で処理しますか? 質問:CalibratedClassifierCVを使用する正しい方法は何ですか?

2
AIC、BIC、GCV:ペナルティ付き回帰法で決定を下すのに最適なものは何ですか?
私の一般的な理解は、AICがモデルの適合度とモデルの複雑さの間のトレードオフを扱うことです。 A IC= 2 k − 2 l n (L )A私C=2k−2ln(L)AIC =2k -2ln(L) =モデル内のパラメーターの数kkk =尤度LLL ベイジアン情報基準BICは、AICと密接に関連しています。AICは、BICよりも少ない数のパラメーターにペナルティを科します。これらの2つは歴史的にどこでも使用されていることがわかります。しかし、一般化された相互検証(GCV)は私にとって新しいものです。GCVとBICまたはAICの関係 リッジのようなパネル化された回帰のペナルティ用語の選択で、これらの基準が一緒にまたは別々にどのように使用されますか? 編集: ここに考えて議論する例があります: require(lasso2) data(Prostate) require(rms) ridgefits = ols(lpsa~lcavol+lweight+age+lbph+svi+lcp+gleason+pgg45, method="qr", data=Prostate,se.fit = TRUE, x=TRUE, y=TRUE) p <- pentrace(ridgefits, seq(0,1,by=.01)) effective.df(ridgefits,p) out <- p$results.all par(mfrow=c(3,2)) plot(out$df, out$aic, col = "blue", type = "l", ylab = …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.