タグ付けされた質問 「cross-validation」

保留されたデータのサブセットでのモデルのパフォーマンスを定量化するために、モデルのフィッティング中にデータのサブセットを繰り返し保留する。

3
SVMのような離散分類器のROC曲線:なぜそれを「曲線」と呼ぶのですか?、単なる「点」ではないのですか?
議論:バイナリ分類のroc曲線を生成する方法混乱は、「バイナリ分類子」(2つのクラスを分離する任意の分類子)がヤンの「離散分類子」( SVMのような離散出力0/1)およびANNやBayes分類器のような連続出力ではない...など。したがって、議論はROCが「バイナリ連続分類器」に対してどのようにプロットされるかについてであり、答えは出力がソートされることです出力は連続的であり、ROC曲線上の各ポイントを生成するためにしきい値が使用されるため、スコアによって。 私の質問は、SVMなどの「バイナリ離散分類器」に関するもので、出力値は0または1です。したがって、ROCは曲線ではなく1つのポイントのみを生成します。なぜそれを曲線と呼ぶのか混乱しています!まだしきい値について話せますか?特にSVMでしきい値を使用するにはどうすればよいですか?AUCを計算するにはどうすればよいですか?

1
leave-one-out相互検証はどのように機能しますか?異なるモデルから最終モデルを選択する方法は?
いくつかのデータがあり、このデータからモデル(線形回帰モデルなど)を作成します。次のステップでは、Leave-One-Out Cross-Validation(LOOCV)をモデルに適用して、モデルのパフォーマンスを確認します。 LOOCVを正しく理解したら、このサンプル(トレーニングセット)を除くすべてのサンプルを使用して、各サンプル(テストセット)の新しいモデルを構築します。次に、モデルを使用してテストセットを予測し、エラーを計算し。(予測- 実際)(予測した−実際の)(\text{predicted} - \text{actual}) 次のステップでは、選択した関数を使用して生成されたすべてのエラー(平均二乗誤差など)を集計します。これらの値を使用して、モデルの品質(または適合度)を判断できます。 質問:これらの品質値が適用されるモデルはどのモデルですか。LOOCVから生成されたメトリックが自分のケースに適している場合、どのモデルを選択する必要がありますか?LOOCVは異なるモデルを調べました(はサンプルサイズです)。どのモデルを選択する必要がありますか?nnnnnn すべてのサンプルを使用するモデルですか?このモデルは、LOOCVプロセスでは計算されませんでした! エラーが最も少ないモデルですか?

2
10倍の交差検証とleave-one-outの交差検証
ネストされた相互検証を行っています。leave-one-out交差検証はバイアスされる可能性があることを読みました(理由を覚えていない)。 leave-one-outクロス検証の実行時間を長くすることとは別に、10倍のクロス検証またはleave-one-outクロス検証を使用する方が良いでしょうか?

3
分類性能を評価するための相互検証またはブートストラップ?
特定のデータセットで分類器のパフォーマンスを評価し、他の分類器と比較するための最も適切なサンプリング方法は何ですか?クロスバリデーションは標準的なプラクティスのようですが、.632ブートストラップなどの方法の方が良い選択だと読みました。 フォローアップとして:パフォーマンスメトリックの選択は回答に影響しますか(精度ではなくAUCを使用する場合)? 私の最終的な目標は、特定のデータセットについて、ある機械学習法が別の機械学習法よりも優れているとある程度自信を持って言えるようにすることです。

1
k-fold交差検定を発明したのは誰ですか?
私は、k-fold cross-validationが導入された論文への参照を探しています(主題に関する単なる学術的な参照ではありません)。おそらく、最初の論文を明確に特定するのは時間の霧にさかのぼりすぎているため、このアイデアが使用された初期の論文は興味深いものになります。 私が知っている最も早いのは PA LachenbruchおよびMR Mickey、「判別分析におけるエラー率の推定」、Technometrics、vol。10、いいえ。1、1〜12ページ、1968年2月。 そして A. LuntzおよびV. Brailovsky、「認識の統計的手順で得られた文字の推定について(ロシア語)」、Techicheskaya Kibernetica、vol。3、1969。 しかし、私が知る限り、それらはleave-one-out交差検証のみをカバーしています(私の技術的なロシア語はそれだけではありません; o)。

1
相互検証(CV)および一般化された相互検証(GCV)統計
クロス検証(CV)統計と、線形モデル(通常のホモセダスティックエラーベクトル)。εY=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilonεε\boldsymbol\varepsilon 一方では、Golub、Heath、WahbaはGCV推定値を(p。216)λ^λ^\hat{\lambda} 最小化V(λ)V(λ)V\left(\lambda\right)で与えられる V(λ )=1n∥(I− A (λ))y∥2(1nt r(I− A (λ )))2V(λ)=1n‖(私−A(λ))y‖2(1ntr(私−A(λ)))2 V\left(\lambda\right) = \frac{\frac{1}{n} \left\|\left(I - A\left(\lambda\right)\right)y\right\|^2}{\left(\frac{1}{n} \mathrm{tr}\left(I - A\left(\lambda\right)\right)\right)^2} ここで、A (λ ) = X(XTバツ+nλI)−1XTA(λ)=X(XTX+nλI)−1XTA\left(\lambda\right) = X\left(X^T X + n\lambda I\right)^{-1} X^T 一方、エフロンはV(0)V(0)V\left(0\right)(p。24 )と同じ概念を定義していますが、この概念の導入は、その定義(p。377)が本質的に同じであるCraven&Wahbaに起因すると考えています。 Golub、Heath&Wahbaの上記の定義として。 これは、0がV \ left(\ lambda \ right)を000最小化することを意味しますか?V(λ)V(λ)V\left(\lambda\right) 同様に、Golub、Heath、Wahbaは\ lambdaの CV推定λλ\lambda(p。217 )を P(λ)=1n∑k=1n([Xβ(k)(λ)]k−yk)2P(λ)=1n∑k=1n([Xβ(k)(λ)]k−yk)2 …

3
ARIMAモデルの特殊なケースとして見られる一般的な予測モデルは何ですか?
今朝、私は不思議に目を覚ましました(これは昨夜はあまり眠れなかったためかもしれません)。 「に対して交差検証しますか? いくつかの(簡単な)ものを思いつきましたが、すぐにそれらがすべてARIMAモデルの特殊なケースであることに気付きました。だから私は今疑問に思っています、そしてこれは実際の質問です、Box-Jenkninsのアプローチにはすでにどの予測モデルが組み込まれていますか? このように言えば: 平均= ARIMA(0,0,0)と定数 素朴= ARIMA(0,1,0) ドリフト= ARIMA(0,1,0)と定数 単純指数平滑法= ARIMA(0,1,1) ホルトの指数平滑化= ARIMA(0,2,2) 減衰ホルト= ARIMA(0,1,2) 加法Holt-Winters:SARIMA(0,1、m + 1)(0,1,0)m 前のリストに他に何を追加できますか?移動平均または最小二乗回帰を「ARIMA方式」で行う方法はありますか?また、他の単純なモデル(たとえば、ARIMA(0,0,1)、ARIMA(1,0,0)、ARIMA(1,1,1)、ARIMA(1,0,1)など)はどのように変換されますか? 少なくとも初心者には、ARIMAモデルができないことには興味がないことに注意してください。今は、彼らができることだけに集中したい。 ARIMAモデルの各「ビルディングブロック」が何をするかを理解すれば、上記のすべての質問に答えられるはずですが、何らかの理由でそれを理解するのが困難です。そこで、「リバースエンジニアリング」のようなアプローチを試してみました。

3
時系列でのAIC対クロス検証:小さなサンプルの場合
時系列設定でのモデル選択に興味があります。具体的には、ラグオーダーが異なるARMAモデルのプールからARMAモデルを選択するとします。最終的な意図は予測です。 モデルの選択は次の方法で実行できます 相互検証、 情報基準の使用(AIC、BIC)、 他の方法の中で。 Rob J. Hyndmanは、時系列の相互検証を行う方法を提供します。比較的小さなサンプルの場合、クロス検証で使用されるサンプルサイズは、元のサンプルサイズと質的に異なる場合があります。たとえば、元のサンプルサイズが200の観測値である場合、最初の101の観測値を取得し、ウィンドウを102、103、...、200の観測値に拡張して100の交差検証結果を取得することにより、交差検証を開始することを考えることができます。明らかに、200回の観測に対して合理的に控えめなモデルは、100回の観測に対して大きすぎる可能性があり、そのため検証エラーは大きくなります。したがって、相互検証は、あまりにもpar約なモデルを体系的に優先する可能性があります。これは、サンプルサイズの不一致による望ましくない効果です。 相互検証の代わりに、モデル選択に情報基準を使用します。予測が重要なので、AICを使用します。AICは時系列モデルのサンプル外のワンステップ予測MSEを最小化することに漸近的に相当しますが(Rob J. Hyndmanによるこの投稿によると)、サンプルが私が気にするサイズはそれほど大きくありません... 質問:小規模/中規模サンプルの時系列相互検証よりもAICを選択する必要がありますか? 関連するいくつかの質問を見つけることができるここでは、こことここ。

4
検証セットでテストするのではなく、10倍のクロス検証を使用するのはなぜですか?
私は感情の分類と関連するトピックに関する多くの研究論文を読みました。 それらのほとんどは、分類器のトレーニングとテストに10倍の交差検証を使用しています。つまり、個別のテスト/検証は行われません。何故ですか? このアプローチの長所/短所は何ですか、特に研究を行う人にとってはどうですか?

2
ラムダが、エラスティックネット回帰のラムダの推奨値である「最小値から1つの標準誤差以内」であるのはなぜですか?
エラスティックネット回帰でラムダが果たす役割を理解しています。そして、なぜ相互検証エラーを最小化するラムダ値であるlambda.minを選択するのかを理解できます。 私の質問は、統計文献のどこでlambda.1seを使用することを推奨していますか、それはCVエラーと1つの標準エラーを最小にするラムダの値ですか?正式な引用を見つけることも、これがしばしば良い値である理由を見つけることもできないようです。私はそれがより制限された正則化であり、パラメータをゼロに向かってより小さくすることを理解していますが、lambda.1seがlambda.minよりも良い選択である条件が常にあるとは限りません。誰かが説明を助けることができますか?

3
大きな、小さな問題を扱うときのモデルの安定性
イントロ: 古典的な「大きなp、小さなnの問題」のデータセットがあります。利用可能なサンプル数n = 150で、可能な予測子の数p = 400。結果は連続変数です。 最も「重要な」記述子、つまり、結果を説明し、理論の構築を支援するのに最適な記述子を見つけたいと思います。 このトピックに関する調査の後、大きなp、小さなnの場合にLASSOとElastic Netが一般的に使用されることがわかりました。私の予測子のいくつかは非常に相関しており、重要度評価でそれらのグループを保持したいので、Elastic Netを選択しました。重要度の尺度として回帰係数の絶対値を使用できると思います(間違っている場合は修正してください。データセットは標準化されています)。 問題: サンプル数が少ないので、どのようにして安定したモデルを実現できますか? 私の現在のアプローチは、MSEスコアを平均する10倍の交差検証を使用して、データセットの90%でグリッド検索で最適なチューニングパラメーター(ラムダとアルファ)を​​見つけることです。次に、データセットの90%全体で最適なチューニングパラメーターを使用してモデルをトレーニングします。データセットの10%のホールドアウトでRの2乗を使用してモデルを評価できます(これは15サンプルのみです)。 この手順を繰り返し実行すると、Rの2乗評価に大きなばらつきが見つかりました。同様に、非ゼロの予測子の数はその係数と同様に異なります。 予測変数の重要性のより安定した評価と、最終モデルのパフォーマンスのより安定した評価を取得するにはどうすればよいですか? 手順を繰り返し実行して多くのモデルを作成してから、回帰係数を平均できますか?または、モデルの予測子の出現回数を重要度スコアとして使用する必要がありますか? 現在、40から50個の非ゼロの予測子を取得しています。安定性を高めるために、予測子の数をより厳しくペナルティにすべきですか?

2
混合効果モデルをどのように比較または検証する必要がありますか?
(線形)混合効果モデルは通常どのように互いに比較されますか?尤度比検定を使用できることは知っていますが、一方のモデルが他方のモデルの「サブセット」でない場合、これは機能しませんか? モデルdfの推定は常に簡単ですか?固定効果の数+推定される分散成分の数 ランダム効果の推定値を無視しますか? 検証はどうですか?私の最初の考えは相互検証ですが、データの構造を考えるとランダムな折り畳みは機能しないかもしれません。「1つのサブジェクト/クラスターを除外する」方法論は適切ですか?1つの観察結果を除外するのはどうですか? Mallows Cpは、モデルの予測誤差の推定値として解釈できます。AICを介したモデル選択は、予測エラーを最小化しようとします(したがって、エラーがガウス分布である場合、CpとAICは同じモデルを選択する必要があります)。これは、AICまたはCpを使用して、いくつかのネストされていないモデルのコレクションから予測エラーの観点から「最適な」線形混合効果モデルを選択できることを意味しますか?(同じデータに当てはまる場合)BICは、候補者の間で「真の」モデルを選択する可能性がまだ高いですか? また、AICまたはBICを介して混合効果モデルを比較する場合、実際のモデルdfではなく、計算で固定効果のみを「パラメーター」として数えるという印象を受けています。 これらのトピックに関する良い文献はありますか?cAICまたはmAICを調査する価値はありますか?AIC以外の特定のアプリケーションがありますか?

2
モデル選択のための最良のアプローチベイジアンまたは交差検証?
さまざまなモデルまたは含める機能の数を選択しようとすると、2つのアプローチが考えられます。 データをトレーニングセットとテストセットに分割します。さらに良いことには、ブートストラップまたはk-fold交差検証を使用します。トレーニングセットで毎回トレーニングを行い、テストセットの誤差を計算します。テストエラーとパラメーターの数をプロットします。通常、次のようになります。 パラメーターの値を積分することにより、モデルの尤度を計算します。すなわち、を計算し、これをパラメーターの数に対してプロットします。次に、次のようなものを取得します。∫θP(D | θ )P(θ)dθ∫θP(D|θ)P(θ)dθ\int_\theta P(D|\theta)P(\theta)d \theta だから私の質問は: これらのアプローチは、この問題を解決するのに適していますか(モデルに含めるパラメーターの数を決定するか、いくつかのモデルから選択する)。 それらは同等ですか?おそらくない。特定の仮定の下で、または実際に同じ最適モデルを提供しますか? ベイジアンモデルなどで事前知識を指定するという通常の哲学的な違い以外に、各アプローチの長所と短所は何ですか?どちらを選びましたか? 更新: AICとBICの比較 に関する関連する質問も見つけました。私の方法1はAICと漸近的に等価であり、方法2はBICと漸近的に関連しているようです。しかし、BICはLeave-One-Out CVと同等であることも読んでいます。これは、LOO CVがKフォールドCVに等しい場合、トレーニングエラーの最小値とベイジアン尤度の最大値が等しいことを意味します。おそらく非常に興味深い論文「Jun Shaoによる「線形モデル選択のための漸近理論」」はこれらの問題に関連しています。

5
時系列予測のためにデータセットを分割する方法は?
パン屋からの過去の販売データがあります(毎日、3年以上)。次に、将来の売上を予測するためのモデルを構築します(平日、天気変数などの機能を使用)。 モデルの適合と評価のためにデータセットを分割するにはどうすればよいですか? 時系列の列車/検証/テストの分割である必要がありますか? その後、トレインと検証セットを使用してハイパーパラメーターチューニングを行いますか? (ネストされた)相互検証は、時系列問題にとって悪い戦略ですか? 編集 @ ene100によって提案されたURLを辿った後に出会ったいくつかのリンクを以下に示します。 理論および実際の「ローリング予測の起源」を説明するロブ・ハインドマン(Rコードを使用) ローリングフォーキャスト予測のその他の用語は、「ウォークフォワード最適化」(ここまたはここ)、「ローリングホライズン」または「ムービングオリジン」です。 「これらの技術の需要と半数性は不明確である」ため、これらの技術は近い将来scikit-learnに統合されないようです(ここで説明します)。 そして、これは時系列相互検証の別の提案です。

2
Elastic Net Logistic Regressionでの最適なアルファの選択
glmnetR のパッケージを使用して、0から1のグリッドでラムダ値を選択することにより、ヘルスケアデータセットに対してElastic-Netロジスティック回帰を実行しています。短縮コードは次のとおりです。αα\alpha alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", lambda.min.ratio=.001) }) for (i in 1:11) {print(min(elasticnet[[i]]$cvm))} これは、からの増分でのアルファの各値の平均交差検証誤差を出力します。1.0 0.10.00.00.01.01.01.00.10.10.1 [1] 0.2080167 [1] 0.1947478 [1] 0.1949832 [1] 0.1946211 [1] 0.1947906 [1] 0.1953286 [1] 0.194827 [1] 0.1944735 [1] 0.1942612 [1] 0.1944079 [1] 0.1948874 私が文献で読んだものに基づいて、最適な選択は、cvエラーが最小化される場所です。しかし、アルファの範囲にわたってエラーには多くの変動があります。私はいくつかの局所的な最小値を見ていますが、グローバルな最小誤差はfor です。αα\alpha0.1942612alpha=0.8 一緒に行くのは安全alpha=0.8ですか?又は、変形所与、Iは、再実行する必要がありcv.glmnet、よりクロスバリデーションひだ(例えば、との代わりに)、または、おそらくより多くのの間のインクリメント及びCVエラーパスの鮮明な画像を取得しますか?10 α202020101010αα\alphaalpha=0.01.0

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.