タグ付けされた質問 「model-selection」

モデルの選択は、あるセットのどのモデルが最もよく機能するかを判断する際の問題です。一般的な方法は次のとおりですR2、AICおよびBICの基準、テストセット、および相互検証。ある程度、特徴選択はモデル選択の副問題です。

3
交差検証を使用する場合の1つの標準エラールールの経験的正当化
par約を支持する1つの標準エラールールの使用を正当化する実証研究はありますか?明らかに、データのデータ生成プロセスに依存しますが、データセットの大規模なコーパスを分析するものは非常に興味深い読み物です。 「1つの標準エラールール」は、相互検証(またはより一般的にはランダム化ベースの手順)を通じてモデルを選択するときに適用されます。 場合、がよりも「より複雑」であるように、複雑さパラメーターによってインデックス付けされたモデルを考慮すると仮定します。さらに、クロス検証などのランダム化プロセスによってモデル品質を評価するとします。してみましょうの「平均」の品質表す例えば、多くのクロスバリデーションの実行間の平均のアウトバッグ予測誤差を。この量を最小限に抑えたい。MτMτM_\tauτ∈Rτ∈R\tau\in\mathbb{R}MτMτM_\tauMτ′Mτ′M_{\tau'}τ>τ′τ>τ′\tau>\tau'MMMq(M)q(M)q(M)MMM ただし、品質尺度はランダム化手順に基づいているため、ばらつきがあります。ましょ品質の標準誤差を表すランダム実行横切って、例えば、のアウトオブバッグ予測誤差の標準偏差クロスバリデーション実行オーバー。s(M)s(M)s(M)MMMMMM 次に、モデルを選択します。ここで、は次のような最小のです。MτMτM_\tauττ\tauττ\tau q(Mτ)≤q(Mτ′)+s(Mτ′),q(Mτ)≤q(Mτ′)+s(Mτ′),q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}), ここで、は(平均して)最良のモデルインデックスを付けます。τ′τ′\tau'q(Mτ′)=minτq(Mτ)q(Mτ′)=minτq(Mτ)q(M_{\tau'})=\min_\tau q(M_\tau) つまり、ランダム化手順の中で、最良のモデルM _ {\ tau '}よりも1つの標準誤差だけ悪い、最も単純なモデル(最小の ττ\tau)を選択します。Mτ′Mτ′M_{\tau'} この「1つの標準エラールール」が次の場所で参照されていることを発見しましたが、明示的に正当化することはありません。 Breiman、Friedman、Stone&Olshenによる分類および回帰木の 80ページ(1984年) Tibshirani、Walther&Hastieによるギャップ統計によるデータセット内のクラスター数の推定のページ415 (JRSS B、2001)(Breiman et al。を参照) Hastie、Tibshirani、Friedmanによる統計学習の要素のページ61および244 (2009) Hastie、Tibshirani、Wainwrightによる統計的学習のスパース性のページ13 (2015)

5
AICcの負の値(赤池情報量基準の修正)
2つの一般的な線形混合モデルを比較するために、AICとAICcを計算しました。AICは、モデル1がモデル2よりも低いAICである場合、正です。ただし、AICcの値は両方とも負です(モデル1は依然として<モデル2です)。負のAICc値を使用して比較することは有効ですか?

1
ネストされた相互検証が本当に必要なのはいつで、実際に違いが出るのでしょうか
クロス検証を使用してモデルの選択(ハイパーパラメーター調整など)を行い、最適なモデルのパフォーマンスを評価する場合、ネストされたクロス検証を使用する必要があります。外側のループはモデルのパフォーマンスを評価することであり、内側のループは最適なモデルを選択することです。モデルは各外部トレーニングセットで選択され(内部CVループを使用)、そのパフォーマンスは対応する外部テストセットで測定されます。 これは多くのスレッドで議論され、説明されています(たとえば、ここでクロス検証後の完全なデータセットを使用したトレーニング?など、@ DikranMarsupialによる回答を参照)。モデル選択とパフォーマンス推定の両方に対して単純な(ネストされていない)交差検証のみを行うと、正にバイアスされたパフォーマンス推定が得られます。@DikranMarsupialには、まさにこのトピックに関する2010年の論文(モデル選択の過剰適合とパフォーマンス評価における後続の選択バイアス)があり、セクション4.3と呼ばれています。-そして、紙は答えがはいであることを示しています。 そうは言っても、私は現在、多変量多重リッジ回帰に取り組んでおり、単純なCVとネストされたCVの間に違いは見られません。私の質問は次のとおりです。単純なCVはどのような条件下で、ネストされたCVで回避される顕著なバイアスを生み出すのでしょうか。ネストされたCVは実際にはいつ重要であり、それほど重要ではありませんか?経験則はありますか? 以下は、実際のデータセットを使用した図です。横軸は、リッジ回帰のです。縦軸は交差検定エラーです。青い線は、単純な(ネストされていない)交差検証に対応しており、50のランダムな90:10トレーニング/テストの分割があります。赤い線は、50のランダムな90:10トレーニング/テストスプリットのネストされたクロス検証に対応します。は、内部クロス検証ループ(50のランダム90:10スプリット)で選択されます。線は50以上のランダムな分割を意味し、網掛けは標準偏差を示します。ログ(λ )log⁡(λ)\log(\lambda)λλ\lambda± 1±1\pm1 赤い線は平坦です。内側のループでが選択されており、外側のループのパフォーマンスがの全範囲にわたって測定されていないためです。単純な相互検証にバイアスがかかっている場合、青い曲線の最小値は赤い線より下になります。しかし、そうではありません。λλ\lambdaλλ\lambda 更新 実際はそうです:-)それは、違いが小さいということです。ズームインは次のとおりです。 ここで誤解を招く可能性のあることの1つは、エラーバー(網掛け)が巨大であるが、ネストされたCVと同じCVが同じトレーニング/テスト分割で実行できることです。コメントの@Dikranが示唆するように、それらの比較はペアになっています。ネストされたCVエラーと単純なCVエラーの違いを見てみましょう(私の青い曲線の最小値に対応するについて)。繰り返しますが、各フォールドで、これら2つのエラーは同じテストセットで計算されます。トレーニング/テストの分割でこの差をプロットすると、次の結果が得られます。λ = 0.002λ=0.002\lambda=0.002505050 ゼロは、内側のCVループもを生成する分割に対応します(ほぼ半分の時間で発生します)。平均して、差は正になる傾向があります。つまり、ネストされたCVのエラーはわずかに高くなります。言い換えれば、単純なCVは非常に小さいが楽観的なバイアスを示しています。λ = 0.002λ=0.002\lambda=0.002 (手順全体を数回実行しましたが、毎回発生します。) 私の質問は、どのような条件下でこのバイアスが非常に小さいと期待できるのか、どのような条件下ではいけないのかということです。

7
重回帰モデルに含める変数の選択
現在、多重線形回帰を使用してモデルを構築しています。私のモデルをいじくり回した後、どの変数を保持し、どの変数を削除するかをどのように決定するのが最善かわからない。 私のモデルは、DVの10個の予測子から始まりました。10個すべての予測変数を使用した場合、4つが有意と見なされました。明らかに正しくない予測子の一部のみを削除すると、最初は重要ではなかった予測子の一部が重要になります。私の質問に私を導きます:どの予測子をモデルに含めるかをどのように決定するのですか?すべての予測変数を使用してモデルを一度実行し、重要でない予測変数を削除してから再実行する必要があるように思えました。しかし、それらの予測子の一部のみを削除すると他の予測子が重要になる場合、このすべてに対して間違ったアプローチを取っているのではないかと疑問に思われます。 私はと信じて、このスレッドは私の質問に似ていますが、私は私が正しく議論を解釈していますが不明です。おそらくこれはより実験的なデザインのトピックですが、誰かが共有できる経験があるかもしれません。

3
モデルの赤池情報量基準(AIC)スコアはどういう意味ですか?
私はここで素人の言葉で何を意味するかについていくつかの質問を見てきましたが、これらはここでの私の目的にはあまりにも素人です。AICスコアの意味を数学的に理解しようとしています。 しかし同時に、より重要なポイントを見ないようにする厳密な証拠は必要ありません。たとえば、これが微積分であれば、私は無限小に満足し、これが確率論であれば、測定理論なしに満足します。 私の試み ここを読んで、自分自身のいくつかの表記シュガー、は、次のようにデータセットD上のモデル AIC基準です: \ text {AIC} _ {m、D} = 2k_m- 2 \ ln(L_ {m、D}) ここで、k_mはモデルmのパラメーターの数、L_ {m、D}はデータセットDのモデルmの最尤関数値です。 m D AIC m 、D = 2 k m − 2 ln (L m 、D)k m m L m 、D m DAICm,DAICm,D\text{AIC}_{m,D}mmmDDDAICm,D=2km−2ln(Lm,D)AICm,D=2km−2ln⁡(Lm,D) \text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D}) kmkmk_mmmmLm,DLm,DL_{m,D}mmmDDD 上記が意味するものの私の理解はここにあります: m=arg maxθPr(D|θ)m=arg …

2
モデルの選択と相互検証:正しい方法
CrossValidatedには、モデルの選択と相互検証のトピックに関する多数のスレッドがあります。以下にいくつかを示します。 内部対外部の交差検証とモデル選択 DikranMarsupialの@ トップの答えに特徴選択とクロスバリデーション ただし、これらのスレッドに対する回答はかなり一般的であり、主にクロス検証とモデル選択の特定のアプローチに関する問題を強調しています。 ようなものを作るために、可能な限り具体的な、我々はRBFカーネルをSVMで作業していること、たとえば言う: 、及びそのフィーチャXとラベルyのデータセットがあり、それをしたいK(x,x′)=(γ|x−x′|)2K(x,x′)=(γ|x−x′|)2K(x, x' ) = (\gamma \, \vert x - x'\vert)^2 モデルの可能な限り最良の値を見つける(およびγγ\gammaCCC) データセットを使用してSVMをトレーニングします(最終展開用) 一般化誤差とこの誤差の周りの不確実性(分散)を推定する そうするために、私は個人的にグリッド検索を行います。例えば、とあらゆる可能な組み合わせを試し ます。簡単にするために、次の範囲を想定できます。CCCγγ\gamma C∈{10,100,1000}C∈{10,100,1000}C \in \{10, 100, 1000\} γ∈{0.1,0.2,0.5,1.0}γ∈{0.1,0.2,0.5,1.0}\gamma \in \{0.1, 0.2, 0.5, 1.0\} 具体的には、完全なデータセットを使用して、次のことを行います。 すべての(のためにCCC、γγ\gamma)のペア、私は、の繰り返し(例えば100回のランダム繰り返し)繰り返しんKKKクロスバリデーションを倍(例えばK=10K=10K=10)、私のデータセットに、すなわち私は上の私のSVM訓練K−1K−1K-1折り目をし、評価左の折り畳みにエラーがあり、すべてのKKK折り畳みを繰り返します。全体として、100 x 10 = 1000個のテストエラーを収集します。 そのような(CCC、γγ\gamma)ペアごとに、これらの1000個のテストエラー\ mu_M、\ sigma_Mの平均と分散を計算しμM,σMμM,σM\mu_M, \sigma_Mます。 次に、完全なデータセットで最終的なSVMをトレーニングするために使用する最適なモデル(最適なカーネルパラメーター)を選択します。私の理解では、最小誤差平均と分散 μMμM\mu_MおよびσMσM\sigma_Mを持つモデルを選択することが正しい選択であり、このモデルのμMμM\mu_MはσMσM\sigma_Mは、完全なデータセット。 しかし、上記のスレッドの回答を読んだ後、私はこの方法が配備および/またはそのエラー(一般化パフォーマンス)を推定するための最良のSVMを選択するためのこの方法は欠陥であり、選択するより良い方法があるという印象を受けています最高のSVMとそのエラーの報告。もしそうなら、彼らは何ですか?具体的な答えを探しています。 この問題に固執して、どのようにして具体的に最良のモデルを選択し、その一般化エラーを適切に推定できますか?


6
データマイニング:機能フォームを見つけるにはどうすればよいですか?
私は、関数の関数形を発見するために使用することができ、再現手順について興味がy = f(A, B, C) + error_term私の唯一の入力は、観測値の集合である場合(y、A、BおよびC)。の機能形式fは不明であることに注意してください。 次のデータセットを検討してください。 AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 56 37 0 79 43 3221 …

1
事後予測チェックとは何ですか?また、それらを有用にするものは何ですか?
事後予測分布が何であるかを理解し、事後予測チェックについて読んでいますが、それが何をするのかはまだ明確ではありません。 事後予測チェックとは正確には何ですか? 一部の著者は、事後予測チェックの実行は「データを2回使用する」ため、悪用すべきではないと言うのはなぜですか?(または、それがベイジアンではないこともあります)?(例:thisまたはthisを参照) このチェックは、まさに何の役に立つのですか?モデル選択に本当に使用できますか?(たとえば、フィットネスとモデルの複雑さの両方を考慮しますか?)

5
モデル選択のAICガイドライン
私の理解では、AICよりもpar約をより重視するということなので、私は通常BICを使用します。ただし、私は今、より包括的なアプローチを使用することを決定し、AICも使用したいと考えています。Raftery(1995)がBICの違いに関する優れたガイドラインを提示したことを知っています:0-2は弱い、2-4は1つのモデルが優れているという肯定的な証拠などです。 私は教科書を調べましたが、AICでは奇妙に見えます(差が大きいほど弱く、AICの差が小さいほど1つのモデルが優れているように見えます)。これは、私が教えられたことを知っていることに反します。私の理解では、AICを低くしたいということです。 RafteryのガイドラインがAICにも適用されるかどうか、またはあるモデルと別のモデルの「証拠の強さ」に関するガイドラインをどこで引用できるかを知っていますか? そして、はい、カットオフは素晴らしいものではありません(私はそれらをいらいらさせます)が、それらは異なる種類の証拠を比較するときに役立ちます。

6
節約は本当にゴールドスタンダードである必要がありますか?
ちょっとした考え: 控えめなモデルは常にモデル選択のデフォルトの対象でしたが、このアプローチはどの程度古くなっていますか?私たちのpar約傾向が、アバチとスライドのルール(または、もっと真剣に、非近代的なコンピューター)の時代の遺物であることに興味があります。今日の計算能力により、予測能力がさらに向上し、ますます複雑化するモデルを構築できます。この計算能力の上限の増加の結果として、私たちは本当に単純さに引き寄せられる必要があるのでしょうか? 確かに、より単純なモデルは理解と解釈が容易ですが、変数の数が増え、予測機能に重点が置かれるようになりつつあるデータセットが増え続ける時代には、これはもはや達成できず、必要もありません。 考え?

3
投げ縄回帰モデルのAICとBICを計算することはできますか?
投げ縄回帰モデルや、パラメータが部分的にしか方程式に入力されていない他の正規化モデルのAICまたはBIC値を計算することは可能ですか?自由度をどのように決定しますか? Rを使用して、投げ縄回帰モデルをパッケージのglmnet()関数に適合glmnetさせています。モデルのAIC値とBIC値を計算する方法を知りたいです。このようにして、値を正則化なしで適合するモデルと比較する場合があります。これは可能ですか?
31 r  model-selection  lasso  aic  bic 

1
相互検証の誤用(最適なハイパーパラメーター値のパフォーマンスの報告)
最近、特定のデータセットでk-NN分類器を使用することを提案する論文に出会いました。著者は、利用可能なすべてのデータサンプルを使用して、さまざまなk値のk分割交差検証を実行し、最適なハイパーパラメーター構成の交差検証結果を報告しました。 私の知る限り、この結果には偏りがあり、ハイパーパラメーター最適化の実行に使用されないサンプルの精度推定値を取得するために、別のテストセットを保持する必要がありました。 私は正しいですか?この相互検証の誤用について説明した参考文献(できれば研究論文)を提供してください。

3
LASSOのインジケータ/バイナリ/ダミー予測子を再スケールするかどうか
LASSO(およびその他のモデル選択手順)の場合、予測変数を再スケーリングすることが重要です。一般的な 推奨 私が従うは 0平均、連続変数の1つの標準偏差正規化を使用するだけです。しかし、ダミーとどう関係があるのでしょうか? 例えば、私がリンクした同じ(優秀な)サマースクールのいくつかの応用例は、連続変数を0から1の間にスケールし直します(ただし、外れ値にはあまり適していません)。しかし、それでも係数が同じ桁であることを保証するものではなく、したがって同様にペナルティを課されることを保証しません。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.