タグ付けされた質問 「model-selection」

モデルの選択は、あるセットのどのモデルが最もよく機能するかを判断する際の問題です。一般的な方法は次のとおりですR2、AICおよびBICの基準、テストセット、および相互検証。ある程度、特徴選択はモデル選択の副問題です。


11
AICまたはBICを他よりも好む理由はありますか?
AICとBICは両方とも、推定されたパラメーターの数に対してペナルティが課されるモデル適合を評価する方法です。私が理解しているように、BICはAICよりも無料のパラメーターに対してモデルに多くのペナルティを科します。基準の厳格さに基づく選好以外に、BICよりもAICを好む理由、またはその逆の理由はありますか?

3
機械学習の問題が絶望的であることを知る方法は?
標準的な機械学習シナリオを想像してください: 大規模な多変量データセットに直面しており、それについてかなり曖昧な理解を持っています。あなたがする必要があるのは、あなたが持っているものに基づいていくつかの変数について予測することです。いつものように、データを消去し、記述統計を調べ、いくつかのモデルを実行し、それらを相互検証しますが、何度か試行した後、前後に行って複数のモデルを試しても何も機能しないようで、結果は悲惨です。このような問題に数時間、数日、または数週間費やすことができます... 問題は、いつ停止するかです。データが実際に絶望的であり、すべての派手なモデルがすべてのケースまたは他の些細な解決策の平均結果を予測するよりも良いことをしないことをどのように知っていますか? もちろん、これは予測可能性の問題ですが、私が知る限り、多変量データの予測可能性を評価するのは困難です。それとも私は間違っていますか? 免責事項:この質問はこの質問に触発され ました。いつモデルを探すのをやめなければなりませんか?それはあまり注目されませんでした。このような質問に対する詳細な回答を参考にしていただければ幸いです。

8
自動モデル選択のアルゴリズム
自動モデル選択のアルゴリズムを実装したいと思います。私は段階的な回帰を行うことを考えていますが、何でもできます(ただし、線形回帰に基づいている必要があります)。 私の問題は、方法論やオープンソースの実装を見つけることができないことです(Javaで目が覚めています)。私が念頭に置いている方法論は次のようなものです。 すべての因子の相関行列を計算する 互いに相関の低い要因を選択する t-statが低い因子を削除する 他の要素を追加します(2。 いくつかの基準(AICなど)が特定のしきい値を超えるか、それ以上にならないか、より大きな値が見つからなくなるまで、何度も繰り返します。 このためのR実装(stepAIC)があることはわかっていますが、コードを理解するのは非常に困難です。また、段階的回帰を説明する記事を見つけることができませんでした。

6
k分割交差検証後に予測モデルを選択する方法は?
K分割交差検証を行った後、予測モデルを選択する方法を考えています。 これは厄介な言い方かもしれませんので、詳細に説明しましょう。K分割交差検証を実行するたびに、トレーニングデータのK個のサブセットを使用し、K個の異なるモデルになります。 Kモデルの1つを選択する方法を知りたいので、誰かにそれを提示して、「これは私たちが生産できる最高のモデルです」と言うことができます。 Kモデルのどれを選んでも大丈夫ですか?または、テストの中央値を達成するモデルを選択するなど、何らかのベストプラクティスが関係していますか?

5
相互検証後の完全なデータセットでのトレーニング?
相互検証後に完全なデータセットでトレーニングすることは常に良い考えですか?別の言い方をすれば、データセット内のすべてのサンプルでトレーニングを行っても、この特定のフィッティングがオーバーフィットするかどうかを確認できないのですか? 問題の背景: 私が持っていると言うモデルの家族によってパラメータ。また、データポイントのセットがあり、データを最も一般化するモデルを選択するために、k分割交差検証を使用してモデル選択を行うとします。α⃗ α→\vec\alphaNNN モデルの選択では、たとえば、各候補に対してk分割交差検証を実行することにより、検索(たとえば、グリッド検索)を実行できます。交差検証の各フォールドで、学習モデルます。α⃗ α→\vec\alpha βαβα\beta_\alpha 交差検証のポイントは、これらの各フォールドについて、「見えないデータ」でテストすることにより、学習したモデルに過剰適合があるかどうかを確認できることです。結果に応じて、グリッド検索でのクロス検証中に最適化されたパラメーターについて学習したモデル選択できます。βbestβbest\beta_\text{best}α⃗ bestα→best\vec\alpha_\text{best} ここで、モデルの選択後に、データセット内のすべてのポイントを使用し、できればより良いモデルを学習したいと考えています。このために、モデル選択中に選択したモデルに対応するパラメーター使用し、完全なデータセットでトレーニングした後、新しい学習モデル取得します。問題は、トレーニングのためにデータセットのすべてのポイントを使用 する場合、この新しい学習モデル目に見えないデータにオーバーフィットするかどうかを確認できないことです。この問題を考える正しい方法は何ですか?NNNα⃗ bestα→best\vec\alpha_{best}βfullβfull\beta_{full} βfullβfull\beta_{full}

2
「インザワイルド」なPハッキングについてどれだけ知っていますか?
フレーズp -hacking(「データ dr 」、「スヌーピング」、「フィッシング」)は、結果が人為的に統計的に有意になるさまざまな種類の統計的不正行為を指します。「より重要な」結果を取得する方法は多数ありますが、決してこれらに限定されません: パターンが見つかったデータの「興味深い」サブセットのみを分析します。 複数のテスト、特に事後テスト、および重要ではない実行されたテストの報告に失敗した場合の適切な調整の失敗。 同じ仮説の異なるテスト、たとえば、パラメトリックテストとノンパラメトリックテストの両方を試します(このスレッドでは、いくつかの議論があります)が、最も重要なもののみを報告します。 望ましい結果が得られるまで、データポイントの包含/除外を試行します。「データクリーニングの外れ値」だけでなく、曖昧な定義(「先進国」の計量経済学の研究、異なる定義が異なる国のセットをもたらす)、または定性的包含基準(例えば、メタ分析) 、特定の研究の方法論が十分に堅牢であるかどうかは、バランスのとれた議論かもしれません) 前の例は、オプションの停止に関連しています。つまり、データセットを分析し、これまでに収集したデータに応じてデータを収集するかどうかを決定します(「これはほとんど重要です。さらに3人の学生を測定しましょう!」)分析で; モデルフィッティング中の実験、特に含める共変量だけでなく、データ変換/関数形式に関する実験。 したがって、p-ハッキングが実行できることを知っています。多くの場合、「p値の危険性」の 1つとしてリストされており、統計的有意性に関するASAレポートで言及されており、ここでCross Validatedで説明されているため、悪いことでもあります。いくつかの疑わしい動機と(特に学術出版の競争において)逆効果的なインセンティブは明らかですが、意図的な不正行為であろうと単純な無知であろうと、それがなぜなのかを理解するのは難しいと思います。ステップワイズ回帰からp値を報告する人(ステップワイズ手順は「良いモデルを生成する」が、意図されたpを認識していないため)-値が無効化される)、後者のキャンプではあるが、その効果はまだありP上記の私の箇条書きの最後の下-hacking。 確かにpハッキングが「外にある」という証拠があります。例えば、Head et al(2015)は科学文献に感染している証拠的な兆候を探しますが、それに関する我々の証拠の現状は何ですか?Headらがとったアプローチには論争がなかったわけではないことを知っているので、文学の現状、または学術界の一般的な考え方は興味深いでしょう。たとえば、次のことについて考えていますか? それはどの程度一般的であり、その発生を出版バイアスとどの程度まで区別できますか?(この区別は意味がありますか?) 効果は境界で特に深刻ですか?たとえば、で同様の効果が見られますか、それともp値の範囲全体が影響を受けますか?P ≈ 0.05p≈0.05p \approx 0.05P ≈ 0.01p≈0.01p \approx 0.01 pハッキングのパターンは学問分野によって異なりますか? p-ハッキングのメカニズム(上記の箇条書きにリストされているもの)のどれが最も一般的であるか、私たちは考えていますか?一部のフォームは、「よりよく偽装されている」ため、他のフォームよりも検出が難しいことが証明されていますか? 参照資料 ヘッド、ML、ホルマン、L。、ランフィア、R。、カーン、AT、およびジェニオン、MD(2015)。科学におけるpハッキングの範囲と結果。PLoS Biol、13(3)、e1002106。

3
モデル選択のためのネストされたクロス検証
モデル選択にネストされたクロス検証を使用するにはどうすればよいですか? 私がオンラインで読んだものから、ネストされたCVは次のように機能します。 グリッド検索を実行できる内部CVループがあります(たとえば、利用可能なすべてのモデルに対してK折りを実行します。たとえば、ハイパーパラメーター/機能の組み合わせ) 外側のCVループがあります。ここでは、内側のフォールドで勝ったモデルのパフォーマンスを、別の外側のフォールドで測定します。 このプロセスの終わりに、モデルになります(は外側のループの折り畳みの数です)。これらのモデルは、内部CV内のグリッド検索で勝ったモデルであり、異なる可能性があります(たとえば、グリッド検索に応じて、異なるカーネルを備えた、おそらく異なる機能でトレーニングされたSVM)。KKKKKK この出力からモデルを選択するにはどうすればよいですか?各モデルはデータセットのさまざまな部分でトレーニングおよびテストされているため、これらの勝利モデルから最良のモデルを選択することは公平な比較ではないように思えます。KKK モデルの選択にネストされたCVを使用するにはどうすればよいですか? また、ネストされたモデルの選択が学習手順の分析にどのように役立つかを議論するスレッドを読みました。外側のKフォールドから取得したスコアを使用して、どのような種類の分析/チェックを実行できますか?

14
なぜロバスト(および耐性)統計が従来の手法に取って代わらないのですか?
データを使用してビジネス上の問題を解決する場合、従来の統計を裏付ける少なくとも1つの重要な仮定が無効であることが一般的です。ほとんどの場合、誰もこれらの仮定を確認する必要がないため、実際に知ることはありません。 たとえば、一般的なWebメトリックの多くが(正規分布と比較して)「ロングテール」であることは、今では十分に文書化されており、当然のことと考えています。別の例、オンラインコミュニティは、数千人のメンバーがいるコミュニティであっても、これらのコミュニティの多くへの貢献/参加の圧倒的最大のシェアは、「スーパー貢献者」のごくわずかなグループに起因することを十分に文書化しています。(たとえば、数か月前、SO APIがベータ版で利用可能になった直後に、StackOverflowメンバーはAPIを通じて収集したデータから簡単な分析を公開しました;彼の結論-SOメンバーの1%未満がほとんどを占めていますSOのアクティビティ (おそらく質問をして回答する)、残りの1〜2%が残り、圧倒的多数のメンバーが何もしません)。 この種の分布は、例外よりも規則の方が多い場合が多いが、しばしばべき乗密度関数でモデル化するのが最適です。これらのタイプの分布では、中心極限定理でさえ適用するのに問題があります。 このようにアナリストが関心を寄せる人口が豊富であり、古典的なモデルがこれらのデータに対して明らかに不十分に機能し、堅牢で耐性のある方法がしばらく(少なくとも20年は信じられている)より頻繁に使用されていませんか?(なぜ私も疑問に思って、私はより頻繁に利用していないが、それは本当にのための問題ではないのですCrossValidated。) はい、私は堅牢な統計に完全に専念する教科書の章があることを知っており、(いくつかの)Rパッケージがあることを知っています(robustbaseは私が使い慣れているものです)。 そして、これらの技術の明らかな利点を考えると、それらは仕事のためのより優れたツールであることがよくあります。なぜ頻繁に使用されないのですか?古典的な類似物と比較して、はるかに頻繁に(おそらく推定的に)使用される堅牢な(および耐性のある)統計情報を期待するべきではありませんか? 私が聞いた唯一の実質的な(すなわち技術的な)説明は、ロバストなテクニック(抵抗性メソッドの場合も同様)が古典的なテクニックのパワー/感度に欠けているということです。これが実際にいくつかの場合に当てはまるかどうかはわかりませんが、多くの場合に当てはまらないことは知っています。 先取りの最後の言葉:はい、私はこの質問に明確に正しい答えが一つもないことを知っています。このサイトでの質問はほとんどありません。さらに、この質問は本物の質問です。視点を進めることは口実ではありません。ここには視点がありません。単なる洞察に満ちた答えを期待している質問です。

5
段階的回帰の最新の簡単に使用できる代替手段は何ですか?
約30の独立変数を持つデータセットがあり、それらと従属変数との関係を調べるために一般化線形モデル(GLM)を構築したいと思います。 この状況で教えられた方法である段階的回帰は、現在統計的な罪と見なされていることを認識しています。 この状況では、どのような最新のモデル選択方法を使用する必要がありますか?

6
2016年に本当に必要な予測モデリングの変数選択?
この質問はCVで数年前に尋ねられました。1)より優れたコンピューティングテクノロジー(例:並列コンピューティング、HPCなど)と2)新しいテクニック、たとえば[3]を考慮すると、再投稿する価値があるようです。 まず、いくつかのコンテキスト。目標が仮説のテストではなく、効果の推定ではなく、見えないテストセットの予測であると仮定しましょう。したがって、解釈可能な利益に重みは与えられません。第二に、主題の検討における予測子の関連性を排除できないとしましょう。それらはすべて個別に、または他の予測因子と組み合わせてもっともらしいようです。第三に、数百(数百)の予測子に直面しています。第4に、AWSに無制限の予算でアクセスできるため、計算能力が制約にならないとします。 変数選択の通常の理由は、1)効率です。より小さなモデルをより速く適合させ、より少ない予測変数をより安価に収集する、2)解釈; 「重要な」変数を知ることで、基礎となるプロセスの洞察が得られます[1]。 現在、多くの変数選択方法が効果的でなく、しばしば完全に危険であることが広く知られています(例えば、前方段階的回帰)[2]。 次に、選択したモデルが適切であれば、予測子のリストをまったく削減する必要はありません。モデルはあなたのためにそれを行う必要があります。良い例は、すべての無関係な変数にゼロ係数を割り当てるなげなわです。 一部の人々は「象」モデルの使用を支持していることを知っています。考えられるすべての予測変数を適合に投げ込み、それで実行します[2]。 目標が予測精度である場合、変数選択を行う根本的な理由はありますか? [1] Reunanen、J.(2003)。変数選択方法を比較する際の過剰適合。Journal of Machine Learning Research、3、1371-1382。 [2] Harrell、F.(2015)。回帰モデリング戦略:線形モデル、ロジスティックおよび順序回帰、および生存分析への応用。スプリンガー。 [3] Taylor、J。、およびTibshirani、RJ(2015)。統計的学習と選択的推論。国立科学アカデミー論文集、112(25)、7629-7634。 [4] Zhou、J.、Foster、D.、Stine、R.、&Ungar、L.(2005、August)。アルファ投資を使用したスト​​リーミング機能の選択。データマイニングにおける知識の発見に関する第11回ACM SIGKDD国際会議の議事録(pp。384-393)。ACM。

2
なぜ3つのパーティションしかないのですか?(トレーニング、検証、テスト)
モデルを大規模なデータセットに適合させようとする場合、一般的なアドバイスは、データを3つの部分(トレーニング、検証、テストデータセット)に分割することです。 これは、通常、モデルには3つの「レベル」のパラメーターがあるためです。最初の「パラメーター」はモデルクラス(SVM、ニューラルネットワーク、ランダムフォレストなど)、2番目のパラメーターセットは「正規化」パラメーターまたは「ハイパーパラメーター」(たとえば、投げ縄ペナルティ係数、カーネルの選択、ニューラルネットワーク構造)および3番目のセットは、通常「パラメーター」と見なされるものです(共変量の係数など)。 モデルクラスとハイパーパラメーターの選択が与えられると、トレーニングセットのエラーを最小化するパラメーターを選択してパラメーターを選択します。モデルクラスが与えられると、検証セットのエラーを最小化することでハイパーパラメーターを調整します。テストセットのパフォーマンスによってモデルクラスを選択します。 しかし、なぜこれ以上パーティションがないのですか?多くの場合、ハイパーパラメータを2つのグループに分割し、「検証1」を使用して最初に適合させ、「検証2」を使用して2番目に適合させることができます。または、トレーニングデータ/検証データのサイズを調整するハイパーパラメーターとして扱うこともできます。 これは一部のアプリケーションですでに一般的な慣行ですか?データの最適な分割に関する理論的な作業はありますか?

2
変数選択のより決定的な議論
バックグラウンド 私は医学の臨床研究を行っており、いくつかの統計コースを受講しています。私は線形/ロジスティック回帰を使用した論文を公開したことがなく、変数の選択を正しく行いたいと考えています。解釈可能性は重要なので、凝った機械学習技術はありません。変数選択についての私の理解をまとめました-誰かが誤解に光を当てることを気にしますか?私が見つかりました。2(1)と同様のこの1の(2)CVの記事、しかし、彼らは非常に完全に私の懸念に答えませんでした。どんな考えでも大歓迎です!最後に3つの主要な質問があります。 問題と議論 私の典型的な回帰/分類問題には、200-300の観測値、15%の有害事象率(分類の場合)、および文献で「統計的に有意な」効果があると主張された、またはもっともらしいと主張されている40の変数のうち25の情報がありますドメイン知識によるセンス。 「統計的に有意」を引用符で囲みます。これは、全員と母親がステップワイズ回帰を使用しているように見えますが、Harrell(3)とFlom(4)は多くの正当な理由でそれを好まないようです。これは、Gelmanブログ投稿ディスカッション(5)でさらにサポートされています。ステップワイズが受け入れられるのは、これが本当に探索的分析であるか、予測に関心があり、相互検証スキームが関係している場合のみです。特に、多くの医学的併存症は共線性に悩まされ、研究は小さなサンプルサイズに悩まされるため、私の理解では、文献には多くの偽陽性が存在するということです。また、これにより、含める可能性のある変数について文献を信頼する可能性が低くなります。 別の一般的なアプローチは、予測変数と独立変数間の一連の単変量回帰/関連付けを開始点として使用することです。特定のしきい値未満(たとえば、p <0.2)。このStackExchangeの投稿(6)で概説されている理由により、これは間違っているか、少なくとも誤解を招くように思われます。 最後に、機械学習で一般的に見られる自動化アプローチは、L1(Lasso)、L2(Ridge)、L1 + L2コンボ(Elastic Net)などのペナルティを使用することです。私の理解では、これらにはOLSやロジスティック回帰と同じ簡単な解釈はありません。 Gelman + Hillは以下を提案します。 Statsコースでは、Fテストまたは逸脱分析を使用して、完全なモデルとネストされたモデルを比較し、変数ごとにモデル/変数選択を行うことも思い出します。これは理にかなっているように思えますが、dfごとの逸脱の最大の低下を引き起こす変数を見つけるために、順番にネストされたモデルをフィッティングすることは、簡単に自動化できるように思えるので(少し心配です)、次の順序の問題に苦しんでいるようにも見えます変数の包含をテストします。私の理解では、これは多重共線性と残差プロット(残差対予測)を調べることによっても補足されるべきであるということです。 質問: ゲルマンの要約は進むべき道ですか?彼の提案した戦略で何を追加または変更しますか? 潜在的な相互作用と変換(非常に偏り/エラー/脱落が発生しやすいようです)について純粋に考える以外に、潜在的なものを発見する別の方法はありますか?多変量適応回帰スプライン(MARS)が推奨されましたが、非線形性/変換は標準回帰モデルの同じ変数に変換されないことが通知されました。 私の目標が非常に単純だとしましょう:「Y上のX1の関連付けを推定したいのですが、X2のみを考慮します」。Y〜X1 + X2を単に回帰するだけで、実際の予測能力を参照せずに結果を報告するだけで十分ですか(クロス検証RMSEまたは精度測定によって測定される場合があります)?これは、イベントレートやサンプルサイズに応じて、またはR ^ 2が非常に低い場合に変化しますか(R ^ 2はオーバーフィッティングによって常に増加させることができるため、R ^ 2は良くないことを認識しています)。一般的に、予測力を最適化するよりも推論/解釈可能性に興味があります。 結論の例: 「X2の制御、X1はX1の参照レベルと比較してYと統計的に有意に関連していませんでした。」(ロジスティック回帰係数) 「X1はYの統計的に有意な予測因子ではありませんでした。モデルではdfの変化に対して逸脱度の低下が十分ではなかったからです。」(逸脱の分析) 相互検証は常に必要ですか?その場合、SMOTE、サンプリングなどを介してクラスのバランスを取ることもできます。

3
AIC、BIC、CIC、DIC、EIC、FIC、GIC、HIC、IIC —それらを同じ意味で使用できますか?
p。彼のPRNNブライアンリプリーの34人は、「AICは赤池(1974)によって「情報基準」と命名されましたが、Aは赤池を表すと一般に信じられているようです」とコメントしています。実際、AIC統計を導入する際、赤池(1974、p.719)は次のように説明しています。 "IC stands for information criterion and A is added so that similar statistics, BIC, DIC etc may follow". この引用を1974年の予測として考えると、赤池(1977、1978)とシュワルツ(1978)によって、わずか4年で2種類のBIC統計(ベイジアンIC)が提案されたことに注目することは興味深いです。Spiegelhalterらがかかった。(2002)DIC(Deviance IC)を思い付くまでにはるかに長い。CIC基準の出現は赤池(1974年)によって予測されていませんでしたが、それが決して考慮されなかったと信じることは単純です。2005年にCarlos C. Rodriguezによって提案されました(R. TibshiraniとK. KnightのCIC(共分散インフレーション基準)は異なることに注意してください)。 EIC(経験的IC)が2003年頃にモナッシュ大学の人々によって提案されたことを知っていました。私は、Focused Information Criterion(FIC)を発見しました。一部の書籍では、HannanおよびQuinn ICをHICと呼んでいます。たとえば、これを参照してください)。GIC(Generalized IC)が必要であることは知っていますが、情報投資基準(IIC)を発見しました。NIC、TICなどがあります。 私はおそらくアルファベットの残りをカバーできると思うので、AIC、BIC、CIC、DIC、EIC、FIC、GIC、HIC、IIC、...のシーケンスがどこで停止するか、アルファベットの文字が何であるかを尋ねていません使用されていないか、少なくとも2回使用されていない(たとえば、EICのEは、ExtendedまたはEmpiricalを表します)。私の質問はもっと簡単で、もっと実用的になることを願っています。これらの統計を相互に交換して使用し、それらが導き出された特定の仮定、それらが適用されるはずの特定の状況などを無視できますか? この質問の一部は、Burnham&Anderson(2001)が次のように書いていることによるものです。 ...the comparison of AIC and BIC model selection ought to be based on their performance properties such as …

3
対数変換応答を伴う線形モデルと対数リンクを伴う一般化線形モデル
で、この論文著者が書いた「一般化線形モデルAPPLIED TO医療データの中から選択する」というタイトル: 一般化線形モデルでは、応答自体を変換する代わりに、リンク関数によって平均が変換されます。変換の2つの方法は、まったく異なる結果につながる可能性があります。たとえば、 対数変換された応答の平均は、平均応答の対数と同じではありません。一般に、前者は簡単に平均応答に変換できません。したがって、平均値を変換すると、特に平均パラメーターが測定された応答と同じスケールのままであるという点で、結果をより簡単に解釈できることがよくあります。 彼らは、対数変換応答を持つ線形モデル(LM)ではなく、対数リンクを持つ一般化線形モデル(GLM)のフィッティングを勧めているようです。私はこのアプローチの利点を理解していませんが、私には非常に珍しいようです。 応答変数は対数正規分布に見えます。どちらのアプローチでも、係数と標準誤差の点で同様の結果が得られます。 それでも私は不思議:変数は対数正規分布を持っている場合ではない対数変換変数の平均値よりも好ましい平均形質転換されていない変数の対数平均値は、正規分布の自然の概要、およびログですと、 -変換された変数は正規分布していますが、変数自体はそうではありませんか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.