さまざまな「最良」モデルの中から最適なモデルを選択する


28

さまざまな方法で選択されたさまざまなモデルの中からモデルをどのように選択しますか(例:後方選択または前方選択)。

また、par約モデルとは何ですか?


タイトルを編集して、(うまくいけば)あなたの主張をより明確にしました。

回答:


39

par約モデルとは、可能な限り少ない予測変数で、説明または予測の望ましいレベルを達成するモデルです。

モデル評価には、知りたいものに応じて異なる方法があります。モデルを評価するには、一般に2つの方法があります。予測に基づく方法と、現在のデータの適合度に基づく方法です。最初のケースでは、モデルが新しいデータを適切に予測しているかどうかを知りたい場合、2番目のモデルでは、モデルが現在のデータの関係を適切に記述しているかどうかを知りたい場合です。これらは2つの異なるものです。

予測に基づいて評価する

予測に使用されるモデルを評価する最良の方法は、相互検証です。非常に簡単に、データセットをたとえば 10個の異なる部分を使用し、そのうちの9個を使用してモデルを構築し、10番目のデータセットの結果を予測します。観測値と予測値の単純な二乗平均差により、予測精度の尺度が得られます。これを10回繰り返すと、10回の繰り返しすべてで平均二乗差が計算され、標準偏差のある一般的な値になります。これにより、標準の統計手法(t検定またはANOVA)を使用して、2つのモデルの予測精度を再度比較できます。

テーマのバリアントは、次のように定義されるPRESS基準(予測平方和)です。

i=1n(YiY^i(i))2

ここで、は、すべての観測値からi番目の値を引いたものに基づくモデルを使用したi番目の観測値の予測値です。この基準は、データがあまりない場合に特に役立ちます。その場合、交差検証アプローチのようにデータを分割すると、安定した近似には小さすぎるデータのサブセットが生じる可能性があります。Y^i(i

適合度に基づいた評価

まず、これは実際に使用するモデルフレームワークによって異なることを述べておきます。たとえば、尤度比検定は、誤差に古典的なガウスを使用する場合、一般化加法混合モデルに対して機能しますが、二項バリアントの場合は無意味です。

まず、モデルを比較するより直感的な方法があります。Aikake Information Criterion(AIC)またはBayesian Information Criterion(BIC)を使用して、2つのモデルの適合度を比較できます。しかし、両方のモデルが実際に異なるということは何もわかりません。

もう1つは、MallowのCp基準です。これは、モデルを考えられるすべてのサブモデルと比較する(または慎重に選択する)ことにより、モデルの考えられるバイアスを本質的にチェックします。http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf参照してください

比較するモデルがネストされたモデルである場合(つまり、よりpar約なモデルのすべての予測子と相互作用がより完全なモデルでも発生する場合)、尤度比検定(またはカイ2乗)の形式で形式的な比較を使用できますまたは、適切な場合のF検定(最小二乗法を使用して近似した単純な線形モデルを比較する場合など)。このテストは基本的に、追加の予測子または相互作用が実際にモデルを改善するかどうかを制御します。この基準は、しばしば前方または後方の段階的な方法で使用されます。

自動モデル選択について

あなたには支持者がいて、この方法の敵がいます。私は個人的に自動モデル選択に賛成していません。特に、モデルの記述に関する場合はそうではありません。これにはいくつかの理由があります。

  • すべてのモデルで、交絡に適切に対処していることを確認する必要があります。実際、多くのデータセットには、同時にモデルに配置すべきではない変数があります。多くの場合、人々はそのために制御することを忘れます。
  • 自動モデル選択は、仮説を作成する方法であり、仮説をテストすることではありません。自動モデル選択から発生したモデルに基づくすべての推論は無効です。それを変える方法はありません。
  • 別の開始点から開始して、段階的な選択が完全に異なるモデルを返す場合が多く見られます。これらの方法は安定とはほど遠い。
  • また、2つのモデルを比較する統計テストではモデルをネストする必要があるため、適切なルールを組み込むことも困難です。AIC、BIC、またはPRESSなどを使用する場合、違いが本当に重要な場合のカットオフは任意に選択されます。

基本的に、事前に選択したモデルの選択セットを比較することで、より多くのことがわかります。モデルの統計的評価と仮説検定を気にしない場合は、交差検証を使用してモデルの予測精度を比較できます。

しかし、予測目的で実際に変数を選択する場合は、サポートベクターマシン、ニューラルネットワーク、ランダムフォレストなど、変数を選択する他の方法を検討することをお勧めします。これらは、多くの場合、医学などで使用され、測定された1000個のタンパク質のうちどれがあなたが癌にかかっているかどうかを適切に予測できるかを調べます。(有名な)例を挙げます:

http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html

http://www.springerlink.com/content/w68424066825vr3l/

これらすべてのメソッドには、連続データ用の回帰バリアントもあります。


Mallows Cpと後方選択のどちらを選択しますか?また、SSEが低く、有意係数のモデルは良好ですか?
トム

2
@tom:リンゴとオレンジを比較しています。後方選択は方法であり、Mallows Cpは基準です。マローのCpは、後方選択の基準として使用できます。そして、あなたが読むことができるように、私は後方選択を行いません。変数を選択する必要がある場合は、適切な方法を使用します。ピーター・フロムが言及したLASSOおよびLARの方法については言及しませんでしたが、これらもぜひ試してみる価値があります。
ジョリスメイズ

バツバツ1

2
@FrankHarrellの少しのシミュレーションは、p値(F検定または同等のものについて話していると仮定)とAICの相関関係が存在しないことを証明できます(私のシミュレーションでは0.01)。いいえ、P値とAICの間に関係はありません。BICとCpでも同じです。別の小さなシミュレーションでも、使用する基準に応じて段階的な手順でかなり異なる結果が得られることが証明されます。そのため、Cp、AIC、BICはP値の単なる変換ではありません。実際、式を見ると、数学的なリンクや変換を指すことはできません。
ジョリスメイズ

1
@FrankHarrellは、逆に私がプロを段階的に支持しているという意味ではありません。しかし、あなたの声明は少なくとも少し強く定式化されています。
ジョリスメイズ

20

α=0.50


質問は段階的ではないが、さまざまなアプローチの結果のうち最良のモデル...選択について
ヨリスMeys

4
私は「par約はあなたの敵」にとても似ています。
ピーターフロム-モニカ

1
ピーターに感謝します。Joris-さまざまなアプローチの中から選択することは、段階的な選択とは少し異なりますが、それほど違いはありません。
フランクハレル

16

後方または前方選択を使用することは一般的な戦略ですが、推奨できる方法ではありません。このようなモデル構築の結果はすべて間違っています。p値が低すぎる、係数が0から偏っている、その他の関連する問題があります。

自動変数選択を行う必要がある場合は、LASSOやLARなど、より最新の方法を使用することをお勧めします。

「Stepwiseの停止:Stepwiseおよび同様のメソッドが悪い理由と使用すべきもの」というタイトルのSASプレゼンテーションを書きました

しかし、可能であれば、これらの自動化された方法を完全に避け、主題の専門知識に依存します。1つのアイデアは、10個ほどの合理的なモデルを生成し、情報基準に基づいてそれらを比較することです。@Nick Sabbeは、これらのいくつかを彼の応答にリストしました。


2
記事の参照については+1。私はSASでコーディングしていませんが、数ヶ月前に読んで、問題の高レベルの扱いとして優れていることがわかりました。
ジョシュヘマン

11

これに対する答えはあなたの目標に大きく依存します。統計的に有意な係数を探している場合や、新しい観測の結果を予測する際にできるだけ多くの誤分類を回避したい場合、または単純に誤検出の少ないモデルに関心がある場合があります。おそらく、データに「最も近い」曲線が必要になります。

上記のいずれの場合でも、探しているものに対して何らかの手段が必要です。さまざまなアプリケーションでよく使用されるメジャーには、AUC、BIC、AIC、残留誤差などがあります...

各モデルの目標に最適なメジャーを計算してから、各モデルの「スコア」を比較します。これは、目標に最適なモデルにつながります。

これらの測定値の一部(AICなど)は、モデル内の非ゼロ係数の数に余分なストレスをかけます。これは、あまりにも多く使用すると単純にデータをオーバーフィットする可能性があるためです。人口)。モデルが「できるだけ少ない」変数を保持することを要求する他の理由があるかもしれません。例えば、予測のためにそれらのすべてを測定するのが単に費用がかかる場合です。モデルの「シンプル」または「少数の変数」は、通常、その節約と呼ばれます。

つまり、簡潔なモデルは「単純な」モデルであり、あまり多くの変数を保持していません。

これらのタイプの質問でよくあることですが、主題と関連する問題の詳細については、優れた本の統計学習の要素を参照してください。


1
お勧めの素敵な本。もう1つお勧めできるのは、選択基準、モデルの選択、モデルの比較に関するセクションを含むApplied Linear Statistical Modelsです。
ジョリスメイズ

-1

ここでの議論は興味深いものでした。特に、より多くの係数と変数を使用したParsimoniousとModelの間の議論です。

私の教授。スティーブ後期博士は、以前より良いフィット/大きなR ^ 2を備えた他のモデルと比較して、低いR ^ 2を備えた控えめなモデルを強調していました。

ここにいるすべての魚に感謝します!

アカシ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.