回答:
par約モデルとは、可能な限り少ない予測変数で、説明または予測の望ましいレベルを達成するモデルです。
モデル評価には、知りたいものに応じて異なる方法があります。モデルを評価するには、一般に2つの方法があります。予測に基づく方法と、現在のデータの適合度に基づく方法です。最初のケースでは、モデルが新しいデータを適切に予測しているかどうかを知りたい場合、2番目のモデルでは、モデルが現在のデータの関係を適切に記述しているかどうかを知りたい場合です。これらは2つの異なるものです。
予測に使用されるモデルを評価する最良の方法は、相互検証です。非常に簡単に、データセットをたとえば 10個の異なる部分を使用し、そのうちの9個を使用してモデルを構築し、10番目のデータセットの結果を予測します。観測値と予測値の単純な二乗平均差により、予測精度の尺度が得られます。これを10回繰り返すと、10回の繰り返しすべてで平均二乗差が計算され、標準偏差のある一般的な値になります。これにより、標準の統計手法(t検定またはANOVA)を使用して、2つのモデルの予測精度を再度比較できます。
テーマのバリアントは、次のように定義されるPRESS基準(予測平方和)です。
ここで、は、すべての観測値からi番目の値を引いたものに基づくモデルを使用したi番目の観測値の予測値です。この基準は、データがあまりない場合に特に役立ちます。その場合、交差検証アプローチのようにデータを分割すると、安定した近似には小さすぎるデータのサブセットが生じる可能性があります。
まず、これは実際に使用するモデルフレームワークによって異なることを述べておきます。たとえば、尤度比検定は、誤差に古典的なガウスを使用する場合、一般化加法混合モデルに対して機能しますが、二項バリアントの場合は無意味です。
まず、モデルを比較するより直感的な方法があります。Aikake Information Criterion(AIC)またはBayesian Information Criterion(BIC)を使用して、2つのモデルの適合度を比較できます。しかし、両方のモデルが実際に異なるということは何もわかりません。
もう1つは、MallowのCp基準です。これは、モデルを考えられるすべてのサブモデルと比較する(または慎重に選択する)ことにより、モデルの考えられるバイアスを本質的にチェックします。http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdfも参照してください
比較するモデルがネストされたモデルである場合(つまり、よりpar約なモデルのすべての予測子と相互作用がより完全なモデルでも発生する場合)、尤度比検定(またはカイ2乗)の形式で形式的な比較を使用できますまたは、適切な場合のF検定(最小二乗法を使用して近似した単純な線形モデルを比較する場合など)。このテストは基本的に、追加の予測子または相互作用が実際にモデルを改善するかどうかを制御します。この基準は、しばしば前方または後方の段階的な方法で使用されます。
あなたには支持者がいて、この方法の敵がいます。私は個人的に自動モデル選択に賛成していません。特に、モデルの記述に関する場合はそうではありません。これにはいくつかの理由があります。
基本的に、事前に選択したモデルの選択セットを比較することで、より多くのことがわかります。モデルの統計的評価と仮説検定を気にしない場合は、交差検証を使用してモデルの予測精度を比較できます。
しかし、予測目的で実際に変数を選択する場合は、サポートベクターマシン、ニューラルネットワーク、ランダムフォレストなど、変数を選択する他の方法を検討することをお勧めします。これらは、多くの場合、医学などで使用され、測定された1000個のタンパク質のうちどれがあなたが癌にかかっているかどうかを適切に予測できるかを調べます。(有名な)例を挙げます:
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
これらすべてのメソッドには、連続データ用の回帰バリアントもあります。
後方または前方選択を使用することは一般的な戦略ですが、推奨できる方法ではありません。このようなモデル構築の結果はすべて間違っています。p値が低すぎる、係数が0から偏っている、その他の関連する問題があります。
自動変数選択を行う必要がある場合は、LASSOやLARなど、より最新の方法を使用することをお勧めします。
「Stepwiseの停止:Stepwiseおよび同様のメソッドが悪い理由と使用すべきもの」というタイトルのSASプレゼンテーションを書きました
しかし、可能であれば、これらの自動化された方法を完全に避け、主題の専門知識に依存します。1つのアイデアは、10個ほどの合理的なモデルを生成し、情報基準に基づいてそれらを比較することです。@Nick Sabbeは、これらのいくつかを彼の応答にリストしました。
これに対する答えはあなたの目標に大きく依存します。統計的に有意な係数を探している場合や、新しい観測の結果を予測する際にできるだけ多くの誤分類を回避したい場合、または単純に誤検出の少ないモデルに関心がある場合があります。おそらく、データに「最も近い」曲線が必要になります。
上記のいずれの場合でも、探しているものに対して何らかの手段が必要です。さまざまなアプリケーションでよく使用されるメジャーには、AUC、BIC、AIC、残留誤差などがあります...
各モデルの目標に最適なメジャーを計算してから、各モデルの「スコア」を比較します。これは、目標に最適なモデルにつながります。
これらの測定値の一部(AICなど)は、モデル内の非ゼロ係数の数に余分なストレスをかけます。これは、あまりにも多く使用すると単純にデータをオーバーフィットする可能性があるためです。人口)。モデルが「できるだけ少ない」変数を保持することを要求する他の理由があるかもしれません。例えば、予測のためにそれらのすべてを測定するのが単に費用がかかる場合です。モデルの「シンプル」または「少数の変数」は、通常、その節約と呼ばれます。
つまり、簡潔なモデルは「単純な」モデルであり、あまり多くの変数を保持していません。
これらのタイプの質問でよくあることですが、主題と関連する問題の詳細については、優れた本の統計学習の要素を参照してください。
ここでの議論は興味深いものでした。特に、より多くの係数と変数を使用したParsimoniousとModelの間の議論です。
私の教授。スティーブ後期博士は、以前より良いフィット/大きなR ^ 2を備えた他のモデルと比較して、低いR ^ 2を備えた控えめなモデルを強調していました。
ここにいるすべての魚に感謝します!
アカシ