段階的なロジスティック回帰とサンプリング


13

SPSSのデータセットに段階的なロジスティック回帰を当てはめています。手順では、モデルをランダムなサブセットに近似しています。合計サンプルの60%、約330ケースです。

おもしろいと思うのは、データをリサンプリングするたびに、最終モデルでさまざまな変数が出入りするということです。最終モデルには常に少数の予測変数が存在しますが、サンプルに応じて他の予測変数が表示されます。

私の質問はこれです。これを処理する最良の方法は何ですか?予測変数の収束を見たいと思っていましたが、そうではありません。一部のモデルは、運用の観点からはるかに直感的な意味を持ち(意思決定者に説明する方が簡単です)、他のモデルはデータによりやや適合しています。

要するに、変数はシャッフルされているので、私の状況に対処することをどのようにお勧めしますか?

事前に感謝します。

回答:


16

段階的な手順を使用する場合は、リサンプリングしないでください。1つのランダムサブサンプルを一度だけ作成します。分析を実行します。保留されたデータに対して結果を検証します。ほとんどの「重要な」変数は重要ではない可能性があります。

編集12/2015:本当に簡単なアプローチを超えて、リサンプリング、段階的な手順の繰り返し、再検証を行うことができます。これにより、クロスバリデーションの形式になります。しかし、このような場合、より洗練された変数の方法リッジ回帰、なげなわ、Elastic Netなどの選択は、段階的回帰よりも望ましいと思われます。)

データに少し適合している変数ではなく、意味のある変数に注目してください。330レコードの変数が少数の場合、そもそも過剰適合のリスクが高くなります。段階的回帰のかなり厳しい入退場基準の使用を検討してください。 AICまたは基づいてください。CpFtテストの。

(独立変数の適切な再表現を特定するために分析と調査をすでに実行し、相互作用の可能性を特定し、従属変数のロジット間にほぼ線形の関係があることを確立したと仮定しますそうでない場合は、この重要な予備作業を行ってから、段階的な回帰に戻ります。

ところで、さっき言ったような一般的なアドバイスに従うことに注意してください:-)。アプローチは、分析の目的(予測?外挿?科学的理解?意思決定?)およびデータの性質、変数の数などに依存する必要があります。


2
モデルの解釈の重要性を強調するために+1。ここで本当に重要なことはすでに述べたと思うので、より複雑な相互検証スキームを使用した情報のないMLアプローチ(またはアンサンブルメソッド)については何も追加しません:(1)リサンプリングによる機能選択は単独で解釈することはほとんどありません(つまり、 1つの結果を他の結果と比較することによって)、(2)すべて予測モデルまたは説明モデルのどちらを求めているかによって異なります。
chl

洞察力をありがとう。検索スペースを狭めるために事前スクリーニングをいくつか行っており、最小の変数で予測に最適なモデルを見つけたいだけです。私は7つの予測変数をモデルに投入しているだけであり、理解しているように大丈夫です。サンプルにこだわるという考えは理解していますが、反対に、私のモデルは根本的に異なり、結果が完全にサンプルに依存していることを示しているため、一時停止しました。
Btibert3

@ Btibert3右:データのランダムなサブセット間で結果が異なる場合、独立変数が独立変数の強力なまたは一貫した予測子ではないという証拠としてそれを取ることができます。
whuber

12

重要な質問は、「なぜ変数をできるだけ少なくしたモデルが必要なのはなぜですか?」です。モデルを運用するためのデータ収集のコストを最小限に抑えるために変数をできるだけ少なくしたい場合は、whuberとmbqによって与えられる答えが優れた出発点です。

予測パフォーマンスが本当に重要な場合、機能選択をまったく行わず、代わりに正規化されたロジスティック回帰を使用することをお勧めします(リッジ回帰を参照)。実際、予測パフォーマンスが最も重要なものであった場合、小さなデータセットの過剰適合を回避するための一種の「ベルトアンドブレース」戦略として、バギングされた正規化ロジスティック回帰を使用します。彼の本でミラー回帰におけるサブセット選択に関する中で、付録でそのようなアドバイスを提供しており、多くの特徴を持ち、あまり多くの観察がない問題に対する優れたアドバイスであることがわかりました。

データを理解することが重要であれば、データを理解するために使用されるモデルが予測に使用されるものと同じである必要はありません。その場合、データを何度もリサンプリングし、サンプル全体で選択した変数のパターンを見て、どの変数が有益かを見つけます(mbqが示唆するように、特徴選択が不安定な場合、単一のサンプルでは全体像が得られません)。ただし、予測には、バギングされた正規化されたロジスティック回帰モデルのアンサンブルを引き続き使用しました。


1
正規化されたロジスティック回帰へのポインターに対して+1。しかし、「データを何度も」リサンプリングするときに、どのように正式に「パターンを見る」ことができるかは不明です。これは、データのスヌーピングによく似ているため、フラストレーションやエラーにつながる可能性があります。
whuber

5
選択が不安定な場合の機能選択は、常にフラストレーションとエラーのレシピになります。サンプルを1つだけ使用するとフラストレーションは減りますが、見ている特定のサンプルで最適に機能するものに基づいて、問題に関連する機能に関する推論を引き出すことができるため、エラーの可能性が高くなります。フィッティング。再サンプリングにより、フィーチャ選択の不確実性のアイデアが得られます。これは多くの場合同じくらい重要です。この場合、十分なデータがないため、関連する機能について強力な結論を出すべきではありません。
ディクランマースピアル

いい視点ね; 私は人々がリサンプリングから平均を数えるだけでは嫌いです、それはそのような無駄です。

10

一般に、機能の選択には2つの問題があります。

  • 最小の最適化、最小のエラーを与える最小の変数セットを探す
  • 関連するすべての問題で関連するすべての変数を求める場合には、

予測子の選択の収束は、関連するすべての問題の領域にあります。これは非常に困難であり、したがって、ロジスティック回帰、大量の計算、非常に慎重な処理よりもはるかに強力なツールが必要です。

しかし、あなたは最初の問題をやっているようですので、これについて心配する必要はありません。私は一般的に2番目のwhuberの答えを出すことができますが、リサンプリングを削除する必要があるという主張には同意しません-ここでは、機能選択を安定させる方法ではありませんが、それでも、結合された機能選択+トレーニングのパフォーマンスを推定するためのシミュレーションになります、そのため、あなたの正確さの信頼性に関する洞察が得られます。


+1多くのリサンプリングが混乱と誤解を招くだけになるのではないかと心配しています。クロスバリデーションまたは検証用のホールドアウトサンプルを介した制御された方法でのリサンプリングは、明らかに問題ありません。
whuber

6

JR StatistのMeinshausenとBuhlmannによる論文Stability Selectionをご覧ください。Soc B(2010)72パート4、およびその後の議論。データポイントのセットをランダムに2つの半分に繰り返し分割し、各半分の特徴を探すときに何が起こるかを考慮します。半分に表示されるものが、一致する他の半分に表示されるものとは無関係であると想定することにより、誤って選択された変数の予想数の範囲を証明できます。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.