小さなデータセットによる重回帰


8

私は、政府機関が意思決定活動をサポートするための新しいタイプの調査方法のプロジェクトケーススタディのデータセットを持っています。私の仕事は、見積もりの​​目的で、将来のプロジェクトの過去の経験に基づいた見積もり方法を開発することです。

私のデータセットは50ケースに制限されています。30以上の(潜在的な)予測変数と1つの応答変数(つまり、プロジェクトの完了に要した時間)を記録しています。

すべての予測変数が重要なわけではありません。段階的な選択手法を使用すると、予測変数の数が5〜10の変数範囲になると予想しています。PASW(SPSS)のようなツールの標準的なアプローチを使用して予測子セットを取得するのに苦労していますが。

私は、サンプルサイズと予測変数とケースの比率の経験則に関するすべての資料をよく知っています。私のジレンマは、50ケースをそのまま収集するのに10年近くかかるので、それはできる限り良いことです。

私の質問は、この小さなサンプルセットを最大限に活用するにはどうすればよいですか?

それは小さなサンプルセットを扱うための良い参考資料ですか?p値の有意性の変化?段階的選択アプローチへの変更?センタリングやログなどの変換の使用?

任意のアドバイスをいただければ幸いです。

回答:


3

データセットからいくつかの予測子を選択したいので、ペナルティを使用するかLASSO(ペナルティ付き線形回帰)を使用する単純な線形回帰をお勧めします。このケースは、サンプルサイズがで予測子の数がため、LASSOペナルティによる回帰に適しています。調整パラメーターを変更すると、選択する予測子の数が選択されます。 L1n=50p=30

変数の分布についての詳細を教えていただければ、もっと具体的にすることができます。

私はSPSSを使用していませんが、これは同じ名前のパッケージ内の関数Rを使用するglmnetことで簡単に実行できます。マニュアルを見ると、問題を解決する一般的な例(ガウスの場合の最初の例)が含まれています。SPSSにも同様のソリューション存在する必要があると確信しています。


応答は非常に否定的に歪んでいます。約2500時間のプロジェクトの素晴らしさと、尾が2万時間から14,000時間のプロジェクトに伸びています。連続(スケール)予測子は分布の混合ですが、一部の予測子はカテゴリー(名義)です。LASSOにはどのような種類のディストリビューションが必要ですか(または、他に何を知っておく必要がありますか)?-ところで応答をありがとう!
シェーン

@ Shane、LASSOは、でペナルティを課すことの一般的な概念です。(係数または絶対値)関数。ディストリビューションとは無関係です。パッケージをチェックすると(関数:を参照)、さまざまな分布に対してペナルティを(線形回帰は特殊なケースです)適合させるオプションが提供されます。それはかなり速く、同時に驚くべきことです。||glmnetglmnetglmL1
suncoolsu

SPSSをチェックすると、「カテゴリー回帰の正規化」またはCATREGと呼ばれる機能について説明します。LassoとRidgeのメソッドに対応しているようです。どういうわけか、私のバージョンでは有効になっていません。誰かが私が感謝する理由を知っているなら。
シェーン

@Shane私の記憶が私を失敗させないなら、私は@AndyW post fancy SPSSコードを見ました。それ(コード)はいつも私を感動させます!
suncoolsu

@ Shane、CATREGコマンドはSPSSのかなりの数のバージョンで使用されているようですが、それを使用するにはおそらくいくつかの高度な回帰モジュール/ライセンスが必要です。現在のエディションでは、この機能を使用するには「プレミアム」統計スイートが必要です。suncoolsuが言及しているRパッケージ(無料)をチェックすることをお勧めします。
アンディW
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.