多重線形回帰の最小観測数


11

多重線形回帰を行っています。21の観測値と5つの変数があります。私の目的は、変数間の関係を見つけることです

  1. データセットは重回帰を実行するのに十分ですか?
  2. t検定の結果、3つの変数が有意ではないことが明らかになりました。重要な変数を使用して回帰を再度実行する必要がありますか(または、最初の回帰で結論を得るには十分ですか)?私の相関行列は次のとおりです

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1と​​var 2は継続変数であり、var 3から5はカテゴリー変数であり、yは私の従属変数です。

私の従属変数に対する最も影響力のある要素は私のデータ制限のために私の回帰変数にも含まれていないため、文献で考慮されてきた重要な変数について言及する必要があります。この重要な変数なしで回帰を行うことはまだ意味がありますか?

これが私の信頼区間です

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

回答:


17

一般的な経験則(Frank Harrellの本 『Regression Modeling Strategies』に基づくもの)は、妥当なパワーで妥当なサイズの効果を検出できると予想される場合、推定されるパラメーター(共変量)あたり10〜20の観測が必要です。Harrellは、PCAなどの「次元削減」(共変量の数をより妥当なサイズに下げる)の多くのオプションについて説明していますが、最も重要なことは、結果に信頼性を持たせるために次元削減を行う必要があることです応答変数を見ることなく。上記で示唆したように、重要な変数のみを使用して再度回帰を行うことは、ほとんどすべての場合において悪い考えです。

ただし、関心のあるデータセットと共変量のセットに悩まされているため、この方法で重回帰を実行することは本質的に間違っているとは思いません。最良のことは、完全なモデルから結果をそのまま受け入れることだと思います(ポイントの推定値と信頼区間を見て、重要な影響が実際に「大きい」と推定されるかどうかを確認することを忘れないでください世界の感覚、および重要でない効果が実際に重要な効果よりも小さいと推定されるかどうか)。

あなたの分野が重要だと考える予測因子なしで分析を行うことが理にかなっているかどうかについては、私にはわかりません。それは、モデルに基づいてどのような推論を行いたいかによって異なります。狭義では、回帰モデルはまだ明確に定義されていますが(「この応答に対するこれらの予測子の限界効果は何ですか?」)、同じ分野の誰かが分析が意味をなさないだけであることを正しく言うかもしれません。持っている予測子が既知の予測子(それが何であれ)と相関していないこと、またはその既知の予測子がデータに対して一定またはほぼ一定であることを知っている場合は、少し役立ちます。少なくとも、次のように言うことができます。よく知られている予測子以外の何かが応答に影響を与えます。


コメントありがとうございます。信頼区間をチェックする意味がわかりません。
上昇

ベンはフランクのために答えたので、私はベンのために答えます、そして、彼が他に何か考えていたなら、彼は私を修正することができます。ベンはフルモデルを使用してjsutを提案しています。次に、少なくとも5つのセットから重要な変数を除外していないことがわかります。過剰適合問題は予測に悪影響を与える可能性がありますが、少なくともパラメーターの信頼区間があり、予測の信頼区間を取得できます。あなたは共線の問題があり、パラメータの信頼区間を使用すると、パラメータ値が0になることができるかどうかを知っている場合、私は、これは大丈夫に動作すると思います
マイケルR. Chernick

モデルに依然として重要な変数が不足している場合、予測は適切でない可能性があり、与えられたデータに基づく予測精度の評価は誤っている可能性があります。モデルの誤指定を心配し、常に残差を確認してください。フランク・ハレルはこのサイトのアクティブなメンバーです。だから私はこの質問が彼の注目を集め、それから私たちは彼から直接聞くことができることを願っています。
Michael R. Chernick

あなたは、常に重要な変数が欠落することができ、あなたは本当に知っていることはありません...ちょうど変数がで有意であるかどうかを尋ねるので、私は信頼区間を見て提案しかどうかは、多くの情報を失っています。1つのシナリオは、すべてのパラメーターが推定される影響の大きさはほぼ同じであるというものですが、それらの不確実性は変化するため、重要なものとそうでないものがあります。あなたは間違いありません「変数C、D、およびEがない変数AとBが重要である」ことを、この場合には結論したいと思います。CIはこの情報を提供します。p<0.05
ベンボルカー

考察から、十分な観察の欠如と私のデータセットに最も重要な独立変数がないため、結論を出さなければならないと思います:1-重要な変数はt検定に合格した変数ではありません。重要なものは、t検定に合格し、その信頼区間に0が含まれていないものです。2-残差の正規性を確認する必要があります。3-相関行列をチェックする必要があります。
上昇

2

一般的な質問に対する答えは、主な要因が(1)共変量の数(2)推定値と残差の分散であるという多くの要因に依存するということです。小さなサンプルでは、​​0からの差を検出する能力がありません。そのため、回帰パラメーターの推定分散を調べます。回帰に関する私の経験から、5つの変数を持つ21の観測は、変数を除外するのに十分なデータではありません。だから私は変数を捨てるのが速くなく、重要であると思われる変数に夢中になりすぎないでしょう。最良の答えは、より多くのデータが得られるまで待つことです。時々それは言うのは簡単ですが、行うのは難しいです。どの変数が選択されるかを確認するために、ステップワイズ回帰、フォワードおよびバックワード回帰を調べます。共変量が高度に相関している場合、選択されている変数のセットが非常に異なる可能性があります。モデル選択手順をブートストラップすると、データの変化に対する変数選択の感度が明らかになります。共変量の相関行列を計算する必要があります。たぶんフランク・ハレルがこれに対応します。彼は変数選択の本当の専門家です。これらの21のデータポイントのみに基づいて最終的なモデルを選択するべきではないという点で、彼は少なくとも私に同意すると思います。


ご提案ありがとうございます。相関行列を追加しました。この相関行列で回帰を行うことは妥当だと思いますか?これ以上データを収集できず、モデル化も予測もしたくないことを強調してください。独立変数と従属変数の間の可能な関係を見つけたいだけです。
上昇

相関行列は、共線性の概念を示すためにあります。推定値にはおそらく大きな差異があるため、統計的な重要性に焦点を当てるべきではありません。Ypuは、共線性の回帰診断を調べることができます。それが役立つかもしれません。しかし、さまざまなサブセットモデルを調べて、近似がどのように変化し、どの変数の組み合わせが適切に機能し、どのように機能しないかを確認することをお勧めします。データをブートストラップすると、予測子の選択の安定性について何かがわかると思います。
Michael R. Chernick

1
しかし、データの不足を補うものは何もありません。残りの部分よりも肩を並べているように見える変数が1つまたは2つあるかどうかを確認したいと思います。しかし、あなたは何でも見つけることができます。
Michael R. Chernick

正確に共変量とはどういう意味ですか?予測変数があるとすると、は別の共変量としてカウントされますか?、などはどうでしょうか。これらの予測子の間にはある程度の相関関係があるため、推定された係数は1自由度よりも「価値がある」と考えられます。そして、たとえば、回帰スプラインまたは他の局所回帰についてはどうですか。観測値のサブセットのみがコンポーネントの構築に使用されるという事実を考慮する必要がありますか?カーネルを使用して予測子に重みを適用する場合、それは使用される観測の有効数に影響しますか?、X 2 、X 3 、X 4xx2x3x4
交絡
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.