線形回帰の最小点数


16

線形回帰で時間の経過に伴う傾向を探すための「合理的な」最小数の観測値は何でしょうか?二次モデルをフィッティングするのはどうですか?

私は健康の不平等の複合指標(SII、RII)を使用しており、調査の波は4つしかないため、4つのポイント(1997、2001、2004、2008)です。

私は統計学者ではありませんが、直観的な印象は4ポイントでは不十分です。答えや参考文献はありますか?

どうもありがとう、

フランソワーズ


4
通常の経験則は、独立変数ごとに10ポイントです。
ピーターフロム-モニカの復職

1
インデックスはどのように測定されますか?変動の推定値が含まれている場合、2つで十分です(t検定またはその類似体を使用)。ここで適用される基本的な統計原理は、ランダムな変動が観察しているもののありそうもない説明である場合、明白な傾向を非ランダムな原因に帰する権利があるということです。傾向が強い場合、そのような結論に至るために必要なデータ値はほとんどありませんが、すべての一般的な「経験則」にもかかわらずです。
whuber

回答:


12

共変量あたり10のPeterの経験則は合理的なルールです。応答値のノイズの量に関係なく、直線は任意の2点に完全に適合でき、2次線はわずか3点に完全に適合できます。したがって、ほとんどすべての状況において、4ポイントでは不十分であると言うのが適切です。ただし、ほとんどの経験則のように、すべての状況をカバーしているわけではありません。モデル内のノイズ項の分散が大きい場合、誤差分散が小さい同様の場合よりも多くのサンプルが必要になります。

必要なサンプルポイントの数は、オブジェクトによって異なります。1つのモデル(共変量の線形など)が別のモデル(共変量の2次関数など)よりも良く見えるかどうかを調べるために探索的分析を行う場合、10ポイント未満で十分です。ただし、共変量の相関係数と回帰係数の非常に正確な推定値が必要な場合は、共変量ごとに10個以上必要になる可能性があります。予測基準の精度には、正確なパラメーター推定よりも多くのサンプルが必要になる場合があります。推定値と予測の分散には、すべてモデルの誤差項の分散が含まれることに注意してください。


良い点、マイケル。シンプルにしようとしていました。:-)。元の質問の主題を考えると、10ポイント未満で十分だったら非常に驚くでしょう。健康の不平等の測定には多くのエラーがある可能性が高く、時間との関係が非常に線形である可能性は低いです。これに関する記事を知っていますか?これは興味深いトピックです。
ピーターフロム-モニカの復職

@PeterFlomいけない。統計的な経験則に関するvan Belle'aの本を見て、彼があなたが言及したような規則を使用しているかどうかを確認します。彼の本の良いところは、彼がすべてのルールの背後にある理論的根拠を説明していることです。共変量ごとに少なくとも10を取得するというルールは非常に適切であり、使用量を減らすことは、いくつかの探索的な場合を除いてめったに安全ではないことに同意します。私が働いている健康科学では、ノイズの項は常に大きいように見えますが、おそらく厳密に制御された物理学または工学実験では、非常に正確な測定値が得られるため、ランダム誤差が小さくなります。
マイケルR.チャーニック

わずかなノイズが10ポイント未満しか必要としない可能性があることを指摘しようとしていました。
マイケルR.チャーニック

R2

+1、良い情報ですが、推定器に偏りがない場合、飽和モデルがあり、それでも必要な場合はパラメータの推定値を保持できることに注意してください。変動を推定したり、推論を行うことはできません。ただし、推定する多くの効果があり、データを取得するのが十分に難しい場合には、飽和モデルが使用されることがあります。たとえば、この場合、関数w / 3点の2次関数の推定値を取得できます。必ずしもそれが良いことを意味するわけではありませんが、それが本当の下限であり、その理由です。
GUNG -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.