この例は、変数がモデル内にある場合にのみ適用されます。通常の最小二乗推定値を使用する場合、それは確かに適用されません。これを見るために、あなたの例で最小二乗法で推定と以下が得られることに注意してください:aX a
S 2 X =1
a^= 1N∑Ni = 1バツ私Y私1N∑Ni = 1バツ2私= 1N∑Ni = 1バツ私Y私s2バツ+ X¯¯¯¯2
ここで、は(サンプル)分散で、は(サンプル)平均
X ¯ X =1s2バツ= 1N∑Ni = 1(X私− X¯¯¯¯)2バツXバツ¯¯¯¯= 1N∑Ni = 1バツ私バツ
a^2V a r [X] = a^2s2バツ= (1N∑Ni = 1バツ私Y私)2s2バツ⎛⎝s2バツs2バツ+ X¯¯¯¯2⎞⎠2
ここで、2番目の項は常に未満(限界のに等しい)であるため、変数からへの寄与の上限を取得します。1 R 2 X11R2バツ
a^2V a r [X] ≤ (1N∑Ni = 1バツ私Y私)2s2バツ
したがって、も同様に、実際にはが表示されます。を(分子はゼロになるが、分母は)。さらに、2つの項がどれだけ速く分岐するかに応じて、がから間に収束する場合があります。今、上記の用語は、一般的により速く発散するあればあればモデルであるべきで、そして遅いモデルであってはなりません。どちらの場合も、は正しい方向に進みます。R2→0S 2 X →∞VR[ε]>0R201S2 X XXR2(1N∑Ni = 1バツ私Y私)2→ ∞R2→ 0s2バツ→ ∞V R [ε]>0R201s2バツバツバツR2
また、すべてのエラーが正確にゼロでない限り、任意の有限データセット(つまり、実際のデータセット)に対してを使用することはできません。これは基本的に、が絶対的な尺度ではなく相対的な尺度であることを示しています。が実際にでない限り、より適切なモデルを常に見つけることができます。これはおそらく、の「危険な」側面であり、から間にスケーリングされるため、絶対的な意味でそれを相互運用できるようです。R 2 R 2 1 R 2 0 1R2= 1R2R21R201
モデルに変数を追加すると、どれだけ速くドロップするかを確認する方がおそらく便利です。最後に、重要なことですが、変数選択ではが実質的に十分な統計情報であるため、変数選択では無視しないでください。データにある変数選択に関するすべての情報が含まれています。必要なのは、「エラーのフィッティング」に対応するドロップを選択することだけです。これは、通常、サンプルサイズと変数の数に依存します。R 2 R 2R2R2R2