影響力のある観測とは、回帰モデルの予測に比較的大きな影響を与える観測です。
レバレッジポイントは、独立変数の極値または外れ値で行われた観測値であり、隣接する観測値の欠如は、近似回帰モデルがその特定の観測値の近くを通過することを意味します。
ウィキペディアからの次の比較はなぜですか
通常、影響力のあるポイントには高いレバレッジがありますが、高いレバレッジポイントは必ずしも影響力のあるポイントではありません。
影響力のある観測とは、回帰モデルの予測に比較的大きな影響を与える観測です。
レバレッジポイントは、独立変数の極値または外れ値で行われた観測値であり、隣接する観測値の欠如は、近似回帰モデルがその特定の観測値の近くを通過することを意味します。
ウィキペディアからの次の比較はなぜですか
通常、影響力のあるポイントには高いレバレッジがありますが、高いレバレッジポイントは必ずしも影響力のあるポイントではありません。
回答:
一部のデータに当てはまる回帰線を想像してください。
ここで、余分なデータポイント、データの本体から少し離れた外れ値、ただしその回帰線のどこかにあるものを想像してください。
回帰直線を再調整する場合、係数は変更されません。逆に、余分な異常値を削除しても、係数には影響がありません。
そのため、外れ値またはレバレッジポイントは、残りのデータおよび残りが示すモデルと完全に一貫している場合、影響はゼロになります。
「ライン」については、必要に応じて「プレーン」または「ハイパープレーン」を読みますが、ここでは2つの変数と散布図の最も単純な例で十分です。
ただし、定義が好きなため、多くの場合定義を読みすぎる傾向があるように思えますが、ここに私のお気に入りの外れ値の定義を示します。
「外れ値は、サンプルの大部分に関して驚きを引き起こすサンプル値です」(WN Venables and BD Ripley。2002. S. New York による現代応用統計:Springer、p.119)。
重要なことに、驚きは見る人の心にあり、データの暗黙的または明示的なモデルに依存しています。データが実際に正規ではなく対数正規またはガンマである場合など、外れ値がまったく驚くべきものではない別のモデルが存在する場合があります。
PSレバレッジポイントは必ずしも隣接する観測値に欠けるとは思わない。たとえば、ペアで発生する場合があります。
単純な線形モデルの場合、高レバレッジポイントがどのように影響を与えないかを簡単に説明できます。
青い線はすべてのデータに基づく回帰線で、赤い線はプロットの右上の点を無視します。
このポイントは、他のデータからは遠く離れているため、先ほど指定した高レバレッジポイントの定義に適合します。そのため、回帰直線(青色の直線)はそれに近い位置を通過する必要があります。しかし、その位置は残りのデータで観察されるパターンにほぼ適合しているため、他のモデルはそれを非常によく予測します(つまり、赤い線はいずれにせよ既に近くを通過します)。
これを次の散布図と比較してください。
ここでは、プロットの右側のポイントは依然として高レバレッジポイントですが、今回は残りのデータで観察されるパターンに実際には適合しません。青い線(すべてのデータに基づく線形フィット)は非常に近くを通過しますが、赤い線は通過しません。この1つのポイントを含めるか除外すると、パラメーター推定値が劇的に変わります。多くの影響があります。
あなたが引用した定義と私がちょうど与えた例は、高いレバレッジ/影響力のある点が、ある意味で単変量の「外れ値」であり、適合回帰線が最も影響の大きい点の近くを通過するが、そうではありません。
この最後の例では、右下の観測はモデルの適合性に(比較的)大きな影響を与えます(赤と青の線の違いから再び見えます)が、回帰線からは遠く離れているように見えます一方、単変量分布では検出できません(ここでは、軸に沿った「ラグ」で表されています)。