影響力のあるポイント、高レバレッジポイント、および外れ値の正確な意味と比較?


15

ウィキペディアから

影響力のある観測とは、回帰モデルの予測に比較的大きな影響を与える観測です。

ウィキペディアから

レバレッジポイントは、独立変数の極値または外れ値で行われた観測値であり、隣接する観測値の欠如は、近似回帰モデルがその特定の観測値の近くを通過することを意味します。

ウィキペディアからの次の比較はなぜですか

通常、影響力のあるポイントには高いレバレッジがありますが、高いレバレッジポイントは必ずしも影響力のあるポイントではありません。


2
以下の答えは良いです。ここで私の答えを読むのも役立つかもしれません:plot.lm()の解釈
グン-モニカの復職

回答:


13

一部のデータに当てはまる回帰線を想像してください。

ここで、余分なデータポイント、データの本体から少し離れた外れ値、ただしその回帰線のどこかにあるものを想像してください。

回帰直線を再調整する場合、係数は変更されません。逆に、余分な異常値を削除しても、係数には影響がありません。

そのため、外れ値またはレバレッジポイントは、残りのデータおよび残りが示すモデルと完全に一貫している場合、影響はゼロになります。

「ライン」については、必要に応じて「プレーン」または「ハイパープレーン」を読みますが、ここでは2つの変数と散布図の最も単純な例で十分です。

ただし、定義が好きなため、多くの場合定義を読みすぎる傾向があるように思えますが、ここに私のお気に入りの外れ値の定義を示します。

「外れ値は、サンプルの大部分に関して驚きを引き起こすサンプル値です」(WN Venables and BD Ripley。2002. S. New York による現代応用統計:Springer、p.119)。

重要なことに、驚きは見る人の心にあり、データの暗黙的または明示的なモデルに依存しています。データが実際に正規ではなく対数正規またはガンマである場合など、外れ値がまったく驚くべきものではない別のモデルが存在する場合があります。

PSレバレッジポイントは必ずしも隣接する観測値に欠けるとは思わない。たとえば、ペアで発生する場合があります。


ありがとう!外れ値と高レバレッジポイントは同じ概念ですか?「レバレッジは通常ハット行列の対角として定義されている」ことを注意en.wikipedia.org/wiki/Partial_leverage
すべてのためのStackExchange

1
番号; あなたは私たちに「外れ値」の定義を示していませんでしたが、彼らが外れ値である必要はないことを、レバレッジ・ポイントの定義から次のsensuの Venablesとリプリー。(ウィキペディアから離れようとすることをお勧めします。)@Gaelの返信も参照してください。
ニックコックス

1
「重要なのは、驚きは見る人の心の中にあり、データの暗黙的または明示的なモデルに依存していることです。データが本当に対数正規またはガンマではなく、正常。" したがって、外れ値は何らかのモデルで定義されますが、高レバレッジポイントと影響力のあるポイントはそうではありませんか?
すべてのStackExchange

1
VenablesとRipleyは、私が読んだように、機知に富んだ方法でインテリジェントなポイントを作り、外れ値は正確で正式なステートメントによって定義できるという素朴な考えを覆していた。しかし、他の治療法はさまざまなスタイルで見つけることができます。対照的に、レバレッジと影響は、それらを測定する方法の観点から正式に定義できます。用語を使用する2つのスタイルは、実際には一貫していません。外れ値が何であるか、そして何でないかをよりよく理解するために、実際のデータ分析の経験は百科事典のエントリを読むこと以上のものを教えてくれます。
ニックコックス

Gaelは2013年7月29日のコメントを参照し、識別子@Galaを使用しています。この記事の執筆時点では、他に1つの答えしかありませんが、それは変わる可能性があります。
ニックコックス

20

単純な線形モデルの場合、高レバレッジポイントがどのように影響を与えないかを簡単に説明できます。

レバレッジは高いが影響力はそれほど大きくない

青い線はすべてのデータに基づく回帰線で、赤い線はプロットの右上の点を無視します。

このポイントは、他のデータからは遠く離れているため、先ほど指定した高レバレッジポイントの定義に適合します。そのため、回帰直線(青色の直線)はそれに近い位置を通過する必要があります。しかし、その位置は残りのデータで観察されるパターンにほぼ適合しているため、他のモデルはそれを非常によく予測します(つまり、赤い線はいずれにせよ既に近くを通過します)。

これを次の散布図と比較してください。

高レバレッジの非常に影響力のあるポイント

ここでは、プロットの右側のポイントは依然として高レバレッジポイントですが、今回は残りのデータで観察されるパターンに実際には適合しません。青い線(すべてのデータに基づく線形フィット)は非常に近くを通過しますが、赤い線は通過しません。この1つのポイントを含めるか除外すると、パラメーター推定値が劇的に変わります。多くの影響があります。

あなたが引用した定義と私がちょうど与えた例は、高いレバレッジ/影響力のある点が、ある意味で単変量の「外れ値」であり、適合回帰線が最も影響の大きい点の近くを通過するが、そうではありません。

隠れた非常に影響力のあるポイント

この最後の例では、右下の観測はモデルの適合性に(比較的)大きな影響を与えます(赤と青の線の違いから再び見えます)が、回帰線からは遠く離れているように見えます一方、単変量分布では検出できません(ここでは、軸に沿った「ラグ」で表されています)。


ありがとう!ここで使用した高レバレッジポイントは、en.wikipedia.org / wiki / Partial_leverageの「レバレッジは通常、ハットマトリックスの対角線として定義されます」と一致していますか?
すべてのStackExchange

素晴らしい説明。3つのケースすべてのデータも提供していただければ幸いです。ありがとう
MYaseen208
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.