影響力のある残差と外れ値


10

まず、私はこのサイトで答えを検索したことを述べなければなりません。私の質問に答える質問が見つからなかったか、知識レベルが非常に低いため、すでに回答を読んでいることに気づきませんでした。

AP統計試験のために勉強しています。線形回帰を学ぶ必要があり、トピックの1つは残差です。253ページに統計とデータ分析の概要のコピーがあります。

2変量データセットの異常な点は、散布図の他のほとんどの点から方向または方向のいずれかに離れている点ですyxy

観測値は、残りのデータから離れた(方向の残りのデータから分離された)値を持っている場合、潜在的に影響力のある観測値です。観測が実際に影響力があるかどうかを判断するために、この観測の削除が最小二乗ラインの勾配または切片の値に大きな影響を与えるかどうかを評価します。xxx

観測値に大きな残差がある場合、観測異常値です。外れ値の観測値は、最小二乗線から方向に大きく離れています。y

Stattreck.comは、残差から外れ値を決定する4つの方法を述べています。

全体的なパターンから大きく逸脱するデータポイントは、外れ値と呼ばれます。データポイントを外れ値と見なす方法は4つあります。

  1. 他のデータポイントと比較して、極端なX値になる可能性があります。
  2. 他のデータポイントと比較して、極端なY値を持つ可能性があります。
  3. X値とY値が極端になる可能性があります。
  4. 極端なXまたはY値がなくても、他のデータから離れている可能性があります。

これらの2つのソースは互いに競合しているようです。誰かが私の混乱を片付けてくれませんか。また、どのように極端を定義しますか。AP統計では、データポイントが(Q1-1.5IQR、Q3 + 1.5IQR)の外にある場合、ルールが使用されます。これは異常値です。残差のグラフだけからそれを適用する方法がわかりません。

回答:


5

stattrekサイトは、あなたの教科書よりも外れ値と影響力のある点についてはるかに優れた説明を持っているようですが、誤解を招く可能性のある短い文章のみを引用しました。私はその特定の本を持っていないので、文脈でそれを調べることはできません。ただし、引用した教科書の一節には「潜在的」と書かれていることに注意してください。それも排他的ではありません。これらの点を念頭に置いて、スタットレックとあなたの本は必ずしも同意しません。しかし、あなたの本は(この短い一節から)外れ値と影響力のある点の間の唯一の違いがx軸またはy軸のどちらに偏っているかということを意味するという意味で誤解を招くようです。不正解です。

外れ値の「ルール」は、コンテキストによって異なります。あなたが引用するルールは単なる経験則であり、そうです、実際には回帰のために設計されていません。使い方はいくつかあります。各xで複数のy値を想像し、残差を調べると、視覚化が容易になる場合があります。典型的な教科書回帰の例は、その異常値ルールがどのように機能するかを確認するには単純すぎるため、ほとんどの実際の場合、それはまったく役に立ちません。うまくいけば、実際には、より多くのデータを収集できます。外れ値の分位数ルールを回帰問題に適用する必要がある場合は、適切なデータを提供する必要があります。


答えをありがとう、あなたが言っているように、それが正直にデータに依存していると実際に言うことなく、異なる本がこれらのルールを述べようとするのは面倒になります。
MaoYiyi、2013年

1
実際、私はそれも間違っていると述べました...それは理論、方法、データに依存します...研究全体。
John

5

X(XX)1X

教科書にあるように、影響力は設計点(X値)の関数です。

影響力は力であることに注意してください。設計された実験では、対応するY値を正確に測定できると仮定して、影響力のあるX値が必要です。あなたはそのようにしてお金をもうけます。

私にとって、異常値は基本的に誤りです。つまり、残りのデータと同じモデルに従わない観測です。これは、データ収集エラーのため、またはその特定のサブジェクトが何らかの形で異常であったために発生する可能性があります。

スタットレックの外れ値の定義にはいくつかの理由であまり好きではありません。回帰はYとXで対称ではありません。Yは確率変数としてモデル化され、Xは固定で既知であると想定されます。Yの奇妙さはXの奇妙さと同じではありません。影響力と異常値は異なる意味を持ちます。重回帰の影響は、残差プロットを見ても検出されません。単一の変数の場合の外れ値と影響を適切に説明すると、複数の場合も理解できるようになります。

ジョンから与えられた理由から、私はあなたの教科書をさらに嫌っています。

結論として、影響力のある外れ値は危険です。それらは綿密に調査され、処理される必要があります。


スタットレック回帰の説明が嫌いなのは、真の実験が標準である背景から来た場合に適しています。あなたの理由はすべてそこに当てはまります。しかし、準実験的なデザインがより一般的である背景から来た場合、stattrekサイトの方が関連性が高くなります。これらの場合、x値とy値は両方ともランダムなサンプルであることがよくあります。
John

@ジョンAP統計試験に合格したいという背景はどうですか?準実験デザインとは何ですか?シミュレーションに乱数テーブルを使用していますか?
MaoYiyi 2013年

1
AP統計試験について何も知りません。真の実験とは、予測変数を操作してグループを作成し、複数の仮説または対照グループと実験グループなどをテストするものです。準実験計画とは、実験のように見えるもののほとんどです。したがって、x値が重みでy値がスポーツスキルである回帰を想像してみてください。どちらの変数も操作せず、両方をランダムにサンプリングします。したがって、プラシディアのスタットレックに対する批判は、真の実験にはかなり当てはまるが、準にはそれほど当てはまらない。
ジョン

@ジョン...私は、設計された実験がゴールドスタンダードとして見られる背景から来ています。実際には、XとYはどちらもランダムなサンプルであることが多く、なぜ回帰が使用されているのかという疑問があり、何らかの形式の潜在変数分析ではないことがわかります。
Placidia 2013年

変数が2つしかない場合... :)場合によっては、ある事柄が別の事柄を予測することを示唆する優れた理論があります。1つまたは少数(特に無相関)の線形関係がある場合は、回帰が適切です。
John
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.