まず、私はこのサイトで答えを検索したことを述べなければなりません。私の質問に答える質問が見つからなかったか、知識レベルが非常に低いため、すでに回答を読んでいることに気づきませんでした。
AP統計試験のために勉強しています。線形回帰を学ぶ必要があり、トピックの1つは残差です。253ページに統計とデータ分析の概要のコピーがあります。
2変量データセットの異常な点は、散布図の他のほとんどの点から方向または方向のいずれかに離れている点ですy
観測値は、残りのデータから離れた(方向の残りのデータから分離された)値を持っている場合、潜在的に影響力のある観測値です。観測が実際に影響力があるかどうかを判断するために、この観測の削除が最小二乗ラインの勾配または切片の値に大きな影響を与えるかどうかを評価します。x
観測値に大きな残差がある場合、観測値は異常値です。外れ値の観測値は、最小二乗線から方向に大きく離れています。
Stattreck.comは、残差から外れ値を決定する4つの方法を述べています。
全体的なパターンから大きく逸脱するデータポイントは、外れ値と呼ばれます。データポイントを外れ値と見なす方法は4つあります。
- 他のデータポイントと比較して、極端なX値になる可能性があります。
- 他のデータポイントと比較して、極端なY値を持つ可能性があります。
- X値とY値が極端になる可能性があります。
- 極端なXまたはY値がなくても、他のデータから離れている可能性があります。
これらの2つのソースは互いに競合しているようです。誰かが私の混乱を片付けてくれませんか。また、どのように極端を定義しますか。AP統計では、データポイントが(Q1-1.5IQR、Q3 + 1.5IQR)の外にある場合、ルールが使用されます。これは異常値です。残差のグラフだけからそれを適用する方法がわかりません。