外れ値の検出におけるクックの距離


7

私の理解によると、クックの距離は、モデルをフィッティングするときにポイントを除外することにより、各観測の影響を測定します。だから私はそれが異常値検出のための合理的なアプローチであると思いますか?

私の質問、データがグループに分類されていると仮定すると、異常値ポイントの代わりに「異常値」グループの検出にクックの距離を使用することは可能ですか?クックの距離は、グループの影響を測定するための良い選択です。


グループ化の因子変数を作成してから、プロットを実行できますか?
jchaykow

ありがとう、私はにグループオプションがあることに気づきましたinfluence()。しきい値について別の質問があります。通常の4 / Nは「感度が高すぎる」ため、異常値を検出しますが、私は非常に影響力のあるグループ/ポイントのみを考慮します。@jchaykow
Roy C

1
小さいデータセットの場合、クックのDカットオフは1になります
。– jchaykow

@jchaykow一部のデータセットではうまく機能しますが、実際には小さなデータセットではありません。後で他の人にも試してみます。それはある種の経験則ですか?そしてこのカットオフをどのように解釈すべきですか?ありがとうございました。
ロイC

回答:


3

あなたが言ったように、クックの距離は個々のポイントを削除することによって回帰の変化を測定します。単一のポイントの省略によって状況がかなり変化した場合、そのポイントはモデルに大きな影響を与えていました。定義するY^j(i)i番目の観測がデータセットから削除されたときに、j番目の観測の近似値になります。クックの距離はどのくらいを測定しますi すべての予測を変更します。

Di=j=1nY^jY^j(i))2pMSE
=e2pMSE[h1h2]

もし D1 それは極端です(小規模から中規模のデータセットの場合)。

クックの距離は、すべての近似値に対するi番目のケースの影響を示します。i番目のケースは、

  1. 大きい e そして適度な h

  2. 適度な e そして大きな h

  3. 大きい e そして大きな h

Rでは、influence.measuresパッケージをcooks.distance(model)


定義を明確にしていただきありがとうございます。しかし、私の質問は、より多くのかどうかについてです
ロイC

@DaisyLeeコメントが途切れました
jchaykow

笑気づいたのはあなただ 定義を明確にしていただきありがとうございます。クックの距離の使用を、いくつかの点ではなく外れ値グループの検出に拡張するという考えが誤っているのか、それとも妥当なのかを尋ねたいのですが。そして、boxplot / IQRを使用して、影響力の大きい料理人の距離を遮断することについてどう思いますか?
ロイC

1
クックの距離の使用は、メソッドの性質に基づいて機能しません(つまり、各ポイントを個別に削除します)。上記のようにsdまたは同様の方法でグループに基づいて変数の外れ値をチェックするだけの場合、これは問題ありません... df1 = df%>%group_by(grouping)%>%filter(!( abs(value-median(pred1))> 2 * sd(pred1)))%>%summarise_each(funs(mean)、pred1)
jchaykow

@DaisyLeeこれ以上私は残念ながらアイデアがありません。たぶん他の誰かがもっと手伝ってくれるでしょう。
jchaykow

1

クックのDは、外れ値のクラスターの検出には効果がありません。これらの1つを削除しても、モデルにあまり影響を与えないためです(他の外れ値がまだあります)。

残差は、クラスターに敏感な指標として使用できます。k-meansの単純な実装も効果的です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.