私の理解によると、クックの距離は、モデルをフィッティングするときにポイントを除外することにより、各観測の影響を測定します。だから私はそれが異常値検出のための合理的なアプローチであると思いますか?
私の質問、データがグループに分類されていると仮定すると、異常値ポイントの代わりに「異常値」グループの検出にクックの距離を使用することは可能ですか?クックの距離は、グループの影響を測定するための良い選択です。
グループ化の因子変数を作成してから、プロットを実行できますか?
—
jchaykow
ありがとう、私はにグループオプションがあることに気づきました
—
Roy C
influence()
。しきい値について別の質問があります。通常の4 / Nは「感度が高すぎる」ため、異常値を検出しますが、私は非常に影響力のあるグループ/ポイントのみを考慮します。@jchaykow
小さいデータセットの場合、クックのDカットオフは1になります
—
。– jchaykow
@jchaykow一部のデータセットではうまく機能しますが、実際には小さなデータセットではありません。後で他の人にも試してみます。それはある種の経験則ですか?そしてこのカットオフをどのように解釈すべきですか?ありがとうございました。
—
ロイC