タグ付けされた質問 「cooks-distance」


2
一般化線形混合モデル:診断
ランダムな切片ロジスティック回帰(繰り返し測定による)があり、特に外れ値と影響力のある観測に関して、いくつかの診断を行いたいと思います。 残差を見て、目立つ観測があるかどうかを確認しました。しかし、クックの距離やDFFITSのようなものも見てみたいと思います。HosmerとLemeshow(2000)は、相関データのモデル診断ツールがないため、相関を無視して通常のロジスティック回帰モデルに適合させ、通常のロジスティック回帰に使用できる診断ツールを使用する必要があると述べています。彼らは、これは診断をまったく行わないよりもましだと主張している。 この本は2000年のもので、混合効果ロジスティック回帰によるモデル診断に現在利用できる方法はあるのでしょうか。外れ値をチェックするための良いアプローチは何でしょうか? 編集(2013年11月5日): 応答がないため、混合モデルで診断を行うことが一般的に行われていないのか、それともデータのモデリング時に重要なステップではないのかと思います。だから私の質問を言い換えましょう:「良い」回帰モデルを見つけたらどうしますか?

1
GLMにはどのような残差とクックの距離が使用されますか?
クックの距離の式が何か知っている人はいますか?元のクックの距離式はスチューデント化された残差を使用していますが、Rがstdを使用するのはなぜですか。GLMのクックの距離プロットを計算するときのピアソン残差。学習した残差がGLMに対して定義されていないことは知っていますが、クックの距離を計算する式はどのように見えますか? 次の例を想定します。 numberofdrugs <- rcauchy(84, 10) healthvalue <- rpois(84,75) test <- glm(healthvalue ~ numberofdrugs, family=poisson) plot(test, which=5) クックの距離の式は何ですか?言い換えれば、赤い破線を計算する式は何ですか?そして、標準化されたピアソン残差のこの式はどこから来たのですか?

3
ロジスティック回帰の残差とクックの距離
エラー項の一定分散や残差の正規性など、ロジスティック回帰のエラーに関する特定の仮定はありますか? また、通常、クックの距離が4 / nより大きいポイントがある場合、それらを削除しますか?それらを削除した場合、削除されたポイントを含むモデルの方が優れているかどうかをどのように判断できますか?

1
クックの距離カットオフ値
私は料理の距離を読んで、私の回帰に大きな影響を与える異常値を特定しています。クックの最初の研究では、影響因子を特定するためにカットオフ率1は同等である必要があると彼は述べています。ただし、他のさまざまな研究では、またはをカットオフとして使用しています。4ん4n\frac{4}{n}4n − k − 14n−k−1\frac{4}{n-k-1} 私の研究では、1を超える残差のDはありません。ただし、をカットオフ、さまざまなデータがありますインフルエンサーと見なされるポイント。これらのデータポイントを削除すると、一般的な線形回帰に違いが生じるかどうかをテストすることにしました。私のIVはすべてその重要性を保持しており、明らかな変化は見られませんでした。4ん4n\frac{4}{n}(4149= .026 )(4149=.026)(\frac{4}{149}= .026) すべてのデータポイントを保持し、カットオフレート1を使用する必要がありますか?またはそれらを削除しますか?

2
外れ値の検出におけるクックの距離
私の理解によると、クックの距離は、モデルをフィッティングするときにポイントを除外することにより、各観測の影響を測定します。だから私はそれが異常値検出のための合理的なアプローチであると思いますか? 私の質問、データがグループに分類されていると仮定すると、異常値ポイントの代わりに「異常値」グループの検出にクックの距離を使用することは可能ですか?クックの距離は、グループの影響を測定するための良い選択です。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.