トリミングされた平均と中央値


9

緊急サービスへのすべての呼び出しと救急車部門の応答時間のデータセットがあります。記録を開始しなかった(値が0である)場合や、クロックを停止しなかった(値が非常に高くなる可能性がある)場合があるため、応答時間にいくつかの誤りがあることを認めました。

私は中心的な傾向を知りたいのですが、異常値を取り除くために中央値またはトリミングされた平均値を使用する方が良いかどうか疑問に思っていましたか?


1
まず、すべての無効なデータ(値= 0)を削除します。次に、ヒストグラムまたはボックスプロットを使用してデータを視覚化し、自分の立場を確認します。あなただけ盲目的に5%のデータをトリミングすることはできませんので、あなたは、10%があれば悪い ...データを
alesc

ええ、またはCDFをプロットします。Rでこれを行います:times = times [times> 0]; plot(ecdf(times))
Paul

回答:


12

トリミングされた平均とは何かを検討してください。典型的なケースでは、最初にデータを昇順で並べ替えます。次に、下からトリミングパーセンテージまでカウントし、それらの値を破棄します。たとえば、10%トリミング平均は一般的です。その場合、セット内のすべてのデータの10%を渡すまで、最低値からカウントアップします。そのマークの下の値は脇に置かれます。同様に、トリミングのパーセンテージを超えるまで、最も高い値からカウントダウンし、それを超えるすべての値を脇に設定します。これで、中央の80%が残りました。あなたはその平均を取ります、そしてそれはあなたの10%トリミングされた平均です。(2つの尾から不均等な比率をトリミングすることも、1つの尾のみをトリミングすることもできますが、これらのアプローチは一般的ではなく、状況に適さないようです。)

次に、50%トリム平均を計算するとどうなるかを考えます。上半分と同様に、下半分は脇に置かれます。(通常)中央に単一の値のみが残されます。その平均(つまり、その値をとるだけ)をトリミング平均として使用します。ただし、その値は中央値であることに注意してください。つまり、中央値はトリミングされた平均です(50%トリミングされた平均です)。非常に攻撃的なものです。本質的に、データの99%が汚染されていると想定しています。これは、電力 / 効率の最終的な損失を犠牲にして、外れ値に対する究極の保護を提供します。

私の推測では、中央値/ 50%トリミングされた平均は、データに必要なものよりもはるかに積極的であり、利用可能な情報を浪費しすぎています。存在する外れ値の比率を把握している場合は、その情報を使用してトリミング率を設定し、適切なトリミング平均を使用します。トリミングパーセンテージを選択する根拠がない場合は、交差検証によって1つを選択するか、切片のみを使用したロバスト回帰分析を使用できます。


1
私はこの趣旨に同意しますが、トリミングされた平均は必ずしも各テールの等しい割合をトリミングすることに基づいていると誤解されている可能性があります。これは単なる一般的な手順であり、ほぼ対称であるがファットテールの分布の参照ケースについて最も頻繁に説明されている手順ですが、これは必ずしも義務ではありません。片方の尾のみのトリミングに関する文献があります。これは、すべての疑わしい値が尾にある場合に意味があります。
Nick Cox

@NickCox、良い点。それを明確にするために少しテキストを追加しました。それ以上必要と思われる場合はお知らせください。
ガン-モニカの回復

いいね。当然のことながら、1つの尾のトリミングは、1つの比率がゼロである不均等な比率の特殊なケースです。
Nick Cox

@NickCox、確かに、私はそれが明示的であるほうがいいかもしれないと思った。
ガン-モニカを回復

-1

まず、無効なデータを削除します。

次に、異常値は観測値であるため、異常値を削除する必要はありません。(線形回帰の場合のように)場合によっては便利ですが、あなたの場合は要点がわかりません。

最後に、データの中心を見つける方が正確であるため、中央値を使用することをお勧めします。あなたが言ったように、平均は外れ値に敏感である可能性があります(トリミングされた平均を使用するとバイアスがかかる可能性があります)。


3
位置の推定は特定の回帰の場合であるため、前者の場合ではなく後者で外れ値を削除することがどのように役立つかを知りたいと思います。
user603
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.