緊急サービスへのすべての呼び出しと救急車部門の応答時間のデータセットがあります。記録を開始しなかった(値が0である)場合や、クロックを停止しなかった(値が非常に高くなる可能性がある)場合があるため、応答時間にいくつかの誤りがあることを認めました。
私は中心的な傾向を知りたいのですが、異常値を取り除くために中央値またはトリミングされた平均値を使用する方が良いかどうか疑問に思っていましたか?
緊急サービスへのすべての呼び出しと救急車部門の応答時間のデータセットがあります。記録を開始しなかった(値が0である)場合や、クロックを停止しなかった(値が非常に高くなる可能性がある)場合があるため、応答時間にいくつかの誤りがあることを認めました。
私は中心的な傾向を知りたいのですが、異常値を取り除くために中央値またはトリミングされた平均値を使用する方が良いかどうか疑問に思っていましたか?
回答:
トリミングされた平均とは何かを検討してください。典型的なケースでは、最初にデータを昇順で並べ替えます。次に、下からトリミングパーセンテージまでカウントし、それらの値を破棄します。たとえば、10%トリミング平均は一般的です。その場合、セット内のすべてのデータの10%を渡すまで、最低値からカウントアップします。そのマークの下の値は脇に置かれます。同様に、トリミングのパーセンテージを超えるまで、最も高い値からカウントダウンし、それを超えるすべての値を脇に設定します。これで、中央の80%が残りました。あなたはその平均を取ります、そしてそれはあなたの10%トリミングされた平均です。(2つの尾から不均等な比率をトリミングすることも、1つの尾のみをトリミングすることもできますが、これらのアプローチは一般的ではなく、状況に適さないようです。)
次に、50%トリム平均を計算するとどうなるかを考えます。上半分と同様に、下半分は脇に置かれます。(通常)中央に単一の値のみが残されます。その平均(つまり、その値をとるだけ)をトリミング平均として使用します。ただし、その値は中央値であることに注意してください。つまり、中央値はトリミングされた平均です(50%トリミングされた平均です)。非常に攻撃的なものです。本質的に、データの99%が汚染されていると想定しています。これは、電力 / 効率の最終的な損失を犠牲にして、外れ値に対する究極の保護を提供します。
私の推測では、中央値/ 50%トリミングされた平均は、データに必要なものよりもはるかに積極的であり、利用可能な情報を浪費しすぎています。存在する外れ値の比率を把握している場合は、その情報を使用してトリミング率を設定し、適切なトリミング平均を使用します。トリミングパーセンテージを選択する根拠がない場合は、交差検証によって1つを選択するか、切片のみを使用したロバスト回帰分析を使用できます。