Andrew Gelmanはブログ投稿でこう書いています:
ステップワイズ回帰は、外れ値の検出や円グラフなど、これらの1つです。統計学者の間では人気が高いように見えますが、統計学者はちょっと冗談だと考えています。
円グラフへの参照を理解しましたが、Gelmanによると、統計学者が異常値の検出を軽視しているのはなぜですか?それは人々が彼らのデータを過剰に剪定することを引き起こすかもしれないということだけですか?
Andrew Gelmanはブログ投稿でこう書いています:
ステップワイズ回帰は、外れ値の検出や円グラフなど、これらの1つです。統計学者の間では人気が高いように見えますが、統計学者はちょっと冗談だと考えています。
円グラフへの参照を理解しましたが、Gelmanによると、統計学者が異常値の検出を軽視しているのはなぜですか?それは人々が彼らのデータを過剰に剪定することを引き起こすかもしれないということだけですか?
回答:
@Jerome Baumのコメントがスポットです。ここでゲルマンの言葉を引用するには:
外れ値の検出は良いことです。問題は、非統計学者が外れ値を作成するプロセスについてまったく考えようとせずに、「外れ値」という単語にとらわれているように見えることです。それが中央値からのsdの数よりも多い場合など、異常値として何かをラベル付けします。外れ値の概念は有用ですが、私はそれがコンテキストを必要とすると思います。何かを外れ値としてラベル付けする場合は、なぜそう思うのかを理解したいと思うでしょう。
もう少し追加するには、まず外れ値を定義します。「他のポイントから遠く離れているように見える」のような視覚的なものを参照せずに、厳密にそうするようにしてください。それは実際にはかなり難しいです。
外れ値とは、ポイントの生成方法のモデルが与えられている可能性が非常に低いポイントだと思います。ほとんどの状況では、人々は実際にはポイントがどのように生成されるかについてのモデルを持っていません。したがって、Andrewが言うように、人々はある種のガウス過程がポイントを生成していると想定するようなことをするので、ポイントが平均からのSDの特定の数を超える場合、それは異常値です。数学的には便利ですが、原則はありません。
また、異常値が特定された後は、異常値をどう処理するかについても把握していません。たとえば、ほとんどの人はこれらの不便な点を捨てたいと思っています。多くの場合、突破口や発見につながるのは外れ値ではなく、外れ値です。
非統計学者が実践しているように、異常値の検出には多くのアドホックな方法があり、Andrewはそれに不快です。
これは、回帰などの統計分析の2つのタイプの目的の間の古典的な綱引きを示しています。(下記の私のコメントで一般化を許してください。)
統計学者の観点からは、通常、説明は予測よりも重要です。したがって、それらは本質的に説明に「偏っている」。なぜ外れ値があるのですか?それは本当にデータ入力のエラー(値の最後の余分なゼロ)ですか、それとも、たまたま極端な有効なデータポイントですか?これらは統計学者にとって重要な質問です。
OTOH、データサイエンティストは説明よりも予測に関心があります。彼らの目的は、将来の結果(例:購入、消耗)を予測するのに優れた強力なモデルを開発することです。いずれかのフィールドに極端な値がある場合、データサイエンティストは、モデルの予測精度の向上に役立つ場合、その値に(たとえば、98パーセンタイル値まで)喜んで上限を設定します。
私はこれらの2つのアプローチのどちらかに対して一般的な傾向はありません。ただし、段階的回帰や異常値処理などの方法/アプローチが「ちょっとした冗談」かどうかは、フェンスのどちら側に立っているかによって異なります。