14
なぜロバスト(および耐性)統計が従来の手法に取って代わらないのですか?
データを使用してビジネス上の問題を解決する場合、従来の統計を裏付ける少なくとも1つの重要な仮定が無効であることが一般的です。ほとんどの場合、誰もこれらの仮定を確認する必要がないため、実際に知ることはありません。 たとえば、一般的なWebメトリックの多くが(正規分布と比較して)「ロングテール」であることは、今では十分に文書化されており、当然のことと考えています。別の例、オンラインコミュニティは、数千人のメンバーがいるコミュニティであっても、これらのコミュニティの多くへの貢献/参加の圧倒的最大のシェアは、「スーパー貢献者」のごくわずかなグループに起因することを十分に文書化しています。(たとえば、数か月前、SO APIがベータ版で利用可能になった直後に、StackOverflowメンバーはAPIを通じて収集したデータから簡単な分析を公開しました;彼の結論-SOメンバーの1%未満がほとんどを占めていますSOのアクティビティ (おそらく質問をして回答する)、残りの1〜2%が残り、圧倒的多数のメンバーが何もしません)。 この種の分布は、例外よりも規則の方が多い場合が多いが、しばしばべき乗密度関数でモデル化するのが最適です。これらのタイプの分布では、中心極限定理でさえ適用するのに問題があります。 このようにアナリストが関心を寄せる人口が豊富であり、古典的なモデルがこれらのデータに対して明らかに不十分に機能し、堅牢で耐性のある方法がしばらく(少なくとも20年は信じられている)より頻繁に使用されていませんか?(なぜ私も疑問に思って、私はより頻繁に利用していないが、それは本当にのための問題ではないのですCrossValidated。) はい、私は堅牢な統計に完全に専念する教科書の章があることを知っており、(いくつかの)Rパッケージがあることを知っています(robustbaseは私が使い慣れているものです)。 そして、これらの技術の明らかな利点を考えると、それらは仕事のためのより優れたツールであることがよくあります。なぜ頻繁に使用されないのですか?古典的な類似物と比較して、はるかに頻繁に(おそらく推定的に)使用される堅牢な(および耐性のある)統計情報を期待するべきではありませんか? 私が聞いた唯一の実質的な(すなわち技術的な)説明は、ロバストなテクニック(抵抗性メソッドの場合も同様)が古典的なテクニックのパワー/感度に欠けているということです。これが実際にいくつかの場合に当てはまるかどうかはわかりませんが、多くの場合に当てはまらないことは知っています。 先取りの最後の言葉:はい、私はこの質問に明確に正しい答えが一つもないことを知っています。このサイトでの質問はほとんどありません。さらに、この質問は本物の質問です。視点を進めることは口実ではありません。ここには視点がありません。単なる洞察に満ちた答えを期待している質問です。