なぜロバスト（および耐性）統計が従来の手法に取って代わらないのですか？

82

データを使用してビジネス上の問題を解決する場合、従来の統計を裏付ける少なくとも1つの重要な仮定が無効であることが一般的です。ほとんどの場合、誰もこれらの仮定を確認する必要がないため、実際に知ることはありません。

たとえば、一般的なWebメトリックの多くが（正規分布と比較して）「ロングテール」であることは、今では十分に文書化されており、当然のことと考えています。別の例、オンラインコミュニティは、数千人のメンバーがいるコミュニティであっても、これらのコミュニティの多くへの貢献/参加の圧倒的最大のシェアは、「スーパー貢献者」のごくわずかなグループに起因することを十分に文書化しています。（たとえば、数か月前、SO APIがベータ版で利用可能になった直後に、StackOverflowメンバーはAPIを通じて収集したデータから簡単な分析を公開しました;彼の結論-SOメンバーの1％未満がほとんどを占めていますSOのアクティビティ （おそらく質問をして回答する）、残りの1〜2％が残り、圧倒的多数のメンバーが何もしません）。

この種の分布は、例外よりも規則の方が多い場合が多いが、しばしばべき乗密度関数でモデル化するのが最適です。これらのタイプの分布では、中心極限定理でさえ適用するのに問題があります。

このようにアナリストが関心を寄せる人口が豊富であり、古典的なモデルがこれらのデータに対して明らかに不十分に機能し、堅牢で耐性のある方法がしばらく（少なくとも20年は信じられている）より頻繁に使用されていませんか？（なぜ私も疑問に思って、私はより頻繁に利用していないが、それは本当にのための問題ではないのですCrossValidated。）

はい、私は堅牢な統計に完全に専念する教科書の章があることを知っており、（いくつかの）Rパッケージがあることを知っています（robustbaseは私が使い慣れているものです）。

そして、これらの技術の明らかな利点を考えると、それらは仕事のためのより優れたツールであることがよくあります。なぜ頻繁に使用されないのですか？古典的な類似物と比較して、はるかに頻繁に（おそらく推定的に）使用される堅牢な（および耐性のある）統計情報を期待するべきではありませんか？

私が聞いた唯一の実質的な（すなわち技術的な）説明は、ロバストなテクニック（抵抗性メソッドの場合も同様）が古典的なテクニックのパワー/感度に欠けているということです。これが実際にいくつかの場合に当てはまるかどうかはわかりませんが、多くの場合に当てはまらないことは知っています。

先取りの最後の言葉：はい、私はこの質問に明確に正しい答えが一つもないことを知っています。このサイトでの質問はほとんどありません。さらに、この質問は本物の質問です。視点を進めることは口実ではありません。ここには視点がありません。単なる洞察に満ちた答えを期待している質問です。

— ダグ
ソース

12

Nassim Nicholas TalebによるBlack Swannは、金融の世界で単純なモデルが使用された理由と、それがもたらした危険性について説明しています。特定の欠点は、非常に低い確率をゼロと見なし、リスク管理で正規分布を盲目的に適用することです！

— ジェームズ

9

多くの仮定に依存するテストは、それらの仮定が満たされるとより強力になります。観測がIIDガウス分布であると仮定して偏差の有意性をテストできます。これは、統計として平均を与えます。制限が緩和された仮定のセットは、中央値を使用することを示しています。さらに進んで、観測値がさらに堅牢になるように相関していると仮定できます。しかし、各ステップはテストの能力を低下させ、仮定をまったく行わない場合、テストは役に立たなくなります。堅牢なテストでは、暗黙のうちに、これらの仮定がより良い現実と一致した場合にのみデータについての仮定を行うと古典よりも優れている

— ヤロスラフBulatovを

69

研究者は小さなp値を望んでおり、より強い分布の仮定を行う方法を使用すれば、より小さなp値を得ることができます。言い換えれば、堅牢でない方法を使用すると、より多くの論文を公開できます。もちろん、これらの論文の多くは誤検知かもしれませんが、出版物は出版物です。それは皮肉な説明ですが、時には有効です。

— ジョン・D・クック
ソース

4

「ときどき」は控えめな表現です...著者の論理はしばしばこれほど直接的ではありませんが、刺激/報酬のシナリオは、人々が条件付けの問題としてこれを行うようなものです

— ジョン

2

研究者は無知から行動するほど不正直ではありません。彼らは統計が何を意味するのか、どの統計が必要とするのかを理解していませんが、あなたが言ったように彼らは刺激/報酬を明確に理解しています：p> 0.05 =>出版なし。

— ジョンD.クック

10

また、「権力者」（意思決定者、監督者、レビュアー）が理解できるものを提示する必要があります。そのため、これらの人々はこれまでのキャリアを無効にする可能性があるため、高齢者で変化に抵抗する傾向があるため、進化が遅い共通言語でなければなりません！

— ジェームズ

12

いい視点ね。「p値を理解しています。p値を教えてください。」皮肉なことに、彼らはおそらくp値を理解していませんが、それは別の問題です。

— ジョンD.クック

2

これが明確に真実だとは思わない。少なくとも、現代のノンパラメトリックは、あるとしても非常に少ないパワーを犠牲にすることが多いと聞きました。知る限り、電力損失は、ランク変換を含むテストで最も顕著であり、堅牢な方法ではほとんど普及していません。

— ニックスタウナー14年

42

そのため、「クラシックモデル」（どのようなものでも-教科書で教えられ、MLで推定された単純なモデルのようなものを意味すると思います）は、おそらく多くの現実世界のデータセットで失敗します。

モデルが失敗した場合、それを修正するための2つの基本的なアプローチがあります。

仮定を減らす（モデルを減らす）
より多くの仮定をする（より多くのモデル）

堅牢な統計、準尤度、およびGEEアプローチは、モデルがすべてのデータポイントを保持しない（堅牢）またはデータのすべての側面を特徴付ける必要がない（QLおよびGEE）推定戦略を変更することにより、最初のアプローチを取ります。

代替方法は、推定方法を以前と同じに保ちながら、汚染データポイントのソース、または誤っていると思われる元のモデルの側面を明示的にモデル化するモデルの構築を試みることです。

前者を直感的に好む人もいれば（経済学で特に人気がある）、後者を直感的に好む人もいます（特に複雑なモデルに満足する傾向があるベイジアンの間で特に人気があります。特に、シミュレーションツールを使用することに気づいたらとにかく推論）。

たとえば、ポアソンではなく負の二項式や通常ではなくtを使用するファットテール分布の仮定は、2番目の戦略に属します。「ロバスト統計」とラベル付けされたほとんどのものは、最初の戦略に属します。

実際問題として、現実的に複雑な問題に対する最初の戦略の推定量を導き出すことは非常に難しいようです。それがそうしない理由ではありませんが、それがおそらくあまり頻繁に行われない理由の説明でしょう。

— 共役
ソース

4

+1。非常に良い説明。また、一部の「ロバスト」メソッドはむしろアドホック（切り捨てられた手段）であり、「ロバスト」はメソッドの特定の側面に関連付けられており、一般的な品質ではないが、「ロバスト」は「「私の方法は堅牢なので、データを心配する必要はありません」。

— ウェイン

素晴らしい答え。非常に多くの回答が、ロバストな統計を理解することの難しさ、または仮定の違反を無視するためのインセンティブに焦点を合わせていることは気になります。堅牢な統計が必要な場合とそうでない場合があることを知っている世間の人々を無視します。

— ケンジ

29

私はそれが教えることの遅れであることを提案します。ほとんどの人は、大学または大学で統計を学んでいます。統計が最初の学位ではなく、数学またはコンピューターサイエンスの学位を取得した場合は、おそらく基本的な統計モジュールのみをカバーします。

確率
仮説検定
回帰

これは、問題に直面したとき、あなたが問題を解決するためにあなたが知っているものを使用しようとすることを意味します。

データが正常ではありません-ログを取得します。
データに迷惑な外れ値があります-それらを削除してください。

あなたが他の何かに出くわさない限り、より良いことをすることは困難です。それが何と呼ばれているかわからない場合、Googleを使用して何かを見つけるのは本当に難しいです！

すべての手法で、新しい手法がフィルターされるまでに時間がかかると思います。標準的な仮説検定が標準的な統計カリキュラムの一部になるまでにどのくらいかかりましたか？

ちなみに、統計学の学位では、指導にまだ遅れがあります-短いものです！

— csgillespie
ソース

4

しかし、これは少なくとも心理学では興味深い教育学的問題を引き起こします。私の知る限り、私の分野で使用されているほとんどの入門統計書では、脇を除いて堅牢な対策については実際に議論していません。

— -russellpierce

3

それは非常に真実であり、心理学でも、ノンパラメトリックとノンノーマルの間に迷惑な混乱があり、理解を妨げるようです。

— -richiemorrisroe

2

私たち心理学者の中には、統計のすべてについて混乱している人もいます！:)

— ニックスタウナー14年

21

合理的なレベルで統計データ分析のトレーニングを受けた人は誰でも、堅牢な統計の概念を定期的に使用します。ほとんどの研究者は、重大な異常値とデータ記録エラーを探すのに十分な知識を持っています。疑わしいデータポイントを削除するポリシーは、19世紀にまでさかのぼり、レイリーLord、GGストークス、および他の同時代人たちが登場しました。質問が次の場合：

なぜ研究者は、位置、スケール、回帰などの推定値を計算するために最新の方法を使用しないのですか？

その後、上記の回答が得られます。メソッドは、過去25年、たとえば1985〜2010年に大部分が開発されました。盲目的に古典的な方法を使用します。John Tukeyは、使用する堅牢/耐性のある方法は重要ではないとコメントしています。重要なのは、いくつかの方法を使用することです。古典的な方法とロバスト/耐性のある方法の両方を日常的に使用することは完全に適切であり、問題になるほど異なる場合にのみ心配します。しかし、それらが異なる場合、あなたは一生懸命に考える必要があります。

代わりに、質問は次のとおりです。

なぜ非常に不安定な推定値を盲目的に適用するのではなく、研究者がデータについて停止して質問しないのですか？

その答えは本当にトレーニングにかかっています。統計の適切な訓練を受けたことのない研究者が非常に多く、p値を「統計的有意性」のすべてと最後として一般的に信頼していると要約されています。

@Kwak：1970年代からフーバーの推定がある単語の古典的な意味では、堅牢な：彼らは外れ値を抵抗します。そして、再推定推定器は実際には1980年代よりもずっと前に遡ります。（1971年の）プリンストンロバストネス研究には、再推定推定である場所のバイスクエア推定が含まれていました。

— ウェズリー・バー
ソース

2

projecteuclid.org/… 堅牢な統計へのJohn Tukeyの貢献についてPeter Huberによって書かれた無料のドキュメント。合理的に読みやすい、式に光を当てます。

— ウェスリーバール

20

統計は、非統計志向の研究者のためのツールであり、彼らは気にしません。

私はかつて、私の元妻が共著していた医学記事を手伝おうとしたことがあります。私はデータ、それが示唆すること、特定の観察が研究から除外された理由を説明するいくつかのページを書きました...そして、主任研究者である医師はそれをすべて捨て、誰かにp値を計算するように頼みました（そして記事を読むすべての人について）気にかけました。

— カルロス・アクシオリー
ソース

12

私は2つの方向に答えます：

堅牢なものは、必ずしも堅牢とラベル付けされているわけではありません。すべてに対する堅牢性が存在すると信じるなら、あなたは素朴です。
ロバストネスの問題を解決する統計的アプローチは、実世界に適合しない場合もありますが、キッチンのように見えるアルゴリズムよりも（概念として）価値がある場合がよくあります。

開発

最初に、統計には多くの優れたアプローチがあると思います（Rパッケージでそれらを見つけることができますが、どこかにロバストが記載されているとは限りません）実際に堅牢であり、実際のデータでテストされ、「ロバスト」のアルゴリズムが見つからないという事実「どこかで言及したからといって、堅牢ではないという意味ではありません。とにかく、堅牢であることは普遍的であると考える場合、適応ツールを使用したり、適応モデルを作成したりするために、分析するデータに関する知識/専門知識が必要な堅牢な手順（無料の昼食なし）を見つけることはできません。

一方、統計のいくつかのアプローチは、1つのタイプのモデル専用であるため、堅牢ではありません。研究室で働いて物事を理解しようとするのはいつかいいと思う。また、問題を個別に処理して、解決策がどの問題であるかを理解することも有効です。これが数学者の仕事です。ガウスモデルelocant：の例は、ガウスの仮定が満たされることはありませんが、現在統計で実際に使用されているアイデアの75％をもたらしているため、非常に批判されています。これはすべて、出版または滅びのルールに従うために紙を書くことに関するものだと思いますか（私は嫌いです、私は同意します）？

— ロビン・ジラード
ソース

11

私自身の研究のために少し統計を学んだ誰かとして、私はその理由が教育的で慣性的であると推測します。

私は自分の分野で、トピックが教えられる順序がその分野の歴史を反映していることを観察しました。最初に来たアイデアが最初に教えられます。大まかな説明のためだけに統計情報に浸る人々にとって、これは彼らが最初に、そしておそらく最後に古典的な統計情報を学ぶことを意味します。それから、たとえ彼らがより多くを学んだとしても、古典的なものは、優位性の効果のために彼らとよりよく付き合う。

また、誰もが2サンプルのt検定が何であるかを知っています。Mann-WhitneyまたはWilcoxon Rank Sumテストが何であるかを誰もが知っているわけではありません。これは、ロバストなテストが何であるかを説明するために、古典的なテストでは何もする必要がないのに、ほんの少しのエネルギーをかける必要があることを意味します。このような状況では、堅牢な方法を使用する必要がある人が明らかに少なくなります。

— ヨフル
ソース

9

Wooldridge「導入計量経済学-現代のアプローチ」2E p.261。

Heteroskedasticity-robust標準エラーが通常のOLS標準エラーよりも頻繁に有効である場合、なぜ通常の標準エラーを気にする必要があるのでしょうか？...エロスは正規分布しているため、通常のt統計は、サンプルサイズに関係なく正確なt分布を持ちます。堅牢な標準誤差と堅牢なt統計は、サンプルサイズが大きくなった場合にのみ正当化されます。サンプルサイズが小さい場合、ロバストなt統計は、t分布にあまり近くない分布を持つ可能性があり、推論を無効にする可能性があります。サンプルサイズが大きい場合は、断面アプリケーションでのヘテロスケダスチシティに強い標準エラーのみを常に報告するケースを作成できます。

2

悪いニュースはこちら：pan.oxfordjournals.org/content/23/2/159

— 共役前

7

それらは相互に排他的ではありませんが、ベイジアン統計の人気の高まりはその一部だと思います。ベイジアン統計は、事前分布とモデルの平均化により、多くの同じ目標を達成でき、実際にはもう少し堅牢になる傾向があります。

— ジョー
ソース

6

私は統計学者ではありません。統計の経験はかなり限られています。コンピュータービジョン/ 3D再構成/ポーズ推定で堅牢な統計を使用しています。以下は、ユーザーの観点からの問題の私の見解です。

第一に、堅牢な統計は、「堅牢な統計」と呼ばずに、工学と科学で多く使用されていました。多くの人がそれを直感的に使用し、特定の方法を実際の問題に合わせて調整する過程でやって来ます。たとえば、一般的に使用される反復再重み付け最小二乗法およびトリム平均/トリム最小二乗法は、ユーザーが堅牢な統計を使用したことを知らないだけで、実際の非合成データに対してメソッドを実行可能にします。

第二に、結果が検証可能である場合、または明確に見えるエラー測定基準が存在する場合、「直感的」で意識的な堅牢な統計の両方が実際に常に使用されます。正規分布で得られた結果が明らかに無効または間違っている場合、人々は重みを調整し始め、トリミング、サンプリングを行い、用語を知っているかどうかに関係なく、堅牢な推定器を使用します。一方、研究の最終結果がいくつかのグラフィックと図だけであり、結果を検証することに鈍感がない場合、または通常の統計で十分な結果が得られる場合-人々は気にしません。

そして最後に、ロバスト統計の理論としての有用性について-理論自体は非常に興味深いものですが、実用的な利点はほとんどありません。堅牢な推定器のほとんどはかなり単純で直感的であり、多くの場合、人々は統計的な知識なしにそれらを再発明します。ブレークダウンポイントの推定、漸近、データの深さ、ヘテロスケダシティなどの理論により、データをより深く理解できますが、ほとんどの場合、それは不要です。1つの大きな例外は、ロバストな統計と圧縮センシングの交差であり、「クロスブーケ」などの新しい実用的な方法を生成します。

— mirror2image
ソース

5

ロバストな推定量に関する私の知識は、回帰パラメータのロバストな標準誤差のみに関するものであるため、私のコメントはそれらのみに関するものです。この記事を読んでもらうことをお勧めします。

いわゆる「Huber Sandwich Estimator」および「Robust Standard Errors」：Freedman、A. David The American Statistician、Vol。60、No。4（2006年11月）、pp。299-302。doi：10.1198 / 000313006X152207（PDFバージョン）

これらのアプローチで特に懸念しているのは、それらが間違っているということではなく、単に大きな問題から注意をそらしています。したがって、私はロビン・ジラードの答えと「無料の昼食なし」という彼の言及に完全に同意します。

— アンディ・W
ソース

3

堅牢な統計に必要な計算と確率は（通常）より困難です。そのため、（a）理論が少なくなり、（b）把握が難しくなります。

— ジョンロス
ソース

2

ガウス-マルコフの定理がこの長い回答リストに記載されていないことに驚いています。

球面誤差を伴う線形モデル（有限誤差分散による異常値なしの仮定を含む）では、OLSは線形不偏推定量のクラスで効率的です。 OLSを上回ることはできません。」

私はこれがほとんど常にOLSを使用することを正当化するべきだと主張しているわけではありませんが、その理由に必ず貢献します（特に教育においてOLSに集中することは良い言い訳です）。

— クリストフ・ハンク
ソース

ええ、はい、しかし、それは、分散を最小化することが関連する基準であると仮定しています。

— kjetil bハルヴォルセン

1

承知しました。OLSが有用な技術であると考える最も有名な理由であると思われるものを、堅牢な技術で置き換えられなかった理由のリストに追加したかっただけです：置き換えてはならない場合があります。

— クリストフハンク

0

私の推測では、堅牢な統計は決して十分ではない、つまり、堅牢であるためには、これらの統計は分布に関する情報の一部をスキップします。そして、それは必ずしも良いことではないと思います。つまり、堅牢性と情報の損失の間にはトレードオフがあります。

たとえば、中央値は（平均とは異なり）要素の約半分のみの情報を使用するため（離散的な場合）、中央値は堅牢です：

m e d i a n ({1, 2, 3, 4, 5}) = 3 = m e d i a n ({0.1, 0.2, 3, 4000, 5000})

$median(\{1, 2, 3, 4, 5\})=3=median(\{0.1, 0.2, 3, 4000, 5000\})$

— アヨルゴ
ソース

1

中央値が非常に脆弱であり、平均値が非常に適切に機能する状況については、stats.stackexchange.com / questions / 74113 /…を参照してください。

— ニックコックス