統計における時代錯誤的な実践の例は何ですか?


55

対処するように設計された問題(通常は計算上の問題)のほとんどが解決されているにもかかわらず、その存在を維持しているプラ​​クティスに言及しています。

たとえば、Yatesの連続性補正は、フィッシャーの正確検定を検定で近似するために発明されましたが、ソフトウェアが大きなサンプルでもフィッシャーの検定を処理できるようになったため、実用的ではなくなりました(これは「 AgrestiのCategorical Data Analysisのような教科書は、Yatesの修正が「もはや必要ではない」ことをしばしば認めているため、その存在を維持します)。χ2

そのような慣行の他の例は何ですか?


フィッシャーの正確なテストを実行するための計算能力の利用可能性によってカイ2乗テストが廃止されたことは実際にはわかりません。たとえば、@ gungによる別の質問に対するこの回答を参照してください。(問題をより詳細に議論するスレッドがあると確信していますが、「カイ二乗を使用すべきか、フィッシャーの正確なテストを使用すべきか」という質問がたくさんあるので、見つけることができません。私が検索します!)
シルバーフィッシュ

@Silverfish:が廃止されたわけではなく、Yatesの修正のみが廃止されました。イェーツの修正は、限界が固定されていない場合、あまりにも保守的であることが研究によって示されたと思います。Michael Haberの記事The Continuity Correction and Statistics Testingはレビューを提供しました。χ2
フランシス


LADの代わりにOLSを使用していますか?
-PatrickT

5
@PatrickT:私はたくさんのトラブル時代錯誤OLSを呼ぶのを。確かに、LADが明らかに優れている特殊なケースがあります...しかし、他の方向でも同じことが言えます。
クリフAB

回答:


49

やなどの閾値有意水準の使用は、ほとんどの研究者が以前に計算された臨界値の表に依存していた時代からの歴史的な二日酔いであると強く主張します。これで、優れたソフトウェアは値を直接与えます。実際、優れたソフトウェアを使用すると、教科書のテストに依存せずに分析をカスタマイズできます。P = 0.01 PP=0.05P=0.01P

バッチを受け入れるか拒否するかを決定する品質管理のように、何らかの重要なテストの問題に決定が必要な場合にのみ、これは論争です。ただし、使用するしきい値は、伝統に依存するのではなく、リスク分析から拡大する必要があります。そして、科学ではしばしば、定量的指標の分析は決定よりも適切です。定量的に考えることは、粗雑な二分法だけでなく、有意対有意ではない値のサイズに注意を向けることを意味します。P

私はここで、本全体とおそらく数千の論文の焦点である複雑で論争の的となっている問題に触れたことにフラグを立てますが、それはこのスレッドの公正な例のようです。


4
素晴らしい例!参考までに、このスレッドは言及する価値があります。p値に関して、なぜ1%と5%ですか?なぜ6%または10%ではないのですか?
フランシス

5
@ JM私はあなたが正しいと95%確信していますが、99%は確信していません。
マークL.ストーン

5
実際、これが素晴らしい例かどうかはわかりません。でテストする方が以前よりもはるかに簡単であることはですが、特別な場合(つまり、品質管理)以外では、なぜそうしたいのかについての良い議論を見たことはありません。任意の有意水準がまだ使用されていることを知っています。α=0.038561
クリフAB

4
@CliffAB正確なP値の主なポイントは、決定に採用する重要なレベルを構成することを決定することではないと思います。私は確かにそれを提案したり主張したりしていません。ここでの議論の一部は、0.05と0.01が従来の最高レベルであるというだけではなく、テストがバイナリ決定を行うのではなく、帰無仮説に対する証拠の強度を評価する1つの方法を提供することです。実際には、多くの分野で0.05および0.01レベルが非常に頻繁に使用されています。
ニックコックス

4
@Nick Coxのんびりしたまろやかな群衆の0.1レベルを忘れないでください。
マークL.ストーン

24

このサイトの多くの訪問者が私に同意するだろうと思う一つの方法は、段階的回帰です。常に行われいますが、このサイトで専門家を探してその使用を嘆く必要はありません。LASSOのような方法がより好まれます。


4
ハ!! 時代錯誤(段階的回帰)を次世代の時代錯誤(LASSO)に置き換えることをお勧めします。stats.stackexchange.com/questions/162861/…を参照してください。
マークL.ストーン

3
@ MarkL.Stone:ねえ、少なくとも20年は正しい方向に向かっています。私はこれらの方法にあまり精通していないので、彼らに私の支持を与えることができる前に、それらを読み上げなければなりません。
クリフAB

2
記事をすばやく読んだ後、LASSOが公式には時代遅れになっていると判断するのを少しためらっていますが、必ずしも最適な選択とは限りません。たぶん5年後には、私はLASSOを時代遅れにしたほうが安心でしょう。
クリフAB

2
@amoeba:マークは、最良のサブセット回帰のツールとしてLASSOを使用する慣行に言及していると思います。たとえば、最初にLASSOを適合させ、次にゼロ以外の回帰パラメーターを使用してペナルティのないモデルを再接続することについて話し合った人を読んだことを漠然と思い出します。最適なサブセット回帰は、これを行うためのより直接的な方法かもしれません(あなたが言うように、これがアナリストがやりたいことであっても、これが良いアイデアであることは明らかではありません)。
クリフAB

2
...そして、この論文では、少なくとも1つの状況(つまり、特定のパラメーターでのシミュレーション)を示しています。
クリフAB

17

私の見解では、少なくとも(応用された)計量経済学では、共分散行列の正しい仕様に(漸近的に)依存する「時代錯誤の実践」ではなく、ロバストまたは経験的共分散行列を使用することがますます標準になっています。もちろん、これには論争がないわけではありません。CrossValidatedで私がここでリンクした回答のいくつかを参照してください。しかし、それは確かに明らかな傾向です。

E[あなたはあなたは]=σ2n

他の例には、パネルデータ、講義スライドでのImbensおよびWooldridgeの書き込みなどがあり、ランダム効果分散共分散行列の使用に反論しています(分散コンポーネントの仕様の誤りをデフォルトとして暗黙的に想定しています)。

σc2σあなたは2

一般化線形モデル(指数ファミリーに属する分布の場合)を使用すると、正しい分布の仮定(ここでの時代錯誤の慣行)に依存するのではなく、常にいわゆるサンドイッチ推定量を常に使用することをお勧めします:たとえば、この回答またはCameron参照誤った仕様の場合、疑似最大尤度推定は非常に柔軟であるため、データをカウントします(負の二項式が正しい場合はポアソンを使用するなど)。

このような[White]標準エラー修正は、OLSの同様の不均一分散修正よりもはるかに大きな違いを生じる可能性があるため、ポアソン回帰に対して行う必要があります。

Greeneは第14章のテキスト(Webサイトで入手可能)に、たとえば重要な注意事項を書いており、このプラクティスの長所と短所について詳しく説明しています。

現在の文献には、尤度関数に関係なく、この[サンドウィッチ]推定量を定期的に計算する傾向があります。尤度関数が誤って指定されており、M推定器の他の条件が満たされない場合の美徳。


4
興味深いが、問題は時代錯誤であり、現在ますます標準になっているものではないため、答えを逆にする必要があります。
ニックコックス

1
こんにちはニック、コメント(および編集)に感謝します。時代錯誤的な慣行を強調するためにテキストを修正しました。前の方法は標準エラーについて特別なことをほとんど行わないため、テキスト全体を反転しませんでした。
アルネジョナスウォーンケ

場合によっては、自然ではなく、堅牢な代替手段、たとえば時系列を使用することができません。だから、「もっと人気がある」のではなく、「一部の地域でもっと人気がある」ようになっていると思います。
Henry.L 16

13

m>1mm=1

m=30


これを投稿するためにここに来ました。また、FWERがさらに新しいFDRメソッドよりも優先される状況があるとは確信していません(スケーラビリティと適応性のため)。
アレクシス

13

ほとんどの時代錯誤の実践は、おそらく統計の教え方と、基本的なクラスを数回しか受けていない膨大な数の人々によって分析が実行されるという事実によるものです。教育的に理にかなっている概念の洗練度を高める論理的なシーケンスを形成するため、標準的な統計のアイデアと手順のセットをよく教えます(どうすれば人口分散を知ることができますか?)。私自身もこれに罪を犯しています。時折、統計101と102を教えており、「これを行うにはもっと良い方法がありますが、このクラスの範囲を超えています」と常に言います。入門手順(ほとんどすべて)を超えて進んでいない学生には、基本的な、しかし取って代わられた戦略が残されています。

  1. 統計101の例の場合、おそらく最も一般的な時代錯誤の慣行は、何らかの仮定をテストし、その後、テストが有意ではなかったために従来の統計分析を実行することです。より現代的/高度/防御可能なアプローチは、最初からその仮定にロバストな方法を使用することです。詳細については、いくつかの参照:

  2. 統計102の例では、多くのモデリング手法が時代遅れになっています。

    • Yp
    • Y
    • 高次多項式を使用して、曲率と3次スプラインをキャプチャします。
    • pR2
    • 反復測定データでは、rmANOVAを使用できるように連続変数を分類するか、複数の測定値を線形混合モデルを使用して比較します。
    • 等。

これらのすべての場合のポイントは、人々が入門クラスで最初に教えられたことをしているということです。なぜなら、彼らは単により高度で適切な方法を知らないからです。


5

非常に興味深い例は、計量経済学の単位根検定です。時系列のラグ多項式の単位根をテストするために使用できる選択肢はたくさんありますが(例:(Augmented)Dickey Fuller TestまたはKPSSテスト)、ベイジアン分析を使用すると問題を完全に回避できます。シムズは、1991年の「ユニットルーターの理解:ヘリコプターツアー」という題の挑発的な論文でこれを指摘しました。

ユニットルートテストは引き続き有効であり、計量経済学で使用されます。私は個人的にこれを主にベイジアンの慣行に順応することに消極的な人々に帰するが、多くの保守的な計量経済学者はベイズの世界観が計量経済学研究の前提と矛盾すると言うことでユニットルートテストの慣行を擁護している。(つまり、エコノミストは世界を固定パラメーターを持つ場所と考えており、ハイパーパラメーターによって支配されるランダムパラメーターではありません。)


5
ベイズの慣行がこれらのテストをどのように回避するかについての簡単な議論に興味があります。言い換えれば、この主張をどのように主張しますか?
マイクハンター

論文を読んでからしばらく経っていることを認めざるを得ませんが、主なポイントは、時系列のベイズ分析にフラットな事前分布を使用すると、標準のt値を使用できることです。
ジェレミアスK

5

高品質の統計ソフトウェアシステムのライセンス料を支払う。#R


1

仮説検定の頻繁な領域で等価性を同時にテストすることなく、差の両側検定を指導/実施することは、確認バイアスに対する深いコミットメントです。

いくつかのニュアンスがありますが、効果サイズの思慮深い定義を備えた適切なパワー分析はこれを防ぐことができ、ほぼ同じ種類の推論を提供しますが、(a)パワー分析は調査結果を提示する際に無視されることが多く、たとえば、重回帰の各変数に対して推定された各係数の検出力分析を見たことはありません、差のテストと等価性のテスト(つまり、関連性テスト)を組み合わせて行うのは簡単です。


0

(ロバストな)ポアソンモデルではなく負の二項モデルを使用して、過分散があるという理由だけで、カウント変数の対象パラメーターを識別しますか?

参考として参照してください:https : //blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

固定効果の場合にポアソンがより堅牢であるという証拠は、次のように参照されることが多いため、ごく最近のものです。 77–97。


-6

以下にいくつかの時代錯誤を示します。

  • 私たちの不完全なサンプルを評価できる、永遠の固定された動きのない理論的なエーテルには、単一の「真の」集団が存在するというネオプラトニックの仮定は、学習と知識を前進させるのにほとんど役に立たない。

  • オッカムのカミソリなどの命令に内在する還元主義は、時代と矛盾しています。ORは、「競合する仮説の中で、最も仮定が少ない仮説を選択する必要がある」と要約できます。代替案には、「複数の理論がデータと一致する場合、それらをすべて保持する」とおおまかに述べている複数の説明のエピクロスの原理が含まれます。

  • 査読システム全体では、オーバーホールが必要です。

*編集*

  • 数千万の機能を含む大規模なデータにより、変数選択フェーズはもう必要ありません。

  • さらに、推論統計は無意味です。


コメントは詳細なディスカッション用ではありません。この会話はチャットに移動さました
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.