統計的手法を悪用するには明らかに多くの方法があります。評判の良い学術誌で最初に明示的なアドバイスとして公開された貧弱な統計手法の例(たとえば、「この方法を使用する必要があります...」)を知っていますか?
例としては、ロジスティックモデルまたはCox PH回帰モデル(LINK)で頻繁に呼び出される予測ルールごとに10個のイベントがあります。
明確にするために、私はたまたま貧弱な統計手法を使用した高引用文献を意味しません-これらは残念ながら一般的です。
統計的手法を悪用するには明らかに多くの方法があります。評判の良い学術誌で最初に明示的なアドバイスとして公開された貧弱な統計手法の例(たとえば、「この方法を使用する必要があります...」)を知っていますか?
例としては、ロジスティックモデルまたはCox PH回帰モデル(LINK)で頻繁に呼び出される予測ルールごとに10個のイベントがあります。
明確にするために、私はたまたま貧弱な統計手法を使用した高引用文献を意味しません-これらは残念ながら一般的です。
回答:
RAフィッシャー、「野外実験の配置」。英国農業省のジャーナル。33:503–513。1926年。
インターネット上のさまざまな情報源によると、この論文は、任意の統計的検定で有意なしきい値としてを使用することの起源です。
...「治療中に何かがあるか、20回の試験で2回以上発生しないなどの偶然が発生した」と言えるレベルで線を引くのが便利です。
... 20分の1のオッズが十分に高くないと思われる場合、必要に応じて50分の1(2パーセントポイント)または100分の1(1パーセントポイント)で線を引きます。個人的には、作家は重要度の低い基準を5%ポイントに設定し、このレベルに到達しないすべての結果を完全に無視することを好みます。科学的事実は、適切に設計された実験がこのレベルの重要性を与えることがめったに失敗しない場合にのみ、実験的に確立されたとみなされるべきです。
計量経済学では、まともな雑誌に掲載された有名な(そして非常に熟練した)計量経済学者による伝播された方法のいくつかの例を確実に見つけることができます。私は理論的な論文を知りませんが、Lalonde(1986)は現在使用されている方法がうまくいかないことを指摘することで非常に有名です:彼は同じデータセットの実験方法と観測方法を比較し、(因果関係)治療の分野で大きな違いを見つけました評価。当時使用されていたこれらの非実験的手法を広め、現在でも多くの場合使用されている大規模な文献があります。
その後、傾向スコアのマッチングが可能な解決策であるかどうかについての議論がありました(そして今でもそうです)(例えば、ここを参照)。
さらに、機器変数の推定については多くの議論があります。引用の多い元の論文の結論には異議が唱えられています。これはおそらくあなたの質問に最も近い例です。Bound and Jaeger(1996年、およびその後の論文)は、応用計量経済学の文献で手段変数法を基本的に確立したAngrist and Krueger(1991; Google Scholarによる2700の引用)の有名な論文の発見に疑問を呈しています。
因果関係を確立するための、いわゆる簡約形式推定の適切性についても大きな議論があります。たとえば、Imbens(2010)を参照してください。
別の大きなトピックは、もちろん標準エラーに関するものです。p値を伝播する有名な論文をおそらく見つけることができます。計量経済学では、既存の方法が間違っているために、より長い時系列の標準誤差が誤って計算されています(差分の差の設計)。こちらを参照してください。しかし、こうした文脈でこれらの方法を提案しているオリジナルの高引用論文を知りませんが、この分野でいくつかの例を見つけることができると確信しています。
ソース:
Angrist、Joshua D.、およびAlan B. Keueger。「義務教育は学校教育と収入に影響しますか?」The Quarterly Journal of Economics 106、いいえ。4(1991):979-1014。
バートランド、マリアンヌ、エスター・デュフロ、センジル・ムライナタン。「差異の差の推定値をどれだけ信頼すべきか。」四半期経済学ジャーナル119、いいえ。1(2004):249-275。
バウンド、ジョン、デビッドA.イェーガー。賃金方程式の手段としての出生の季節の妥当性について:Angrist&Krueger'sのコメントは、強制就学はScho。No. w5835に影響します。
デヘジア、ラジーエフ。「実用的な傾向スコアマッチング:スミスとトッドへの返信。」Journal of econometrics 125、no。1-2(2005):355-364。
Imbens、Guido W.「何よりも優れたLATE:Deaton(2009)およびHeckman and Urzua(2009)に関するいくつかのコメント。」Journal of Economic Literature 48、no。2(2010):399-423。
ラロンデ、ロバートJ.「実験データによるトレーニングプログラムの計量経済評価の評価」。アメリカ経済レビュー(1986):604-620。*
私は試してみる(それほど強くはないが):
非常に便利な[Cameron、AC、&Miller、DL(2015)。クラスターロバスト推論の実務者向けガイド。Journal of Human Resources、50(2)、317-372。] //すでに1900人のGoogle奨学生の引用//標準エラーの適切なクラスタリングのレベルに関するアドバイスを提供しています。
「コンセンサスは保守的であり、偏りを避け、可能な限りクラスターが少なすぎることが懸念される点まで、より大きくより集約的なクラスターを使用することです。」
ただし、[Abadie、A.、Athey、S.、Imbens、GW、&Wooldridge、J.(2017)。クラスタリングの標準エラーをいつ調整する必要がありますか?(No. w24003)。国立経済調査局。]は、「実際には、あまりにも集約されたレベルでのクラスター化に害がある」ことを示しています。後のページ1を参照してください:https : //economics.mit.edu/files/13927
Abadie et al(2017)によって強調された2つの誤解から始まって、ストンガーケースを作成できるかもしれません。