統計の技術的ではないが詳細な記事に対する推奨事項


24

この質問のインスピレーションは、故Leo-Breimanの有名な記事Statistical Modeling:The Two Cultures(available open access)から来ています。著者は、データを分析するための2つの異なるアプローチとして見ているものを比較し、古典的な統計と機械学習の重要なアイデアに触れています。ただし、この記事は幅広い読者に理解できます-おそらく、博士レベルで統計を追求したか、入門コースのみを受講したかどうかに関係なく、データを扱う人なら誰でも理解できます。また、記事は刺激的です。つまり、議論を容易に生み出します(同じ号で発行された一連の活発な解説によって証明されています)。

これらの品質を備えた記事をもっと見つけたいです。つまり、次の記事:

  • 統計/データ分析の基本概念に触れる
  • 研究フォーカスと正式な統計トレーニングのばらつきの観点から幅広い聴衆が理解できる
  • 洞察であれ論争であれ、議論を刺激する

2
これまでの回答は非常に興味深いものでした!それらを来てください。もちろん、meta.stats.stackexchange.com
リチャードボーダー

2
統計への王道はありません。
アクサカル16

回答:


15

シュムエリ、ガリット。「説明するか、予測するか?」 統計科学(2010):289-310。

私はそれがあなたの3つの箇条書きに一致すると信じています。

説明的モデリングと予測的モデリング(用語は自明である必要があります)について説明し、それらの違いがしばしば認識されないことに注意します。

モデリングの目的(説明的対予測的)に応じて、異なるモデル構築戦略を使用でき、異なるモデルを「最適な」モデルとして選択できるという点が挙げられます。

これはかなり包括的な論文であり、読みやすいものです。それについての議論は、Rob J. Hyndmanのブログ投稿にまとめられています。相互検証に関する関連する議論は、このスレッドで行われます(多くの賛成票があります)。同じトピックに関する別の(未回答の)質問はこれです。


12

レーマン、エーリッヒL. 「フィッシャー、ネイマンピアソンの仮説検定の理論:1つの理論か2つ?」Journal of the American Statistical Association 88.424(1993):1242-1249。

多くの人には知られていませんが、専門職の巨人がまだ私たちの中にいたとき、彼らはお互いにうまくいきませんでした。特に仮説検定の基礎に関する議論では、帰納的であろうと演ductive的であろうと、フィッシャーとネイマン・ピアソンの間でかなり深刻なpretty辱が飛び交っていました。そして、この問題は彼らの生涯を通じて決して解決されなかった。

それらがすべて通過したずっと後、レーマンはギャップを埋めようとし、私の意見では、アプローチが相互排他的ではなく補完的であることを示しているので、良い仕事をしています。これは、学生が最近習ったことです。仮説検定に関するいくつかの基本的なことを知っておく必要がありますが、それ以外の場合は問題なく論文をフォローできます。


1
引用していただきありがとうございます。私はかつてFとNPのアプローチの間の疑惑のある競合について質問しました:stats.stackexchange.com/questions/112769、そしてそれが受け取った多くの注意と賛成にもかかわらず、私はまだ既存の答えのいずれにも納得していませんいずれかを受け入れます)。私はそのスレッドに戻り、読書や賞金などをかけるつもりですが、時間を見つけることはありません。リーマンの論文に精通している場合は、そこに回答を投稿することをお勧めします。
アメーバは、モニカーを復活させる

@amoebaレーマンの論文を何度も読みましたが、とても読みやすいですが、あなたほど徹底的に調査したとは思いません。ですから、時間があるときはいつでも、彼の視点を確認することをお勧めします。Behrens-Fisher問題の議論が特に明らかになります。
JohnK

共有してくれてありがとう。多分、私が聞いたのは片側だけだったかもしれませんが、サー・ロン・フィッシャーについて聞いたすべては、控えめに言っても、彼が対処するのはかなり不快な男だったということです。彼はまた、タバコの使用と肺癌の関係について疑わしい意見を持っていまし
フィル

この記事に代わる「ライター」は、ロナルドのクリステンセンです。「フィッシャー、ネイマン、ピアソン、ベイズのテスト」アメリカ統計学59.2(2005):121-126。楽しかった。
リチャードハーディ

9

Wilk、MB and Gnanadesikan、R. 1968.データ分析のための確率プロット法。 Biometrika 55:1-17。アクセスできる場合はJstorリンク

この論文は、執筆時点ではほぼ50歳ですが、まだ新鮮で革新的だと感じています。さまざまな興味深い実例を使用して、著者はQQ(分位-分位)およびPP(確率-確率)プロットのフレームワークを使用して、分布をプロットおよび比較するためのさまざまなアイデアを統合および拡張します。ここでの分布とは、その分析で生じるデータまたは数値(残差、対比など)のセットを広く意味します。

これらのプロットの特定のバージョンは数十年前にさかのぼりますが、最も明白なのは通常の確率または通常のスコアプロットです。これらの用語では、変位値-変位値プロット、すなわち、観測された変位値対正規(ガウス)分布からの同じサイズのサンプルからの予測または理論変位値のプロットです。しかし、著者は、控えめながらも自信を持って、他の種類の変位値を調べて結果を自動的にプロットするために、同じアイデアを簡単に拡張できることを示しています。

著者は、ベル電話研究所の両方で、最先端のコンピューティング施設を楽しんでおり、多くの大学や研究機関でさえ追いつくのに10年ほどかかりました。今でも、この論文のアイデアは、彼らが得るよりも広い応用に値します。通常のQQプロット以外のこれらのアイデアのいずれかを含む、まれな入門テキストまたはコースです。ヒストグラムとボックスプロット(それぞれ非常に便利ですが、それでもそれぞれが扱いにくく、いくつかの点で制限されています)は、分布のプロットが導入されたときの主要な定番です。

個人的なレベルでは、この論文の主なアイデアは私のキャリアのほとんどでおなじみですが、数年ごとにそれを読み直すことを楽しんでいます。正当な理由の1つは、著者がシンプルでありながら強力なアイデアを生み出し、真面目な例を使って効果を上げられることの喜びです。もう一つの正当な理由は、簡潔に書かれた論文が、ほんのわずかな大げさな痕跡もなく、主要なアイデアの拡張を示唆する方法です。副次的なヒントやさらなるコメントで明示的にカバーされている主要なアイデアのねじれを再発見しました。

これは、統計グラフィックスに特に関心のある人向けの論文ではありませんが、あらゆる種類の統計に関心のあるすべての人を含むべきだと思います。これは、誰の統計スキルと洞察を開発するのに実際に役立つ分布についての考え方を促進します。


2
これは素晴らしい選択です。私はこれを数回読みました-あなたの答えに著者の名前が見えるとすぐに、これがどの論文であるかがわかり、すぐにもう一度読みたいと思いました。私は...私はどこかここにそのコピーを持っていると思う
Glen_b -Reinstateモニカ

6

イオアニディス、ジョンペンシルバニア「なぜ最も公表された研究結果が間違っているのか」PLoS医学(2005)

イオアニディス、ジョンペンシルバニア「より多くの公表された研究を真にする方法」PLoS医学(2014)

研究で統計を誤って使用および解釈する危険を回避したいすべての研究者/統計学者/分析者のために読む必要があります。2005年の記事は、公立科学図書館の歴史の中で最もアクセスが多く、多くの論争と議論を刺激しました。


6

Tukey、JW(1960)結論vs決定 Technometrics 2(4):423-433

この論文は、Tukeyによる夕食後の講演に基づいており、「かなりの議論が続いた」というコメントがあるため、少なくとも3分の1の点に一致します。

最初にこの論文を読んだのは、工学の博士号を取得していたときであり、データ分析の実用性の調査に感謝しました。


リンクが機能しません。これは動作します
kjetil b halvorsen

5

エフロンとモリス、1977年、統計学におけるスタインのパラドックス

エフロンとモリスは、1970年代にジェームズ・スタイン推定量に関する一連の技術論文を執筆し、経験的ベイズの文脈におけるスタインの「パラドックス」をフレーミングしました。1977年の論文は、Scientific Americanで発表された人気のある論文です。

それは素晴らしい読み物です。


3

ロイ・モデルへの関心が経済学者の間で大きいにもかかわらず(私は間違っているかもしれませんが)、1951年の元の論文「収益の分配に関するいくつかの考え」は、自己選択問題に関する洞察に満ちた非技術的な議論です。この論文は、ノーベル賞のジェームズ・ヘックマンによって開発された選択モデルのインスピレーションとなりました。古いものの、3つの箇条書きに一致すると思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.