すべての統計学者が知っておくべき理論は何ですか?


30

非常に基本的な最小限の要件の観点からこれを考えています。業界(学術的ではない)統計学者が定期的に知り、理解し、活用すべき重要な理論は何ですか?

頭に浮かぶ大きなものは、多数の法則です。データ分析に統計理論を適用するために最も重要なことは何ですか?

回答:


41

率直に言って、私は多数の法則が産業において大きな役割を果たしているとは思わない。最尤推定値やテスト(特に重要なGLMとロジスティック回帰を含む)、ブートストラップなどの一般的な手順の漸近的な正当化を理解することは役立ちますが、これらは悪いサンプルの問題に遭遇する確率ではなく、分布の問題です。

既に述べたトピック(GLM、推論、ブートストラップ)を超えて、最も一般的な統計モデルは線形回帰であるため、線形モデルを完全に理解する必要があります。業界でANOVAを実行することは決してありませんが、それを理解していない場合は、統計学者と呼ばれるべきではありません。

産業にはさまざまな種類があります。製薬業界では、無作為化試験とロジスティック回帰なしに生計を立てることはできません。調査統計では、Horvitz-Thompson推定量と無応答調整なしで生計を立てることはできません。コンピュータサイエンス関連の統計では、統計学習とデータマイニングなしで生計を立てることはできません。公共政策のシンクタンク(そして、ますます教育統計)では、因果関係と治療効果の推定量(ますます、無作為化試験を含む)なしで生計を立てることはできません。マーケティングリサーチでは、経済学の背景と心理測定の理論とを組み合わせる必要があります(また、一般的な統計部門のサービスではどちらも学べません)。産業統計は、主流の統計とは遠隔的に接続されている独自の6シグマパラダイムで動作します。より強い結合は、実験材料の設計で見つけることができます。ウォール街の材料は、確率論的計算までの金融計量経済学です。これらは非常に異なるスキルであり、「産業」という用語は「アカデミア」よりもさらに不十分に定義されています。上記の2つまたは3つ以上を同時に知っていると主張できる人はいないと思います。

ただし、「業界」で普遍的に必要とされる最高のスキル(それがあなたにとって何であれ)は、時間管理、プロジェクト管理、および統計に精通していないクライアントとのコミュニケーションです。そのため、業界での就職に備えたい場合は、これらのトピックに関するビジネススクールのクラスを受講してください。

更新:元の投稿は2012年2月に作成されました。最近(2014年3月)、業界での熱い仕事を見つけるために、「統計学者」ではなく「データ科学者」と呼ぶべきでしょう。そして、その自己宣言で従うべきHadoopをもっとよく学ぶべきです。


1
素晴らしい答え。業界内の統計学者の大きな違いのいくつかを強調していただきありがとうございます。多くの人々が統計学者が何をするか/するかについて異なる考えを持っていると信じているので、これは私の質問の動機付けに役立ちます。私はこれらがすべて交差する場所を基本的な理解から見つけようとしていたと思います。また、ビジネストピックとそれらの重要性に関する最後の段落に感謝します。すばらしい点ですが、受け入れる前に誰かが会話に追加できるかどうかを確認したいと思います。
bnjmn

私は、これらの「特異なシックスシグマのパラダイム」、「主流の統計に遠隔的に接続されている」に戸惑っています。産業統計はそれと連動しています。これらすべてのサブフィールド間で見られる用語の違いは別として、私には完全に正統的だと思われます。
Scortchi -復活モニカ

4
@Scortchi、私は率直に言ってこれらの用語の違いを乗り越えることができませんでした。私はまた、通常の近似は、近い尾に無用であると知っているので、6シグマの確率 100又は1000倍オフであってもよい109
StasK

公平:測定システム分析(評価者間合意、ゲージ再現性と再現性の研究)、統計的プロセス制御、信頼性分析(別名生存分析)、および実験計画((分数)要因計画、応答曲面法) )は産業統計の特徴でした。
Scortchi -復活モニカ


11

非常に明白なものを指摘するには:

中心極限定理

正確な値を取得することが困難な多くの状況で、実務家が値を近似できるためです。それらと同じ線に沿って、成功した開業医は、一般的に、pp

ブートストラップ


8

これは、大数の法則や中心極限定理のようなものに非常に似ているとは言いませんが、因果関係について推論することが中心であることが多いため、構造化グラフを使用して因果関係をモデル化するジュディアパールの仕事を理解することは、人々が知っておくべきことですと。実験的研究と観察的研究が与える因果関係の推論に関してなぜ異なるのかを理解する方法を提供し、観測データを扱う方法を提供します。概要については、彼の本はこちらです。


2
ルービンの反事実的枠組みもあります。また、構造方程式モデリングと計量経済的手段変数技術もあります。その一部は、非統計学者によって書かれた最高の統計書の中で、Mostly Harmless Econometricsに記載されています。
StasK 14年

7

取り組むべき実質的な問題をしっかりと理解することは、特定の統計的アプローチと同じくらい重要です。業界の優秀な科学者は、そのような知識のない統計学者よりも、問題の合理的な解決策を見つける可能性が高くなります。実質的な知識を持つ統計学者が役立ちます。


6

変量統計の分散を計算し、それらの漸近的な相対効率を見つける方法、デルタの方法。変数の変更を推奨し、「正しいことを推定する」ことによって効率の向上を説明します。それと併せて、ジェンセンの不等式は、上記のような変換で生じるGLMと奇妙な種類のバイアスを理解します。そして今、バイアスと分散が言及されているので、バイアスと分散のトレードオフの概念と予測精度の客観的尺度としてのMSE。


6

私の見解では、統計的推論は開業医にとって最も重要です。推論には2つの部分があります。1)推定と2)仮説検定。仮説検定は重要です。推定ではほとんど一意の手順であるため、最尤推定が続き、ほとんどの統計パッケージで利用できます(混乱はありません)。

実践者のよくある質問は、差異分析または因果関係分析の重要なテストに関するものです。重要な仮説検定は、このリンクで見つけることができます。

因果の解釈には、線形モデル、GLM、または一般的な統計モデリングについて知る必要があります。今後のデータ分析には、ベイジアン推論が含まれると思います。


0

カジュアルな推論が必要です。そして、それが根本的な問題であることに対処する方法は、時間をさかのぼることができず、誰かに治療を与えることはできません。ルービンについての記事を読んで、現代の統計学の学生の創始者です。)....この問題に対処するために学ぶべきこと、適切なランダム化、そして多数の法則が物事が適切にランダム化されることをどのように言うか、仮説検定、潜在的結果そして、欠損()に優れています)、マッチング(欠損に対しては優れていますが、より一般化されているため、潜在的な結果が優れています.1つの複雑なことしか学べないのに、なぜ多くの複雑なことを学ぶのか)、ブートストラップ、もちろんベイジアン統計(ベイジアン回帰、ナイーブベイジアン回帰、ベイジアン因子)、および非パプメトリック代替。

通常、実際にはこれらの一般的な手順に従ってください。

以前のコメントに関しては、一般的に最初にANOVA(ランダム効果または固定効果、連続型をビンに変換)から始めて、回帰を使用する必要があります(変換および変更を行うとANOVAと同じくらい良いが、決して勝てない場合があります)どの特定の治療が重要であるかを確認するには、(複数のt検定を行い、ホルムメチドのような補正を使用することに任せて)回帰を使用します。

物事を予測する必要がある場合は、bayasian回帰を使用します。

5%を超える欠損は潜在的な結果を使用します

データ分析のもう1つのブランチは、言及されなければならない教師あり機械学習です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.