「最新の」統計の経験則


85

フィリップ・アイ・グッドとジェームズ・W・ハーディンのG van BelleのThumbs of Statistics Rulesに関する本と、それほどではないが統計の一般的なエラー(およびそれらを回避する方法)が好きです。彼らは、実験的および観察的研究からの結果を解釈する際の一般的な落とし穴に対処し、統計的推論または探索的データ分析のための実用的な推奨事項を提供します。しかし、特にさまざまな分野での計算とロバストな統計の使用の増加や、臨床生物統計学や遺伝疫学などの機械学習コミュニティからの技術の導入により、「現代の」ガイドラインはやや欠けていると感じています。

他の場所で対処できるデータの視覚化における計算上のトリックや一般的な落とし穴は別として、私は尋ねたいと思います:効率的なデータ分析のために推奨する経験則は何ですか?回答ごとに1つのルールをお願いします)。

私は、あなたが同僚、統計モデリングの強力なバックグラウンドを持たない研究者、または中級から上級コースの学生にあなたが提供するかもしれないガイドラインを考えています。これは、サンプリング戦略、特徴選択またはモデル構築、モデル比較、事後推定などのデータ分析のさまざまな段階に関係する場合があります。

回答:


62

分析を開始する前に、基本的なデータチェックを行うことを忘れないでください。特に、ID番号、データ収集の日付/時刻などに対して分析するすべての変数の散布図を見てください。要約統計に異常なものが何も表示されない場合、目はしばしば問題を明らかにするパターンを拾うことができます。また、分析にログまたはその他の変換を使用する場合は、プロットにも使用します。


6
私はこれを難しい方法で学びました。二回
ワンストップ

2
はい!石橋を叩いて渡る。データを見てください。
vqv

7
データの目視検査により、事後に決定が行われると、タイプIエラー増大する可能性があります。確認分析は事前に指定されているため、検査分析や感度分析として検査の影響を受けた結果を含める傾向があります。
AdamO

51

分析の再現性を保ちます。レビュアーまたはあなたの上司または他の誰かが、最終的にあなたがどのくらい正確に結果にたどり着いたかを尋ねます-おそらく分析を行ってから6ヶ月以上。データをどのようにクリーンアップしたか、どのような分析を行ったか、使用した特定のモデルを選択した理由を覚えていないでしょう...そして、これらすべてを再構築するのは苦痛です。

結果:ある種のスクリプト言語を使用し、分析スクリプトにコメントを入れて保管します。使用するもの(R、SAS、Stataなど)は、完全に再現可能なスクリプトを持つよりも重要ではありません。これが不可能または厄介な環境を拒否します。


24
Rを使用する場合は、レポートを生成するSweaveドキュメントにRコードを埋め込むことをお勧めします。そのようにして、Rコードはレポートに残ります。
ジョンD.クック

36

無料のランチはありません

統計的失敗の大部分は、隠れた仮定の負担を考慮せずに「有意性の計算」と呼ばれる大きな光沢のあるボタンをクリックすることによって作成されます。

繰り返す

ランダムジェネレーターへの単一の呼び出しが関与している場合でも、運が悪かったり運が悪かったりする場合があるため、間違った結論にジャンプします。


29

回答ごとに1つのルール;-)

研究を行うに統計学者相談してください。可能であれば、助成金を申請する前に。あなたが勉強している問題を理解し、収集しようとしているデータを分析する方法について彼/彼女の入力を得て、それがあなたの研究デザインとデータ要件にとって何を意味するか考えてください。おそらく、統計担当者は、誰が患者を診断したのかを説明するために階層モデルを実行することを提案しています-次に、誰が誰を診断したかを追跡する必要があります。些細なことのように聞こえますが、データを収集する前に(そして重要な何かを収集できない場合は)後よりもこのことを考える方がはるかに優れています。

関連する注意事項:開始前に電力解析を実行します。十分に大きいサンプルサイズに予算を組んでいないことほどイライラすることはありません。あなたが期待している効果の大きさを考えるとき、出版バイアスを覚えておいてください-あなたが見つけようとしている効果の大きさは、おそらく(偏った)文献に与えられたものよりも小さいでしょう。


28

私が生徒に言っていることの1つは、すべてのp値に対して適切なグラフを作成することです。たとえば、相関をテストする場合は散布図、一元配置分散分析を行う場合は横並びボックスプロットなど。


28

データを分析する2つの方法を決定する場合は、両方の方法を試して、違いが生じるかどうかを確認してください。

これは多くのコンテキストで役立ちます。

  • 変換するかしないか
  • ノンパラメトリックまたはパラメーターテスト
  • スピアマンまたはピアソンの相関
  • PCAまたは因子分析
  • 算術平均を使用するか、ロバストな平均推定を使用するか
  • 共変量を含めるかどうか
  • リストごとの削除、ペアごとの削除、代入、または欠損値置換のその他の方法を使用するかどうか

これは問題を熟考することを免れるべきではありませんが、少なくとも実質的な調査結果が選択に対して堅牢であるという感覚を与えます。


4
引用ですか?分析戦略ではなく、代替のテスト手順を試しても、タイプIのエラーや最初の電力計算の制御が多少損なわれないのではないかと思っています。SASはパラメトリックテストとノンパラメトリックテストから結果を体系的に返すことを知っています(少なくとも平均とANOVAの2サンプル比較では)。しかし、常にこの興味深いことに気付きます:結果を見る前に、どのテストを適用すべきかを判断すべきではありませんか?
chl

4
@chl良い点。上記の経験則は間違った理由で使用できることに同意します。すなわち、物事を複数の方法で試し、より楽しい答えを与える結果のみを報告します。経験則は、実質的な結論に対する分析決定の効果を学ぶために、データアナリストのトレーニングツールとして有用であると考えています。多くの学生は、特に実質的な結論にほとんど影響を与えない文学で競合するアドバイスがある場合(例えば、変換するかしないか)に、決定に迷うのを見てきました。
ジェロミーアングリム

1
@chlいいえ、引用ではありません。しかし、経験則とその根拠を区別するのは良いことだと思いました。明確にするために、太字に変更しました。
ジェロミーアングリム

1
わかりました、さまざまな変換を試して、それが研究された関係を説明するより良い方法を提供するかどうかを見るのは理にかなっています。私が理解していないのは、現在の慣行ですが、異なる分析戦略を試すことです(ただし、公開された記事では報告されていません:-)。それらが異なる仮定に依存している場合(EFA対PCAでは、追加のエラー用語を仮定します;ノンパラメトリックテスト対パラメトリックテストでは、仮定の一部を捨てます)。しかし、私は探索と確認分析の間の境界が...それほど明確ではない同意する
CHL

2
これは、探索的分析の場合、またはトレーニングと検証のステップでのみ役立つように思えます。常に最終的な検証テスト手順が必要になります。さもなければ、「主観的」信念に従って望ましい差を得るとうまくいく特定の重要な結果によって自分をだますかもしれません。どちらの方法が効果的かを判断するのは誰ですか?私は別の方法を疑う場合、私は個人的に、私は等の推定や堅牢性、分散のようなものをテストするために、シミュレートされたデータにそれをテスト
セクストス・エンペイリコス

22

データに質問します。安価なRAMの現代では、大量のデータを扱うことがよくあります。1つの「太い指」エラーまたは「小数点以下の桁落ち」は、分析を容易に支配します。基本的な健全性チェック(または、ここで他の人が提案するデータのプロット)を行わないと、多くの時間を無駄にする可能性があります。これは、外れ値に対する「ロバストネス」のためのいくつかの基本的なテクニックを使用することも示唆しています。


2
結果:誰かが欠損値を「NA」ではなく「9999」としてコーディングしたかどうかを調べます。ソフトウェアが額面価格でこの値を使用すると、分析が台無しになります。
ステファンKolassa

21

生データから最終的な分析/結果までの一連のプログラミングロジックを示すソフトウェアを使用します。1人のユーザーが1つのセルで検出不能なエラーを行うことができるExcelのようなソフトウェアは避けてください。手動チェックのみが有効になります。


1
VisTrailsは、このプロセスを支援するシステムの1つです。(私は自作のシステムのみを使用しました。一般的なグループの目標は特定のツールよりも重要です。)
デニス

18

常に「これらの結果は何を意味し、どのように使用されるのか」と自問してください。

通常、統計を使用する目的は、不確実性の下で意思決定を支援することです。したがって、「この分析の結果としてどのような決定が下され、この分析がこれらの決定にどのように影響するか」を頭の中で確認することが重要です。(例:記事の発行、新しい方法の使用の推奨、Yへの資金提供に$ Xを提供、より多くのデータの取得、推定量のEなどの報告など....)

決定を下す必要があると思わない場合、分析を行うのは非常に費用がかかるため、そもそもなぜ分析を行うのか疑問に思うでしょう。統計は、それ自体が目的ではなく、目的の手段であるという点で「迷惑」と考えています。私の考えでは、不確実性を定量化するだけなので、これを使用して、この不確実性を正確に説明する決定を下すことができます。

これは、単純なソリューションを複雑なソリューションよりも現実の世界(したがって、決定が行われている環境)に関連付ける方が通常はるかに簡単であるため、物事をシンプルに保つことが一般に良いポリシーである理由の1つだと思います。通常、単純な答えの限界を理解することも簡単です。次に、単純なソリューションの限界と、複雑なソリューションがそれらに対処する方法を理解したら、より複雑なソリューションに移行します。


3
物事をシンプルにするという概念以外のすべてに同意します。私にとって、単純さまたは複雑さは、あなたが雄弁に説明した不適切な決定のコストの関数でなければなりません。シンプルさは、ある分野ではごくわずかなコスト(たとえば、顧客への間違った広告の配信)と、別のエリア(患者への誤った治療の管理)で大幅に異なるコストになります。
トーマスシュ

18

長いリストがありますが、いくつか言及すると:(特定の順序なし)

  1. P値は確率ではありません。具体的には、タイプIエラーが発生する確率ではありません。同様に、CIには指定されたデータの確率的解釈はありません。それらは繰り返し実験に適用できます。

  2. 分散に関連する問題は、実際にはほとんどの場合バイアスを支配します。そのため、分散が小さいバイアス付き推定値は、分散が大きいバイアスなし推定値よりも優れています(ほとんどの場合)。

  3. モデルのフィッティングは反復的なプロセスです。データを分析する前に、データのソースと、説明に適合または適合しない可能性のあるモデルを理解します。また、モデルの設計上の問題をモデル化してみてください。

  4. データを分析する前に、視覚化ツールを使用して、データを調べて(異常の可能性、明らかな傾向などについて)データを理解します。視覚化方法(可能な場合)を使用して、モデルがそのデータにどのように適合するかを確認します。

  5. 最後になりますが、統計ソフトウェアを使用して(計算のタスクを簡単にするため)統計ソフトウェアを使用します。これは、人間の思考に代わるものではありません。


14
アイテム1は正しくありません。P値は、帰無仮説を前提として、極端な、またはより極端なデータを取得する確率です。私が知る限り、それはP 確率であるということを意味します-それでも条件付きですが確率です。ネイマンピアソンのエラーパラダイム内で作業しているという状況では、あなたの陳述は正しいが、P値が帰無仮説に対する証拠のイデシスであるフィッシャーパラダイム内で作業しているのではない。パラダイムが一貫性のないミッシュマッシュに定期的に混在しているのは事実ですが、単独で使用してもそのままでも「正しい」のです。
マイケルルー

2
信頼区間については、再び、ナイマニアの信頼区間の範囲内でのみ正しいです。フィッシャー(および彼より前の人々)も、信頼区間として解釈するものを考案して使用しました。そのような区間の完全に有効な解釈は、区間をもたらす特定の実験を指します。私の意見では、彼らはネイマンよりもはるかに望ましい。質問「離散関数:信頼区間カバレッジ?」に対する私の答えをご覧ください。詳細については、stats.stackexchange.com
マイケルルー

@マイケルは正しいですが、見てみましょう:ヌルは何回正しいですか?またはそれ以上:nullが正しいかどうかを誰でも証明できますか?また、これについて深い哲学的議論をすることもできますが、それはポイントではありません。品質管理の繰り返しは理にかなっていますが、科学では適切な決定ルール データを調整する必要があります。
suncoolsu

1
フィッシャーはこれを知っていました(観測データの条件付けと品質管理に関する発言はそれに基づいています)。彼はこれに基づいて多くの反例を作成しました。ベイジアンは半世紀以上にわたってこのことについて闘ってきました。
suncoolsu

1
μ=0

13

データの整理/管理については、データセットに新しい変数を生成するとき(身長と体重から体格指数を計算するときなど)、元の変数が削除されないようにしてください。非破壊的なアプローチは、再現性の観点から最適です。いつコマンドを誤って入力し、その後変数生成をやり直す必要があるかはわかりません。元の変数がなければ、多くの時間が失われます!


11

考えてみて硬い基礎となるデータの生成処理(DGP)について。使用するモデルがDGPを反映していない場合は、新しいモデルを見つける必要があります。


DGPが何であるか、どのように知ることができますか。たとえば、よく発達した理論(特定の種類の公的支出が発生する理由)をまだ見ていない地域で時系列を実行します。この場合、本当のプロセスを知ることは不可能だと思います。
user54285

8

ヒストグラムの場合、ヒストグラム内のビンの数の良い目安:

データ点の数の平方根


6

ますます大きなデータセットとより強力なソフトウェアにもかかわらず、過剰適合モデルは研究者、特に過剰適合によってまだ焼けていない研究者にとって大きな危険です。過剰適合とは、データや最新技術よりも複雑なものを適合させたことを意味します。愛や美しさのように、正式に定義することはもちろんのこと、定義することは困難ですが、認識するのは簡単です。

最小限の経験則は、古典的な回帰のようなものについて推定されるすべてのパラメーターについて10データポイントであり、無視する場合は結果に注意してください。他の分析では、特にデータにまれなカテゴリがある場合は特に、良い仕事をするために多くのことが必要です。

モデルを簡単に適合させることができたとしても、それが何を意味するのか、そして非常に類似したデータセットでもそれがどこまで再現可能かを常に心配する必要があります。


これは一般に、応答が条件付きで正常なモデルの経験則です。他の場合には、あまりにもリベラルです。たとえば、バイナリ分類の場合、対応する経験則は、すべての変数についてあまり一般的ではないカテゴリの15の観測値です。&生存分析の場合、すべての変数に対して10個のイベント(つまり、打ち切りデータではない)になります。
グング

同意する。編集しますが、拡張コメントとともに独自の経験則を投稿してください。
ニックコックス

1
最後の文「モデルを簡単に当てはめることができたとしても、それが何を意味するのか、非常に類似したデータセットでもどこまで再現できるかを常に心配する必要があります。」
セクストゥスエンピリカス

6

Yt+h(Yt,Xt) t>T(Y1,X1),,(YT,XT)

  1. Yt+h
  2. Yt+hYt

Yt+hYt+Xt


5

モデルが簡単かつ迅速に収束しない場合は、ソフトウェアの障害である可能性があります。ただし、データがモデルに適していないか、モデルがデータに適していないことがよくあります。どのものかを判断するのは困難な場合があり、経験主義者と理論家は異なる見解を持つことができます。しかし、主題思考、実際にデータを見て、常にモデルの解釈について考えることは、可能な限り役立ちます。とりわけ、複雑なモデルが収束しない場合は、より単純なモデルを試してください。

収束を強制したり、勝利を宣言したり、多くの反復の後、モデルが実際に収束する前に結果を取得したりすることはできません。せいぜい、あなたがそれをするなら、あなたは自分をだます。


「本当にデータを見る」ことは、私たちのためにこれを行うNNを手に入れるととてもいいことです。
セクストゥスエンピリカス

JWTと呼ばれていました。
ニックコックス

5

インストルメンタル変数回帰では、常にインストゥルメントの重要度を確認してください。Staiger-Stockの経験則では、10未満のF統計量は心配であり、機器が弱い、つまり内生変数と十分に相関していない可能性があることを示しています。ただし、これは、10を超えるFが強力な機器を保証することを自動的に意味するものではありません。Staiger and Stock(1997)は、2SLSのような機器変数の手法は、機器が内生変数と弱く相関しているだけであれば、「小さな」サンプルではひどく偏ることがあることを示しています。彼らの例は、300,000件以上の観測があったAngrist and Krueger(1991)による研究でした。これは、「小さな」サンプルの概念に関する不穏な事実です。


私は記事にリンクを追加しましたが、この答えはさらにフォーマットが必要だと思います。記事を非常に迅速にスキャンすることに基づいて「経験則」を強調するのは難しすぎ、この答えはあまり直感的ではありません。
セクストゥスエンピリカス

3

情報基準を選択する基準はありません。

誰かが何かを言うたら、「?ICは、このことを示したが、間違った結果を与えることがしばしば知られている」(どこ?お好きな文字です)、あなたがすることもありますことを知っていると思うのモデルについては、特にそれが可能かどうかは、科学的または実用的な意味。

代数はあなたにそれを伝えることができません。


2

私はこれをどこかで(おそらくクロス検証で)読みましたが、どこでも見つけることができなかったので、ここに行きます...

興味深い結果を発見した場合、おそらく間違っています。

驚異的なp値またはほぼ完全な相互検証エラーの可能性に興奮するのは非常に簡単です。私は個人的に素晴らしい(偽の)結果を同僚に提示し、それを撤回するだけです。ほとんどの場合、見栄えが良すぎたら...

'本当だ。「汚染はまったく真実です。



1

縦断的データを分析するときは、各期間で変数が同じ方法でコーディングされていることを確認してください。

二次データの分析を必要とする論文を書いている間に、年ごとの平均的なうつ病スコアの平均1単位のシフトが1週間かそこらで完全に困惑していました。データセット、検証済みの機器のスケール項目は0〜3ではなく1〜4にコード化されていました。


1

あなたの仮説は、モデルの選択を促進するものであり、その逆ではありません。

マズローを言い換えると、あなたがハンマーなら、すべてが釘のように見えます。特定のモデルには、世界に組み込まれた目隠しと想定が組み込まれています。たとえば、非動的モデルは、治療結果のフィードバックを妨げます。


1

シミュレーションを使用して、モデルの構造が「結果」を作成している可能性がある場所を確認します。「結果」は、モデルの仮定の単なる数学的成果物です。

再ランダム化された変数、または互いに無相関であることがわかっているシミュレートされた変数で分析を実行します。これを何度も行い、平均化されたポイント推定値(および信頼性または信頼性のある間隔)と実際のデータで得られた結果を比較します。


0

私は統計学者ではなくデータアナリストですが、これらは私の提案です。

1)データを分析する前に、メソッドの仮定が正しいことを確認してください。結果を確認したら、問題を修正して結果が変わった後でも忘れることはありません。

2)データを知るのに役立ちます。時系列を実行すると、近年のデータを考えるとほとんど意味のない結果が得られました。私はそれを考慮してメソッドをレビューし、メソッド内のモデルの平均化が1つの期間の結果を歪めることを発見しました(そして構造的な破損が発生しました)。

3)経験則に注意してください。それらは自分のデータからの個々の研究者の経験を反映しており、彼らの分野があなたのものと非常に異なる場合、彼らの結論はあなたのデータにとって正しくないかもしれません。さらに、これは私にとってショックでしたが、統計学者はしばしば重要な点について意見が分かれています。

4)さまざまな方法でデータを分析し、結果が類似しているかどうかを確認します。完璧な方法はないことを理解し、仮定の違反についてはいつチェックできるかを注意して確認してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.