データを視覚化した後に統計テストを実行する-データの??


31

例としてこの質問を提案します。

ボストンの住宅価格データセットなどのデータセットがあり、そこに連続変数とカテゴリ変数があるとします。ここには、1〜10の「品質」変数と販売価格があります。品質のカットオフを(任意に)作成することで、データを「低」、「中」、「高」の品質の家に分けることができます。次に、これらのグループを使用して、販売価格のヒストグラムを相互にプロットできます。そのようです:

住宅の質と販売価格

ここで、「低」は、および「高」である> 7「品質」スコアに。これで、3つのグループのそれぞれの販売価格の分布ができました。中品質の住宅と高品質の住宅では、場所の中心に違いがあることは明らかです。さて、これをすべて終えた後、「うーん、場所の中心に違いがあるようです!どうして平均値でt検定をしないのですか?」と思います。次に、平均に差がないという帰無仮説を正しく拒否するように見えるp値を取得します。3>7

さて、データをプロットするまで、この仮説をテストすることを何も考えていないとします。

このデータはdrですか?

もし、私は以前に家に住んでいた人間だから、高品質の家はもっと費用がかかるに違いない。データをプロットするつもりだ。ああ、違う!時間だ!」 t検定に!」

当然、この仮説を最初からテストするためにデータセットが収集された場合、データのredではありません。しかし、しばしば私たちに与えられたデータセットで作業しなければならず、「パターンを探す」ように言われます。このあいまいなタスクを念頭に置いて、データのdrを回避する方法を教えてください。データをテストするためのホールドアウトセットを作成しますか?視覚化は、データによって提案された仮説をテストする機会のスヌーピングとして「カウント」されますか?

回答:


27

@ingolifsの答えに簡単に異議を唱える/反対する:はい、データを視覚化することは不可欠です。しかし、分析を決定する前に視覚化すると、ゲルマンとローケンの分岐路庭に導かれます。これは、データdやp-hackingとは異なります。一部はインテント(GoFPは通常は善意)であり、一部は複数の分析を実行できないためです。ただし、これスヌーピングの一種です。分析はデータに依存するため、誤った結論や自信過剰な結論に至る可能性があります。

データを見る前に、何らかの方法で目的の分析を決定し(「高品質の家は価格が高い」など)、それを書き留める(または公式に事前登録する)必要があります。予測変数前進、応答変数だけではありませんが、先験的なアイデアが本当にない場合は、どの変数が予測変数であり、どの変数が応答であるかもわかりません); データが異なる分析または追加の分析を示唆している場合、評価では、最初に意図したことと、最終的に何をしたか(およびその理由)の両方を記載できます。

本当に純粋な探査をしている場合(つまり、 先験的な仮説、データの内容を確認するだけです):

  • 確認のためにサンプルを持ち出すことについてのあなたの考えは良いです。
    • 私の世界(私は巨大なデータセットを使用していません)では、サンプルサイズを小さくすることによる解像度の低下が苦痛になります。
    • データが何らかの方法(地理的、時系列など)で構成されている場合は、ホールドアウトサンプルの選択に少し注意する必要があります。データは自信過剰にIIDリード(ウェンガーとオルデン見ているかのようにサブサンプリング生態学と進化のメソッド 2012)ので、あなたが出て保持するために地理的単位を選び出すする場合があります(DJハリス参照生態学と進化のメソッド例えば2015)
  • あなたは純粋に探索的であることを認めることができます。この場合、p値を完全に回避することが理想ですが、少なくともGoFPをさまよいていることを視聴者に伝えることで、膨大な塩分でp値を取得できることがわかります。

「安全な統計手法」に関する私のお気に入りのリファレンスは、ハレルの回帰モデリング戦略(Springer)です。彼は推論対予測対探査のベストプラクティスを、厳密ではあるが実用的な方法で説明しています。


4
非常によく置く!将来、この答えを人々に紹介することを期待しています。
素晴らしい38

まさに私が探していた種類の反応、ありがとう。私はこの回答を回答として認めました。安全な統計手法を教えるリソースを知っていますか?あなたが投稿した(優れた)記事よりも範囲がおそらく少し広い
マルセル

すばらしい回答(+1)ですが、これはデータ-とは異なることに同意しません。意図は無関係です-効果は同じです。
モニカの

私は実際に、異なる形式のno索の区別を維持する価値があると思います。Drは、(1)複数の暗黙テストではなく複数の明示テスト、および(2)p <0.05(または何でも)が達成されるまでの条件付き/継続テストを伴うため、おそらくより深刻です。定性的な効果は確かに同じです。
ベンボルカー

11

データの視覚化は分析に不可欠な部分であり、馴染みのないデータセットを使用して最初に行うべきことの1つです。データをすばやく確認すると、次に実行する手順を知ることができます。実際、グラフを見て平均が異なることはかなり明白であり、これを確認するためにT検定が必要な理由はわかりません-平均はグラフ自体がすべての証拠であるほど十分に分離されていますが必要です。

R2

しかし、ここにはもっと深い質問があると思います。科学的な方法でデータを扱う場合、禅のような中立性をどのように維持し、バイアスを回避しますか? 答えは、そうではありません。むしろ、そうする必要はありません。あなたがそうしていることを知っていれば、データが何を意味するのかという考えと仮説を形成し、精神的な物語を構築することはすべて完全に自然で受け入れられ、矛盾するデータに直面したときにこれらすべての仮説を再考する精神的に準備されています


7
この特定のケースでは、テストを実行する前にデータを視覚化することは無害です。しかし、次に別の次元を視覚化し、別の次元を...そして散布図を見て...すぐに、「十分に明白」に見えるものを見つけて、正式なテストと物語が自然に来るようにします。そうです、データed は間違いなく簡単に偶然できることです。ゲルマンの「分岐路の庭」を参照してください。
S. Kolassa -復活モニカ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.