サンプルサイズが非常に大きい場合の信頼区間


14

私の質問は、特に雑誌の出版物については、「ビッグデータを使用してサンプリングエラーを評価する方法」と言い換えることができます。課題を説明するための例を次に示します。

非常に大規模なデータセット(100を超える病院の100,000を超える一意の患者と処方薬)から、特定の薬を服用している患者の割合を推定することに興味がありました。この比率を取得するのは簡単です。nは非常に大きいため、その信頼区間(パラメトリックまたはブートストラップなど)は非常にタイト/ナローです。サンプルサイズが大きいことは幸運ですが、エラー確率のいくつかの形式を評価、提示、および/または視覚化する方法を探しています。信頼区間(例:95%CI:.65878-.65881)を入力/視覚化することは(誤解を招くものではないにしても)役に立たないように見えますが、不確実性に関するいくつかの陳述を避けることも不可能と思われます。

ご意見をお聞かせください。このトピックに関する文献をいただければ幸いです。サンプルサイズが大きい場合でも、データの過剰な信頼を回避する方法。


7
非サンプリングエラーは変更されないことを思い出すことで、自信過剰を回避できます。サンプリングと測定に偏りがある場合、それらはまだ存在しています。また、ユニークな(私はむしろ「明確な」と言う)患者または他の方法で定義された観察をカウントするかどうか、同じ患者の薬と何らかの方法で一緒に与えられる薬をリンクするクラスター構造がある(と思う)最も単純な信頼区間の計算では考慮されません。他のデータセットと比較してデータ生成を文書化する以外に、これを定量化する方法に関する解決策はありません。
ニックコックス

回答:


10

この問題は私の研究の一部でも出てきました(流行モデラーとして、私は自分でデータセットを作成する余裕があり、十分な大きさのコンピューターで、基本的に任意のサイズにすることができます。

  • 報告に関しては、より正確な信頼区間を報告できると思います、これの有用性は合法的に少し疑わしいです。しかし、それは間違いではなく、このサイズのデータ​​セットでは、両方の需要信頼区間が報告され 2桁に丸められることを本当に望んでいる文句を言うことはあまりないと思います。
  • 自信過剰を回避するという点では、精度精度は異なるものであることを覚えて、2つを統合しようとするのを避けることが重要だと思います。大量のサンプルがある場合、推定された効果がどれほど正確であるかを理解し、それが間違っているかもしれないと思わないことは非常に魅力的です。それが重要だと思います-バイアスされたデータセットは、N = 10、または100、または1000または100,000でそのバイアスを持ちます。

大規模なデータセットの全体的な目的は、正確な推定値を提供することです。そのため、その精度を無視する必要はないと思います。ただし、大量の不良データを収集するだけでは、不良データを改善できないことを覚えておく必要があります。


大量の不良データは、少量の不良データよりも優れていると思います。
アクサカル

@Aksakalなぜですか?正確に間違った答えはまだ間違っています。
Fomite

@Fomite-ええ、しかしあなたはそれが間違っていると確信しています:)
ダンカン

6

この問題は私自身の原稿に出てきました。

1.レポートオプション:レポート するCIが1つまたは少数の場合、「(たとえば、95%CI:.65878-.65881)」のレポートは過度に冗長ではなく、CIの精度が強調されます。ただし、CIが多数ある場合は、ブランケットステートメントが読者にとってより役立つ場合があります。たとえば、私は通常、「このサンプルサイズでは、各割合の95%信頼誤差は+/- .010未満であった」という結果に対して何かを報告します。私は通常、このようなことをメソッド、または表または図のキャプション、あるいはその両方で報告します。

2.サンプルサイズが大きい場合でも「自信過剰」を回避する: サンプル数が100,000の場合、中央限界定理により、割合のCIをレポートするときに安全が確保されます。したがって、あなたが説明した状況では、私が気付いていない他の仮定違反(たとえば、違反したiid)がない限り、大丈夫です。


0

信頼区間を報告しないでください。代わりに、正確なサンプルサイズと割合を報告してください。読者は、希望する方法で自分のCIを計算できます。


4
量的データのすべての報告にこの理由付けを適用すべきではないのはなぜですか?
whuber

@whuber、いい質問です。私は皆、再現可能な研究のために、誰もが自分のデータセットを公開することを望んでいます。
アクサカル

6
私はそれが提案として取られることを意味しませんでした。誰もがデータセットを公開していても、それらの分析を提供できなかった場合、不確実性の分析を含む科学的義務を廃止することになります。科学者はデータを公開するだけで、分析はまったく行わないという提案で論理的に終わる方向に進んでいるようです!これは、CIを報告しないという勧告の起訴となる。反対に、サンプルのサイズに関係なく、何らかの場合に何らかの統計分析を提供する必要があることを示しています。
whuber

0

100の異なる病院の割合が同じ平均値に収束しない可能性を考慮してください。グループ間の分散をテストしましたか?病院間に測定可能な差がある場合、サンプルが一般的な正規分布から生成されるという仮定はサポートされないため、それらをプールしないでください。

ただし、データが実際に正規分布の大規模なサンプルから来ている場合、データのプロパティとして有用な「不確実性に関するステートメント」を見つけることはできませんが、統計が一般化されるべきかどうかを反映してコレクションに固有のバイアス、または定常性の欠如など、指摘する必要があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.