カウントの標準誤差


14

まれな病気の季節ごとの事件のデータセットがあります。たとえば、春に180件、夏に90件、秋に45件、冬に210件あったとします。これらの数値に標準エラーを添付することが適切かどうかに苦労しています。研究目標は、将来再発する可能性のある疾患発生率の季節的パターンを探しているという意味で推測的です。したがって、合計に不確実性の尺度を付けることが可能であるべきであるように直感的に感じます。ただし、この場合、標準誤差をどのように計算するかはわかりません。なぜなら、平均や比率ではなく単純なカウントを扱っているからです。

最後に、答えは、データがケースの集団(発生したすべてのケース)を表すか、ランダムなサンプルを表すかによって異なりますか?間違っていなければ、推論がないため、母集団統計で標準エラーを提示することは一般的に意味がありません。


カウントは、正規化されていない割合なので、stを計算できます。比例誤差であり、それがあなたのために意味があれば、それをカウント単位に「非正規化」します。その通りです。エラーはサンプルにのみ適用されます。人口では、エラーはありません。
ttnphns

回答:


14

人口は、病気にかかる危険にさらされているすべての人々の(仮想の)セットです。通常、それは調査地域に居住するすべての人々(または明確に識別可能な人々のサブグループ)で構成されます。この母集団は研究の対象であり、データから作成されるすべての推論の対象であるため、この母集団を明確に定義することが重要です。

疾患の症例が独立しており(疾患が人々の間で容易に伝達されておらず、地域の環境条件によって引き起こされていない場合の合理的な仮説かもしれません)、それらがまれである場合、カウントはポアソン分布に厳密に従う必要があります。この分布の場合、標準偏差の適切な推定値はcountの平方根です

180904521013.49.56.714.5出来事、季節の間に観察される病気の実際の数はその本当の率から変わる。真の(ただし不明!)レートの平方根は、発生する可能性のある変動の量を定量化します。観測されたカウントは真のレートに近いはずなので、それらの平方根は真のレートの平方根の合理的なプロキシでなければなりません。これらのプロキシは、まさに「標準エラー」が意味するものです。

1657714.577

920105234.53.22.24.894028.52044

これは、これらの限られたデータを使用できる限りです。これらの簡単な計算により、次のことが明らかになりました。

  • 人口を特徴付けることは重要です。

  • カウントの平方根は、標準誤差を評価するための大まかな開始点です。

  • 病気の場合の独立性の欠如を反映するために、平方根に(大まかに)何らかの要因を掛ける必要があります(そして、この要因はおおよそ病気のクラスターのサイズに関係します)。

  • これらのカウント間の変動は、主に不確実性ではなく、基礎となるポアソン強度に関する疾患率の変動を反映しています。


1
非常に思慮深く、徹底的な答え!どうもありがとう。
ハーフ渡し

2

「標準エラーは何ですか?」と尋ねるとき、私は面白くありません。これらの4つの数値の平均を取ることができ、その平均の標準誤差を計算できます。その統計と結果として得られる信頼区間は、これらの4つの季節を一般化できる4つの季節のすべてのセットを代表するものとして扱うのに正当であると信じた場合に意味があります。あなたがそう正当化されている限り、あなたが持っているデータは確かに母集団のランダムなサンプルになるでしょう。あなたが言及するサンプリングは、サンプリングの追加レイヤーを伴います-あなたはそれをクラスターサンプリングと呼ぶかもしれません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.