カウントデータ(カテゴリデータ)をレートに変換した場合の処理​​方法


9

私は病気の感染データに取り組んでおり、そのデータを「カテゴリ」として処理するのか「継続」として処理するのか困惑しています。

  • 「感染数」
    • 特定の期間に見つかった感染症例の数、カウントはカテゴリデータから生成されます(つまり、「感染」としてタグ付けされた患者の数)
  • 「患者のベッドデイズ」

    • その病棟内のすべての患者が病棟に滞在した合計日数の合計。ここでも、カウントはカテゴリカルデータから生成されます(つまり、「特定の病棟に滞在」としてタグ付けされた患者の数)
  • 「患者の病床日あたりの感染」

    • 「感染数」/「患者の病床日数」は、いずれも当初はカウントデータでしたが、現在は割合になっています

質問:

  • ここでカイ二乗を使用して、「患者の1日あたりの感染数」の差が統計的に有意であるかどうかを評価できますか?

アップデート

発生率を比較(または感染率と呼ぶ)できることを発見しましたが、「発生率の差」(IRD)や「発生率の比率」(IRR)などを実行しています。(ここから見つけまし

  • IRDとt検定の違いは何ですか?
  • IRRを補足する統計的検定はありますか?

1
別の質問を個別に行うことは、前の質問を更新することよりもはるかに優れていると思います。

回答:


4

私にとって、ここでカイ2乗検定を使用するのは適切とは言えません。

あなたがしたいことは次のとおりだと思います:異なる病棟や治療法、またはデータを分割する他の種類の名目変数(つまりグループ)があります。これらの各グループについて、感染数患者のベッド日数を収集して、患者のベッド日数あたり感染を計算しました。グループ間の違いを確認したいと思いませんか?

もしそうなら、分散分析(ANOVA、3つ以上のグループの場合)またはt検定(2つのグループの場合)は、おそらくSrikant Vadaliの投稿の理由(および分散の仮定の均一性と同等のグループサイズも満たされているため)、beginnerタグを追加する必要があります。


7

私はあなたのデータがどのように見えるか、またはあなたの正確な問題が何であるかについてはよくわかりませんが、私はあなたが次の見出しとタイプのテーブルがあると仮定します:

病棟(カテゴリー)、感染症(整数)、病床日数(整数または継続的)。

感染率が病棟ごとに統計的に異なるかどうかを確認したいですか?

これを行う1つの方法は、ポアソンモデルを使用することです。

感染〜ポアソン(病床日数*病棟感染率)

これは、ログリンク機能とオフセットの患者入院日数のログを備えたポアソンglmを使用することで実現できます。Rでは、コードは次のようになります。

glm(infections ~ ward + offset(log(patient-bed-days)), family=poisson())

2

このデータに対してポアソンまたは関連する回帰を実行することを検討している場合(結果変数を率として)、技術的にはカウントへの「露出」になるので、患者の就寝日のオフセット項を含めることを忘れないでください。

ただし、その場合は、従属変数として感染率(率ではなく)のみを使用することを検討し、患者の就寝日数を共変量として含めることもできます。カウントとレートの決定が類似しているデータセットで作業しています。従属変数をレートに変換すると、変動性が減少し、歪度が増加し、それに比例して標準偏差が大きくなるようです。これにより、重大な影響を検出することがより困難になります。

また、データがゼロ切り捨てまたはゼロインフレートされているかどうかに注意し、適切な調整を行ってください。


この回答は、投稿のタイトルにある「カウントデータ(カテゴリデータ)をレートに変換した場合の処理​​方法」という質問に最も直接関係していると思います。
N Brouwer 2012

1

技術的な純粋主義者の観点からは、「患者の病床日あたりの感染」の比率が連続的な変数ではないので、あなたはできません。たとえば、不合理な値がデータセットに表示されることはありません。ただし、この技術的な問題を無視して、コンテキストに適したテストを行うことができます。類推として、収入レベルは離散的ですが、ほとんどすべての人がそれらを継続的として扱います。

ちなみに、なぜカイ2乗を実行したいのかは完全には明らかではありませんが、なぜそれがあなたにとって理にかなっているのか、いくつかの背景的な背景があると思います。


1

カイ二乗検定は適切ではないようです。他の人が言ったように、合理的な数の異なるレートがある場合、データを連続的として扱い、回帰または分散分析を行うことができます。次に、残差の分布を確認します。


0

続行する1つの方法は、さまざまなnullモデルを構築することです。それぞれのモデルは、因子が互いに独立していると想定しています。多くの場合、独立性の仮定により、これらを簡単に構築できます。次に、予測される結合密度は限界密度の積です。実際のデータがこれらと一致する程度まで、要素は独立していることがわかります。それらが共同予測よりも大きいまたは小さい場合、それらが正または負に共変していると推測できる場合があります。どちらの場合も観測数を考慮するように注意してください。母集団を拡張超幾何として扱うことで、正式にそれを行うことができる場合があります。これはすべてフィッシャーの正確検定の精神に基づいていますが、フィッシャーは実際にそれを定式化したので、より一般的な状況をモデル化できます。たとえば、Yvonne M. BishopによるDiscrete Multivariate Analysis:Theory and Practiceを参照してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.