2つの分布の縦方向の比較


10

血液検査の検査結果を6か月間隔で4回2500人に投与しています。結果は主に2つの免疫応答の測定で構成されます。1つは特定の結核抗原の存在下、もう1つは不在下です。現在、各テストは、抗原応答とnil応答の違いに基づいて正または負に評価されます(免疫系がTB抗原に応答する場合、ある時点で細菌自体に曝された可能性が高いという考えです) )。本質的に、このテストでは、非暴露の個人のnilとTBの反応の分布は基本的に同じであると想定しています。 警告:応答は非常に、非常に非正常であり、値は自然な床と楽器の切り捨てられた天井の両方で凝集します。

しかし、この長期的な状況では、抗原の変動(通常は小さい)とnil応答によって引き起こされる「偽陽性」(潜在的な結核の実際のゴールドスタンダードではない、私は恐れている)を取得していることは明らかです。状況によってはこれを回避するのは難しいかもしれませんが(誰かを検査するチャンスは1回しか得られない場合があります)、毎年結核の検査が日常的に行われている状況が多くあります-米国では、これは医療従事者に一般的ですが、軍隊、ホームレスの人々が避難所に滞在するなど。現在の基準はたまたま横断的であるため、以前のテスト結果を無視するのは残念です。

私がやりたいのは、縦断的混合分析と大雑把に考えていることだと思います。横断的基準と同様に、個人のTBとnilの応答が同じ分布から抽出される確率を推定できるようにしたいのですが、その推定には、以前のテスト結果とサンプルからの情報が組み込まれています。全体(たとえば、個人内変動のサンプル全体の分布を使用して、特定の個人のnilまたはTBの分布の推定値を改善できますか?)推定確率は、もちろん、新しい感染の可能性を説明するために、時間とともに変化できる必要があります。

私はこれについて通常とは異なる方法で考えようとすることに全く夢中になっていますが、この概念化はこれから思いつくものと同じくらい良いと思います。意味がわからない場合は、遠慮なく説明を求めてください。私の状況に対する理解が間違っていると思われる場合は、遠慮なく教えてください。手伝ってくれてどうもありがとう。

Srikantへの対応: これは、2つの連続した(ただし、通常ではなく切り捨てられた)テスト結果を使用した潜在的分類(TB感染かそうでないか)のケースです。現在、その分類はカットオフを使用して行われています(簡略化された形式では、TB-nil> .35->正)。テスト結果が(nil、TB、結果)として表示される場合、基本的なアーキタイプ*は次のとおりです。

負の確率:(0.06、0.15、-)(0.24、0.23、-)(0.09、0.11、-)(0.16、0.15、-)
正の確率:(0.05、3.75、+)(0.05、1.56、+)(0.06 、5.02、+)(0.08、4.43、+)
ワブラー:(0.05、0.29、-)(0.09、0.68、+)(0.08、0.31、-)(0.07、0.28、-)

ウォブラーの2番目のテストでの陽性はかなり明らかに異常ですが、どのようにモデル化しますか?私の考えの1つは、反復測定マルチレベルモデルを使用して、各時点でのTBとnilの「真の差」を推定することですが、私が本当に知りたいのは、その人のnil応答とTB応答であるかどうかということです同じ分布から引き出されるか、またはそれらの免疫系がTB抗原を認識して活性化すると、応答が増加します。

感染以外に陽性反応を引き起こす可能性があることについては、よくわかりません。通常、結果は個人内で変動するだけだと思いますが、他の要因の可能性は確かにあります。アンケートは毎回ありますが、まだ詳しく調べていません。

*製造されたが例示的なデータ


ああ、タグを付け直してもかまいません。私のブラウザーは自動提案で動作していないので、何が表示されているのかわかりません。
マットパーカー、

従属変数は連続ですか、それとも離散ですか?または、おそらく、根底にあるテスト結果は継続的であり、カットオフに応じて個別の回答(つまり、「ポジティブ」、「ネガティブ」)に変換されますか?また、結核に曝されていないにもかかわらず、個人が陰性から陽性に転じる理由を明確にできますか?そのようなフリップの具体的な例(いくつかの数字がスローされます)が役立つ場合があります。

1
例は、データを視覚化するのに非常に役立ちます。警告に関する別の質問:「値が床と天井に集中していて、データが正常ではないこと」(a)スケールの下端のデータが正常に見え、(b)スケールの上端のデータが正常に見えるかどうか教えてください。

注:賞金を実際に授与するための締め切りに間に合わなかったようです。そのため、Srikantの助力に対して適切に報酬を与えることができるように別の賞金を設定します。より多くの回答をいつでも歓迎しますが、彼にとっては報奨金があります。
マットパーカー、

回答:


2

これは完全な答えではありませんが、状況を一貫した方法でモデル化する方法についていくつかのアイデアが得られることを願っています。

仮定

  1. スケールの下端の値は、下から切り捨てられた正規分布に従います。

  2. スケールの上端の値は、上から切り捨てられた正規分布に従います。

    (注:データが正常ではないことを知っていましたが、すべての値の分布を参照していると想定していますが、上記の仮定はスケールの下限と上限の値に関連しています。)

  3. 人の根本的な状態(結核の有無に関係なく)は、一次マルコフ連鎖に従います。

型番

みましょう:

  1. Di(t)tith

  2. RTBi(t)tith

  3. RNi(t)tith

  4. f(RNi(t)|Di(t)=0)N(μl,σl2)I(RNi(t)>Rl)

  5. f(RNi(t)|Di(t)=1)N(μl,σl2)I(RNi(t)>Rl)

    ポイント4と5は、NILLテストに対する人の反応は病気の状態に依存しないという考えを捉えています。

  6. f(RTBi(t)|Di(t)=0)N(μl,σl2)I(RTBi(t)>Rl)

  7. f(RTBi(t)|Di(t)=1)N(μu,σu2)I(RTBi(t)<Ru)

  8. μu>μl

    ポイント6、7、8 、結核検査に対する人の反応疾患の状態に依存するという考えを捉えています。

  9. p(t)t

    [1p(t)p(t)01]

    言い換えると、

    Prob(Di(t)=1|Di(t1)=0)=p(t)

    ProbDt=0|Dt1=0=1pt

    ProbDt=1|Dt1=1=1

    ProbDt=0|Dt1=1=0

テスト基準は次のように述べています。

D^t={1RTBtRNt0.350otherwse

ただし、モデルの構造からわかるように、実際にカットオフをパラメーター化し、問題全体をカットオフとして適切なものに変更して、患者を正確に診断できます。したがって、激怒の問題は、何よりもカットオフの選択に関する問題のようです。

pt

お役に立てれば幸いです。


ありがとう、Srikant!申し訳ありませんが、以前のコメントがなんとか逃してしまいました。上のクラスターは、実際には天井のスパイクにすぎません。基本的に説明したとおり、下の分布にリンクする均一性の長いストレッチを除いて、変動はありません。あなたの答えを解析するのには少し時間がかかります(特に私がIEで立ち往生していて、現在LaTeXを正しく表示できないため)が、この奇妙な小さな質問への献身に本当に感謝しています。
マットパーカー、

3

トリッキーマット、実際の統計の問題の多くがそうです!

私はあなたの研究の目的/目的を定義することから始めます。

被験者の本当の状態を知らなければ、TB +とTB-テストの確率分布を定義することは難しいでしょう。以前の結核感染(またはもっと良いことには、病歴)に関する質問がありますか?また、私は子供の頃の予防接種-数十年前-のためにまだTB +をテストしているため、以前の予防接種を考慮する必要があります。

あなたの本質的な質問は私に思えます:繰り返し結核検査は検査結果に影響しますか?

Peter DiggleのAnalysis of Longitudinal Dataのコピーを入手する価値があります。

いくつかの探索的データ分析を行います。特に、各時間でのnilテスト結果の相互の散布図行列と、各時間でのTBテスト結果の相互比較を行います。TBとnilの散布図(毎回)。また、違い(TBテスト-Nilテスト)を取り、散布図行列を実行します。データの変換を試して、これらをやり直してください-log(TB)-log(Nil)がTBの結果がNilに比べて非常に大きい場合に役立つと思います。相関関係構造で線形関係を探します。

別のアプローチは、定義されたテスト結果(ポジティブ/ネガティブ)を取り、非線形混合効果モデル(ロジットリンク)を使用してこれを対数的にモデル化することです。一部の個人はTB +からTB-へのテストを切り替えますが、これはNilテスト、TBテスト、TB-Nilまたはテスト結果の変換に関連していますか?


ご回答有難うございます。本当の状態を知らないことに関して:私たちは広範なアンケートを持っており、皮膚テストでのBCGワクチンの問題をよく知っています-実際、これらの血液検査はあなたがPPDとは異なる一連の抗原を使用するため、その問題を解決するはずですに慣れている。ただし、これはほぼ別の質問であり、少し後で検討する予定です。現在、このテストを「長期にわたって認識」することに関心があります。
マットパーカー、

...特に一部の個人はネガティブからポジティブにフリップするため、それは多くの場合、典型的なnilとTBの結果の小さな変動である-多くの場合、nilを少し下げ、TBを少し上げて、突然彼らはポジティブになります。次のテストでは、彼らはネガティブであることに戻ってきました。個々の結果を確認するとわかりますが、自分の直感をモデルに適切に組み込む方法がわかりません。
マットパーカー

最後に、私はログの結果を取得しようとしましたが、それらを正常に近づけるには十分ではないようです。それらは非常に歪んでおり、上限での切り捨ては、天井に密度の顕著な塊を追加することにより、これをさらに複雑にします。ただし、興味深いことに、サンプル全体のnilとTBの結果の分布は非常によく似ています。唯一の違いは、TBの結果では天井のブロブがはるかに大きいことです。
Matt Parker、

質問のこの獣を読んで答えるために時間を割いてくれてありがとう!
Matt Parker、
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.