タグ付けされた質問 「truncation」

切り捨ては、しきい値を超えているデータが欠落するプロセスです。


2
臨床試験データを自然史コントロールと比較する方法
コンテキスト:私は、自然史制御を伴う臨床試験のデータを分析する方法を理解することに興味があります。つまり、あるグループの人々(たとえば、疾患の遺伝的リスクがある人々)が採用され、すべてが扱われる臨床試験です薬物、およびそれらの生存率(たとえば、発症時の年齢、またはこの疾患による死亡)が、同じ遺伝的リスクを持つ未治療の歴史的対照の生存率と比較されます。 始める前に、このトピックに触れたFDAガイダンスドキュメント(例:希少疾患:医薬品開発における一般的な問題)を読んだことを認めたいと思います。自然に忍び込むことができる多くの種類のバイアスがあることをよく認識しています歴史の比較と、この理由から、FDAはそのような試験を薬の有効性の証拠として受け入れることはほとんどなく、通常は無作為化試験をはるかに強力な証拠と見なしています。自然史コホートを薬物で治療される将来のコホートと公平に比較​​できるかどうかをどのように決定するかという問題は、重要で複雑な問題です。しかし、それは今日の私の質問のトピックではありません。その代わり、私は、まだはるかに簡単な質問に困惑の問題だということを発見しています場合に自然史のコホートは比較可能で偏りがないと見なされます。統計的に言えば、比較はどのように行われますか? これがシナリオです。 簡単にするために、私の病気には単一の既知の遺伝的原因があり、この遺伝子型の人はある程度の年齢まで完全に健康であり、その後突然病気になったとします。発症年齢は非常に変動しやすく、危険は年齢の関数として変化します。以下に説明するすべてのデータセットの誰もが、この病気を引き起こす遺伝子型を持っています。 データセットAには、架空の臨床試験に参加している人々に関するデータがあります。彼らは1歳で登録し(starting_age)、薬剤で治療され、2番目の年齢(last_age)で病気になる(event == 1)か、または試験から離脱する()まで、さまざまな期間が経過したevent == 0。 「理想的な理想」のシナリオでは、おそらく自然史コホートは、この遺伝子型を持つ多数の人々であり、出生からこの疾患または無関係の原因で死亡するまで続きます。そのようなデータセットは存在しません。代わりに、自然史コホートが何であるかについて2つの可能なオプションを検討してください(BおよびC)... データセットBには、いくつかのランダムな年齢(starting_age)で前向き研究に登録し、薬物治療を受けておらず、2番目の年齢(last_age)になるまで、さまざまな期間、単純に追跡された人々に関するデータがあります。病気(event == 1)または研究を中止(event == 0)。開始年齢の分布とフォローアップの年数は、データセットAと同じ分布に従うとは想定できません。 データセットCには、純粋に遡及的なデータがあります。ここでは将来のフォローアップはありませんでした。私たちは一人一人を単純に観察しました。一部の人々は、いくつかの特定の年齢で病気になることを観察した(してage、そしてevent == 1他の人がまだいくつかの特定の年齢で健康であることを見て(している間)age、およびevent == 0)。 用語を正しく理解していれば、AとBのデータは左打ち切りと右打ち切りと見なされます。Cのデータは、右打ち切りのみと見なされます。Cain 2011で使用されている用語によると、データセットBは「流行しているコホート」であり、データセットCは「インシデントコホート」であると思います。 私の質問は: データが各個人の異なる年齢で左端が切り捨てられている場合、データセットAまたはBの生存関数(またはハザード関数など)を構築するにはどうすればよいでしょうか。 データセットAの人がBまたはCの人よりも有意に長く生存するか、ハザードが著しく低いかをテストするためにどの統計テスト(またはブートストラップ法)が使用されますか? データセットBまたはC しかなく、特定のハザード比に対してN人の個人を対象とした特定の臨床試験の統計的検出力を推定したい場合、どうすればよいでしょうか? (ボーナス質問)人々が、たとえば、年齢の関数としてさまざまなハザードに関連するさまざまな遺伝的変異も持っている場合、その変数を上記の回答にどのように組み込みますか? これまでに試したいくつかのこと: 私はフローラのZ統計[ フローラ1978 ] を検討しましたが、いくつかは同様の状況で適用されましたが、参照として使用されている自然史コホートのサンプリングの差異を考慮していないのではないかと心配しています。 左打ち切り時間の異なる生存分析などの用語のいくつかの異なる組み合わせをグーグル検索し、生存分析:左打ち切りデータ、PROC PHREGを使用した左打ち切りの存続など、同様の問題について説明しているページをいくつか見つけましたが、これらは根本的な原因を説明していません彼らのソリューションの数学。 私はついにCain 2011に出会いました。この記事では、問題を詳細に説明しており、補足として、左切り捨てを処理するためのRコードがあります。左打ち切りを組み込んだMLEに独自の関数を実装しましたが、R survivalライブラリに組み込まれた機能を使用して、左打ち切りはCox比例ハザードモデルですでに処理できると主張していますcoxph(Surv(time=agestart,time2=x,event=cx,type='counting')~bmi)。ここで、Survオブジェクトはtime、開始年齢time2として、eventまたは発生したか発生しなかった年齢として使用して作成されます。これは賢明に聞こえるSurvかもしれませんが、のヘルプファイルでは、ここで実際に何が行われているのかは説明されていませんcounting。私はsurvivalマニュアルを見ましたそして、の参照としてcounting、Andersen&Gill 1982を指摘しました。これは私の頭の上に少しあり、左の切り捨てについて、または少なくともその名前では議論していないようです。特徴の1つは、「カウント」モデルが、個人が生涯に複数のイベントを保持できるケースに適合するように構築されているように見えることです。私の例ではそうではありませんが、おそらくそれは問題ではありません。 上記に基づいて、Coxの「カウント」モデルはデータセットAとBを比較する正しい方法であると思われ、Rでそのような比較を行うことができました(以下のコードを参照)。私はここで正しいことをしていますが、そのようなアプローチがデータセットAとCを比較するためにどのように(もしあれば)適用できるかわかりません。 最後に、私は、検索クロス検証済みのため切り捨てを左に生存し、人々は私が(求めているのと同様の質問をしていた事例が多数見つかった1、2、3、4、4、5、6、7)が、ほとんど未回答だったが、1つは上記のカインリファレンスを指し、もう1つはクライン&モエシュバーガー2003を指しました これは役に立ちました(egp 123とp。312を参照)。AとBはかなり単純なCoxアプローチを使用して比較できるという概念をサポートしているようですが、AとCの比較可能性や電力計算の質問には対応していません。 (ただし、統計的検定の質問に答えた場合、ブートストラップを行うことでおそらく能力を引き出すことができます)。 以下は、このシナリオを示すRの架空のデータです。各データセットに20行を含めましたが、重要なのは、私が想像している実際のシナリオでは、データセットAとBはおそらく50または100の患者のオーダーであり、データセットCは500または1,000人の患者。 # A) hypothetical data from …

1
被加数がランダムな独立指数の和の分布
してみましょう独立同一のパラメータを持つ指数関数分布することが。次に、指定された、これらの値の合計 は、確率密度関数を使用したアーラン分布に従います τi∼exp(λ)τi∼exp⁡(λ)\tau_i\sim\exp\left(\lambda\right)λλ\lambdannnTn:=∑i=0nτiTn:=∑i=0nτiT_n := \sum_{i=0}^n \tau_iπ(Tん= T| n、λ)=λんTn − 1e- λ T(n − 1 )!以下のための T、λ ≥ 0。π(Tn=T|n,λ)=λnTn−1e−λT(n−1)!for T,λ≥0.\pi(T_n=T| n,\lambda)={\lambda^n T^{n-1} e^{-\lambda T} \over (n-1)!}\quad\mbox{for }T, \lambda \geq 0. 私は分布に興味があります。ここで、は確率変数で、指数分布する場合、 Tん〜Tn~T_\tilde nん〜n~\tilde nτa〜EXP(λa)τa∼exp⁡(λa)\tau_a \sim \exp(\lambda_a)Tn~≤τaTn~+1>τa.Tn~≤τaTn~+1>τa.T_\tilde n \leq \tau_a \\T_{\tilde{n}+1} > \tau_a. つまり、は指数分布で切り捨てられます。分布の導出に失敗しましたが、おそらくもっと簡単な方法があります: Tn~Tn~T_{\tilde n}n~n~\tilde nπ(n~=k)=π(Tn<τa|n=k)=1−∫R+∑n=0k−11n!exp(−(λ+λa)τa)(τλa)nλadτa.π(n~=k)=π(Tn<τa|n=k)=1−∫R+∑n=0k−11n!exp⁡(−(λ+λa)τa)(τλa)nλadτa.\pi\left(\tilde n = k\right) = \pi\left(T_n …

1
ベータ分布の部分的な期待値(切り捨てられたベータの平均)を計算する方法は?
ベータ分布がa = 2、b = 3の場合、区間[0、1] = a /(a + b)= 2/5 = 0.4および中央値=(a- 1/3)/(a + b-2 / 3)= 0.39、近いです。 私はpythonの解決策を探しています。scipy.stats.betaを使用して、間隔[ 0、0.4 ]の中央値をパーセントポイント関数で計算できます(cdfの逆数-パーセンタイル): beta.ppf(0.4/2,a,b) = 0.2504 このベータ分布では、全体の平均と中央値が近いため(それぞれ0.4と0.39)、間隔[0、0.4]の中央値を使用して、間隔[0、0.4]の期待値(平均)を推定します。 間隔[0、0.4]の期待値(平均)を計算する方法はありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.