タグ付けされた質問 「censoring」

打ち切りのプロセスでは、部分的な情報のみのデータが生成されます。打ち切りの最も一般的な例は、生存分析における「正しい打ち切り」です。この場合、イベントが発生するまでの時間は、調査が終了したときにイベントが発生していなかったため、ある期間よりも長いことがわかっています。

1
0打ち切り多変量正規分布の平均と分散は何ですか?
してみましょうZ∼N(μ,Σ)Z∼N(μ,Σ)Z \sim \mathcal N(\mu, \Sigma)であることRdRd\mathbb R^d。の平均と共分散行列は何ですかZ+=max(0,Z)Z+=max(0,Z)Z_+ = \max(0, Z)(最大値は要素ごとに計算されます)? たとえば、ディープネットワーク内でReLUアクティベーション機能を使用し、CLTを介して、特定のレイヤーへの入力がほぼ正常であると想定すると、これが出力の分布になります。 (多くの人がこれを以前に計算したことがあると私は確信しているが、合理的に読みやすい方法でどこにもリストされている結果を見つけることができなかった。)

1
指数分布のML推定(打ち切りデータ付き)
生存分析では、rv 生存時間が指数関数的に分布していると想定します。私が持っていることを考えると、今のx 1、... 、X nは IID RVさんの"成果" X Iを。これらの結果の一部のみが実際に「完全に実現」されています。つまり、残りの観察結果はまだ「生きています」。XiXiX_ix1,…,xnx1,…,xnx_1,\dots,x_nXiXiX_i 分布のレートパラメーター ML推定を実行したい場合、実現されていない観測をコヒーレント/適切な方法でどのように利用できますか?推定に役立つ情報がまだ含まれていると思います。λλ\lambda 誰かがこのトピックに関する文献を教えてくれませんか?確かに存在します。しかし、トピックに適したキーワード/検索用語を見つけるのに苦労しています。

3
もし、
:次の設定を想定し ましょZi=min{ki,Xi},i=1,...,nZi=min{ki,Xi},i=1,...,nZ_i = \min\{k_i, X_i\}, i=1,...,n。また、Xi∼U[ai,bi],ai,bi>0Xi∼U[ai,bi],ai,bi>0X_i \sim U[a_i, b_i], \; a_i, b_i >0。さらに、ki=cai+(1−c)bi,0<c<1ki=cai+(1−c)bi,0<c<1k_i = ca_i + (1-c)b_i,\;\; 0 k_i) = 1- \Pr(X_i \le k_i) =1−ki−aibi−ai=1−(1−c)(bi−ai)bi−ai=c=1−ki−aibi−ai=1−(1−c)(bi−ai)bi−ai=c= 1- \frac {k_i - a_i}{b_i-a_i} = 1-\frac {(1-c)(b_i-a_i)}{b_i-a_i} =c したがって、全体として FZi(zi)=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪0zi<aizi−aibi−aiai≤zi<ki1ki≤ziFZi(zi)={0zi<aizi−aibi−aiai≤zi<ki1ki≤ziF_{Z_i}(z_i) = \begin{cases} 0\qquad z_i0zi=kizi=kiz_i = k_i 総じて、それは現実を統一することを意味します。 確率変数S_n \ equiv \ sum_ {i = …

2
範囲で連続従属変数をモデル化するにはどうすればよいですか?
0から無限大までの範囲の従属変数があり、0は実際には正しい観測値です。打ち切りとTobitモデルは、の実際の値が部分的に不明または欠落している場合にのみ適用されることを理解しています。この場合、データは切り捨てられると言われます。このスレッドの打ち切りデータに関するいくつかの詳細。YYY しかし、ここで0は母集団に属する真の値です。このデータでOLSを実行すると、負の推定を行うのに特に厄介な問題があります。をモデル化するにはどうすればよいですか?YYY > summary(data$Y) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.00 0.00 0.00 7.66 5.20 193.00 > summary(predict(m)) Min. 1st Qu. Median Mean 3rd Qu. Max. -4.46 2.01 4.10 7.66 7.82 240.00 > sum(predict(m) < 0) / length(data$Y) [1] 0.0972098 開発 回答を読んだ後、少し異なる推定関数を使用して、ガンマハードルモデルの適合を報告します。結果は私にはかなり驚くべきものです。まず、DVを見てみましょう。明らかなのは、非常に太い尾のデータです。これは、以下でコメントする、適合度の評価に興味深い結果をもたらします。 quantile(d$Y, probs=seq(0, 1, 0.1)) 0% 10% …

1
打ち切り変数の代入
変数が約200の医療データセットがあります。変数の1つは、バイオマーカー(特定の酵素の濃度)です。その分布は正しいスキューであり、問​​題は特定のレベルを超える値がそのレベルで打ち切られたり、打ち切られたりすることです。したがって、変数の平均は約10ですが、50を超える値は50として記録されます。 これらの打ち切り値に連続値を代入したいと思います。現在、R のマウスパッケージで複数の補完を使用していますが、他のシステムも利用可能であり、他のアプローチを受け入れています。私が考えていたのは、これらのすべての打ち切り値を欠落するように再コード化してから、代入を実行することでした。最初に打ち切られた帰属値のいずれかがカットオフを下回っている場合、それらはカットオフ値として割り当てられます。 これについての意見、および/またはこれに対処するためのより良い方法を知りたいのですが。

3
打ち切りデータの推定CDFプロットの現象の名前
私のデータセットには、2つの(かなり強く相関している)変数(アルゴリズムのランタイム)と(検査されたノードの数など)が含まれています。アルゴリズムは1秒あたり約ノードを管理できるため、どちらも設計によって強く相関しています。n ctttんnnccc アルゴリズムはいくつかの問題で実行されましたが、タイムアウト後に解決策が見つからなかった場合、アルゴリズムは終了しました。したがって、データは時間変数で右打ち切りになります。TTT アルゴリズムが終了した場合の変数の推定累積密度関数(または累積カウント)をプロットします。これは、最大ノードを拡張することで解決できる問題の数を示し、アルゴリズムのさまざまな構成を比較するのに役立ちます。しかし、のプロットでは、下の画像に見られるように、鋭い右上にある面白い尾があります。打ち切りが行われた変数のecdfを比較します。t &lt; T n n tんnnt &lt; Tt&lt;Tt<Tんnnんnnttt 累積数んnn 累積数ttt シミュレーション これが発生する理由を理解し、次のRコードを使用してシミュレーションで効果を再現できます。これは、いくらかのノイズが加わった状態で、強相関変数の打ち切りによって引き起こされます。 qplot( Filter(function(x) (x + rnorm(1,0,1)[1]) &lt; 5, runif(10000,0,10)), stat="ecdf",geom="step") この現象はどのように呼ばれますか? これらのファンは実験の成果物であり、実際の分布を反映していないことを、出版物に記載する必要があります。

5
二項変数の50%が遷移する時間をどのように推定できますか?
4つの被験者のバイナリ状態を4回表す次のデータがあります。各被験者がに遷移することのみ可能であり、1 → 0には遷移できないことに注意してください。0→10→10\to 11→01→01\to 0 testdata &lt;- data.frame(id = c(1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4), day = c(1,1,1,1,8,8,8,8,16,16,16,16,24,24,24,24,32,32,32,32), obs = c(0,0,0,0,0,1,0,0,0,1,1,0,0,1,1,1,1,1,1,1)) 私はそれをロジスティック回帰でモデル化できます: testmodel &lt;- glm(formula(obs~day, family=binomial), data=testdata) &gt; summary(testmodel) Coefficients: Estimate Std. Error t value Pr(&gt;|t|) (Intercept) -0.018890 0.148077 -0.128 0.899907 day 0.032030 0.007555 4.240 0.000493 *** 最初に、モデル内の同じ個人の反復測定をどのように説明できますか? 第2に、被験者の1/2がから移行する日を不確実に見積もるにはどうすればよいですか?0→10→10\to 1

2
Cox回帰とTobit回帰の関係は何ですか?
打ち切りデータを処理するために、Tobit回帰のような打ち切り回帰法を使用する研究者もいれば、Cox回帰のような古典的な生存分析モデルを使用する研究者もいます。 数学の観点から、Cox回帰とTobit回帰は2つの異なるモデルであることを知っています。 私の質問:これらの2つの方法の長所と短所は何ですか?彼らはそれぞれどのような問題を解決するのが得意ですか?それらは異なる仮定を持っていますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.