タグ付けされた質問 「truncation」

切り捨ては、しきい値を超えているデータが欠落するプロセスです。

4
データのウィンザライズとトリミングの相対的なメリットは何ですか?
データのウィンソライズとは、データセットの極値を各端から特定のパーセンタイル値に置き換えることを意味し、トリミングまたは切り捨てにはこれらの極値の削除が含まれます。 平均または標準偏差などの統計を計算する際に、外れ値の影響を軽減するための実行可能なオプションとして、両方の方法について説明していますが、一方を選択する理由はわかりません。 WinsorizingまたはTrimmingを使用することに相対的な利点または欠点はありますか?1つの方法が望ましい特定の状況はありますか?実際にはもっと頻繁に使用されていますか、それとも基本的に交換可能ですか?

2
打ち切りと切り捨ての違いは何ですか?
生涯データの統計モデルと方法の本には、次のように書かれています。 打ち切り:何らかのランダムな原因により観測が不完全な場合。 切り捨て:観察の不完全な性質が、研究デザインに固有の体系的な選択プロセスに起因する場合。 切り捨ての定義における「研究デザインに固有の体系的な選択プロセス」とはどういう意味ですか? 打ち切りと切り捨ての違いは何ですか?

1
切り捨てられた分布の最尤推定量
検討NNNの独立した試料SSSランダム変数から得られたXXX(例えばA切り捨て分布に従うと仮定される正規分布を切り捨て既知の(有限の)最小値と最大値の)およびBが、未知パラメータのμ及びσ 2。場合Xは非切り捨て分布に従って、最尤推定量は、μ及びσ 2のためのμ及びσ 2からSは試料の平均であろうμaaabbbμμ\muσ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSSμˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_i及び試料分散 σ 2=1σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2。しかし、切り捨て分布のために、このように定義されたサンプル分散はで囲まれている(b−a)2(b−a)2(b-a)^2、それは必ずしも一致推定量ではないのでための:σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2、それに対して確率で収束することができませんσ2σ2\sigma^2としてNNN無限大になります。そのようですので、 μ及び σ 2は、の最尤推定量ではありませんμμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muそして、切り捨て配布するため。もちろん、これは以来、予想されるμとσ 2つの切断正規分布のパラメータは、その平均と分散ではありません。σ2σ2\sigma^2μμ\muσ2σ2\sigma^2 それでは、既知の最小値と最大値の切り捨てられた分布のおよびσパラメーターの最尤推定量は何ですか?μμ\muσσ\sigma

1
乱数ジェネレーターからの切り捨てられた数値はまだ「ランダム」ですか?
ここで、「切り捨て」とは、乱数の精度を下げ、一連の乱数を切り捨てないことを意味します。たとえば、任意の精度で乱数(正規分布、均一分布などの任意の分布から描画)があり、すべての数字を切り捨てて、最終的にそれぞれが正確にn個の数字のセットになる場合小数点以下2桁。この新しい数字のセットを「ランダム」と呼ぶことはできますか?nnnnnn ハードウェア生成乱数について読んでいたとき、私はこの質問を思いつきました。ウィキペディアの記事では、物理的なプロセスを測定することで乱数を生成すると述べています。しかし、この測定には限界(測定誤差、有限精度など)があるため、これらのハードウェアで生成された数値をランダムに呼び出すことができますか?

3
切り捨てられた分布とはどういう意味ですか?
動的システムの常微分方程式モデルの感度解析に関する研究記事で、著者はモデルパラメーターの分布を[0.5eの範囲に切り捨てられた正規分布(平均= 1e-4、std = 3e-5)として提供しました-4 1.5e-4]。次に、この切り捨てられた分布のサンプルを使用して、モデルのシミュレーションを行います。切り捨てられた分布と、この切り捨てられた分布からのサンプルがあるとはどういう意味ですか? これを行うには、2つの方法があります。 正規分布からサンプリングしますが、シミュレーションの前に指定範囲外のすべてのランダム値を無視します。 何らかの形で特別な「切り捨てられた正規」分布を取得し、そこからサンプルを取得します。 これらは有効かつ同等のアプローチですか? 最初のケースでは、サンプルの実験的なcdf / pdfをプロットすると、曲線が拡張されないため、正規分布のようには見えません。±∞±∞\pm\infty

4
ゼロ切り捨て負の二項GEEのR / Stataパッケージ?
これは私の最初の投稿です。このコミュニティに本当に感謝しています。 ゼロが切り捨てられた縦断カウントデータ(応答変数= 0が0である確率)と平均!=分散を分析しようとしているため、ポアソンに対して負の二項分布が選択されました。 私が除外した機能/コマンド: R Rのgee()関数は、ゼロ切り捨ても負の二項分布も考慮しません(MASSパッケージがロードされていなくても) Rのglm.nb()は、異なる相関構造を許可しません VGAMパッケージのvglm()はposnegbinomialファミリーを利用できますが、非独立相関構造を使用してモデルを再適合できないという点で、Stataのztnbコマンド(以下を参照)と同じ問題があります。 スタタ データが縦方向ではない場合、Stataパッケージztnbを使用して分析を実行できますが、そのコマンドは私の観測が独立していると想定しています。 また、さまざまな方法論的/哲学的理由からGLMMを除外しました。 今のところ、Stataのxtgeeコマンドで解決しました(はい、xtnbregも同じことを知っています)。これは、非独立相関構造と負の二項族の両方を考慮しますが、ゼロ切り捨ては考慮しません。xtgeeを使用することの追加の利点は、(qicコマンドを使用して)qic値を計算して、応答変数に最適な相関構造を決定できることです。 RまたはStataに1)nbinomialファミリ、2)GEE、および3)ゼロ切り捨てを考慮に入れることができるパッケージ/コマンドがある場合、私は知りたくなります。 あなたが持っているかもしれないアイデアを大いに感謝します。ありがとうございました。 -ケーシー

2
しきい値処理されたベータ分布を効率的にサンプリング
次の分布から効率的にサンプリングするにはどうすればよいですか? x∼B(α,β), x>kx∼B(α,β), x>k x \sim B(\alpha, \beta),\space x > k が大きすぎない場合、リジェクションサンプリングが最善のアプローチである可能性がありますが、kが大きい場合の処理​​方法がわかりません。おそらく、適用できる漸近近似がありますか?kkkkkk

2
JAGSでの打ち切り/切り捨て
JAGSの検閲問題にどのように適合するかについて質問があります。 X値に測定誤差がある2変量混合法線を観察します。観測された打ち切り値の真の基礎となる「手段」をモデル化したいと思います。 ⌈xtrue+ϵ⌉=xobserved ϵ∼N(0,sd=.5)⌈xtrue+ϵ⌉=xobserved ϵ∼N(0,sd=.5)\begin{align*} \lceil x_{true}+\epsilon \rceil = x_{observed} \ \epsilon \sim N(0,sd=.5) \end{align*} これが私が今持っているものです: for (i in 1:n){ x[i,1:2]~dmnorm(mu[z[i],1:2], tau[z[i],1:2,1:2]) z[i]~dcat(prob[ ]) } Yにも測定誤差があります。私がしたいのは次のようなものです: for (i in 1:n){ x_obs[i] ~ dnorm(x_true[i],prec_x)I(x_true[i],) y_obs[i] ~ dnorm(y_true[i],prec_y) c(x_true[i]:y_true[i])~dmnorm(mu[ z [ i ],1:2], tau[z[i],1:2,1:2]) z[i]~dcat(prob[ ]) } #priors for measurement error e_x~dunif(.1,.9) …

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
折りたたまれた正規分布からのサンプリングは、0で切り捨てられた正規分布からのサンプリングと同等ですか?
通常の密度(たとえば、mean = 1、sd = 1)からシミュレーションしたいのですが、正の値のみが必要です。 1つの方法は、法線からシミュレーションし、絶対値を取ることです。これは普通の折りたたみだと思います。 Rには、切り捨てられたランダム変数を生成するための関数があることがわかります。打ち切られた法線(0での打ち切り)からシミュレーションすると、これは折り畳みアプローチと同じですか?

2
範囲で連続従属変数をモデル化するにはどうすればよいですか?
0から無限大までの範囲の従属変数があり、0は実際には正しい観測値です。打ち切りとTobitモデルは、の実際の値が部分的に不明または欠落している場合にのみ適用されることを理解しています。この場合、データは切り捨てられると言われます。このスレッドの打ち切りデータに関するいくつかの詳細。YYY しかし、ここで0は母集団に属する真の値です。このデータでOLSを実行すると、負の推定を行うのに特に厄介な問題があります。をモデル化するにはどうすればよいですか?YYY > summary(data$Y) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.00 0.00 0.00 7.66 5.20 193.00 > summary(predict(m)) Min. 1st Qu. Median Mean 3rd Qu. Max. -4.46 2.01 4.10 7.66 7.82 240.00 > sum(predict(m) < 0) / length(data$Y) [1] 0.0972098 開発 回答を読んだ後、少し異なる推定関数を使用して、ガンマハードルモデルの適合を報告します。結果は私にはかなり驚くべきものです。まず、DVを見てみましょう。明らかなのは、非常に太い尾のデータです。これは、以下でコメントする、適合度の評価に興味深い結果をもたらします。 quantile(d$Y, probs=seq(0, 1, 0.1)) 0% 10% …

2
Rの下限または上限で制約付き法線をシミュレート
Rを使用して制約付き正規分布からランダムデータを生成したいと思います。 たとえば、正規分布の変数をシミュレートしたいmean=3, sd= 2とします。5より大きい値はすべて同じ正規分布からリサンプリングされます。 したがって、一般的な機能については、次のことができます。 rnorm(n=100, mean=3, sd=2) それから私はいくつかの考えを持っていました: ifelseすべての値が境界内に収まるように制約されるまで繰り返すループで関数を反復します。 必要以上に多くの値をシミュレートしn、制約を満たす最初の値を取ります。 ベクトル化された通常の変数シミュレーターを避け、代わりに内部のdoでforループを使用して、各観測を一度に1つずつシミュレーションし、必要に応じてループします。 上記のすべては少し不格好に見えます。 質問 平均= 3、sd = 2、最大= 5の法線からRの制約付きランダム正規変数をシミュレートする簡単な方法は何ですか? より一般的には、Rのシミュレートされた変数に制約を組み込む一般的な方法は何ですか

2
左打ち切りデータを使用したRでの生存分析
survivalパッケージでRの生存分析を行っています。私は左切り捨てデータで作業していると思いますが、その処理方法は完全にはわかりません。 私は1990年から2012年の間に診断された患者のコホートを持っています。すべての患者は、明確に定義された診断時刻(開始時刻)を持っています。ただし、関心のある結果(特定の疾患の悪化)は、2000年以降にのみ文書化されています。したがって、2000年以前に診断された患者の場合、結果がその時間の前に発生したかどうかはわかりません。 私が最初に思ったのは、分析を2000年以降の期間に限定する必要があり、その時点以降に診断された患者だけを含める必要があるということでした。いくつかの読み取りを行った後、2000年より前に診断された患者を除外する必要はないように見えます。これは左打ち切りであると思われ、time1は左打ち切り時間(診断から文書化の開始までの時間)coxphを使用して処理できます。Surv(time1, time2, event)結果)および時間2は、イベントまでの時間(診断時から)です。 これが私のデータセットにある患者の2つの例です。 患者#1:1999年に診断されました。2001年に結果が観察されました。左打ち切り時間:1年(〜2000年)。イベントまでの時間:2年。 患者#2:2001年に診断されました。2005年に結果が観察されました。左打ち切り時間:0年。イベントまでの時間:4年。 これらの患者の場合、サバイバルオブジェクトでの生存時間(年単位)は(それぞれ)になると思います。 Surv(time1 = c(1,0), time2 = c(2,4), event = c(1,1)) これは左切り捨てデータの例ですか?もしそうなら、これはそれを処理する正しい方法ですか?

2
通常の切り捨てられた確率変数の合計
私が持っていると仮定しの独立した正規確率変数んnn バツ1〜N(μ1、σ21)バツ2〜N(μ2、σ22)⋮バツん〜N(μん、σ2ん)X1∼N(μ1,σ12)X2∼N(μ2,σ22)⋮Xn∼N(μn,σn2)X_1 \sim \mathrm{N}(\mu_1, \sigma_1^2)\\X_2 \sim \mathrm{N}(\mu_2, \sigma_2^2)\\\vdots\\X_n \sim \mathrm{N}(\mu_n, \sigma_n^2) および。各の分布がそれぞれ内に切り捨てられている場合、の密度をどのように特徴付けますか?つまり、独立した正規分布からサンプリングし、各平均の内にないサンプルを破棄して、それらを合計しています。 Y X I(μ I - 2 σ I、μ I + 2 σ I)N 2 σ IY= X1+ X2+ ⋯ + XんY=X1+X2+⋯+XnY=X_1+X_2+\dotsm+X_nYYYバツ私XiX_i(μ私- 2 σ私、μ私+ 2 σ私)(μi−2σi,μi+2σi)(\mu_i - 2\sigma_i, \mu_i + 2\sigma_i)んnn2つのσ私2σi2\sigma_i 現在、私は以下のRコードでこれを行っています: x_mu <- c(12, 18, 7) x_sd <- …

1
Royモデルの2変量標準正規および暗黙条件付き確率の特性
長いタイトルで申し訳ありませんが、私の問題はかなり具体的であり、1つのタイトルで説明するのは困難です。 私は現在ロイモデル(治療効果分析)について学んでいます。 私のスライドには、1つの導出ステップがありますが、これは理解できません。 治療群での治療の予想結果を計算します(ダミーDは治療か非治療か)。これは E[Y1|D=1]E[Y1|D=1]\begin{align} E[Y_1|D=1] \end{align} 以来、このように書き換えることができる E [ Y 1 | D = 1 ]Y1=μ1+U1Y1=μ1+U1Y_1=\mu_1 + U_1 についても説明しましたが、Y1>Y0の場合、 D=1となるため、次のようになります。E[Y1|D=1]=E[μ1+U1|D=1]=μ1+E[U1|D=1]E[Y1|D=1]=E[μ1+U1|D=1]=μ1+E[U1|D=1]\begin{align} E[Y_1|D=1] &= E[\mu_1+U_1|D=1]\\ &=\mu_1+ E[U_1|D=1] \end{align}D=1D=1D=1Y1>Y0Y1>Y0Y_1>Y_0 Y1−Y0>0Y1−Y0>0Y_1-Y_0>0 μ1+U1−(μ0−U0)>0μ1+U1−(μ0−U0)>0\mu_1+U_1-(\mu_0-U_0)>0 (μ1+U1)/σ−(μ0−U0)/σ>0(μ1+U1)/σ−(μ0−U0)/σ>0(\mu_1+U_1)/\sigma-(\mu_0-U_0)/ \sigma >0 Z−ϵ>0Z−ϵ>0Z-\epsilon>0 したがって、ϵ < Zの場合、D=1D=1D=1ϵ<Zϵ<Z\epsilonc)=E[\rho u_2|u_2>c]=\rho E[u_2|u_2>c)=\rho\frac{\phi(c)}{1-\Phi(c)} σ1 ϵσ1ϵ\sigma_{1\epsilon}ρρ\rho μ1− E[ U1| ϵ<Z] = μ1+ ρ φ (Z)Φ (Z)μ1−E[U1|ϵ<Z]=μ1+ρϕ(Z)Φ(Z)\begin{align} …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.