タグ付けされた質問 「censoring」

打ち切りのプロセスでは、部分的な情報のみのデータが生成されます。打ち切りの最も一般的な例は、生存分析における「正しい打ち切り」です。この場合、イベントが発生するまでの時間は、調査が終了したときにイベントが発生していなかったため、ある期間よりも長いことがわかっています。

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
「残念な賛成票」の問題はありますか?
これは話題から外れているように聞こえるかもしれませんが、聞いてください。 スタックオーバーフローでは、ここで投稿に対する投票を得ます。これはすべて表形式で保存されます。 例えば: 投稿ID投票者ID投票タイプ日時 ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... 等々。投票タイプ2は投票、投票タイプ3は投票です。このデータの匿名バージョンをhttp://data.stackexchange.comで照会できます 投稿のスコアが-1以下になると、投稿される可能性が高くなるという認識があります。これは単に確認バイアスである場合もあれば、実際に根付いている場合もあります。 この仮説を確認または否定するために、このデータをどのように分析しますか?このバイアスの影響をどのように測定しますか?

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
打ち切りと切り捨ての違いは何ですか?
生涯データの統計モデルと方法の本には、次のように書かれています。 打ち切り:何らかのランダムな原因により観測が不完全な場合。 切り捨て:観察の不完全な性質が、研究デザインに固有の体系的な選択プロセスに起因する場合。 切り捨ての定義における「研究デザインに固有の体系的な選択プロセス」とはどういう意味ですか? 打ち切りと切り捨ての違いは何ですか?

3
この奇妙な形の分布をモデル化する方法(ほぼ逆J)
以下に示す私の従属変数は、私が知っている在庫分布に適合しません。線形回帰は、奇妙な方法で予測Yに関連するやや非正規の右スキューの残差を生成します(2番目のプロット)。最も有効な結果と最高の予測精度を得るための変換またはその他の方法に関する提案はありますか?可能であれば、たとえば5つの値(たとえば、0、lo%、med%、hi%、1)に分類することを避けたいと思います。

3
多重打ち切りデータの共分散行列の不偏推定
環境サンプルの化学分析は、報告限界またはさまざまな検出/定量限界でしばしば打ち切られます。後者は、通常、他の変数の値に比例して変化します。たとえば、ある化合物の濃度が高いサンプルは、分析のために希釈する必要があり、そのサンプルで同時に分析される他のすべての化合物の打ち切り限界が比例的に増大する場合があります。別の例として、化合物の存在により、他の化合物に対する試験の反応が変化する場合があります(「マトリックス干渉」)。これが研究室で検出されると、それに応じてレポートの制限が膨らみます。 特に多くの化合物が50%を超える打ち切りを経験する場合に、このようなデータセットの分散共分散行列全体を推定する実用的な方法を模索しています。従来の分布モデルでは、(真の)濃度の対数は多重正規分布であり、これは実際にはうまく適合するようであるため、この状況の解決策が役立ちます。 (「実用的」とは、R、Python、SASなどの少なくとも1つの一般的に利用可能なソフトウェア環境で、複数の代入で発生するような反復再計算をサポートするのに十分迅速に実行される方法で、確実にコーディングできる方法を意味します。そして、これはかなり安定している[だからこそ、一般的なベイジアンソリューションは歓迎されているが、BUGSの実装を検討するのを嫌がる]。 この件についてのご意見を事前に感謝します。

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
「ターゲットの最尤期待値」とは何ですか?
Mark van der Laanの論文を理解しようとしています。彼は、バークレーの理論統計学者であり、機械学習と大きく重複する問題に取り組んでいます。私にとっての問題の1つは(深い数学に加えて)、完全に異なる用語を使用して使い慣れた機械学習アプローチを説明することが多いことです。彼の主な概念の1つは、「ターゲットを絞った最尤予測」です。 TMLEは、交絡因子が存在する場合でも効果を推定できるように、非制御実験からの打ち切り観測データを分析するために使用されます。同じ概念の多くが他のフィールドの他の名前の下に存在することを強く疑いますが、私はまだそれを何かに直接一致させるほど十分に理解していません。 「計算データ分析」とのギャップを埋める試みはこちらです: データサイエンスの時代への突入:対象を絞った学習と、統計と計算データ分析の統合 そして、統計学者の紹介はこちらです: ターゲット最尤ベースの因果推論:パートI 2番目から: この記事では、複数の時点での介入の因果効果の特定のターゲット最尤推定量を開発します。これには、損失ベースのスーパー学習を使用して、G計算式の未知の因子の初期推定値を取得し、その後、各推定因子にターゲットパラメーター固有の最適変動関数(最も好ましいパラメトリックサブモデル)を適用することが含まれます。最尤推定で変動パラメーターを推定し、初期因子のこの更新ステップを収束まで繰り返します。この反復ターゲット最尤更新ステップにより、結果の推定結果の因果効果は、初期推定量が一貫していれば一貫しているという意味で二重ロバストになり、または、最適な変動関数の推定量は一貫しています。介入する因果グラフのノードの条件付き分布が正しく指定されている場合、最適な変動関数が正しく指定されます。 彼の用語では、「スーパー学習」とは、理論的に健全な非負の重み付けスキームを使用したアンサンブル学習です。しかし、「各推定因子にターゲットパラメーター固有の最適変動関数(最も好ましくないパラメトリックサブモデル)を適用する」とはどういう意味ですか。 または、3つの明確な質問に分けて、TMLEには機械学習の類似点がありますか、「最も好ましいパラメトリックサブモデル」とは何か、他の分野の「変動関数」とは何ですか。

5
打ち切りデータとは正確には何ですか?
打ち切りデータのさまざまな説明を読みました。 A)このスレッドで説明されているように、特定のしきい値を下回るまたは上回る数量化されていないデータは打ち切られます。数量化されていないということは、データが特定のしきい値を上回るか下回ることを意味しますが、正確な値はわかりません。データは、回帰モデルの低しきい値または高しきい値でマークされます。これは、このプレゼンテーションの説明と一致しますが、非常に明確であることがわかりました(最初のページの2番目のスライド)。つまり、は最小値、最大値、またはその両方に制限されます。これは、その範囲外の真の値がわからないためです。YYY B)友人から、未知の結果に関する少なくともいくつかの制限情報があれば、打ち切りデータモデルを部分的に未知の 観測に適用できると言われました。たとえば、いくつかの定性的基準(商品の種類、国、入札者の富など)に基づいて、サイレントオークションと公開オークションの組み合わせの最終価格を推定します。公開オークションではすべての最終価格わかりますが、サイレントオークションでは最初の入札(たとえば1,000ドル)だけがわかり、最終価格はわかりません。この場合、データは上から打ち切られ、打ち切り回帰モデルを適用する必要があると言われました。YYYYiYiY_iYiYiY_i C)最後によって与えられた定義があるウィキペディア完全に欠けているが、予測因子が利用可能ですが。この例が切り捨てられたデータとどのように異なるかはわかりません。YYY では、打ち切られたデータとは正確には何ですか?

2
生存分析における打ち切りのレイマンの説明
私は検閲とは何か、そして生存分析でどのように検閲する必要があるかについて読んだことがありますが、数学的定義のより少ない定義とより直感的な定義を聞きたいです(写真は素晴らしいでしょう!)誰でも1)検閲と2)カプラン・マイヤー曲線やCox回帰のようなものにどのように影響するかの説明を提供できますか?

1
従属変数に「カットオフ」がある場合のモデリング
私が使用する用語のいずれかが間違っている場合は、事前におApび申し上げます。訂正を歓迎します。「カットオフ」と説明するものが別の名前になっている場合はお知らせください。質問を更新できます。 私が興味を持っている状況はこれです:あなたは独立変数xx\bf{x}と単一の従属変数を持っていますyyy。あいまいにしておきますが、これらの変数の良い回帰モデルを取得するのは比較的簡単だと思います。 xx\bf{x}w=min(y,a)w=min(y,a)w = \min(y,a)aaayyyyyywww これの(やや非現実的な)例は、年金を徴収する期間をモデル化しようとした場合です。この場合、xx\bf{x}は性別、体重、週あたりの運動時間などの関連情報になります。「基礎となる」変数yyyは平均余命です。ただし、モデルでアクセスして予測しようとしている変数はw=min(0,y−r)w=min(0,y−r)w = \min(0, y-r)ここで、rは退職年齢です(簡単にするために固定されていると仮定)。 回帰モデリングでこれに対処するための良いアプローチはありますか?

2
年齢層別のグランドマスタータイトル資格の平均年齢のバイアス?
チェスプレーヤーがグランドマスタータイトルの資格を得ることができた最年少が1950年代から大幅に減少したことはかなり長い間知られており、現在15歳の誕生日の前にグランドマスターになったプレーヤーはほぼ30人です。しかし、チェススタック取引所には、「グランドマスターになる平均年齢はいくらですか?」という質問があります。。 誰かが答えを投稿し、その答えを彼(私は彼だと思います)がグランドマスターの6つのサブセットを見て、次の結果を見つけました。 1945年以降に生まれたプレイヤーの場合、平均は26歳をやや上回っています。 1970年以降に生まれたプレイヤーの場合、平均年齢は23歳をわずかに上回っています。 1975年以降に生まれたプレイヤーの場合、平均年齢は22歳をわずかに上回っています。 1980年以降に生まれたプレイヤーの平均年齢は21歳です。 1985年以降に生まれたプレイヤーの場合、平均年齢は20歳に過ぎません。 1990年以降に生まれたプレーヤーの場合、平均は18.5歳です。 (たとえば、最初のグループに1945年以降に生まれたすべてのグランドマスターが含まれている(次のグループのスーパーセットになっている)か、1945年から1970年の間に生まれたもののみ(年齢バンド)があるかは完全にはわかりません。私の質問は両方の場合に当てはまります。) 問題は、1990年以降に生まれたプレイヤーは、回答が投稿された時点(2015年7月)で26歳未満であったため、平均26歳の「GM年齢」を取得することは不可能であることです。 「古い」サブセットはそうではありませんが、25以上です。これは結果に歪みや偏りがありませんか?(これは選択バイアスの一種ですか?統計の背景がなく、いくつかの関連するウィキペディアのエントリを読むことは助けになりませんでした。)はいの場合、これをどのように(または)軽減する必要がありますか?「古い」グループでは、GMタイトル資格の平均の計算では、26歳より前にタイトルを獲得したプレーヤーのみを考慮すべきですか?

1
左打ち切りデータで標準の機械学習ツールを使用する
私は、輸入業者が代理店の顧客ネットワークから製品の需要を予測できるようにすることを目的とした予測アプリケーションを開発しています。需要を満たすのに十分な在庫がある限り、売上高は需要のかなり良いプロキシです。ただし、在庫がゼロになると(顧客が回避できるようにするために検討している状況)、目標を達成できなかったことはあまりわかりません。十分な供給があった場合、顧客はいくつの売上を上げましたか?単純なターゲット変数としてセールスを使用する標準的な回帰ベースのMLアプローチは、時間、私の説明変数、および需要の間の関係の一貫性のない推定を生成します。 Tobitモデリングは、問題に取り組む最も明白な方法です:http : //en.wikipedia.org/wiki/Tobit_model。ランダムフォレスト、GBMS、SVM、およびニューラルネットワークのML適応についても疑問に思っています。これは、データの左きき打ち構造も考慮しています。 つまり、機械学習ツールを左打ち切りの回帰データに適用して、従属変数と独立変数間の関係の一貫した推定値を取得するにはどうすればよいですか?Rで利用可能なソリューションが最初に優先され、次にPythonが優先されます。 乾杯、 アーロン

2
JAGSでの打ち切り/切り捨て
JAGSの検閲問題にどのように適合するかについて質問があります。 X値に測定誤差がある2変量混合法線を観察します。観測された打ち切り値の真の基礎となる「手段」をモデル化したいと思います。 ⌈xtrue+ϵ⌉=xobserved ϵ∼N(0,sd=.5)⌈xtrue+ϵ⌉=xobserved ϵ∼N(0,sd=.5)\begin{align*} \lceil x_{true}+\epsilon \rceil = x_{observed} \ \epsilon \sim N(0,sd=.5) \end{align*} これが私が今持っているものです: for (i in 1:n){ x[i,1:2]~dmnorm(mu[z[i],1:2], tau[z[i],1:2,1:2]) z[i]~dcat(prob[ ]) } Yにも測定誤差があります。私がしたいのは次のようなものです: for (i in 1:n){ x_obs[i] ~ dnorm(x_true[i],prec_x)I(x_true[i],) y_obs[i] ~ dnorm(y_true[i],prec_y) c(x_true[i]:y_true[i])~dmnorm(mu[ z [ i ],1:2], tau[z[i],1:2,1:2]) z[i]~dcat(prob[ ]) } #priors for measurement error e_x~dunif(.1,.9) …

3
右打ち切りと左打ち切り
ウィキペディアは以下の定義を提供します: 右打ち切り:データポイントは特定の値を超えていますが、その量は不明です。 左打ち切り:データポイントが特定の値を下回っていますが、その量は不明です。 これらの定義では、次のことを意味します。 「データポイント」 「特定の価値」、および "いくら" 一般的に、右と左の打ち切りとは何ですか? 以下のステートメントは正しいですか? 「右打ち切りでは、打ち切り値の下限しかありません。」 左打ち切りの類似のステートメントは何でしょうか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.