タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

2
ランダム効果を追加すると係数推定に影響します
変量効果は分散(誤差)にのみ影響し、固定効果は平均にのみ影響することを常に教えられてきました。しかし、ランダムな効果が平均にも影響を与える例を見つけました-係数推定: require(nlme) set.seed(128) n <- 100 k <- 5 cat <- as.factor(rep(1:k, each = n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) # simulate missing data y[c(1:(n/2), …

1
Local Moran's I統計量(LISA)のp値調整
私はspdepパッケージを使用して、Rでいくつかの探索的空間分析を行っています。 関数を使用して計算された空間的関連のローカルインジケーター(LISA)のp値を調整するオプションを見つけましたlocalmoran。ドキュメントによると、それは目的としている: ...複数のテストの確率値調整。 さらにp.adjustSP私が読んだドキュメントでは、利用可能なオプションは次のとおりです: 調整方法には、p値に比較回数を掛けるBonferroni補正( '"bonferroni"')が含まれます。Holm(1979)( '"holm"')、Hochberg(1988)( '"hochberg"')、Hommel(1988)( '"hommel"')およびBenjamini&Hochberg(1995)には、保守性の低い4つの修正も含まれています。 ( '"fdr"')、それぞれ。パススルーオプション( '"none"')も含まれています。 最初の4つの方法は、家族ごとのエラー率を強力に制御できるように設計されています。変更されていないBonferroni補正を使用する理由はないようです。これは、Hormの方法が支配的であるため、任意の仮定の下でも有効です。 Hochberg法とHommel法は、仮説検定が独立している場合、またはそれらが非負に関連している場合に有効です(Sarkar、1998; SarkarおよびChang、1997)。Hommelの方法はHochbergの方法よりも強力ですが、通常、差は小さく、Hochbergのp値の計算は高速です。 Benjamini、Hochberg、およびYekutieliの "BH"(別名 "fdr")および "BY"メソッドは、偽の発見率を制御します。これは、棄却された仮説の中で予想される偽の発見の割合です。誤検出率は、ファミリごとのエラー率よりも厳格ではないため、これらの方法は他の方法よりも強力です。 現れたいくつかの質問: 簡単に言えば、この調整の目的は何ですか? そのような修正を使用する必要がありますか? はいの場合-利用可能なオプションから選択する方法は?

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

2
いくつかのロジスティック回帰と多項回帰
多項式回帰を実行する代わりに、いくつかのバイナリロジスティック回帰を実行することは実行可能ですか?この質問から:多項ロジスティック回帰と1対restバイナリロジスティック回帰の比較多項式回帰の方が標準誤差が低いことがわかります。 ただし、利用したいパッケージは多項式回帰に一般化されていないため(ncvreg:http : //cran.r-project.org/web/packages/ncvreg/ncvreg.pdf)、簡単にできるのかと思っていました。代わりにいくつかのバイナリロジスティック回帰。

1
どちらがより正確なglmまたはglmnetですか?
R glmとglmnetは異なるアルゴリズムを使用します。 両方を使用すると、推定された係数間に重要な違いがあることに気づきました。 どちらがより正確であるか、そして解決/精度のトレードオフの時間に興味があります。 具体的には、glmnet stでlambda = 0を設定した場合について言及しています。これは、glmと同じことを推定しています。

3
固定効果とランダム効果
私はごく最近、一般化線形混合モデルについて学び始め、Rを使用して、グループメンバーシップを固定効果またはランダム効果のどちらとして扱うかによってどのような違いがあるかを調査しました。特に、ここで説明するデータセットの例を見ています。 http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm http://www.ats.ucla.edu/stat/r/dae/melogit.htm このチュートリアルで概説されているように、Doctor IDの効果はかなりのものであり、ランダムなインターセプトを備えた混合モデルがより良い結果をもたらすと期待していました。ただし、2つの方法のAIC値を比較すると、このモデルの方が悪いことがわかります。 > require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv") > hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married) > GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM) Call: glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, data = hdp) Deviance Residuals: Min 1Q Median 3Q Max -2.5265 -0.6278 …

1
Rの離散時間ハザードモデル(詰まり)
survivalパッケージR連続時間生存モデルに焦点を当てるように見えます。比例ハザードモデルの補足的な対数対数モデルである離散時間バージョンの推定に興味があります。私は、単純な右打ち切りを備えた、かなり単純な生存モデルを持っています。 このモデルを推定する1つの方法は、「デッド」ではない各期間の観測ごとに個別の行を持つデータセットを作成することです。その後、リンクglm付きのモデルをcloglog使用できます。 このアプローチは非常にメモリ効率が悪いようです。実際、おそらく私のマシンのメモリには大きすぎるデータセットを生成します。 2番目のアプローチは、MLEを自分でコード化することです。それは十分簡単ですが、この生存モデルを缶詰にしたパッケージがあることを期待しています。コラボレーションが簡単になり、パッケージを使用してコーディングエラーを回避することができます。 誰かがそのようなパッケージを知っていますか?
10 r  survival 

2
固定距離内のポイント数を最大にする既知の数の円中心を見つける
指定された距離()内のポイントの総数を最大化する、指定された数の円の中心()の中心を見つけたい2次元データのセットがあります。RNNNRRR たとえば、10,000個のデータポイントあり、半径内でできるだけ多くのポイントをキャプチャする円の中心を見つけたいと考えています。5つの中心と10の半径は、データからではなく、あらかじめ与えられています。N = 5 R = 10(X私、Y私)(Xi,Yi)(X_i, Y_i)N= 5N=5N=5R = 10R=10R=10 円内のデータポイントの存在は、バイナリまたは命題のいずれかです。場合、どちらも> 10であるため、値が11単位離れている点と100単位離れている点で差はありません。同様に、円内にある場合も、中心付近と端付近の値は異なります。 。データポイントは、いずれかの円の中にあるか外にあります。R = 10R=10R=10 この問題を解決するために使用できる優れたアルゴリズムはありますか?これらはクラスタリング手法に関連しているようですが、平均距離を最小化するのではなく、「距離」関数は、ポイントがポイントのいずれかの内にある場合は0、それ以外の場合は1です。NRRRNNN 私の好みはRでこれを行う方法を見つけることですが、どのようなアプローチでもありがたいです。
10 r  clustering  distance 


4
回帰モデルが適切かどうかを確認する方法
'glm'を使用してロジスティック回帰モデルの精度を見つける1つの方法は、AUCプロットを見つけることです。連続応答変数(ファミリー= 'ガウス')で見つかった回帰モデルについて同じことを確認するにはどうすればよいですか? 回帰モデルがデータにどの程度適合しているかを確認するためにどのような方法が使用されていますか?



1
条件付き密度プロットの解釈
条件付き密度プロットを正しく解釈する方法を教えてください。でRで作成したものを2つ挿入しましたcdplot。 たとえば、変数1が150の場合、結果が1になる確率は約80%ですか? 濃い灰色の領域は、条件付き確率がResult1に等しい確率です。 cdplotドキュメントから: cdplotは、yの周辺分布によって重み付けされたyのレベルを指定して、xの条件付き密度を計算します。密度は、yのレベルにわたって累積的に導出されます。 この累積は、これらのプロットの解釈にどのように影響しますか?

2
ロジット変換線形回帰、ロジスティック回帰、およびロジスティック混合モデルの違いは何ですか?
私には10人の生徒がいて、それぞれが20の数学の問題を解こうとしているとします。問題は(longdataで)正解または不正解としてスコアリングされ、各学生のパフォーマンスは(subjdataで)精度測定によって要約できます。以下のモデル1、2、および4は異なる結果を生成するように見えますが、同じことを行っていると理解しています。なぜ結果が異なるのですか?(参考のためにモデル3を含めました。) library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

2
Cox PH分析および共変量選択における傾向スコアの重み付け
イベント発生までの時間の生存データのコックス比例ハザードモデリングを行う際の傾向スコアの重み付け(IPTW)について: 私は、ほとんどの場合、患者がベースラインですでに服用していた薬剤の治療効果を調べることに関心がある、予想されるレジストリデータを持っています。したがって、データを最適に分析する方法がわかりません。潜在的に、いくつかのベースライン変数はかなりの程度、治療によって影響され、その逆ではありません(たとえば、特定のバイオマーカー)。重みを推定するための傾向スコアモデルに含める必要がある共変量と、coxphモデルに共変量として含める必要がある共変量(ある場合)について少し迷っています。正しい方向のヒントがあれば役立ちます。現在のところ、CoxPhモデリングでこれに関する文献を見つけることはできません。 ベースラインで開始され、結果に影響を与える可能性のある治療を表す共変量は、Cox PH共変量として含める必要があると考えていますが、これはわかりません。 傾向スコアの重みの計算に使用するのではなく、Coxモデルに共変量として含める必要がある変数をどのように決定しますか? フォローアップの質問: 私は、すでに始まっている特定の介入の治療効果を評価するという相続問題を理解しています。つまり、観察を始める前に、患者に蔓延しています。リスクの時間変動に関連するバイアスの導入(たとえば、治療の最初の年に一般的な有害な副作用)と治療によって影響を受ける共変量の両方について。私が間違っていない場合-これは、心血管エンドポイントとホルモン補充療法に関して、観察と無作為化の間の不一致の原因として提案されています。一方、私のデータセットでは、治療の悪影響の可能性を調べることに関心があります。 傾向スコア調整を使用して、一般的なユーザー間の治療効果を調査する場合、つまり、観察が始まる前にすでに薬物を使用しているコホートデータで、薬物療法の悪影響を観察した場合(これは私たちが探していたものです)。治療に伴うリスクを過大評価する可能性を排除できますか?つまり、リスクが大幅に上昇している限り、それは最も「確実に」防御的ではありませんか? この種のバイアスが、この文脈での偽のリスク関連のリスクの過大評価をもたらす可能性がある例を完全に描くことはできません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.