統計とビッグデータ r

2

変量効果は分散（誤差）にのみ影響し、固定効果は平均にのみ影響することを常に教えられてきました。しかし、ランダムな効果が平均にも影響を与える例を見つけました-係数推定： require(nlme) set.seed(128) n <- 100 k <- 5 cat <- as.factor(rep(1:k, each = n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) # simulate missing data y[c(1:(n/2), …

10 r mixed-model random-effects-model

1

Local Moran's I統計量（LISA）のp値調整

私はspdepパッケージを使用して、Rでいくつかの探索的空間分析を行っています。関数を使用して計算された空間的関連のローカルインジケーター（LISA）のp値を調整するオプションを見つけましたlocalmoran。ドキュメントによると、それは目的としている： ...複数のテストの確率値調整。さらにp.adjustSP私が読んだドキュメントでは、利用可能なオプションは次のとおりです：調整方法には、p値に比較回数を掛けるBonferroni補正（ '"bonferroni"'）が含まれます。Holm（1979）（ '"holm"'）、Hochberg（1988）（ '"hochberg"'）、Hommel（1988）（ '"hommel"'）およびBenjamini＆Hochberg（1995）には、保守性の低い4つの修正も含まれています。（ '"fdr"'）、それぞれ。パススルーオプション（ '"none"'）も含まれています。最初の4つの方法は、家族ごとのエラー率を強力に制御できるように設計されています。変更されていないBonferroni補正を使用する理由はないようです。これは、Hormの方法が支配的であるため、任意の仮定の下でも有効です。 Hochberg法とHommel法は、仮説検定が独立している場合、またはそれらが非負に関連している場合に有効です（Sarkar、1998; SarkarおよびChang、1997）。Hommelの方法はHochbergの方法よりも強力ですが、通常、差は小さく、Hochbergのp値の計算は高速です。 Benjamini、Hochberg、およびYekutieliの "BH"（別名 "fdr"）および "BY"メソッドは、偽の発見率を制御します。これは、棄却された仮説の中で予想される偽の発見の割合です。誤検出率は、ファミリごとのエラー率よりも厳格ではないため、これらの方法は他の方法よりも強力です。現れたいくつかの質問：簡単に言えば、この調整の目的は何ですか？そのような修正を使用する必要がありますか？はいの場合-利用可能なオプションから選択する方法は？

10 r multiple-comparisons bonferroni

1

観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか？

私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA（0,2,1）モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値（IO）TSAを検出しました。この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか？Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか？これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

2

いくつかのロジスティック回帰と多項回帰

多項式回帰を実行する代わりに、いくつかのバイナリロジスティック回帰を実行することは実行可能ですか？この質問から：多項ロジスティック回帰と1対restバイナリロジスティック回帰の比較多項式回帰の方が標準誤差が低いことがわかります。ただし、利用したいパッケージは多項式回帰に一般化されていないため（ncvreg：http : //cran.r-project.org/web/packages/ncvreg/ncvreg.pdf）、簡単にできるのかと思っていました。代わりにいくつかのバイナリロジスティック回帰。

10 r logistic multinomial

1

どちらがより正確なglmまたはglmnetですか？

R glmとglmnetは異なるアルゴリズムを使用します。両方を使用すると、推定された係数間に重要な違いがあることに気づきました。どちらがより正確であるか、そして解決/精度のトレードオフの時間に興味があります。具体的には、glmnet stでlambda = 0を設定した場合について言及しています。これは、glmと同じことを推定しています。

10 r generalized-linear-model glmnet

3

固定効果とランダム効果

私はごく最近、一般化線形混合モデルについて学び始め、Rを使用して、グループメンバーシップを固定効果またはランダム効果のどちらとして扱うかによってどのような違いがあるかを調査しました。特に、ここで説明するデータセットの例を見ています。 http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm http://www.ats.ucla.edu/stat/r/dae/melogit.htm このチュートリアルで概説されているように、Doctor IDの効果はかなりのものであり、ランダムなインターセプトを備えた混合モデルがより良い結果をもたらすと期待していました。ただし、2つの方法のAIC値を比較すると、このモデルの方が悪いことがわかります。 > require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv") > hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married) > GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM) Call: glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, data = hdp) Deviance Residuals: Min 1Q Median 3Q Max -2.5265 -0.6278 …

10 r random-effects-model glmm

1

Rの離散時間ハザードモデル（詰まり）

survivalパッケージR連続時間生存モデルに焦点を当てるように見えます。比例ハザードモデルの補足的な対数対数モデルである離散時間バージョンの推定に興味があります。私は、単純な右打ち切りを備えた、かなり単純な生存モデルを持っています。このモデルを推定する1つの方法は、「デッド」ではない各期間の観測ごとに個別の行を持つデータセットを作成することです。その後、リンクglm付きのモデルをcloglog使用できます。このアプローチは非常にメモリ効率が悪いようです。実際、おそらく私のマシンのメモリには大きすぎるデータセットを生成します。 2番目のアプローチは、MLEを自分でコード化することです。それは十分簡単ですが、この生存モデルを缶詰にしたパッケージがあることを期待しています。コラボレーションが簡単になり、パッケージを使用してコーディングエラーを回避することができます。誰かがそのようなパッケージを知っていますか？

10 r survival

2

固定距離内のポイント数を最大にする既知の数の円中心を見つける

指定された距離（）内のポイントの総数を最大化する、指定された数の円の中心（）の中心を見つけたい2次元データのセットがあります。RNNNRRR たとえば、10,000個のデータポイントあり、半径内でできるだけ多くのポイントをキャプチャする円の中心を見つけたいと考えています。5つの中心と10の半径は、データからではなく、あらかじめ与えられています。N = 5 R = 10（X私、Y私）(Xi,Yi)(X_i, Y_i)N= 5N=5N=5R = 10R=10R=10 円内のデータポイントの存在は、バイナリまたは命題のいずれかです。場合、どちらも> 10であるため、値が11単位離れている点と100単位離れている点で差はありません。同様に、円内にある場合も、中心付近と端付近の値は異なります。。データポイントは、いずれかの円の中にあるか外にあります。R = 10R=10R=10 この問題を解決するために使用できる優れたアルゴリズムはありますか？これらはクラスタリング手法に関連しているようですが、平均距離を最小化するのではなく、「距離」関数は、ポイントがポイントのいずれかの内にある場合は0、それ以外の場合は1です。NRRRNNN 私の好みはRでこれを行う方法を見つけることですが、どのようなアプローチでもありがたいです。

10 r clustering distance

1

線形混合効果モデルのレバレッジとクックの距離を抽出/計算する方法

mer（lme4パッケージから取得した）クラスオブジェクトのレバレッジとクックの距離を計算（または抽出）する方法を知っている人はいますか？残差分析のためにこれらをプロットしたいと思います。

10 r mixed-model linear-model residuals leverage

4

回帰モデルが適切かどうかを確認する方法

'glm'を使用してロジスティック回帰モデルの精度を見つける1つの方法は、AUCプロットを見つけることです。連続応答変数（ファミリー= 'ガウス'）で見つかった回帰モデルについて同じことを確認するにはどうすればよいですか？回帰モデルがデータにどの程度適合しているかを確認するためにどのような方法が使用されていますか？

10 r regression generalized-linear-model

2

Rでのlmモデルの要約関数の解釈

意味は何であるt valueとPr(>|t|)使用してsummary()Rで線形回帰モデルに機能しますか？ Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 10.1595 1.3603 7.469 1.11e-13 *** log(var) 0.3422 0.1597 2.143 0.0322 *

10 r regression generalized-linear-model

3

RからのACFの青い点線を理解する

次の自己相関関数の図の青い点線を理解するのに少し問題があります。誰かが私に簡単な説明をしてもらえますか？

10 r time-series autocorrelation

1

条件付き密度プロットの解釈

条件付き密度プロットを正しく解釈する方法を教えてください。でRで作成したものを2つ挿入しましたcdplot。たとえば、変数1が150の場合、結果が1になる確率は約80％ですか？濃い灰色の領域は、条件付き確率がResult1に等しい確率です。 cdplotドキュメントから： cdplotは、yの周辺分布によって重み付けされたyのレベルを指定して、xの条件付き密度を計算します。密度は、yのレベルにわたって累積的に導出されます。この累積は、これらのプロットの解釈にどのように影響しますか？

10 r data-visualization interpretation conditional-probability pdf

2

ロジット変換線形回帰、ロジスティック回帰、およびロジスティック混合モデルの違いは何ですか？

私には10人の生徒がいて、それぞれが20の数学の問題を解こうとしているとします。問題は（longdataで）正解または不正解としてスコアリングされ、各学生のパフォーマンスは（subjdataで）精度測定によって要約できます。以下のモデル1、2、および4は異なる結果を生成するように見えますが、同じことを行っていると理解しています。なぜ結果が異なるのですか？（参考のためにモデル3を含めました。） library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 = lmer(correct~iq+(1|subj),longdata,family=binomial(link='logit'))

10 r regression logistic generalized-linear-model binomial

2

Cox PH分析および共変量選択における傾向スコアの重み付け

イベント発生までの時間の生存データのコックス比例ハザードモデリングを行う際の傾向スコアの重み付け（IPTW）について：私は、ほとんどの場合、患者がベースラインですでに服用していた薬剤の治療効果を調べることに関心がある、予想されるレジストリデータを持っています。したがって、データを最適に分析する方法がわかりません。潜在的に、いくつかのベースライン変数はかなりの程度、治療によって影響され、その逆ではありません（たとえば、特定のバイオマーカー）。重みを推定するための傾向スコアモデルに含める必要がある共変量と、coxphモデルに共変量として含める必要がある共変量（ある場合）について少し迷っています。正しい方向のヒントがあれば役立ちます。現在のところ、CoxPhモデリングでこれに関する文献を見つけることはできません。ベースラインで開始され、結果に影響を与える可能性のある治療を表す共変量は、Cox PH共変量として含める必要があると考えていますが、これはわかりません。傾向スコアの重みの計算に使用するのではなく、Coxモデルに共変量として含める必要がある変数をどのように決定しますか？フォローアップの質問：私は、すでに始まっている特定の介入の治療効果を評価するという相続問題を理解しています。つまり、観察を始める前に、患者に蔓延しています。リスクの時間変動に関連するバイアスの導入（たとえば、治療の最初の年に一般的な有害な副作用）と治療によって影響を受ける共変量の両方について。私が間違っていない場合-これは、心血管エンドポイントとホルモン補充療法に関して、観察と無作為化の間の不一致の原因として提案されています。一方、私のデータセットでは、治療の悪影響の可能性を調べることに関心があります。傾向スコア調整を使用して、一般的なユーザー間の治療効果を調査する場合、つまり、観察が始まる前にすでに薬物を使用しているコホートデータで、薬物療法の悪影響を観察した場合（これは私たちが探していたものです）。治療に伴うリスクを過大評価する可能性を排除できますか？つまり、リスクが大幅に上昇している限り、それは最も「確実に」防御的ではありませんか？この種のバイアスが、この文脈での偽のリスク関連のリスクの過大評価をもたらす可能性がある例を完全に描くことはできません。

10 r survival cox-model propensity-scores

タグ付けされた質問 「r」

タグ付けされた質問「r」