タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

3
GLMMの固定効果の計算を高速化するにはどうすればよいですか?
私はシミュレーション研究を行っています。これは、一般化線形混合モデルから取得した推定値(実際には、固定効果の2つの推定値の1つ(GLMMとLMMの1つ)の積)を必要とします。調査を適切に行うには、毎回1000または1500のブートストラップレプリケーションで約1000のシミュレーションが必要です。これには、私のコンピューターでかなりの時間がかかります(数日)。 How can I speed up the computation of these fixed effects? より具体的には、私は3つの方法で繰り返し測定され、変数X、M、およびYを発生させる被験者があります。ここで、XとMは連続で、Yはバイナリです。我々は2つの回帰方程式持っ Yところための基礎となる潜在連続変数であるとIIDされないエラー。 ブートストラップしたい統計はです。したがって、各ブートストラップ複製には、LMMとGLMMのフィッティングが必要です。私のRコードは(lme4を使用)Y * = β 0 + β 1 X + β 2 M + ε 2 * Y α 1 β 2M= α0+ α1バツ+ ϵ1M=α0+α1X+ϵ1M=\alpha_0+\alpha_1X+\epsilon_1 Y∗= β0+ β1バツ+ β2M+ ϵ2Y∗=β0+β1X+β2M+ϵ2Y^*=\beta_0+\beta_1X+\beta_2M+\epsilon_2∗∗^*YYYα1β2α1β2\alpha_1\beta_2 stat=function(dat){ a=fixef(lmer(M~X+(X|person),data=dat))["X"] b=fixef(glmer(Y~X+M+(X+M|person),data=dat,family="binomial"))["M"] return(a*b) } 線形モデルとして近似しただけでもは同じ推定値になるので、時間は節約できますが、では同じトリックが機能しません。β …
9 r  mixed-model 

2
R:グラフを動的に更新する[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 7か月前に閉鎖。 これはデータを視覚化する質問です。常に更新されている(オンライン更新)いくつかのデータを含むデータベースがあります。Rが5秒または10秒ごとにグラフを更新する最良の方法は何ですか。(もう一度プロットすることなく、すべてが可能です)? フレッド

1
代替案とロジスティック回帰の間の実際的な&解釈の違いは何ですか?
Rのロジスティック回帰の代替案に関する最近の質問は、randomForest、gbm、rpart、bayesglm、および一般化された加法モデルを含むさまざまな回答をもたらしました。これらの方法とロジスティック回帰の実際的および解釈上の違いは何ですか?彼らはロジスティック回帰に関連してどのような仮定をしますか(しませんか)?仮説検定に適していますか?等。

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

3
RでXTS時系列を再サンプリングする方法は?
不規則な間隔のXTS時系列がありPOSIXctます(インデックスタイプとして値を使用)。 10分間隔でサンプリングされた新しい時系列をどのように構築できますか。ただし、各サンプルモーメントはラウンド時間(13:00:00、13:10:00、13:20:00など)に合わせて調整されます。 。リサンプリングの瞬間が元のシリーズの値に正確に一致しない場合は、以前の値を使用します。

2
プロポーションのコンテキストで多重比較の問題を回避するために順列検定を使用できますか?
特定のバイナリの結果を予測するための5つの異なる方法の有効性を評価しています(「成功」と「失敗」と呼びます)。データは次のようになります。 Method Sample_Size Success Percent_Success 1 28 4 0.14 2 19 4 0.21 3 24 7 0.29 4 21 13 0.61 5 22 9 0.40 これら5つの方法の中で相対的な優位性を評価するためのテストを行いたいと思います。つまり、メソッドをパフォーマンスの順にメソッド1>メソッド2> ...メソッド5の順に並べたいのです。複数の比較の問題を回避するために、次のように順列テストを実行する予定です。 ステップ1:すべてのデータをプールして、全体のサンプルサイズが114になり、全体で37の成功を収めます。 ステップ2:データをランダムに5つのグループに分割し、対応するサンプルサイズを28、19、24、21、22にします。 手順3:手順2で観察されたPercent_Successの順序がデータの順序と一致している場合は、カウンターを増分します。 手順4:手順2と3を何度も繰り返します(たとえば10000)。 望ましいp値=最終カウンター値/ 10000。 質問: 上記の手順は大丈夫ですか? 上記のテストを実行できるようにするRの要素はありますか? 改善や代替方法の提案があれば役に立ちます。

3
ファン(極)デンドログラムをRでプロットする方法は?
ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。 私はこのようなものを指している: ソリューションを示すための推奨データセット: data(mtcars) plot(hclust(dist(mtcars)))

4
多元ノンパラメトリック分散分析
5つの因子(1つは別の因子にネストされている)と数値応答を含む要因計画を分析する必要があります。ノンパラメトリックANOVAを実行したいのですが、もちろんクラスカルウォリステストもフリードマンテストも使用できません(私は測定を複製しました)。Rに役立つコマンドまたはコードはありますか?ありがとうございました!ステファニア

2
xスケールは同じであるがRのyスケールが異なる2つのグラフを垂直に積み重ねるにはどうすればよいですか?
ご挨拶、 現在、私はRで次のことをしています: require(zoo) data <- read.csv(file="summary.csv",sep=",",head=TRUE) cum = zoo(data$dcomp, as.Date(data$date)) data = zoo(data$compressed, as.Date(data$date)) data <- aggregate(data, identity, tail, 1) cum <- aggregate(cum, identity, sum, 1) days = seq(start(data), end(data), "day") data2 = na.locf(merge(data, zoo(,days))) plot(data2,xlab='',ylab='compressed bytes',col=rgb(0.18,0.34,0.55)) lines(cum,type="h",col=rgb(0,0.5,0)) summary.csvの一部: date,revision,file,lines,nclass,nattr,nrel,bytes,compressed,diff,dcomp 2007-07-25,16,model.xml,96,11,22,5,4035,991,0,0 2007-07-27,17,model.xml,115,16,26,6,4740,1056,53,777 2007-08-09,18,model.xml,106,16,26,7,4966,1136,47,761 2007-08-10,19,model.xml,106,16,26,7,4968,1150,4,202 2007-09-06,81,model.xml,111,16,26,7,5110,1167,13,258 ... 最後の2行は必要な情報をプロットしており、結果は次のようになります。 青い線は、関心のあるアーティファクトのバイト単位のエントロピーです。緑の線は、変化のエントロピーを表します。 さて、このグラフでは、スケールに大きな違いがないため、うまく機能します。しかし、緑の線が非常に小さくなって見えなくなる他のグラフがあります。 私が探していたソリューションには、次の2つのことが含まれていました。 …

3
重要でない変数をいつ削除するのですか?
私はロジスティック回帰モデルに取り組んでいます。P値が0.74で有意ではない5つの独立変数で構築されたモデルの概要をチェックしました。変数を直接削除するか、それとも有意性をチェックする他の方法があるかを知りたいです? 私の先輩は、無意味な変数の対数変換を行い、相関関係を探すよう提案しました。それはその重要性のチェックにカウントされますか? model <- glm(Buy ~ a_score + b_score+ c_score+lb+p, data = history, family = binomial) 重要度が低いと表示されているa_scoreを除いて、すべての変数は2つまたは3つの星で重要であることがわかります。

3
ランダムフォレストツリーを2進数ではなく10進数に投票する方法
私の質問は、バイナリ分類についてです。たとえば、良い顧客と悪い顧客を区別しますが、回帰や非バイナリ分類はそうではありません。このコンテキストでは、ランダムフォレストは分類木の集合です。各観測について、すべての木が「はい」または「いいえ」に投票し、すべての木の平均投票が最終的な森林確率です。 私の質問は、基になるツリーの動作を変更することです。RのrandomForestパッケージのrandomForest関数を変更して、各ツリーがバイナリのyes / noではなく10進数に投票するようにするにはどうすればよいですか。10進数の意味をよりよく理解するために、決定木がどのように機能するかを考えてみましょう。 完全に成長したディシジョンツリーのターミナルノードには、1つの良いインスタンスまたは1つの悪いインスタンスがあります。ターミナルノードのサイズを100に制限するとします。ターミナルノードは次のようになります。 Node1 = 80不良、20良好 Node2 = 51不良、49良好 Node3 = 10不良、90良好 Node1とNode2が「悪い」と投票したとしても、「悪さの強さ」は大きく異なります。それが私の狙いです。1または0(デフォルトの動作)を生成する代わりに、Rパッケージを変更して、80 / 100、51 / 100、10 / 100などに投票できますか?

1
対数尤度の解釈
一部の結果を解釈するのが難しい。私はで階層関連の回帰を行っていますecoreg。コードを入力すると、オッズ比、信頼比、2倍の最大対数尤度で出力を受け取ります。 ただし、2倍に最大化された対数尤度を解釈する方法を完全には理解していません。私の知る限り、対数尤度は尤度を計算する便利な方法として使用され、結果に基づいてパラメーターの値を計算します。しかし、私はより高いまたはより低い値が良いかどうかわかりません。/programming/2343093/what-is-log-likelihoodなど、いくつかのオンラインソースを確認しましたが、まだ行き詰まっています。 私が受け取る結果の下: Call: eco(formula = cbind(y, N) ~ deprivation + meanIncome, binary = ~fracSmoke + soclass, data = dfAggPlus, cross = cross) Aggregate-level odds ratios: OR l95 u95 (Intercept) 0.0510475 0.03837276 0.06790878 deprivation 0.9859936 0.88421991 1.09948134 meanIncome 1.0689951 0.95574925 1.19565924 Individual-level odds ratios: OR l95 u95 fracSmoke 3.124053 2.0761956 …

1
ランダムフォレストモデルに交互作用項を含める方法
randomForestRのrandomForestパッケージの関数を使用して回帰を行っています。ただし、次のコードに相互作用用語を含めようとすると、 library(MASS) library(randomForest) Boston_f <- within(Boston, factor(rad)) mdl <- randomForest(lstat ~ rad * . , data = Boston_f) 結果にmdl$termは相互作用が含まれますが、mdl使用しているツリーをのぞくと、 getTree(mdl, 1, T) 相互作用項を使用して分割変数を見つけることができません。 誰かが相互作用の用語を使用しrandomForestたり、他の関数を含める方法を知っていますか?

1
モデルの構築:意味のあるgamモデルを構築する方法は?(一般化された加法モデル)
ギャムの解釈と構成に関してさまざまな質問があることを確認しました。これは、非統計家が対処するのが難しいことを示しているようです。残念ながら、私が読んだスレッドやチュートリアルのどれからも、意味のあるモデルを構築する方法を明確に理解できませんでした。 現在、ミツバチのコロニーのパフォーマンスに対する有機農業の影響を研究しています。それにより、半径500mでの有機農業の割合(bio.percent_b500)のような景観特性を、蜂蜜保護区などのコロニー発達パラメータに関連付けようとします。最初に、基本的なgamモデル(model0)を構築しました。蜂の巣の蜂蜜の量は1年の間に非線形に変化するため、説明変数として年の週のみを使用します。 library("gam") library("mgcv") model0 <- gam(honey.mean ~ s(week), data= my.data.frame) summary(model0) plot(model0) 次に、有機農業の割合を含むスムーズな用語を含めようとしました。しかし、これは失敗しました。なぜなら、コロニーの85%以上が半径500mに有機的なフィールドを持っていなかったからでしょう。 model1 <- gam(honey.mean ~ s(week) + s(bio.percent_b500),data = my.data.frame) # Error in smooth.construct.tp.smooth.spec(object, dk$data, dk$knots) : # A term has fewer unique covariate combinations than specified maximum # degrees of freedom model2 = gam(honey.mean ~ s(week,bio.percent_b500) …

1
ビーガンのアドニス:変数の順序または階層の使用
パッケージadonis()内の関数を使用して、vegan1)共生する宿主種が複数のサイト間で微生物群集で異なるかどうか、および2)サイトが異なるかどうかを決定しています。CVとSOに関するすべての投稿を調べましたが、アドニス機能を使用して複数の要因の重要性を判断する方法に対する明確な答えはありません。 /programming/26768779/vegan-adonis-unbalanced-design-ss-type-ii-or-iiiで提案されているように、私は最初にこれを行いました: ここで、jaccはジャカードメトリックを使用した非類似度行列です adonis <- adonis(jacc ~ Species + Site, data = df_compare) adonis Call: adonis(formula = jacc ~ Species + Site, data = df_compare) Permutation: free Number of permutations: 999 Terms added sequentially (first to last) Df SumsOfSqs MeanSqs F.Model R2 Pr(>F) Species 2 0.6055 0.30273 1.7690 0.04981 0.004 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.