タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
glmerが最尤を達成しないのはなぜですか(さらに一般的な最適化を適用することにより検証されます)?
数値的に導出MLE SのGLMMは実際には、困難であると、私は知っている、我々は(使用して、例えばブルートフォース最適化を使用しないでくださいoptimシンプルな方法で)。しかし、私自身の教育目的のために、モデルを正しく理解するために試してみたいと思います(以下のコードを参照)。私はいつも矛盾した結果を得ることがわかったglmer()。 特に、MLE glmerを初期値として使用しても、記述した尤度関数に従って(negloglik)、MLEではありません(opt1$valueより小さいopt2)。次の2つの理由が考えられます。 negloglik うまく記述されていないため、数値エラーが多すぎます。 モデルの仕様が間違っています。モデル仕様の場合、対象モデルは次のとおりです。 fは二項PMFであり、Gは正常PDFです。a、 b、および sを推定しようとしています。特に、モデルの仕様が間違っているかどうか、正しい仕様は何かを知りたい。L = ∏i = 1n(∫∞- ∞f(y私| N、a 、b 、r私)g(r私| s)dr私)L=∏私=1n(∫−∞∞f(y私|N、a、b、r私)g(r私|s)dr私)\begin{equation} L=\prod_{i=1}^{n} \left(\int_{-\infty}^{\infty}f(y_i|N,a,b,r_{i})g(r_{i}|s)dr_{i}\right) \end{equation}fffgggaaabbbsss p <- function(x,a,b) exp(a+b*x)/(1+exp(a+b*x)) a <- -4 # fixed effect (intercept) b <- 1 # fixed effect (slope) s <- 1.5 # random effect (intercept) N <- 8 …

2
Rの半正弦波モデルに適したものを見つける方法は?
バルト海の海面温度は毎年同じであると仮定し、関数/線形モデルで説明します。私が考えていたのは、年を10進数(またはnum_months / 12)として入力し、その時間についての温度を取得することでした。Rのlm()関数にそれを投げると、正弦データを認識しないため、直線を生成します。そこで、sin()関数をI()ブラケットに入れて、いくつかの値を試して関数を手動でフィットさせました。しかし、海は夏には早く暖まり、秋にはゆっくりと冷却します...ですから、最初の年はモデルが間違っていて、数年後にはより正確になり、将来的にはより多くなると思いますそしてさらに間違っています。 モデルを推定するためにRを取得するにはどうすればよいですか?したがって、自分で数値を推測する必要はありませんか?ここで重要なのは、1年間だけでなく、毎年同じ値を生成することです。数学についてもっと知っていれば、sin()の代わりにポアソンやガウスのようなものと推測できるかもしれませんが、その方法もわかりません。良い答えに近づくための助けをいただければ幸いです。 ここに私が使用するデータと、これまでの結果を表示するコードを示します。 # SST from Bradtke et al 2010 ToY <- c(1/12,2/12,3/12,4/12,5/12,6/12,7/12,8/12,9/12,10/12,11/12,12/12,13/12,14/12,15/12,16/12,17/12,18/12,19/12,20/12,21/12,22/12,23/12,24/12,25/12,26/12,27/12,28/12,29/12,30/12,31/12,32/12,33/12,34/12,35/12,36/12,37/12,38/12,39/12,40/12,41/12,42/12,43/12,44/12,45/12,46/12,47/12,48/12) Degrees <- c(3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5) SST <- data.frame(ToY, Degrees) SSTlm <- lm(SST$Degrees ~ I(sin(pi*2.07*SST$ToY))) summary(SSTlm) plot(SST,xlim=c(0,4),ylim=c(0,17)) par(new=T) plot(data.frame(ToY=SST$ToY,Degrees=8.4418-6.9431*sin(2.07*pi*SST$ToY)),type="l",xlim=c(0,4),ylim=c(0,17))
37 r  regression  time-series  lm 

1
ロジスティック回帰出力、カイ2乗検定、ORの信頼区間でp値が異なるのはなぜですか?
治療を受けた後、結果変数が治癒するロジスティック回帰を構築しました(Curevs. No Cure)。この研究のすべての患者は治療を受けました。糖尿病にかかっていることがこの結果に関連しているかどうかを確認したいです。 Rでは、ロジスティック回帰の出力は次のようになります。 Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.2735 0.1306 9.749 <2e-16 *** Diabetes -0.5597 0.2813 -1.990 0.0466 * ... Null deviance: 456.55 on 415 degrees of freedom Residual deviance: 452.75 …

3
PCAまたはFAのスコアまたは負荷のサインには意味がありますか?記号を逆にすることはできますか?
2つの異なる関数(prcompおよびprincomp)を使用してRで主成分分析(PCA)を実行し、PCAスコアの符号が異なることを観察しました。どうすればいいの? このことを考慮: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 [6,] 0.481756 0.1639112 [7,] 1.656178 -0.9952875 [8,] 2.560345 -0.2490548 [9,] 3.508442 0.1874520 [10,] 4.520055 0.1761397 set.seed(999) princomp(data.frame(1:10,rnorm(10)))$scores Comp.1 Comp.2 [1,] 4.508620 0.2567655 [2,] 3.373772 1.1369417 [3,] 2.679669 -1.0903445 [4,] …
37 r  pca  factor-analysis 

3
Rの乱数-Set.seed(N)[複製]
この質問にはすでに答えがあります: 乱数ジェネレーターのシードとは正確には何ですか? 3つの答え set.seed()Rで擬似乱数生成に使用していることに気付きました。また、set.seed(123)結果を再現できることを保証するように、同じ番号を使用することも認識しています。 しかし、私が得られないのは、値自体の意味です。私はいくつかの機能で遊んでいます、そしていくつかの使用set.seed(1)またはset.seed(300)またはset.seed(12345)。その番号の意味(もしあれば)-そしていつ別の番号を使用すべきか。 set.seed(12345)たとえば、私が取り組んでいる本の中で、決定木用のトレーニングセットを作成するときに使用しています。次に、別の章でset.seed(300)、ランダムフォレストの作成に使用しています。 番号を取得しないでください。

2
負の二項分布内のパラメーターを理解する
私は自分のデータをさまざまなモデルに当てはめようとしており、fitdistrライブラリMASSの関数Rが私Negative Binomialに最適だと判断しました。今からのwikiページ、定義は、以下のように与えられます。 NegBin(r、p)分布は、最後の試行で成功したk + r Bernoulli(p)試行でのk失敗およびr成功の確率を記述します。 を使用Rしてモデルの近似を実行するmeanと、2つのパラメーターとが得られますdispersion parameter。これらのパラメーターをWikiページに表示できないため、これらの解釈方法が理解できません。私が見ることができるのは次の式だけです: ここkで、観測数とr=0...nです。では、これらのパラメータをどのように関連付けるのRですか?ヘルプファイルも多くの情報を提供しません。 また、私の実験について一言言っておくと、私が行っていた社会実験では、各ユーザーが10日間に連絡した人数を数えようとしていました。実験の母集団サイズは100でした。 さて、もしモデルが負の二項に適合するなら、その分布に従うと盲目的に言うことができますが、この背後にある直感的な意味を本当に理解したいと思います。被験者が接触した人数は負の二項分布に従うとはどういう意味ですか?誰かがこれを明確にするのを手伝ってもらえますか?

5
時系列分析の相互検証
R のキャレットパッケージを使用して、分類と回帰の予測モデルを構築しています。Caretは、クロス検証またはブートストラッピングによってモデルハイパーパラメーターを調整するための統一されたインターフェイスを提供します。たとえば、分類のために単純な「最近傍」モデルを構築している場合、いくつの近傍を使用する必要がありますか?2?10?100?Caretは、データを再サンプリングし、さまざまなパラメーターを試し、結果を集計して、どれが最良の予測精度をもたらすかを決定することにより、この質問に答えるのに役立ちます。 モデルハイパーパラメーターを選択するための堅牢な方法論を提供し、最終ハイパーパラメーターを選択すると、分類モデルの精度を使用して、モデルがどれだけ「良い」かを相互検証した推定値を提供するため、このアプローチが好きですおよび回帰モデルのRMSE。 おそらくランダムフォレストを使用して、回帰モデルを構築したい時系列データがいくつかあります。データの性質を考慮して、モデルの予測精度を評価するための優れた手法は何ですか?ランダムフォレストが実際に時系列データに適用されない場合、時系列分析用の正確なアンサンブルモデルを構築する最良の方法は何ですか?

1
MantelのテストがMoranのIよりも優先されるのはなぜですか?
Mantelのテストは、動物の空間的分布(空間内の位置)と、たとえば遺伝的関連性、攻撃率、またはその他の属性との相関関係を調べるために、生物学的研究で広く使用されています。多くの優れたジャーナルがそれを使用しています( PNAS、動物行動、分子生態学...)。 自然界で発生する可能性のあるパターンをいくつか作成しましたが、マンテルのテストはそれらを検出するのにまったく役に立たないようです。一方、モランの私はより良い結果を得ました(各プロットの下のp値を参照)。 なぜ科学者はモランのIを代わりに使用しないのですか?見えない隠れた理由はありますか?そして、何らかの理由がある場合、マンテル検定またはモラン検定を適切に使用するためにどのように知ることができますか(仮説をどのように構成する必要があるか)?実際の例が役立ちます。 この状況を想像してください。カラスが各木に座っている果樹園(17 x 17本)があります。各カラスの「ノイズ」のレベルが利用可能であり、カラスの空間分布が彼らが作るノイズによって決定されるかどうかを知りたいです。 (少なくとも)5つの可能性があります。 「羽の鳥が集まってきます。」カラスが似ているほど、それらの間の地理的距離は小さくなります(単一クラスター)。 「羽の鳥が集まってきます。」繰り返しますが、似ているカラスは、それらの間の地理的距離が小さくなります(複数のクラスター)が、ノイズの多いカラスの1つのクラスターは、2番目のクラスターの存在に関する知識を持ちません(そうでなければ、1つの大きなクラスターに融合します) 「単調トレンド。」 「反対は引き付ける。」同様のカラスは互いに立つことができません。 「ランダムパターン。」ノイズのレベルは、空間分布に大きな影響を与えません。 それぞれの場合について、ポイントのプロットを作成し、マンテル検定を使用して相関を計算しました(その結果が重要でないことは驚くことではありません。そのようなポイントのパターン間の線形関連を見つけることは決してありません)。 サンプルデータ:( 可能な限り圧縮) r.gen <- seq(-100,100,5) r.val <- sample(r.gen, 289, replace=TRUE) z10 <- rep(0, times=10) z11 <- rep(0, times=11) r5 <- c(5,15,25,15,5) r71 <- c(5,20,40,50,40,20,5) r72 <- c(15,40,60,75,60,40,15) r73 <- c(25,50,75,100,75,50,25) rbPal <- colorRampPalette(c("blue","red")) my.data <- data.frame(x …

1
線形混合効果モデルの解釈が簡単な適合度の尺度は何ですか?
現在、Rパッケージlme4を使用しています。 私はランダム効果を持つ線形混合効果モデルを使用しています: library(lme4) mod1 <- lmer(r1 ~ (1 | site), data = sample_set) #Only random effects mod2 <- lmer(r1 ~ p1 + (1 | site), data = sample_set) #One fixed effect + # random effects mod3 <- lmer(r1 ~ p1 + p2 + (1 | site), data = sample_set) #Two …

2
エフェクトパッケージを通じてlmerオブジェクトの信頼区間はどの程度信頼できますか?
Effectspackageは、packageを通じて取得した線形混合効果モデルの結果をプロットするための非常に高速で便利な方法を提供しlme4ます。このeffect関数は信頼区間(CI)を非常に迅速に計算しますが、これらの信頼区間はどの程度信頼できますか? 例えば: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength ~ batch + (1 | cask), Pastes) effs <- as.data.frame(effect(c("batch"), fm1)) ggplot(effs, aes(x = batch, y = fit, ymin = lower, ymax = upper)) + geom_rect(xmax = Inf, xmin = -Inf, ymin = effs[effs$batch == "A", "lower"], ymax = effs[effs$batch == …

2
相互検証のどの方法が最適であるかをどのように知ることができますか?
私は自分の状況に最適な相互検証方法を見つけようとしています。 次のデータは、問題を処理するための単なる例です(Rで)が、実際のXデータ(xmat)は相互に関連付けられ、y変数(ymat)でさまざまな程度に関連付けられています。Rコードを提供しましたが、私の質問はRについてではなく、メソッドについてです。XmatX変数V1〜V100がymat含まれ、単一のy変数が含まれます。 set.seed(1233) xmat <- matrix(sample(-1:1, 20000, replace = TRUE), ncol = 100) colnames(xmat) <- paste("V", 1:100, sep ="") rownames(xmat) <- paste("S", 1:200, sep ="") # the real y data are correlated with xmat ymat <- matrix(rnorm(200, 70,20), ncol = 1) rownames(ymat) <- paste("S", 1:200, sep="") のyすべての変数に基づいて予測するためのモデルを構築したいと思いますxmat。したがって、線形回帰モデルになりy ~ V1 + …

1
異分散データに対する一元配置分散分析の代替
異なるサイズのサンプル(n_A = 15、n_B = 13、n_C = 12)を含む藻類バイオマスの3つのグループ(、B、C)からのデータがあり、これらのグループが同じ母集団からのものかどうかを比較したいと思います。BAAABBBn A = 15 n B = 13 n C = 12CCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 一元配置分散分析は間違いなく進むべき道ですが、私のデータに対して正規性テストを実施する際には、ヘテロスケダシティーが主な問題のようです。私の生データは、変換なしで、臨界値(F _ {\ rm crit} = 4.16)より非常に高い分散比(Fmax=19.1Fmax=19.1F_{\max} = 19.1)を生成したため、一元配置分散分析を実行できません。Fcrit=4.16Fcrit=4.16F_{\rm crit} = 4.16 また、データを正規化するための変換も試みました。さまざまな変換(対数、平方根、平方)の試行後でも、\ log_ {10}変換による変換後に生成された最低のF _ {\ max}は7.16であり、F _ {\ rm crit}と比較して依然として高かった。FmaxFmaxF_{\max}log10log10\log_{10}7.167.167.16FcritFcritF_{\rm crit} ここから誰がここからどこに行くべきかをアドバイスできますか?データで正規化する他の変換方法は考えられません。一元配置分散分析に代わるものはありますか? PS:私の生データは以下の通りです: A: 0.178 0.195 0.225 0.294 0.315 0.341 …

4
多項式モデルの近似から係数を解釈する方法は?
私が持っているいくつかのデータに適合する二次多項式を作成しようとしています。この適合をプロットするとしましょうggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) 私は得る: したがって、2次近似は非常にうまく機能します。Rで計算します。 summary(lm(data$bar ~ poly(data$foo, 2))) そして私は得る: lm(formula = data$bar ~ poly(data$foo, 2)) # ... # Coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) 3.268162 0.008282 394.623 <2e-16 *** # poly(data$foo, 2)1 -0.122391 0.096225 -1.272 0.206 # poly(data$foo, …

3
Lassoの収縮パラメータまたは50Kを超える変数を持つリッジ回帰を推定する方法は?
50,000個を超える変数を持つモデルにLassoまたはリッジ回帰を使用したい。Rのソフトウェアパッケージを使用してこれを行います。収縮パラメーター()を推定するにはどうすればよいですか?λλ\lambda 編集: ここに私が立ち上がったポイントがあります: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, ncol = 1000) mydf <- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) 私の質問は次のとおりです。どのが私のモデルに最適であるかをどのように知ることができますか?λλ\lambda

4
Rの非負変数の密度プロットの良い方法は?
plot(density(rexp(100)) 明らかに、ゼロの左側のすべての密度はバイアスを表します。 私は非統計学者のためにいくつかのデータを要約したいと思っています。そして、非負データがゼロの左側の密度を持っている理由についての質問を避けたいです。プロットはランダム化チェック用です。治療グループと対照グループごとの変数の分布を示したい。分布はしばしば指数関数的です。ヒストグラムにはさまざまな理由で注意が必要です。 グーグルで簡単に検索すると、非負のカーネルに関する統計学者の研究が得られます。 例: this しかし、Rに実装されているものはありますか?実装されたメソッドのうち、記述統計に関して何らかの方法で「最良」のメソッドはありますか? 編集:fromコマンドが現在の問題を解決できる場合でも、非負の密度推定に関する文献に基づいて誰かがカーネルを実装しているかどうかを知ることは素晴らしいことです

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.