タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。


6
Rプロットでラベルが重複しないようにするにはどうすればよいですか?[閉まっている]
私はRで非常に簡単な散布図にラベルを付けようとしています。これは私が使用するものです: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) ご覧のとおり、結果は平凡です(クリックして拡大)。 textxy関数を使用してこれを補正しようとしましたが、それは良くありません。画像自体を大きくしても、密集したクラスターでは機能しません。 これを補正し、R が重ならないラベルをプロットできるようにする機能や簡単な方法はありますか? ここに私が持っているデータの小さなサブセットがあります: Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205

4
2つの時系列を統計的に比較する方法は?
次のプロットに示す2つの時系列があります。 プロットは両方の時系列の完全な詳細を示していますが、必要に応じて、同時観測に簡単に縮小できます。 私の質問は、時系列の違いを評価するためにどのような統計的方法を使用できますか? これはかなり広範で曖昧な質問であることは知っていますが、これに関する入門的な資料はどこにも見当たらないようです。私が見ることができるように、評価する2つの明確なものがあります: 1.値は同じですか? 2.トレンドは同じですか? これらの質問を評価するために、どのような統計テストを検討することをお勧めしますか?質問1については、明らかに異なるデータセットの平均を評価し、分布の重要な違いを探すことができますが、データの時系列の性質を考慮してこれを行う方法はありますか? 質問2-2つの傾向の類似性を調べるMann-Kendallテストのようなものはありますか?両方のデータセットに対してMann-Kendallテストを実行して比較することはできますが、それが物事を行うための有効な方法であるかどうか、またはより良い方法があるかどうかはわかりませんか? 私はこれをすべてRで行っているので、あなたが提案するテストがRパッケージを持っているなら、私に知らせてください。
43 r  time-series 

2
lmで相互作用用語を書く別の方法は?
回帰モデルで相互作用を指定する最良の方法はどれかという質問があります。次のデータを考慮してください。 d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, …

2
反復測定線形混合効果モデルにlmerを使用する
編集2:私はもともと、1つの因子で繰り返し測定を行う2因子ANOVAを実行する必要があると考えていましたが、現在では線形混合効果モデルがデータに対してより適切に機能すると考えています。私は何が起こる必要があるかほとんど知っていると思いますが、まだいくつかの点で混乱しています。 分析する必要がある実験は次のようになります。 被験者はいくつかの治療グループのいずれかに割り当てられました 各被験者の測定は複数日に行われました そう: 被験者は治療内にネストされています 治療は日と交わる (各被験者は1つの治療のみに割り当てられ、各日に被験者ごとに測定が行われます) データセットには次の情報が含まれています。 件名=ブロッキングファクター(ランダムファクター) 日=被験者内または反復測定因子(固定因子) 治療=対象因子間(固定因子) Obs =測定された(従属)変数 UPDATE OK、それで私は統計学者に行って話しましたが、彼はSASユーザーです。彼は、モデルは次のようにすべきだと考えています。 治療+日+被験者(治療)+日*被験者(治療) 明らかに彼の表記法はR構文とは異なりますが、このモデルは次のことを説明することになっています。 治療(固定) 日(固定) The Treatment * Dayインタラクション 治療内にネストされたサブジェクト(ランダム) 「治療内の被験者」と交差した日(ランダム) だから、これは使用する正しい構文ですか? m4 <- lmer(Obs~Treatment*Day + (1+Treatment/Subject) + (1+Day*Treatment/Subject), mydata) 私は特に、「治療の対象」部分と交差した日が正しいかどうかを心配しています。SASに精通している人、または彼のモデルで何が起こっているのかを理解していると確信している人は、R構文での私の悲しい試みが一致するかどうかについてコメントできますか? モデルの構築と構文の記述(回答とコメントで説明)での私の以前の試みは次のとおりです。 m1 <- lmer(Obs ~ Treatment * Day + (1 | Subject), mydata) サブジェクトが治療内にネストされているという事実にどのように対処しますか?以下m1との違い: …

4
OpenBugsとJAGS
ベイジアンモデルを推定するためのBUGSスタイルの環境を試しています。OpenBugsまたはJAGSを選択する際に考慮すべき重要な利点はありますか?近い将来、一方が他方を置き換える可能性はありますか? Rで選択したGibbs Samplerを使用します。特定のアプリケーションはまだありませんが、どちらを導入して学習するかを決定しています。
41 r  software  bugs  jags  gibbs 

1
回帰:変数の変換
変数を変換する場合、同じ変換をすべて使用する必要がありますか?たとえば、次のように、さまざまに変換された変数を選択できますか。 、してみましょう年齢、雇用の長さ、住宅の長さ、および収入こと。バツ1、x2、x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) または、変換と一貫性を保ち、すべてを同じように使用する必要がありますか?次のように: Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 私の理解では、変換の目標は正常性の問題に対処することです。各変数のヒストグラムを見ると、それらが非常に異なる分布を示していることがわかります。これにより、必要な変換は変数ごとに異なると信じられます。 ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) 最後に、それは使用して変数を変換する方法有効です持っているの値を?この変換は、すべての変数で一貫している必要がありますか、それとも含まない変数でもアドホックに使用されますか?x n 0 0ログ(xn+ 1 )log⁡(xn+1)\log(x_n + 1)バツnxnx_n000000 ## R Code plot(df[1:7])

5
Rの警告-カイ2乗近似が正しくない可能性があります
消防士入学試験の結果を示すデータがあります。私は、試験結果と民族性が相互に独立していないという仮説を検証しています。これをテストするために、RでPearsonのカイ2乗検定を実行しました。結果は期待したことを示していますが、「」という警告が表示されましたIn chisq.test(a) : Chi-squared approximation may be incorrect。 > a white black asian hispanic pass 5 2 2 0 noShow 0 1 0 0 fail 0 2 3 4 > chisq.test(a) Pearson's Chi-squared test data: a X-squared = 12.6667, df = 6, p-value = 0.04865 Warning message: In chisq.test(a) : …

3
glmnetを使用して投げ縄の結果を表示する方法
30個の独立変数のセットから連続従属変数の予測子を見つけたいです。R のglmnetパッケージに実装されているLasso回帰を使用しています。ダミーコードを次に示します。 # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100) res <- predict(fits, …


1
ブートストラップまたはモンテカルロアプローチを使用して重要な主成分を決定する方法は?
主成分分析(PCA)または経験的直交関数(EOF)分析から得られる重要なパターンの数を特定することに興味があります。この方法を気候データに適用することに特に興味があります。データフィールドはMxN行列で、Mは時間次元(例:日)、Nは空間次元(例:経度/緯度)です。重要なPCを判別するための可能なブートストラップ方法を読みましたが、より詳細な説明を見つけることができませんでした。これまで、私はこのカットオフを決定するために、Northの経験則(North et al。 例として: ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 <- matrix(sp1, length(x), length(y)) image(x,y,tmp1) sp2 <- grd$x^2+grd$y^2 tmp2 <- matrix(sp2, length(x), length(y)) image(x,y,tmp2) sp3 <- 10*grd$y tmp3 <- matrix(sp3, length(x), length(y)) image(x,y,tmp3) #3 respective temporal patterns …
40 r  pca  bootstrap  monte-carlo 

5
中央値の信頼区間
中央値およびその他のパーセンタイルで95%CIを見つける必要があります。私はこれにアプローチする方法がわかりません。私は主にRをプログラミングツールとして使用しています。

2
ランダムフォレストの変数重要度の測定
私は回帰のためにランダムフォレストをいじくり回しており、2つの重要度の測定値が何を意味し、どのように解釈すべきかを正確に判断するのに苦労しています。 このimportance()関数は、変数ごとに2つの値を提供します:%IncMSEとIncNodePurity。これらの2つの値の簡単な解釈はありますか? 以下のためにIncNodePurity、特に、これは単にその変数を除去した後の金額RSS増加のですか?

3
ANOVAでF値とp値を解釈する方法
私は統計が初めてで、現在は分散分析を扱っています。RでANOVAテストを実行します aov(dependendVar ~ IndependendVar) 特にF値とp値が得られます。 私の帰無仮説()は、すべてのグループ平均が等しいというものです。H0H0H_0 Fの計算方法については多くの情報がありますが、F統計の読み方とFとpの接続方法はわかりません。 だから、私の質問は: を拒否するための重要なF値を決定するにはどうすればよいですか?H0H0H_0 各Fには対応するp値があるので、両者は基本的に同じ意味ですか?(たとえば、場合、H 0は拒否されます)p &lt; 0.05p&lt;0.05p<0.05H0H0H_0

2
ロジスティック回帰モデルが収束しない
航空会社のフライトに関するデータがあります(というデータフレーム内flights)。フライト時間が到着の大幅な遅延(10分以上を意味する)の確率に影響するかどうかを確認したいと思います。予測としてフライト時間を使用し、応答として各フライトが大幅に遅延した(ベルヌーイの束)かどうかのロジスティック回帰を使用すると考えました。私は次のコードを使用しました... flights$BigDelay &lt;- flights$ArrDelay &gt;= 10 delay.model &lt;- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) summary(delay.model) ...しかし、次の出力が得られました。 &gt; flights$BigDelay &lt;- flights$ArrDelay &gt;= 10 &gt; delay.model &lt;- glm(BigDelay ~ ArrDelay, data=flights, family=binomial(link="logit")) Warning messages: 1: In glm.fit(x = X, y = Y, weights = weights, start = start, etastart = etastart, : algorithm …
40 r  logistic  separation 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.