タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
Rで、AICとBICがどの相互検証方法と同等であるかを経験的に実証するにはどうすればよいですか?
で質問他の場所でこのサイトには、いくつかの答えは、AICは(LOO)クロスバリデーションを-1を残し、BICはK倍クロスバリデーションと同等であることと等価であることを述べました。これをRで経験的に実証する方法はありますか。LOOとKフォールドに関連する技術が明確になり、AICとBICの値と同等であることが実証されますか。この点に関しては、十分にコメントされたコードが役立ちます。また、BICのデモでは、lme4パッケージを使用してください。サンプルデータセットについては、以下を参照してください... library(lme4) #for the BIC function generate.data <- function(seed) { set.seed(seed) #Set a seed so the results are consistent (I hope) a <- rnorm(60) #predictor b <- rnorm(60) #predictor c <- rnorm(60) #predictor y <- rnorm(60)*3.5+a+b #the outcome is really a function of predictor a and b but not predictor …
26 r  aic  cross-validation  bic 

7
コントラストコードを使用してRでType-III SS ANOVAを行う方法
-3、-1、1、3のコントラストで被験者間ANOVAを実行できるようにするRコードを提供してください。このような分析に適した平方和(SS)タイプに関して議論があることを理解しています。ただし、SASおよびSPSSで使用されるSSのデフォルトタイプ(タイプIII)は、私の地域の標準と考えられています。したがって、この分析の結果が、これらの統計プログラムによって生成されたものと完全に一致することを望みます。回答を受け入れるにはaov()を直接呼び出す必要がありますが、他の回答は投票される可能性があります(特に理解/使用が容易な場合)。 sample.data <- data.frame(IV=rep(1:4,each=20),DV=rep(c(-3,-3,1,3),each=20)+rnorm(80)) 編集:私が要求しているコントラストは、単純な線形または多項式コントラストではなく、理論的予測、すなわちRosentalとRosnowによって議論されたコントラストのタイプによって導き出されたコントラストであることに注意してください。

3
Rのpolr関数からの出力を理解する方法(順序付きロジスティック回帰)
私はRを初めて使い、ロジスティック回帰を注文しましたpolr。 polr(ロジスティックまたはプロビット回帰モデルを順序付けられた因子応答に適合させる)のヘルプページの下部にある「例」セクションには、 options(contrasts = c("contr.treatment", "contr.poly")) house.plr <- polr(Sat ~ Infl + Type + Cont, weights = Freq, data = housing) pr <- profile(house.plr) plot(pr) pairs(pr) どんな情報がpr含まれていますか?プロファイルのヘルプページは一般的なものであり、polrに関するガイダンスはありません。 何がplot(pr)表示されていますか?6つのグラフが表示されます。ラベルはインジケータ変数です(順序値のインジケータである入力変数のように見えます)が、それぞれに数値のX軸があります。その場合、Y軸は「タウ」であり、これはまったく説明されていません。 何がpairs(pr)表示されていますか?入力変数の各ペアのプロットのように見えますが、ここでもX軸またはY軸の説明はありません。 モデルが適切に適合したかどうかをどのように理解できますか? summary(house.plr)は、Residual Deviance 3479.149と3495.149のAIC(赤池情報量規準?)を示しています。いいですか?それらが相対的な尺度としてのみ有用な場合(つまり、別のモデルの適合と比較する場合)、優れた絶対尺度とは何ですか?残差はほぼカイ二乗分布ですか?元のデータまたは相互検証で「正しく予測された%」を使用できますか?それを行う最も簡単な方法は何ですか? anovaこのモデルにどのように適用して解釈しますか?ドキュメントには、「predict、summary、vcov、anovaなど、標準のモデル適合関数のメソッドがあります」と書かれています。ただし、実行anova(house.plr)するとanova is not implemented for a single "polr" object 各係数のt値をどのように解釈しますか?一部のモデル近似とは異なり、ここにはP値はありません。 これは多くの質問であることに気づきましたが、7つの異なる質問ではなく、1つのバンドル(「これをどのように使用しますか?」)として質問することは理にかなっています。どんな情報も感謝します。
26 r  logistic 

7
行列の列間の線形依存性のテスト
行列式がゼロのセキュリティリターンの相関行列があります。(サンプル相関行列と対応する共分散行列は理論的には正定でなければならないため、これは少し驚くべきことです。) 私の仮説は、少なくとも1つの証券が他の証券に線形に依存しているということです。Rに線形依存関係の各列を順番にテストする関数がありますか? たとえば、1つのアプローチは、相関行列を一度に1つのセキュリティで構築し、各ステップで行列式を計算することです。行列式= 0の場合、他の証券の線形結合である証券を特定したため停止します。 そのような行列の線形依存性を特定する他の技術が評価されます。

7
RのLOESS回帰で使用するスパンを決定するにはどうすればよいですか?
RでLOESS回帰モデルを実行していますが、12の異なるモデルの出力をさまざまなサンプルサイズで比較したいと思います。質問への回答に役立つ場合は、実際のモデルをより詳細に説明できます。 サンプルサイズは次のとおりです。 Fastballs vs RHH 2008-09: 2002 Fastballs vs LHH 2008-09: 2209 Fastballs vs RHH 2010: 527 Fastballs vs LHH 2010: 449 Changeups vs RHH 2008-09: 365 Changeups vs LHH 2008-09: 824 Changeups vs RHH 2010: 201 Changeups vs LHH 2010: 330 Curveballs vs RHH 2008-09: 488 Curveballs vs LHH …
26 r  regression  loess 

3
Rのピアソン相関のp値を見つける
Rのピアソン相関のp値を見つけることは可能ですか? ピアソン相関を見つけるために、私は通常これを行います col1 = c(1,2,3,4) col2 = c(1,4,3,5) cor(col1,col2) # [1] 0.8315218 しかし、どのようにしてこのp値を見つけることができますか?

2
モデルをlmerで正しく指定しましたか?
私は多くのヘルプサイトを精査しましたが、混合モデルでより複雑なネストされた用語を指定する方法についても混乱しています。私もの使用など混乱しています:と/と|使用してランダムな因子と相互作用し、ネストを指定する際lmer()にlme4パッケージR。 この質問の目的のために、この標準統計モデルでデータを正確に描写したと仮定しましょう: は固定されており、Yijk=u+stationi+towj(i)+dayk+(station×day)ik+(tow×day)j(i)kYijk=u+stationi+towj(i)+dayk+(station×day)ik+(tow×day)j(i)k Y_{ijk} = u + \text{station}_i + \text{tow}_{j(i)} + \text{day}_k + (\text{station}\times \text{day})_{ik} + (\text{tow}\times\text{day})_{j(i)k} stationtowdayランダムです。 Towは(暗黙的に)内にネストされていますstation。 つまり、モデルにStation(i、fixed)、Tow(j、random、暗黙的にネストされたStation)、Day(k、random)、TowとDayの相互作用、およびDay間の相互作用が含まれることを望んでいますと駅。私は統計学者と相談してモデルを作成しましたが、現時点ではそれが私のデータの代表であると信じていますが、混乱しないように私の投稿の下部に興味がある人のために私のデータの説明も追加します。 これまでのところ、私がつなぎ合わせたのは次のとおりですlmer。 lmer(y ~ station + (1|station:tow) + (1|Day) + (1|station:day) + (1|tow:day), data=my.data) これは統計モデルを正確に表していますか?コードが正しく読み取れない場合のコードの改善方法に関する提案はありますか? lmer式で指定するのが難しい特定の用語を太字で示しています #1。towがランダムでステーションが固定されているときにステーション内にネストされたtowは 混乱しますが、とを使用してランダムなネスト用語と相互作用用語を区別することについては混乱し:てい/ます。上記の例では(1|station:tow)、ステーション内にネストされた読み取りトウを望んでいます。私が使用しているかどうか、私は様々なサイトにコメントを相反する読んだ:か、/ランダム以内にこちら(1|...)のフォーマットlmer。 #2。駅が固定され、日が変わるときの駅と日の相互作用はランダム ですが(1|station:day)、今回は駅と日の相互作用を読み取ることを望んでいます。station * dayを使用して、駅と曜日の個々の効果とその相互作用を説明できるようです(上記の3つの用語を個別に含めるのではなく)が、これを指定する方法がわかりません一方が固定され、もう一方がランダムな場合。でしょうかstation*(1|day)しますか? #3。牽引は(固定)駅にネストされている牽引日(両方ともランダム)の間の相互作用 次に、最後に、私が持っている(1|tow:day)、私は願っていたが、の相互作用を読み込み、towそしてday、私は牽引がネストされていることを再び指定する必要がある場合、私は思ったんだけど(暗黙的に)駅で? 私は両方に新しいですRし、lmer及び統計モデリングし、可能な場合は大幅に私の質問への応答での徹底した説明の手間を感謝しています。 データの詳細:プランクトンの濃度が近海の物理的な前線で変化するかどうかを尋ねています。この前線の内陸部、内陸部、沖合に3つのステーションがあります。したがって、ステーションは固定されています。各ステーションで、3つの複製プランクトントウを取り出します(そこから、水1立方メートルあたりのバグの数で分類、カウント、および集中度を取得します)。けん引はランダムです。3つのけん引で、その特定のステーションでのプランクトンの一般的な変動を説明したいと考えています。トウには固有のIDがないため、トウは本質的にステーションにネストされています(123,123,123は各ステーションのトウのIDです)。その後、独立した複数の日に、形成された新しい戦線でこれを行いました。私は日をブロッキング要因と考えることができると思いますか?独立した複数のフロント日でこれを繰り返すことは、日々の変動を捉え、このフロントが存在するすべての日を代表することを試みるため、日はランダムです。相互作用の用語について知り、Towsが日々変動するかどうか、またステーションが常に同様のデータを生成するのか、それとも日に依存するのかを確認したいのですが。 繰り返しますが、あなたの時間と助けに感謝します、私はそれを感謝します!

2
キャレットでcvとrepeatedcvの本当の違いは何ですか?
これは、質問キャレットの再サンプリング方法に似ていますが、同意された方法で質問のこの部分に実際に答えたことはありません。 キャレットの鉄道機能の提供cvとrepeatedcv。言うことの違いは何ですか: MyTrainControl=trainControl( method = "cv", number=5, repeats=5 ) 対 MyTrainControl=trainControl( method = "repeatedcv", number=5, repeats=5 ) cvセットをk分割(パラメーターnumber)に分割してから、最初からやり直してパラメーターrepeatsを何回も実行することを理解しています。 私は考えることができる唯一の事は、多分規則的であるcvとのrepeatsそれぞれの時間を折るために使用するのと同じ正確な指標?基本的にcv毎回同じ正確なフォールドで実行しますが、おそらくrepeatedcv新しいフォールドを毎回選択しますか? 誰か明確にできますか?

5
一連のコイン投げで頭と尾のパターンを打つのにかかった時間
TEDでのPeter Donnellyの講演に触発され、特定のパターンが一連のコイントスに現れるまでにかかる時間について議論し、Rで次のスクリプトを作成しました。これらのパターンのいずれかにヒットするまでに平均で要する時間(つまり、コインを投げる回数)を計算します。 coin <- c('h','t') hit <- function(seq) { miss <- TRUE fail <- 3 trp <- sample(coin,3,replace=T) while (miss) { if (all(seq == trp)) { miss <- FALSE } else { trp <- c(trp[2],trp[3],sample(coin,1,T)) fail <- fail + 1 } } return(fail) } n <- 5000 trials <- data.frame("hth"=rep(NA,n),"htt"=rep(NA,n)) …

4
ARIMAモデルをあてはめる前に時系列をログ変換するタイミング
以前は予測プロを使用して単変量時系列を予測していましたが、ワークフローをRに切り替えています.Rの予測パッケージには多くの便利な機能が含まれていますが、自動化を実行する前に行わないデータ変換が1つあります.arima()。いくつかのケースでは、予測プロは予測を行う前に変換データを記録することを決定しますが、その理由はまだわかりません。 私の質問は次のとおりです:ARIMAメソッドを試す前に、時系列をいつログ変換する必要がありますか? /編集:回答を読んだ後、次のようなものを使用します。xは私の時系列です。 library(lmtest) if ((gqtest(x~1)$p.value < 0.10) { x<-log(x) } これは理にかなっていますか?

3
「ハードルモデル」は本当に1つのモデルですか?または、2つの別個の順次モデルだけですか?
y通常の予測子からカウントデータを予測するハードルモデルを考えますx。 set.seed(1839) # simulate poisson with many zeros x <- rnorm(100) e <- rnorm(100) y <- rpois(100, exp(-1.5 + x + e)) # how many zeroes? table(y == 0) FALSE TRUE 31 69 この場合、69個のゼロと31個の正のカウントを持つカウントデータがあります。私の質問はハードルモデルに関するものであるため、これはデータ生成手順の定義によりポアソンプロセスであるということは今のところ気にしないでください。 これらの過剰なゼロをハードルモデルで処理したいとします。それらについての私の読書から、ハードルモデルはそれ自体が実際のモデルではないように思われました。彼らはただ2つの異なる分析を連続して行っているだけです。最初に、値が正であるかゼロであるかを予測するロジスティック回帰。第二に、ゼロ以外のケースのみを含むゼロ切り捨てポアソン回帰。この2番目のステップは、(a)完全に適切なデータを破棄し、(b)データの多くがゼロであるため電力の問題につながる可能性があり、(c)基本的にそれ自体が「モデル」ではないため、間違っていると感じました、ただし2つの異なるモデルを順番に実行するだけです。 そこで、ロジスティックとゼロ打ち切りポアソン回帰を別々に実行するのではなく、「ハードルモデル」を試しました。彼らは私に同じ答えを与えました(簡潔にするために出力を省略しています): > # hurdle output > summary(pscl::hurdle(y ~ x)) Count model coefficients (truncated poisson with …

1
ゼロ相関混合モデルはいつ理論的に健全ですか?
混合効果モデリングの分野のリーダーからの以下のブロック引用は、ランダム効果(「ZCP」モデル)間の相関がゼロのモデルの座標シフトがモデル予測を変更すると主張しています。 しかし、誰かが自分の主張を詳しく説明したり、さらに正当化することはできますか? 問題のステートメントは、ベイツらの 2015年の論文lme4、lme4を使用した線形混合効果モデルのフィッティング、7ページ、2番目の段落(ダウンロードリンク)からのものです。 \newcommand{\slope}{\text{slope}} \newcommand{\int}{\text{int}} \newcommand{\intercept}{\text{intercept}} ここに彼らが書いたものの言い換えがあります: ランダム相関モデルの複雑さを軽減するためにゼロ相関パラメーターモデルが使用されますが、1つの欠点があります。勾配と切片がゼロ以外の相関を持つことが許可されているモデルは、連続予測子の加法シフトに対して不変です。 相関関係がゼロに制約されると、この不変性は崩れます。予測変数の変化は、必然的に、推定された相関、モデルの尤度と予測の変化につながります。1たとえば、推定された被験者間標準偏差に推定された相関、つまり2を掛けた比率に等しい量だけDays [ \ slopeに伴う予測子]をシフトするだけで、fm1の相関を除去できます。slopeslope\slope ρslope:intercept×σslopeσinterceptρslope:intercept×σslopeσintercept\rho_{\slope:\intercept}\times\frac{\sigma_{\slope}}{\sigma_{\intercept}} このようなモデルの使用は、理想的には、予測子が比率スケールで測定される場合に限定する必要があります(つまり、スケール上のゼロ点は、便宜上または慣例によって定義された場所だけでなく、意味があります)。 質問: 上記の上付き文字に合わせて番号が付けられています... 予測変数の測定に使用される座標系のシフトは、推定相関の変化につながり、それにより非ゼロ相関につながることがわかります。これは、予測子座標系のシフト下でゼロ相関パラメーターモデルが不変ではないというステートメントをサポートするため、非ゼロのランダム効果相関を持つモデルは、適切な座標シフトによってゼロ相関を持つモデルに変換できるということです。上記の言い換えの3番目の段落もサポートしていると思います。ZCPモデル(およびゼロインターセプトモデル—以下を参照してください。ただし、これを確認してください)は、特定の特別な座標系を使用するモデルでのみ有効です。 しかし、なぜそのようなモデルの座標シフトが予測を変更する必要があるのでしょうか? たとえば、座標のシフトは、グループ平均の固定効果切片項も変更します(以下を参照)が、予測子の座標系の原点の変更に適切な量だけです。新しい座標系がシフトされた予測子に使用されている限り、このような変更はモデル予測に影響しません。 詳述すると、シフトされた予測子に関連付けられた固定効果の傾きが正で、予測子の座標系の原点が負の方向にシフトされた場合、固定効果の切片は減少し、関連するランダム効果の切片も変更されますそれに応じて、シフトされた座標系での「原点」の新しい定義(したがって、インターセプト)を反映します。ところで、この推論は、ゼロ切片モデルもそのようなシフトの下で不変ではないことを暗示していると思います。 私はこれを解決する合理的な方法を持っていると思いますが、ベイツら とは少し異なる答えを導き出しました。どこか間違っていますか? 以下は私の答えです。それに続いて、どのように結果にたどり着いたかを説明します。Iがずれた場合に要約すると、私はそれを見つけるによって負原点をので、新しい座標系において予測は値を取ることが、、次いで相関 新しい座標系で次の場合はゼロです。δ > 0 のx " = X + δ ρ "xxxδ>0δ>0\delta > 0x′=x+δx′=x+δx' = x + \deltaρ′ρ′\rho' δ=ρslope:intercept×σinterceptσslopeδ=ρslope:intercept×σinterceptσslope\delta=\rho_{\slope:\intercept}\times\frac{\sigma_{\intercept}}{\sigma_{\slope}} これは、ベイツらの結果とは異なります。 私の方法の説明(オプションの読み取り):2つのランダム効果、と(略して)の相関関係があるとします。両方ともレベル(からまでの番号)の同じグループ化因子に対応します。)。また、ランダムがペアになっている連続予測子はと呼ばれ、製品がレベル値への条件付き寄与を生成するように定義されているとします切片のint K I 1つのk個の傾きX X × 勾配I …

4
1つのプロットで多くの変数を視覚化する
特定の変数(〜15)の値が時間とともにどのように変化するかを示したいのですが、変数が各年でどのように異なるかを示したいと思います。だから私はこのプロットを作成しました: しかし、配色を変更したり、さまざまな線/形状タイプを追加したりしても、これは面倒に見えます。この種のデータを視覚化するより良い方法はありますか? Rコードを使用したテストデータ: structure(list(Var = structure(c(1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 6L, 6L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 8L, 8L, 8L, 8L, 8L, 8L, 8L, 9L, 9L, 9L, …


5
混合線形モデルで多重共線性をテストして回避する方法は?
現在、いくつかの混合効果線形モデルを実行しています。 Rでパッケージ「lme4」を使用しています。 私のモデルの形式は次のとおりです。 model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) モデルを実行する前に、予測子間の可能な多重共線性をチェックしました。 私はこれをしました: 予測子のデータフレームを作成します dummy_df <- data.frame(predictor1, predictor2) 「cor」関数を使用して、予測子間のピアソン相関を計算します。 correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2) 「correl_dummy_df」が0.80より大きい場合、predictor1とpredictor2の相関が高すぎるため、モデルに含まれていないと判断しました。 読書を行うと、多重共線性をチェックするより客観的な方法が現れます。 誰にもこれに関するアドバイスはありますか? 「Variance Inflation Factor(VIF)」は、1つの有効な方法のようです。 VEDは、AEDパッケージ(非クラン)の関数「corvif」を使用して計算できます。パッケージはhttp://www.highstat.com/book2.htmにあります。このパッケージは、次の書籍をサポートしています。 Zuur、AF、Ieno、EN、Walker、N.、Saveliev、AA&Smith、GM2009。混合効果モデルとエコロジーの拡張、R、第1版。スプリンガー、ニューヨーク。 一般的な経験則のように見えますが、VIFが5より大きい場合、予測子間の多重共線性は高くなります。 VIFの使用は、単純なピアソン相関よりも堅牢ですか? 更新 興味深いブログを見つけました: http://hlplab.wordpress.com/2011/02/24/diagnosing-collinearity-in-lme4/ ブロガーは、lme4パッケージのモデルのVIFを計算するための便利なコードを提供します。 コードをテストしましたが、うまく機能します。その後の分析で、モデルの多重共線性は問題ではないことがわかりました(すべてのVIF値<3)。これは、以前にいくつかの予測子間の高いピアソン相関関係を発見したことを考えると、興味深いものでした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.