タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
plot.lm()の解釈
Rのplot(lm)によって生成されたグラフの解釈について質問がありました。スケール位置プロットとレバレッジ残差プロットの解釈方法を教えていただけませんか。コメントをいただければ幸いです。統計、回帰、計量経済学の基本的な知識があると仮定します。

2
lme4の収束警告についてどれほど怖いのか
glmerを再フィッティングすると、モデルが収束するのに苦労していることを示す警告が表示される場合があります。たとえば、 >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) @Ben Bolkerがこのスレッドで説明した収束をチェックする別の方法は次のとおりです。 relgrad <- with(model@optinfo$derivs,solve(Hessian,gradient)) max(abs(relgrad)) #[1] 1.152891e-05 場合max(abs(relgrad))である<0.001。この場合には、我々は矛盾する結果を持っているようなものは...大丈夫でしょうか?方法をどのように選択し、モデルのあてはめを安心させる必要がありますか? 一方、次のような極端な値を取得した場合: >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 35.5352 …

1
クロスランダム効果とネストランダム効果:lme4でどのように違い、どのように正しく指定されていますか?
ネストされたランダム効果とクロスされたランダム効果を理解した方法は次のとおりです。 ネストされたランダム効果は、下位レベルの要因が上位レベルの要因の特定のレベル内にのみ現れる場合に発生します。 たとえば、ある時点でのクラス内の生徒。 ではlme4、私たちは2つの等価のいずれかの方法で、ネストされたデータのランダム効果を表すことを考えました: (1|class/pupil) # or (1|class) + (1|class:pupil) 交差ランダム効果とは、特定の因子が上位レベル因子の複数のレベルに現れることを意味します。 たとえば、数年にわたって測定されたクラス内に生徒がいます。 ではlme4、次のように記述します。 (1|class) + (1|pupil) ただし、特定のネストされたデータセットを見ると、両方のモデル式で同じ結果が得られていることに気付きました(以下のコードと出力)。ただし、2つの式が異なる結果を生成する他のデータセットを見てきました。ここで何が起こっているのでしょうか? mydata <- read.csv("https://web.archive.org/web/20160624172041if_/http://www-personal.umich.edu/~bwest/classroom.csv") # (the data is no longer at `http://www-personal.umich.edu/~bwest/classroom.csv` # hence the link to web.archive.org) # Crossed version: Linear mixed model fit by REML ['lmerMod'] Formula: mathgain ~ (1 | schoolid) …

3
ランク不足とは何ですか?
lme4を使用したロジスティック回帰の近似は Error in mer_finalize(ans) : Downdated X'X is not positive definite. このエラーの考えられる原因は、明らかにランクの不足です。ランクの不備とは何ですか、どのように対処すればよいですか?
87 r  logistic  lme4-nlme 

4
混合エフェクトモデルのnlmeまたはlme4 Rライブラリを選択する方法は?
lme4in を使用して、いくつかの混合効果モデル(特に縦モデル)を適合させましRたが、実際にモデルとそれに伴うコードをマスターしたいと思います。 しかし、両足で飛び込む(そして本を買う)前に、正しい図書館を学んでいることを確認したい。今まで使っlme4てきたのはnlme、それがのより簡単だと思ったからですが、もしnlme自分の目的に合っていれば、それを使うべきだと思います。 どちらも単純な方法で「優れている」とは思いませんが、私はいくつかの意見や考えを大切にしています。私の主な基準は次のとおりです。 使いやすい(私はトレーニングによって心理学者であり、統計やコーディングに特に精通していませんが、学んでいます) 縦断的データを近似するための優れた機能(ここに違いがある場合-しかし、これは私が主にそれらを使用するものです) 良い(解釈しやすい)グラフィカルな要約、ここでも違いがあるかどうかはわかりませんが、私は私よりも技術的ではない人々のためにグラフを作成することが多いので、きれいできれいなプロットは常に良いです() このために)。 いつものように、この質問があまりにも曖昧ではないことを願っています。どんな知恵にも事前に感謝します!


3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
パブリケーションでランダムフォレストを表示する最良の方法は?
私は、ランダムフォレストアルゴリズムを、1000種類の特徴を持つマイクロアレイ研究の2つのグループの堅牢な分類子として使用しています。 ランダムフォレストを提示して、それを論文で再現可能にするのに十分な情報があるようにする最良の方法は何ですか? フィーチャの数が少ない場合、実際にツリーをプロットするRのプロットメソッドはありますか? エラー率のOOB推定は、引用するのに最適な統計ですか?

2
リサンプリング/シミュレーション方法:モンテカルロ、ブートストラップ、ジャックナイフ、交差検証、ランダム化テスト、および順列テスト
さまざまなリサンプリング方法(モンテカルロシミュレーション、パラメトリックブートストラップ、ノンパラメトリックブートストラップ、ジャックナイフ、交差検証、ランダム化テスト、置換テスト)とRを使用した独自のコンテキストでの実装の違いを理解しようとしています。 次のような状況があるとしましょう。Y変数(Yvar)とX変数(Xvar)を使用してANOVAを実行します。Xvarカテゴリーです。次のことに興味があります。 (1)p値の重要性–偽発見率 (2)Xvarレベルの 効果サイズ Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) これらのリサンプリング方法がどのように機能するかを明示した実例で、サンプリングの違いを説明してください。 編集: 私の試みは次のとおりです。 ブートストラップ 10ブートストラップサンプル、サンプルのサンプル番号、交換、サンプルを繰り返すことができることを意味します boot.samples <- list() for(i in 1:10) { t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=TRUE) ] t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=TRUE) ] b.df …


2
Rの重複行データフレームの削除[終了]
このサンプルデータフレームから重複行を削除するにはどうすればよいですか? A 1 A 1 A 2 B 4 B 1 B 1 C 2 C 2 両方の列に基づいて重複を削除したい: A 1 A 2 B 4 B 1 C 2 順序は重要ではありません。
71 r 

15
Rを使用した再現可能な研究の完全な実質的な例
質問: Rを使用して再現性のある研究の良い例があり、オンラインで無料で入手できますか? 理想的な例: 具体的には、理想的な例は以下を提供します: 生データ(および理想的にはデータを説明するメタデータ)、 データのインポート、処理、分析、出力生成を含むすべてのRコード、 最終出力を最終ドキュメントにリンクするためのSweaveまたはその他のアプローチ、 すべては、読者のコンピューターで簡単にダウンロードおよびコンパイルできる形式です。 理想的には、この例は、統計的な教育の例とは対照的に、実際の応用トピックに重点を置いたジャーナル記事または論文です。 興味の理由: 雑誌記事や論文の応用トピックに特に興味があります。これらの状況では、いくつかの追加の問題が発生するためです。 データのクリーニングと処理に関連する問題が発生し、 メタデータの管理に関連する問題が発生し、 ジャーナルと論文には、表や図の外観とフォーマットに関するスタイルガイドの期待がありますが、 多くのジャーナルと論文には、ワークフロー(分析の順序付け方法など)と処理時間(分析のキャッシュの問題など)に関する問題を引き起こす幅広い分析が含まれていることがよくあります。 完全な実例を見ると、再現性のある研究から始める研究者にとって良い教材となります。

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

4
R関数prcompとprincompの違いは何ですか?
QモードとRモードの主成分分析(PCA)について比較?prcompし?princompてみました。しかし正直なところ、私はそれを理解していません。誰でも違いを説明できますか?
70 r  pca 

2
Rの多変量重回帰
2つの従属変数(DV)があり、それぞれのスコアは7つの独立変数(IV)のセットによって影響を受ける可能性があります。DVは連続的ですが、IVのセットは連続変数とバイナリコード変数の混合で構成されています。(以下のコードでは、連続変数は大文字で、バイナリ変数は小文字で記述されています。) この研究の目的は、これらのDVがIV変数によってどのように影響を受けるかを明らかにすることです。次の多変量重回帰(MMR)モデルを提案しました。 my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) 結果を解釈するために、2つのステートメントを呼び出します。 summary(manova(my.model)) Manova(my.model) 両方の呼び出しからの出力は以下に貼り付けられ、大きく異なります。MMRの結果を適切に要約するために、2つのうちどちらを選択すべきかを誰かに説明してください。どんな提案も大歓迎です。 summary(manova(my.model))ステートメントを使用した出力: > summary(manova(my.model)) Df Pillai approx F num Df den Df Pr(>F) c 1 0.105295 5.8255 2 99 0.004057 ** d 1 0.085131 4.6061 2 99 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.