タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
Rのプロットのような年齢ピラミッドを作る方法は?
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 年齢ピラミッドは次のようになります。似たような もの、つまり、同じカテゴリの2つの棒グラフ(ヒストグラムではない)を作成します。 Rでこれを行う簡単な方法ですか? また、各バーの色を制御するとよいでしょう。

4
不連続性を許容するLOESS
LOESSのように、不連続のタイミングがアプリオリにわからないゼロ、1つ、またはそれ以上の不連続を可能にするモデリング手法はありますか? テクニックが存在する場合、Rに既存の実装はありますか?

2
選択したフィーチャの数を減らすと、エラーのランダムフォレストOOB推定が改善されるのはなぜですか?
ランダムフォレストアルゴリズムを、数千の特徴を持つ2つの既知のグループに分割されたマイクロアレイデータセットの分類子として適用しています。最初の実行後、機能の重要性を確認し、5、10、および20の最も重要な機能を使用してツリーアルゴリズムを再度実行します。 すべての機能、トップ10および20について、エラー率のOOB推定値は1.19%であることがわかりましたが、トップ5の機能については0%です。 これは私には直観に反しているように思えるので、何かを見逃しているのか、間違ったメトリックを使用しているのかを説明できるかどうか疑問に思っていました。 ntree = 1000、nodesize = 1、mtry = sqrt(n)でRのrandomForestパッケージを使用しています

3
固定効果ロジスティック回帰のRパッケージ
RChamberlainの1980推定器を使用して、個々の固定効果(個別インターセプト)を使用してロジットモデルの係数を推定するためのパッケージを探しています。チェンバレンの固定効果ロジット推定器としてよく知られています。 (少なくとも計量経済学で)バイナリの結果パネルデータを扱う場合、これは古典的な見積もりツールですが、CRANに関連するものは何も見つかりません。 どんな手掛かり?

2
混合効果モデルからの予測値の周りの信頼区間はどういう意味ですか?
このページを見ていましたRのlmeとlmerの信頼区間のメソッドに注目しました。Rを知らない人にとっては、混合効果またはマルチレベルモデルを生成するための関数です。反復測定デザインのようなものに固定効果がある場合、予測値(平均と同様)の周りの信頼区間はどういう意味ですか?効果のために合理的な信頼区間を設定できることは理解できますが、そのような設計で予測された平均値の周りの信頼区間は不可能に思えます。ランダム変数が推定値の不確実性に寄与するという事実を認識することは非常に大きい可能性がありますが、その場合、値全体を比較する推論的な意味ではまったく役に立ちません。または、 ここに何か欠けているのか、状況の分析が正しいのか?... [そしておそらく、それがlmerで実装されていない理由の正当化(しかしSASで簡単に取得できる)。:)]

5
混合効果モデル:グループ化変数のレベル全体でランダム分散成分を比較
私は参加者がいて、それぞれが 20回、ある条件で10回、別の条件で10回応答するとします。各条件でを比較する線形混合効果モデルを近似します。以下のパッケージを使用して、この状況をシミュレートする再現可能な例を示します。NNNYYYYYYlme4R library(lme4) fml <- "~ condition + (condition | participant_id)" d <- expand.grid(participant_id=1:40, trial_num=1:10) d <- rbind(cbind(d, condition="control"), cbind(d, condition="experimental")) set.seed(23432) d <- cbind(d, simulate(formula(fml), newparams=list(beta=c(0, .5), theta=c(.5, 0, 0), sigma=1), family=gaussian, newdata=d)) m <- lmer(paste("sim_1 ", fml), data=d) summary(m) モデルmは、2つの固定効果(条件の切片と勾配)、および3つのランダム効果(参加者ごとのランダム切片、条件の参加者ごとのランダム勾配、切片と勾配の相関)を生成します。 によって定義されたグループ全体で、参加者ごとのランダムインターセプト分散のサイズを統計的に比較しますcondition(つまり、コントロールと実験条件内で赤で強調表示された分散コンポーネントを計算し、コンポーネントのサイズの違いがゼロ以外)。どうすればこれを行うことができますか? ボーナス モデルがもう少し複雑であるとしましょう:参加者はそれぞれ10回の刺激を20回、1つの条件で10回、別の条件で10回経験します。したがって、交差ランダム効果には、参加者のランダム効果と刺激のランダム効果の2つのセットがあります。再現可能な例を次に示します。 library(lme4) fml <- "~ condition …

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

1
GAM vs LOESS vsスプライン
コンテキスト:パラメトリックではない散布図に線を描画したいのでgeom_smooth()、ggplotin を使用していRます。geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.一般化された加法モデルのGAMスタンドを収集し、3次スプラインを使用して自動的に戻ります。 次の認識は正しいですか? レスは、特定の値で応答を推定します。 スプラインは、データ(一般化された加法モデルを構成する)に適合するさまざまな区分的関数を接続する近似であり、3次スプラインはここで使用される特定のタイプのスプラインです。 最後に、スプラインはいつ使用する必要があり、LOESSはいつ使用する必要がありますか?

2
ロジスティック回帰予測の出力
次のコードを使用してロジスティック回帰を作成しました。 full.model.f = lm(Ft_45 ~ ., LOG_D) base.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg) step(base.model.f, scope=list(upper=full.model.f, lower=~1), direction="forward", trace=FALSE) 次に、出力を使用して最終モデルを作成しました。 final.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg + IP_util_E2_m02_flg + AE_NumVisit1_flg + OP_NumVisit1_m01_flg + IP_TotLoS_m02 + Ft1_45 + IP_util_E1_m05_flg + IP_TotPrNonElecLoS_m02 + IP_util_E2pl_m03_flg + LTC_coding + OP_NumVisit0105_m03_flg + OP_NumVisit11pl_m03_flg + AE_ArrAmb_m02_flg) 次に、予測関数を使用して、異なるデータセットの結果を予測しました。 log.pred.f.v <- …

3
R:gbmとRandomForestの部分依存プロットには何が見えますか?
実際、部分依存プロットで何を表示できるか理解できたと思っていましたが、非常に単純な仮説例を使用すると、かなり困惑しました。コードの次のチャンクに私は、3つの独立変数(生成、B、C)と1つの従属変数(Y付き)Cと密接な直線関係を示すYをしながら、そしてbは無相関であるY。Rパッケージを使用して、ブーストされた回帰ツリーで回帰分析を行います。gbm a <- runif(100, 1, 100) b <- runif(100, 1, 100) c <- 1:100 + rnorm(100, mean = 0, sd = 5) y <- 1:100 + rnorm(100, mean = 0, sd = 5) par(mfrow = c(2,2)) plot(y ~ a); plot(y ~ b); plot(y ~ c) Data <- data.frame(matrix(c(y, a, b, …

4
どの変数がどのPCAコンポーネントを説明し、その逆ですか?
このデータの使用: head(USArrests) nrow(USArrests) 私はこうしてPCAを行うことができます: plot(USArrests) otherPCA <- princomp(USArrests) 新しいコンポーネントを入手できます otherPCA$scores そして、コンポーネントによって説明される分散の割合 summary(otherPCA) しかし、どの変数がほとんどの主成分によって説明されているかを知りたい場合はどうすればよいですか?逆もまた同様です。たとえば、PC1またはPC2は主に説明されていmurderますか?これどうやってするの? たとえば、PC1の80%がmurderまたはで説明されていると言えますかassault? 私はここで負荷が私を助けると思うが、彼らは私がそれを理解するように説明された分散ではなく方向性を示す、例えば otherPCA$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Murder 0.995 Assault -0.995 UrbanPop -0.977 -0.201 Rape -0.201 0.974

2
見つかったクラスターの中心を取り、クラスターを新しいデータセットに割り当てるRの関数はありますか
多次元データセットには2つの部分がtrainありtestます。それらをおよびと呼びましょう。そして、列車のデータセットに基づいてモデルを構築し、テストデータセットで検証したいと思います。クラスターの数はわかっています。 Rにk-meansクラスタリングを適用しようとしましたが、クラスターの中心を含むオブジェクトが得られました。 kClust <- kmeans(train, centers=N, nstart=M) 見つかったクラスターの中心を取り、テストデータセットにクラスターを割り当てる関数がRにありますか? 私が試すことができる他の方法/アルゴリズムは何ですか?
14 r  clustering  k-means 

3
比率間の差の信頼区間
2つの比率の差の信頼区間を正しく計算したかどうかを誰かに教えてもらえないかと思っています。 サンプルサイズは34で、そのうち19人が女性、15人が男性です。したがって、比率の差は0.1176471です。 -0.1183872と0.3536814の間の差の95%信頼区間を計算します。信頼区間がゼロを通過するため、差は統計的に有意ではありません。 以下は、Rでの私の作業であり、結果はコメントです。 f <- 19/34 # 0.5588235 m <- 15/34 # 0.4411765 n <- 34 # 34 difference <- f-m # 0.1176471 lower <- difference-1.96*sqrt((f*(1-f))/n+(m*(1-m))/n) # -0.1183872 upper <- difference+1.96*sqrt((f*(1-f))/n+(m*(1-m))/n) # 0.3536814

1
PCAバイプロットの矢印はどういう意味ですか?
次のPCAバイプロットを検討してください。 library(mvtnorm) set.seed(1) x <- rmvnorm(2000, rep(0, 6), diag(c(5, rep(1,5)))) x <- scale(x, center=T, scale=F) pc <- princomp(x) biplot(pc) たくさんの赤い矢印がプロットされていますが、それらはどういう意味ですか?「Var1」というラベルの付いた最初の矢印は、データセットの最もさまざまな方向を指している必要があることを知っていました(それらをそれぞれサイズ6のベクトルである2000データポイントと考える場合)。また、私はどこかから読んだ、最も変化する方向は、最初の固有ベクトルの方向でなければなりません。 ただし、Rのバイプロットのコードを読み取ります。矢印に関する行は次のとおりです。 if(var.axes) arrows(0, 0, y[,1L] * 0.8, y[,2L] * 0.8, col = col[2L], y固有ベクトル行列である実際の負荷行列はどこにありますか。したがって、最初の矢印が実際にから(0, 0)を指しているように見え(y[1, 1], y[1, 2])ます。高次元の矢印を2D平面にプロットしようとしていることを理解しています。これが、y[1, ]ベクトルの1番目と2番目の要素を取得する理由です。しかし、私が理解していないのは: 最初の固有ベクトルの方向は、y[, 1]ではなくで示されるベクトルではありy[1, ]ませんか?(これもyPCAまたはt(x) %*% x。の固有分解によって得られる固有ベクトル行列です。)固有ベクトルは、水平ベクトルではなく列ベクトルでなければなりません。 我々は2次元平面上にプロットされているにもかかわらず、我々からする第一の方向を描画する(0, 0)を指して(y[1, 1], y[2, 1])?
14 r  pca  linear-algebra  biplot 

4
Rのランダムな効果を持つ破損したスティック/区分的線形モデルの破損点の推定[コードと出力を含む]
他のランダム効果も推定する必要があるときに、Rに区分的線形モデルのブレークポイントを(固定またはランダムパラメーターとして)推定させる方法を教えてもらえますか? ブレークポイント4のランダムスロープ分散とランダムy切片分散を使用したホッケースティック/ブロークンスティック回帰に適合するおもちゃの例を以下に示します。ブレークポイントを指定する代わりに推定したいです。ランダム効果(望ましい)または固定効果の可能性があります。 library(lme4) str(sleepstudy) #Basis functions bp = 4 b1 <- function(x, bp) ifelse(x < bp, bp - x, 0) b2 <- function(x, bp) ifelse(x < bp, 0, x - bp) #Mixed effects model with break point = 4 (mod <- lmer(Reaction ~ b1(Days, bp) + b2(Days, bp) + (b1(Days, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.