タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

4
Rでカーネル幅を変更する効果をアニメーション化する
Rにいくつかのデータがあり、リストに格納されています。考える d <- c(1,2,3,4) これは私のデータではありませんが。次にコマンドを入力した場合 plot(density(d, kernel="gaussian", width=1)) 次に、カーネルが標準正規であるカーネル確率密度推定値を取得します。1を他の数字に置き換えると、もちろん画像が変わります。 私がやりたいことは、各フレームがそのようなプロットであるビデオまたはアニメーションを作成することですが、カーネルの帯域幅はフレームごとに異なり、それによって帯域幅の変更の効果を示しています。これどうやってするの? (これがRについて質問するのに適切な場所でない場合は、申し訳ありません。)

3
欠落しているエントリとの相関行列を表示するにはどうすればよいですか?
変数間の関係を簡単に調べるために、これまでに収集した記事の相関関係のグラフィック表現を取得したいと思います。以前は(乱雑な)グラフを描いていましたが、データが多すぎます。 基本的に、私はテーブルを持っています: [0]:変数1の名前 [1]:変数2の名前 [2]:相関値 「全体的な」行列は不完全です(たとえば、V1 * V2、V2 * V3の相関関係がありますが、V1 * V3の相関関係はありません)。 これをグラフィカルに表現する方法はありますか?

2
doSMPを使用したキャレットパッケージの並列化
更新:キャレットはforeach内部的に使用するようになったため、この質問はもはや関連性がありません。の動作する並列バックエンドを登録できる場合foreach、キャレットはそれを使用します。 私はR のキャレットパッケージを持っていて、train関数を使用してモデルを交差検証することに興味があります。ただし、速度を上げたいので、キャレットは並列処理をサポートしているようです。Windowsマシンでこの機能にアクセスする最良の方法は何ですか?doSMPパッケージを持っていますが、foreach関数を関数に変換する方法がわからないlapplyので、関数に渡すことができtrainます。 trainドキュメントから、私がやりたいことの例を以下に示します。これはまさに私がやりたいことですが、doSMPパッケージではなくパッケージを使用していdoMPIます。 ## A function to emulate lapply in parallel mpiCalcs <- function(X, FUN, ...) } theDots <- list(...) parLapply(theDots$cl, X, FUN) { library(snow) cl <- makeCluster(5, "MPI") ## 50 bootstrap models distributed across 5 workers mpiControl <- trainControl(workers = 5, number = 50, computeFunction = mpiCalcs, computeArgs …

1
Rのlm()でダミーベースとして因子レベルを選択
X1とX2でYを回帰しているとしましょう。X1は数値変数で、X2は4つのレベル(A:D)の因子です。lm(Y ~ X1 + as.factor(X2))X2の特定のレベル、たとえばBをベースラインとして選択できるように、線形回帰関数を作成する方法はありますか?
10 r 

2
混合モデル(変量効果としての主題)と単純な線形モデル(固定効果としての主題)の比較
大量のデータの分析を終えています。作業の最初の部分で使用された線形モデルを取得し、線形混合モデル(LME)を使用して再適合させたいと思います。LMEは非常に似ていますが、モデルで使用される変数の1つが変量効果として使用される点が異なります。このデータは、少数の被験者(〜10)の多くの観測(> 1000)から得られ、被験者の効果のモデリングはランダム効果(これはシフトしたい変数です)として行う方がよいことを知っています。Rコードは次のようになります。 my_modelB <- lm(formula = A ~ B + C + D) lme_model <- lme(fixed=A ~ B + C, random=~1|D, data=my_data, method='REML') すべてが正常に実行され、結果は非常に似ています。RLRsimやAIC / BICのようなものを使用して、これら2つのモデルを比較し、どちらが最も適切であるかを判断できれば、すばらしいと思います。LMEの方が適切なモデルだと思いますが、同僚が「より良い」ものを選択する簡単にアクセスできる方法がないため、LMEを報告したくありません。助言がありますか?

1
metaforパッケージを使用したRでのメタ分析
次の小さなメタ分析の実際の例で結果を取得するにはrma、metaforパッケージから関数を構文化する方法を教えてください。(変量効果、要約統計SMD) study, mean1, sd1, n1, mean2, sd2, n2 Foo2000, 0.78, 0.05, 20, 0.82, 0.07, 25 Sun2003, 0.74, 0.08, 30, 0.72, 0.05, 19 Pric2005, 0.75, 0.12, 20, 0.74, 0.09, 29 Rota2008, 0.62, 0.05, 24, 0.66, 0.03, 24 Pete2008, 0.68, 0.03, 10, 0.68, 0.02, 10
10 r  meta-analysis 

2
Rの複素回帰プロット
視覚的なデータ分析のために複雑なグラフィックを描く必要があります。2つの変数と多数のケース(> 1000)があります。例(分散を「通常」にするには、数値は100です): x <- rnorm(100,mean=95,sd=50) y <- rnorm(100,mean=35,sd=20) d <- data.frame(x=x,y=y) 1)同時発生の相対頻度に対応するポイントサイズで生データをプロットする必要plot(x,y)があるため、オプションではありません-ポイントサイズが必要です。これを達成するために何をすべきですか? 2)同じプロットで、相関の変化を表す95%信頼区間の楕円と線をプロットする必要があります(正しく名前を付ける方法がわからない)-次のようなもの: library(corrgram) corrgram(d, order=TRUE, lower.panel=panel.ellipse, upper.panel=panel.pts) しかし、1つのプロットで両方のグラフを使用します。 3)最後に、これに加えて、結果の線形回帰モデルを描画する必要があります。 r<-lm(y~x, data=d) abline(r,col=2,lwd=2) しかし、エラー範囲... QQ-プロットのようなもの: しかし、可能であればフィッティングエラーのため。 だから問題は: これらすべてを1つのグラフで実現する方法は?

2
RNG、R、mclapplyおよびコンピューターのクラスター
Rとコンピューターのクラスターでシミュレーションを実行していますが、次の問題があります。私が実行する各Xコンピューターで: fxT2 <- function(i) runif(10) nessay <- 100 c(mclapply(1:nessay, fxT2), recursive=TRUE) 32台のコンピューターがあり、それぞれに16コアがあります。ただし、乱数の約2%は同一です。これを回避するためにどのような戦略を採用しますか? レイテンシを設定することで、fxT2のこの問題を回避できました(つまり、各ジョブが各Xコンピューターに送信される時間を1秒遅らせます)。しかし、それはfxt2にとって非常に特別です。 問題は、実際にはfxT2が疑似乱数を含む長いタスクであることです。プロセスの終わりに、私は同じ統計実験のX * nessay再現を得ることが期待されます。nessay再現ではありません。これが確かに事実であり、これを確認する方法はありますか?

1
kmeansクラスタリングのためのRでの統計パッケージの使用
クラスタパッケージの1つまたは2つの側面を理解できません。私はQuick-Rの例に厳密に従っていますが、分析の1つまたは2つの側面を理解していません。この特定の例で使用しているコードを含めました。 ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, 1549.524107, 936.42856, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 131.4349206, 0, 762.6110846, 3837.850406), b = c(19578.64174, 2233.308842, 4714.514274, 0, 2760.510002, 1225.392118, 3706.428246, 2693.353714, 2674.126613, 592.7384164, 1820.976961, 1318.654162, 1075.854792, 1211.248996, 1851.363623, 3245.540062, 1711.817955, 2127.285272, …
10 r  clustering 

1
計量経済学的手法の実際のアプリケーションの成功の文書化された/再現可能な例?
この質問は非常に広範に聞こえるかもしれませんが、ここで私が探しているものです。計量経済学的手法に関する優れた本や計量経済学的手法に関する優れた解説記事がたくさんあることは知っています。このCrossValidated 質問で説明されているように、計量経済学の再現可能な優れた例もあります。実際、この質問の例は、私が探しているものに非常に近いものです。これらの例で唯一欠けているのは、それらが調査レポートにすぎず、実際のアプリケーションでの調査結果の経緯についての言及がないことです。 私が探しているのは、理想的には次の特性を持つ計量経済理論の実際のアプリケーションの文書化された/再現可能な例です。 それらは再現可能である必要があります。つまり、データの詳細な説明(およびデータへのポインタ)、計量経済学的手法、およびコードが含まれている必要があります。コードはR言語であるのが理想的です。 十分に定量化された成功の測定基準に従って、技術が現実の世界で成功したことを示す詳細なドキュメントがあるはずです(たとえば、「この技術は需要の予測を改善することができ、ここに含まれる数があるため、収益の増加に役立ちました」)。 ここでは、計量経済学という用語をかなり広く使用しています。つまり、あらゆる種類のデータマイニング、統計データ分析、予測、予測、機械学習の手法を意味します。そのような例を見つける際の1つの差し迫った問題:計量経済学の多くの成功したアプリケーションは営利目的の設定で行われるため、独自のものであるため、手法がうまく機能した場合、おそらく公開されません(これは、独自の取引の場合に特に当てはまります)。ただし、(1)と(2)の両方ではないにしても、少なくとも上記(2)の特性を持つ例が公開されていることを期待しています。

4
Ross QuinlanのC5.0へのMATLABおよびRインターフェースの構築
私はMATLABおよびRインターフェイスを構築検討しているロス・クインランのC5.0(それに慣れていない方のために、C5.0は決定木アルゴリズムおよびソフトウェアパッケージである;の延長C4.5)、そして私がしようとしています作成する必要があるコンポーネントの感覚をつかんでください。 私がC5.0について見つけた唯一のドキュメントはこちらです。これはSee5(C5.0へのWindowsインターフェース?)のチュートリアルです。タールファイルはMakefileの、ないのReadmeファイルまたは任意の追加のドキュメントが付属しています。 上記のチュートリアルで読んだ内容から、C5.0はASCIIベースの表現を使用して入力と出力を処理します。また、MATLABまたはRとC5.0の間でバイナリデータを直接渡すインターフェイスの構築も検討しています。C5.0のデータ表現は他の機械学習/分類ソフトウェアで使用されていますか? 以前にID3、C4.5、またはC5.0へのMATLABまたはRインターフェイスを構築しようとした人はいますか? ありがとう

2
RとSASでのリッジ回帰実装の違い
私は、Applied Linear Statistical Modelsの第5版第11章でリッジ回帰の説明を読んでいます。リッジ回帰は、ここで入手可能な体脂肪データに対して行われます。 教科書はSASの出力と一致します。ここで、逆変換された係数は、次のようにフィットモデルで与えられます: Y=−7.3978+0.5553X1+0.3681X2−0.1917X3Y=−7.3978+0.5553X1+0.3681X2−0.1917X3 Y=-7.3978+0.5553X_1+0.3681X_2-0.1917X_3 これはSASから次のように表示されます。 proc reg data = ch7tab1a outest = temp outstb noprint; model y = x1-x3 / ridge = 0.02; run; quit; proc print data = temp; where _ridge_ = 0.02 and y = -1; var y intercept x1 x2 x3; run; Obs Y …

1
区分的回帰直線のプロット
lines各セグメントを個別にプロットするために使用するgeom_smooth(aes(group=Ind), method="lm", fill=FALSE)か、またはを使用する以外に、このような区分的モデルの回帰直線をプロットする方法はありますか? m.sqft <- mean(sqft) model <- lm(price~sqft+I((sqft-m.sqft)*Ind)) # sqft, price: continuous variables, Ind: if sqft>mean(sqft) then 1 else 0 plot(sqft,price) abline(reg = model) Warning message: In abline(reg = model) : only using the first two of 3regression coefficients ありがとうございました。

4
Rでゼロに膨らんだパラメーターの密度をどのように推定できますか?
次のようなゼロの多いデータセットがあります。 set.seed(1) x <- c(rlnorm(100),rep(0,50)) hist(x,probability=TRUE,breaks = 25) 密度の線を描きたいのですが、density()関数はxの負の値を計算する移動ウィンドウを使用します。 lines(density(x), col = 'grey') density(... from, to)引数はありますが、次のプロットでわかるように、これらは計算を切り捨てるだけで、ウィンドウを変更せず、0での密度がデータと一致するように見えます。 lines(density(x, from = 0), col = 'black') (補間が変更された場合、黒い線は灰色の線よりも0の方が密度が高いと予想されます) ゼロでの密度のより良い計算を提供するこの関数の代替はありますか?
10 r  probability  kde 

3
データマイニングのために因子レベルを組み合わせるためのRパッケージ?
ファクターのすべてのレベルの比率が特定のしきい値よりも小さいファクターのレベルを組み合わせるRのパッケージ/関数を誰かが実行したかどうか疑問に思いますか?具体的には、私が実施するデータ準備の最初のステップの1つは、少なくとも合計の2%を構成しない、因子のまばらなレベルを(たとえば、「その他」と呼ばれるレベルに)まとめることです。これは、監視なしで行われ、目的がマーケティングの活動をモデル化することである場合に行われます(これらの非常に小さな発生が非常に重要である可能性がある不正検出ではありません)。あるしきい値の割合に達するまでレベルを縮小する関数を探しています。 更新: これらの素晴らしい提案のおかげで、私はかなり簡単に関数を書きました。ただし、比率<最小のレベルを折りたたむことは可能であり、再コーディングされたレベルが<最小であるため、比率>最小の最低レベルを追加する必要があることに気付きました。おそらくより効率的ですが、動作するようです。次の拡張は、折りたたみロジックを新しいデータ(検証セットまたは将来のデータ)に適用するための「ルール」を取得する方法を理解することです。 collapseFactors<- function(tableName,minPercent=5,fillIn ="RECODED" ) { for (i in 1:ncol(tableName)) { if(is.factor(tableName[,i]) == TRUE) #process just factors { sortedTable<-sort(prop.table(table(tableName[,i]))) numberToCollapse<-length(sortedTable[sortedTable<(minPercent/100)]) if (sum(sortedTable[1:numberToCollapse])<(minPercent/100)) { numberToCollapse=numberToCollapse+1 #add next level if < minPercent } if(numberToCollapse>1) #if not >1 then nothing to collapse { lf <- names(sortedTable[1:numberToCollapse]) levels(tableName[,i])[levels(tableName[,i]) %in% lf] <- fillIn …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.