タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
バイオマーカー研究用の電力計算/サンプルサイズ
患者に癌があるかどうかを予測するための潜在的なバイオマーカーがあります。バイオマーカーのテスト結果は、正または負のバイナリです。このバイオマーカーが良い予測因子であるかどうかを判断するためにテストする必要のある患者の数をある程度把握したいと思います。 インターネットで読むと、感度(ケースの数)と特異性(コントロールの数)を調べることが方法のようです。この状況を1サンプルの割合検定として扱うことをお勧めしますが、感度がどのようなもので、どの範囲を除外するかを推定する方法は不明です。感度が0.8を超えるバイオマーカーを「良好」とみなす場合、2つの変数をどのように設定しますか?私の帰無仮説がバイオマーカーであることが、ランダムな割り当て、つまり感度が0.5であるより良くないことを望みます。誰でもこれを行うための最良の方法の例を与えることができます(特にRの場合)。
13 r  power 

2
ロジスティック回帰モデルの評価
この質問は、ロジスティックモデルで十分かどうかを判断する方法に関する実際の混乱から生じています。従属変数として形成されてから2年後に、個々のプロジェクトのペアの状態を使用するモデルがあります。結果は成功(1)または失敗(0)です。ペアの形成時に測定された独立変数があります。私の目的は、私が仮定した変数がペアの成功に影響を与えるかどうかをテストし、その成功に影響を与え、他の潜在的な影響を制御することです。モデルでは、対象の変数は重要です。 モデルはのglm()関数を使用して推定されましたR。モデルの品質を評価するために、私はいくつかのことを行っている:glm()あなたは与えresidual deviance、AICそしてBICデフォルトで。さらに、モデルのエラー率を計算し、ビン化された残差をプロットしました。 完全なモデルは、私が推定した(および完全なモデルにネストされている)他のモデルよりも小さい残差、AICおよびBICを持っているため、このモデルは他のモデルよりも「優れている」と思います。 モデルのエラー率はかなり低く、IMHO(Gelman and Hill、2007、pp.99のように):、 error.rate <- mean((predicted>0.5 & y==0) | (predicted<0.5 & y==1)約20%です。 ここまでは順調ですね。しかし、ビン化された残差をプロットすると(再びGelman and Hillのアドバイスに従って)、ビンの大部分が95%CIの範囲外になります。 このプロットは、モデルにまったく問題があると思うように導きます。それはモデルを捨てることに私を導くべきですか?モデルが不完全であることを認める必要がありますが、それを維持し、対象変数の効果を解釈する必要がありますか?ビン化された残差プロットを実際に改善することなく、変数を順番に除外し、変換も試行錯誤しました。 編集: 現時点では、モデルには多数の予測子と5つの相互作用効果があります。 これらのペアは、すべてが短時間で形成されるという意味で(ただし、厳密に言えば、すべて同時にではない)という意味で互いに「比較的」独立しており、多数のプロジェクト(13k)と多数の個人(19k )そのため、かなりの割合のプロジェクトには1人の個人しか参加していません(約20000ペアあります)。

2
頻度表を値のベクトルに変換する方法は?
RまたはExcelを使用して、頻度テーブルを値のベクトルに変換する最も簡単な方法は何ですか? たとえば、次の頻度表をどのように変換しますか Value Frequency 1. 2 2. 1 3. 4 4. 2 5. 1 次のベクトルに? 1, 1, 2, 3, 3, 3, 3, 4, 4, 5
13 r  dataset  excel 

1
反復測定計画のANOVAはどのように計算されますか:Rのaov()vs lm()
タイトルはそれをすべて言っており、私は混乱しています。以下は、Rで反復測定aov()を実行し、同等のlm()呼び出しと考えたものを実行しますが、異なる誤差残差を返します(ただし、平方和は同じです)。 aov()の残差と近似値は、モデルで使用されるものです。これらの平方和は、summary(my.aov)で報告されるモデル/残余平方和のそれぞれに加算されるためです。それでは、反復測定設計に適用される実際の線形モデルは何ですか? set.seed(1) # make data frame, # 5 participants, with 2 experimental factors, each with 2 levels # factor1 is A, B # factor2 is 1, 2 DF <- data.frame(participant=factor(1:5), A.1=rnorm(5, 50, 20), A.2=rnorm(5, 100, 20), B.1=rnorm(5, 20, 20), B.2=rnorm(5, 50, 20)) # get our experimental conditions conditions <- …

4
Rの1つのグラフに複数のプロットを描画しますか?
次のコードを使用して、のグラフに4つのプロットを描画しようとしましたR。プロット間には多くのスペースがあるため、この図には満足できません。したがって、プロットの幅は、プロットを分析するのに十分ではありません。 誰かが私に4つのプロットを持つ素敵なグラフを作成するのを手伝ってもらえますか? デフォルトの5つのラベルの代わりに1から10のx軸ラベルを保持するにはどうすればよいですか? データ: a1:11.013 13.814 13.831 13.714 13.787 13.734 13.778 13.771 13.823 13.659 a2:5.181 7.747 8.314 8.061 7.920 8.153 8.540 8.845 7.881 8.301 b1、c1、およびd1にa1データを使用しました。ここのb2、c2、d2のa2データ。 図: コード: op=par(mfrow=c(4,1), mar=c(5.5,5.1,4.1,2.1)) plot(a1, type="b", ylim=c(0,14.5), xlab="Time (secs)", ylab="", cex.axis=1.4, cex.lab=1.3,cex=1.2,lwd=2.5,col="red1",lty=2,pch=1, main="A") lines(a2,type="b",pch=3,lty=3,col="darkblue",lwd=2.5,cex=1.2) par(xpd=T) legend(1,26.5,c("X","Y"),bty="n",horiz=T,cex=1.5,col=c("red1","darkblue"),text.col=c("red1","darkblue"),pch=c(1,3),lty=c(2,3),x.intersp=0.4,adj=0.2) plot(b1, type="b", ylim=c(0,14.5), xlab="Time (secs)", ylab="", cex.axis=1.4, cex.lab=1.3,cex=1.2,lwd=2.5,col="red1",lty=2,pch=1, main="B") …

5
Rバグの代替のみ[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 11か月前に閉鎖されました。 私はBUGSとRを使用してベイジアン統計のコースをフォローしています。今、私はすでにBUGSを知っています。それは素晴らしいですが、Rだけでなく別のプログラムを使用することはあまり好きではありません。 Rには多くの新しいベイジアンパッケージがあることを読みました。ベイジアン統計用のパッケージとその機能に関するリストまたはリファレンスはありますか?そして、バグの柔軟性のためのRパッケージの代替手段はありますか?
13 r  bayesian  bugs 

2
Rでggplot2を使用する2つの因子に関する箱ひげ図
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 私はRとRのパッケージを初めて使用します。ggplot2のドキュメントを調べましたが、これを見つけることができませんでした。boxthis2つの因子f1とに関して変数のボックスプロットが必要ですf2。それは両方を想定あるf1とf2因子変数であり、それらのそれぞれが2つの値をとり、boxthis連続変数です。私は、それぞれの可能な組み合わせの中から1つの組み合わせに対応し、グラフ上の4箱ひげ図を取得したいf1とf2取ることができます。私はRの基本的な機能を使用して、これを行うことができると思う > boxplot(boxthis ~ f1 * f2 , data = datasetname) 助けてくれてありがとう。
13 r  boxplot  ggplot2 

4
ゼロ切り捨て負の二項GEEのR / Stataパッケージ?
これは私の最初の投稿です。このコミュニティに本当に感謝しています。 ゼロが切り捨てられた縦断カウントデータ(応答変数= 0が0である確率)と平均!=分散を分析しようとしているため、ポアソンに対して負の二項分布が選択されました。 私が除外した機能/コマンド: R Rのgee()関数は、ゼロ切り捨ても負の二項分布も考慮しません(MASSパッケージがロードされていなくても) Rのglm.nb()は、異なる相関構造を許可しません VGAMパッケージのvglm()はposnegbinomialファミリーを利用できますが、非独立相関構造を使用してモデルを再適合できないという点で、Stataのztnbコマンド(以下を参照)と同じ問題があります。 スタタ データが縦方向ではない場合、Stataパッケージztnbを使用して分析を実行できますが、そのコマンドは私の観測が独立していると想定しています。 また、さまざまな方法論的/哲学的理由からGLMMを除外しました。 今のところ、Stataのxtgeeコマンドで解決しました(はい、xtnbregも同じことを知っています)。これは、非独立相関構造と負の二項族の両方を考慮しますが、ゼロ切り捨ては考慮しません。xtgeeを使用することの追加の利点は、(qicコマンドを使用して)qic値を計算して、応答変数に最適な相関構造を決定できることです。 RまたはStataに1)nbinomialファミリ、2)GEE、および3)ゼロ切り捨てを考慮に入れることができるパッケージ/コマンドがある場合、私は知りたくなります。 あなたが持っているかもしれないアイデアを大いに感謝します。ありがとうございました。 -ケーシー

3
縦断的データセットの分析でaov()とlme()を使用することの違いは何ですか?
縦断的データの使用aov()とlme()分析の違いと、これら2つの方法の結果の解釈方法の違いを教えてください。 以下は、私が使用して同じデータセットを分析aov()し、lme()そして2つの異なる結果を得ました。でaov()、私は治療の相互作用によって時間的に有意な結果を得たが、線形混合モデルを当てはめ、治療の相互作用によって時間は軽微であります。 > UOP.kg.aov <- aov(UOP.kg~time*treat+Error(id), raw3.42) > summary(UOP.kg.aov) Error: id Df Sum Sq Mean Sq F value Pr(>F) treat 1 0.142 0.1421 0.0377 0.8471 Residuals 39 147.129 3.7725 Error: Within Df Sum Sq Mean Sq F value Pr(>F) time 1 194.087 194.087 534.3542 < 2e-16 *** time:treat 1 2.077 …

2
クラスタリング結果の比較を理解する
データをグループに分類する実験をしています。私はこのトピックに非常に新しく、いくつかの分析の出力を理解しようとしています。 Quick-Rの例を使用して、いくつかのRパッケージを提案します。これらのパッケージのうち2つを使用してみました(関数とfpcを使用)。私が理解していないこの分析の1つの側面は、結果の比較です。kmeansmclust # comparing 2 cluster solutions library(fpc) cluster.stats(d, fit1$cluster, fit2$cluster) 私はfpc マニュアルの関連部分を読みましたが、私が何を目指しているべきかまだ明確ではありません。たとえば、これは2つの異なるクラスタリングアプローチを比較した結果です。 $n [1] 521 $cluster.number [1] 4 $cluster.size [1] 250 119 78 74 $diameter [1] 5.278162 9.773658 16.460074 7.328020 $average.distance [1] 1.632656 2.106422 3.461598 2.622574 $median.distance [1] 1.562625 1.788113 2.763217 2.463826 $separation [1] 0.2797048 0.3754188 0.2797048 0.3557264 $average.toother …
13 r  clustering 

3
LASSOソリューションを計算するためのGLMNETまたはLARS?
LASSO問題の係数を取得したい ||Y−Xβ||+λ||β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. 問題は、glmnet関数とlars関数が異なる答えを与えることです。glmnet関数については、係数を求めます。| Y | | 単にλの代わりに、私はまだ異なる答えを得る。λ/||Y||λ/||Y||\lambda/||Y||λλ\lambda これは予想されますか?ラースとの関係は何であるとglmnet λは?私はglmnetがLASSOの問題に対してより高速であることを理解していますが、どの方法がより強力かを知りたいですか?λλ\lambdaλλ\lambda deps_statsデータセットのサイズが大きすぎてLARSが処理できないのに対して、glmnetは大きなデータセットを処理できません。 mpiktas(Y-Xb)^ 2 + L \ sum | b_j |の解を見つけたい しかし、2つのアルゴリズム(larsとglmnet)から特定のLの計算された係数を求めると、異なる答えが得られます...そして、それは正しい/期待されているのでしょうか?または、2つの関数に間違ったラムダを使用しています。

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

1
RのlmオブジェクトなしでNewey-West標準誤差を計算します
昨日、StackOverflowでこの質問をして回答を得ましたが、少しハックが多いようで、より良い見方があるかもしれません。 質問:ベクトル(この場合は株式の返品のベクトル)のNewey-West(HAC)標準誤差を計算したいと思います。パッケージNeweyWest()内の関数sandwichはこれを行いますがlm、入力としてオブジェクトを受け取ります。Joris Meysが提供する解決策は、ベクトルを1に射影することNeweyWest()です。これにより、私のベクトルが残差に変換され、に供給されます。あれは: as.numeric(NeweyWest(lm(rnorm(100) ~ 1))) 平均の分散。 私はこのようにするべきですか?または、私が望むことをより直接行う方法はありますか?ありがとう!

1
MCMC収束診断を半自動化してバーンインの長さを設定できますか?
MCMCチェーンのバーンインの選択を自動化したいと思います。たとえば、収束診断に基づいて最初のn行を削除します。 このステップはどの程度安全に自動化できますか?それでも自己相関、mcmcトレース、pdfをダブルチェックしても、バーンインの長さを自動で選択できると便利です。 私の質問は一般的ですが、R mcmc.objectを処理するための詳細を提供できれば素晴らしいと思います。Rでrjagsおよびcodaパッケージを使用しています。
13 r  bayesian  mcmc 

3
平行座標プロットの簡単な説明
私は多くの平行座標プロットを読んで見ました。誰かが次の一連の質問に答えることができますか? 素人が理解できるように、単純な言葉での平行座標プロット(PCP)とは何ですか? 可能であればいくつかの直観を伴う数学的説明 PCPはいつ有用で、いつ使用するのですか? PCP が役に立たないのはいつですか? PCPの考えられる長所と短所

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.