タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

2
時間依存の共変量で生存分析を視覚化
時間依存の共変量を含むCox回帰のモデル提案のフォローアップとして、妊娠の時間依存の性質を説明するカプランマイヤープロットを次に示します。つまり、データセットは、妊娠の数に応じて複数の行を持つ長いデータセットに分解されます。KMグラフと拡張されたcoxモデルも、結果に対する妊娠の有益な効果を示唆しているようです。しかし、私が不思議に思っているKMグラフを見ると、最初の出生の線は1.0から始まるのでしょうか。最初の出産が与えられたときと等しいxで0出生のy値からこの行を開始する方が直感的ではないでしょうか? 編集:これについて詳しく調べたところ、通常のKMは適切ではないことがわかりました。むしろ、私は、Statonで使用されているサイモンとマクチの方法を使用する必要があります(サイモンR、マクウRW。生存とイベントの発生との関係のノンパラメトリックなグラフィカル表現:応答者対非応答者バイアスへの適用。 統計医学、1984; 3:35-44) これがRに実装されたのを見た人はいますか?

1
Nested / SplitModel-RepeatedMeasures / MixedModel ANOVA:Rでのネストとスクリプトのレベル
私のデータセットには次の変数があります: トリートメント(4種類固定) ロケーション(8ロケーション-固定) 場所の位置(場所ごとに3つの位置-固定) サンプルは各位置で取得されます(位置ごとに3つのサンプル-ランダム) 時間(2つのサンプリング時間-固定) 鉱化率(採取したサンプルの分析結果として) 各治療をテストするために2つの場所が使用されます(つまり、4つの治療、治療ごとに2つの場所、合計8つの場所)。 R上記の変数を使用して、分割プロット(/ nested?)反復測定(/ mixed model?)ANOVAを実行したいと思います。 Q.1。これは適切ですか? 私の目標は、1)位置、2)治療、3)時間、および4)すべての相互作用(つまり、pos * treat *、pos * time、treat * time、pos * treat * time)に影響があるかどうかを確認することです石灰化率。 Q 2.場所は治療でネストされていますか?サンプルは適切な位置にネストされていますか? Q 3.要因間および内要因とは何ですか? Q 4.主題/プロットは何ですか?-場所、位置、サンプル、レートのどれですか? Q 5. R式で繰り返し測定として時間を使用するにはどうすればよいですか? Q 6. aov、lme、またはezANOVAを使用しますか? Q 7.独立した独立変数とそれらの相互作用を適切なR式にコード化するにはどうすればよいですか? 私は文字通りこれを数日間理解しようとしてきましたが、意味のある答えを見つけることができないようです...

2
ヒステリシスループの領域をエレガントに決定する方法(内部/外部の問題)
2つのパラメーターを測定しました(溶存有機炭素DOC = y、排出量= x)。これら2つの変数を互いにプロットすると、ヒステリシスループが得られます(コード例と図を参照)。 ここで、さらに分析するために、このヒステリシスループの領域を決定します。これは、モンテカルロダーティングメソッドを使用して実行できることを理解しました。この方法では、未知の領域の面積は、既知の長方形の面積に、内側のフィールド(ループ)でのヒットを掛けたものに比例します。 私の問題は、Rを使用して内側/外側の問題を解決する方法です。どのようにして既知の領域を持つ長方形を描画し、ヒステリシスループの内側と外側のランダムヒットに優れるのでしょうか。 私は他の方法を受け入れることに注意してください... 私はググっていろいろな統計サイトを検索したが答えは見つからなかった。他のウェブサイト/投稿への直接的な支援やリンクは大歓迎です。 Data <- read.table("http://dl.dropbox.com/u/2108381/DOC_Q_hystersis.txt", sep = ";", header = T) head(Data) plot(Data$Q, Data$DOC, type = "o", xlab = "Discharge (m3 s-1)", ylab = "DOC (mg C l-1)", main = "Hystersis loop of the C/Q relationship")

2
Rでのニューラルネットワーク出力の解釈
私は自分のデータのニューラルネットワークを作成することができました。しかし、R出力の解釈についてはよくわかりません。次のコマンドを使用してニューラルネットワークを作成しました。 > net=nnet(formula = category~iplen+date_time, size=0,skip=T,lineout=T) # weights: 3 initial value 136242.000000 final value 136242.000000 converged 次に、次のコマンドを使用して出力を確認しました。 > summary(net) a 2-0-1 network with 3 weights options were - skip-layer connections b->o i1->o i2->o 0.64 -0.46 0.15 上記の出力から、次のニューラルネットワークの図を結論付けることができますか? 2番目の質問は、この図がどれほど有用であるかをどのように知ることができるかです。つまり、独立変数からカテゴリー番号(ターゲット変数)を見つけたかったのです。では、このネットワークが本当にカテゴリ(ターゲット変数)を予測するのに役立つかどうかをどのように判断できますか 最終的な出力は何ですか、またはそれを見つける方法は? 上記のnネットワークから次の出力を結論付けることはできますか?: category= -0.46(iplen)+0.15(date_time)+0.64 よろしく、

3
SPSSを使用した2x3混合設計ANOVAの事後テスト?
実験中に3回評価された10人の参加者の2つのグループがあります。グループ間および3つの評価全体の違いをテストするために、group(コントロール、実験)、time(最初、2、3)、およびを使用して2x3混合設計ANOVAを実行しましたgroup x time。両方timeとgroup有意な相互作用があったほか、重大な結果group x time。 グループメンバーシップに関しても、3回の評価の違いをさらにチェックする方法をよく知りません。実際、最初は、ANOVAのオプションで、ボンフェローニの補正を使用してすべての主要な効果を比較することだけを指定しました。しかし、この方法で、グループを区別せずに、サンプル全体の時間の違いをこのように比較したことに気付きましたね。 したがって、可能な解決策を見つけるためにインターネットでたくさん検索しましたが、結果はほとんどありませんでした。私と同じようなケースは2つしか見つかりませんでしたが、解決策は逆です! 記事では、混合設計の後、著者らは被験者ごとに1つずつ、2回の反復測定ANOVAを事後的に実行しました。このようにして、2つのグループは修正なしで個別に分析されます。 インターネットのガイドでは、混合ANOVAの実行中に、SPSS構文のCOMPARE(time) ADJ(BONFERRONI)直後にを手動で追加すると述べています/EMMEANS=TABLES(newgroup*time)。このように、3つの時間はグループごとに個別に比較されます。ボンフェローニ補正を使用すると、私は正しいのでしょうか。 どう思いますか?どちらが正しい方法でしょうか?
8 anova  mixed-model  spss  post-hoc  bonferroni  time-series  unevenly-spaced-time-series  classification  normal-distribution  discriminant-analysis  probability  normal-distribution  estimation  sampling  classification  svm  terminology  pivot-table  random-generation  self-study  estimation  sampling  estimation  categorical-data  maximum-likelihood  excel  least-squares  instrumental-variables  2sls  total-least-squares  correlation  self-study  variance  unbiased-estimator  bayesian  mixed-model  ancova  statistical-significance  references  p-value  fishers-exact  probability  monte-carlo  particle-filter  logistic  predictive-models  modeling  interaction  survey  hypothesis-testing  multiple-regression  regression  variance  data-transformation  residuals  minitab  r  time-series  forecasting  arima  garch  correlation  estimation  least-squares  bias  pca  predictive-models  genetics  sem  partial-least-squares  nonparametric  ordinal-data  wilcoxon-mann-whitney  bonferroni  wilcoxon-signed-rank  traminer  regression  econometrics  standard-error  robust  misspecification  r  probability  logistic  generalized-linear-model  r-squared  effect-size  gee  ordered-logit  bayesian  classification  svm  kernel-trick  nonlinear  bayesian  pca  dimensionality-reduction  eigenvalues  probability  distributions  mathematical-statistics  estimation  nonparametric  kernel-smoothing  expected-value  filter  mse  time-series  correlation  data-visualization  clustering  estimation  predictive-models  recommender-system  sparse  hypothesis-testing  data-transformation  parametric  probability  summations  correlation  pearson-r  spearman-rho  bayesian  replicability  dimensionality-reduction  discriminant-analysis  outliers  weka 

1
Rに非常に多くのランダムジェネレーターがあるのはなぜですか?
ざっと見ヘルプページあなたは7つのあらかじめ定義された発電機(の中から選ぶことができRショーの乱数生成器のWichmann-Hill、Marsaglia-Multicarry、Super-Duper、Mersenne-Twister、Knuth-TAOCP-2002、Knuth-TAOCP、L'Ecuyer-CMRG)。 ?Random デフォルトはMersenne-Twisterで、非常に良いようです。では、なぜ別のものを使用する必要があるのでしょうか。

1
Rの制約付き回帰:正の係数、合計が1でゼロ以外の切片
私は推定する必要があるモデルを有する、 とΣ K π K = 1 のための K ≥ 1とπ K ≥ 0 のための K ≥ 1。Y= π0+ π1バツ1+ π2バツ2+ π3バツ3+ε,Y=π0+π1X1+π2X2+π3X3+ε, Y = \pi_0 + \pi_1 X_1 + \pi_2 X_2 + \pi_3 X_3 + \varepsilon, ∑kπk=1 for k≥1∑kπk=1 for k≥1\sum_k \pi_k = 1 \text{ for }k \geq 1πk≥0 for …

2
ロジスティックGLMMで準完全分離を処理する方法
更新:私の問題が準完全分離と呼ばれていることがわかったので、これを反映するように質問を更新しました(Aaronに感謝)。 私は29人の人間の参加者(因子code)が一連の試行に取り組みresponse、1または0 であった実験からのデータセットを持っていp.validityます。type(肯定と拒否)、およびcounterexamples(少数と多数): d.binom <- read.table("http://pastebin.com/raw.php?i=0yDpEri8") str(d.binom) ## 'data.frame': 464 obs. of 5 variables: ## $ code : Factor w/ 29 levels "A04C","A14G",..: 1 1 1 1 1 1 1 1 1 1 ... ## $ response : int 1 1 1 1 0 1 1 1 1 1 ... …

1
残差vs適合プロット上の平行な直線
重回帰の問題があり、単純な重回帰を使用して解決しようとしました: model1 <- lm(Y ~ X1 + X2 + X3 + X4 + X5, data=data) これは、85%の分散(R-squaredによる)を説明しているようで、かなり良いようです。 しかし、私が心配しているのは、奇妙に見える残差対適合プロットです。以下を参照してください: このような平行線がある理由は、Y値にはX値の約160に対応する10個の一意の値しかないためだと思います。 この場合、おそらく別のタイプの回帰を使用する必要がありますか? 編集:次の論文で同様の動作を確認しました。1ページのみの用紙なので、プレビューするとすべて読むことができます。この動作を観察する理由はかなりよく説明されていると思いますが、他の回帰がここでうまく機能するかどうかはまだわかりませんか? Edit2:私が考えることができる私たちのケースに最も近い例は、金利の変化です。FEDは新しい金利を数か月ごとに発表します(いつ、どのくらいの頻度かわかりません)。それまでの間、日次で独立変数(日次インフレ率、株式市場データなど)を収集します。その結果、1つの金利に対して多くの測定値を持つことができる状況になります。

2
Rでの精度と再現率の計算
私が誰かが結婚しているか独身かを予測するロジスティック回帰分類器を構築しているとしましょう。(1 =結婚、0 =単一)少なくとも75%の精度が得られる精度-再現率曲線上の点を選択したいので、しきい値およびt 2を選択して、次のようにします。t1t1t_1t2t2t_2 分類子の出力がより大きい場合、「結婚」を出力します。t1t1t_1 出力が未満の場合、「単一」を出力します。t2t2t_2 出力が間にある場合は、「わからない」と出力します。 いくつかの質問: 精度の標準的な定義の下では、精度は結婚したクラスの精度のみを測定することになると思います(つまり、精度=結婚を正しく予測する#回/結婚を予測する合計#回)。ただし、私が本当にやりたいことは、全体の精度を測定することです(つまり、結婚または独身を正しく予測した合計#回/結婚または独身を予測した合計#回)。これは大丈夫ですか?そうでない場合、私は何をすべきですか? Rでこの「全体的な」精度/再現率曲線を計算する方法はありますか(たとえば、ROCRパッケージまたは他のライブラリを使用して)?現在ROCRパッケージを使用していますが、一度に1つのクラスの精度/リコールしか得られないようです。

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。

1
多重代入後の平均比較
欠損値のあるデータについて、グループ間の単純な平均比較(基本的なANOVA F検定)を行う必要があります。多重補完にはR のマウスパッケージを使用していますが、プールできるのは線形モデル係数または結果のみです。R2R2R^2 各線形モデルフィットから複数のF統計をプールするために組み合わせる方法を知っている人はいますか?または、F検定の標準誤差をどのように計算できますか?

1
素敵な要約表を生成する方法は?
Rがsummary()関数から得たデータをテーブルに表示して、簡単に共有できるようにしたいと考えています。私は現在summary()コンソールで実行していて、スクリーンショットを撮っていますが、すべてのグラフと同じように、これを素敵なテーブルとして生成したいです。何か案は?

1
時間の経過に伴うスプラインのモデリング—設計マトリックスとアプローチの調査
応答変数yは、いくつかの予測子変数Xの非線形関数です(実際のデータでは応答は二項分布ですが、ここでは簡単にするために正規分布値を使用しています)。スプライン/スムースを使用して、予測子と応答の間の関係をモデル化できます(たとえば、mgcvR のパッケージのGAMモデル)。 ここまでは順調ですね。ただし、それぞれの応答は、時間とともに進化するプロセスの結果です。つまり、予測子Xと応答yの関係は、時間の経過とともに変化します。各応答について、応答の周りのいくつかの時点にわたる予測子のデータがあります。つまり、時点のグループごとに1つの応答があります(応答が時間とともに進化するわけではありません)。 この時点で、いくつかのイラストが役立つでしょう。以下は、既知のパラメーター(以下のコード)を持ついくつかのデータで、ggplot2(GAMメソッドと適切なスムーザーを指定)を使用して、ファセットの時間とともにプロットされます。説明のために、yはx1の2次関数であり、この関係の符号と大きさは時間の関数として変化します。 x2とyの関係は円形であり、特定の方向 x2 でのyの増加に対応します。この関係の振幅は、時間とともに変化します。(gcclotで、 "cc"円形3次スムーザーを指定するgamを使用してモデル化されています)。 2次元スプラインのようなものを使用して、各予測子の(非線形)変化を時間の関数としてモデル化したいと思います。 mgcvパッケージで2次元のスムース(のようなものte(x1,t))を使用することを検討しました。ただし、これには長い形式(つまり、1列の時点)のデータが必要になる場合を除きます。1つの応答がすべての時点に関連付けられているため、これは不適切だと思います-したがって、データを長い形式で配置すると(つまり、同じ応答を設計行列の複数の行に複製すると)、観測の独立性に違反します。私のデータは現在列(y, x1.t1, x1.t2, x1.t3, ..., x2.t1, x2.t2, ...)で配置されており、これが最も適切なフォーマットだと思います。 私が知りたいのですが: このデータをモデル化するより良い方法はありますか もしそうなら、モデルの設計行列/式はどのようになるでしょう。最終的には、JAGSのようなmcmcパッケージでベイジアン推論を使用してモデル係数を推定したいので、2次元スプラインの記述方法を知りたいです。 私の例を再現するRコード: library(ggplot2) library(mgcv) #------------------- # start by generating some data with known relationships between two variables, # one periodic, over time. set.seed(123) nTimeBins <- 6 nSamples <- 500 # the …
8 r  ggplot2  splines  gam 

1
ロジット、プロビット、nlsから最適なモデルを選択
特定のデータセットを分析していますが、自分のデータに適合する最適なモデルを選択する方法を理解する必要があります。私はRを使用しています。 私が持っているデータの例は次のとおりです: corr <- c(0, 0, 10, 50, 70, 100, 100, 100, 90, 100, 100) これらの数値は、11の異なる条件下での正解率に対応しています(cnt): cnt <- c(0, 82, 163, 242, 318, 390, 458, 521, 578, 628, 673) まず、プロビットモデルとロジットモデルを適合させようとしました。ちょうど今、文学で私のデータに似た別の方程式を見つけたのでnls、その方程式に従って関数を使用して自分のデータを近似しようとしました(しかし、私はそれに同意しません、そして著者は彼がなぜ彼に説明しないのですか?)その方程式を使用しました)。 ここに私が得る3つのモデルのコードがあります: resp.mat <- as.matrix(cbind(corr/10, (100-corr)/10)) ddprob.glm1 <- glm(resp.mat ~ cnt, family = binomial(link = "logit")) ddprob.glm2 <- glm(resp.mat ~ cnt, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.