タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
技術的な変化と実際の信号
3つの異なる条件下で、継続的な結果の違いをテストしています。 条件AIで結果を測定します。同じサンプルに対してこれを2回行います。値の例は2.2、2.1です。これらは、同じ生物学的ソースに由来する「技術的な」複製です 条件Aの4つの「生物学的」複製についても同じことを行います。 A1, measure 1: 2.2 A1, measure 2: 2.1 A2, measure 1: 2.0 A2, measure 2: 2.1 A3, measure 1: 1.9 A3, measure 2: 1.8 A4, measure 1: 1.5 A4, measure 2: 1.6 また、条件B、C、およびDがあり、4つの「生物学的」複製のそれぞれに2つの「技術的」複製があります。 技術的変動と生物学的変動の両方を最もよく説明する平均差(ANOVA)の検定をどのようにテストしますか?各ペアは同じ生体サンプルに由来するため、各測定を個別の観測値としてカウントするモデルを適合させたくありません。ペアを平均するよりももっと良い方法があるはずだと思います。 おまけ:Rではこれをどのように行うのですか? 私が次のようなデータを持っていると仮定します: > data condition sample measurement outcome 1 A 1 1 2.2 …
8 r  regression  anova 

3
RおよびWINBUGSまたはJAGSの縦モデル
私はRを使用して、主にvia lmerとnlmeパッケージのいくつかの縦断モデルに適合させようとしました。ただし、共分散行列の従属関係モデルや因子分析モデルなど、多くの標準モデルが不足しているようです。これらのモデルはSASですぐに利用できます。 誰かがRでの仕事に他のパッケージを勧めますか?モデリングの柔軟性が高まっている限り、常連客やベイジアンの世界で仕事をしていても気にしません。私はWINBUGS / JAGSでそれを行うことにも興味があります。
8 r  jags  panel-data 

1
分割-分割-プロット設計とlme
堆積物微生物活動に対する乾燥の影響を評価するために、データセットを作成しています。目的は、乾燥の影響が堆積物の種類や堆積物内の深さによって異なるかどうかを判断することです。 実験計画は次のとおりです 。最初の要素Sedimentは、3種類の堆積物(コードSed1、Sed2、Sed3)に対応します。 堆積物の種類ごとに、3つのサイト(Sed1の3サイト、Sed2の3サイト、Sed3の3サイト)でサンプリングが行われました。サイトはコード化されています:Site1、Site2、...、Site9。 次の要素は水文学です。各サイト内で、サンプリングはドライプロットとウェットプロットで実行されます(コード化されたDry / Wet)。 前の各プロット内で、サンプリングは2つの深さで実行されます(D1、D2)3つ組で。 合計n = 108サンプル= 3堆積物* 3サイト* 2水文学* 2深度* 3複製があります。 私はRのlme関数(lnmeパッケージ)を次のように使用します。 Sediment<-as.factor(rep(c("Sed1","Sed2","Sed3"),each=36)) Site<-as.factor(rep(c("Site1","Site2","Site3","Site4","Site5","Site6","Site7","Site8","Site9"),each=12)) Hydrology<-as.factor(rep(rep(c("Dry","Wet"),each=6),9)) Depth<-as.factor(rep(rep(c("D1","D2"),each=3),18)) Variable<-rnorm(108) mydata<-data.frame(Sediment,Site,Hydrology,Depth,Variable) mod1<-lme(Variable~Sediment*Hydrology*Depth, data=mydata, random=~1|Site/Hydrology/Depth) 比較可能なスプリットスプリットプロットデザインとその分析の例を次の場所で見つけました:http : //www3.imperial.ac.uk/portal/pls/portallive/docs/1/1171923.PDF これがこれらのデータを分析する正しい方法であることを誰かが確認できますか? ランダムな構造は私の実験計画に従って正しく指定されていると思いますか?

3
Rのリカレントニューラルネットワーク
ニューラルネットワークを使用して時系列、特に再帰型ニューラルネットワークを予測することについて少し聞いたことがあります。 Rのリカレントニューラルネットワークパッケージはありますか?CRANで見つけられないようです。私が来ている最も近いですnnetTsがで機能tsDynのパッケージが、それは単に呼び出すNNETのから機能NNETのパッケージを。それについて特別な、または「繰り返し」は何もありません。

1
混合モデルを適用するこれらの2つのアプローチが異なる結果をもたらすのはなぜですか?
同僚のデータを再分析しています。データとRコードはこちら。 これは完全にSs内の2x2x2x2x3設計です。予測変数の1つcueは、2つのレベルの変数で、これを差分スコアに縮小すると、理論に関連する値が反映されます。彼女は以前cueに各被験者および状態内の差異スコアに折りたたみ、ANOVAを計算し、MSEを生成して、各状態の平均差異スコアのゼロに対する計画比較に使用できました。あなたは彼女が釣りをしていなかったこと、そして確かに24のテストすべてを行うための良い理論的根拠があったことを私を信頼する必要があります。 代わりに混合効果モデルを使用してデータを表す場合に違いがあるかどうかを確認したいと思いました。コードに示されているように、私は2つのアプローチを採用しました。 方法1-データを2x2x2x2x3設計としてモデル化し、このモデルから事後標本を取得し、cue各サンプル内の各条件の差分スコアを計算し、各条件内のキュー差分スコアの95%予測間隔を計算します。 方法2- cue各被験者と条件内の差異スコアに折りたたみ、データを2x2x2x3設計としてモデル化し、このモデルから事後標本を取得し、各条件内の手がかり差異スコアの95%予測間隔を計算します。 方法1は方法2よりも広い予測間隔をもたらすように見えます。その結果、「有意性」の基準としてゼロとのオーバーラップを使用すると、方法1ではキューイングスコアの25%のみが「有意」であり、キューイングスコアの75%になります。方法2で得られた有意性のパターンは、方法1で得られたパターンよりも、元のANOVAベースの結果に類似しています。 ここで何が起こっているのでしょうか?
8 r  mixed-model 

1
RのMM推定器を使用してロバスト回帰直線をあてはめる
環境。回帰直線を当てはめて、いくつかの応答変数といくつかの連続共変量間の関係を調べたいと思います。悪いレバレッジポイントが存在するため、通常のLS推定器ではなくMM推定器を選択しました。yyyxxx 方法論。基本的に、MM-estimationは、S-estimatorによって初期化されたM-estimationです。したがって、2つの損失関数を選択する必要があります。私は広く使用されているTukey Biweightの損失関数を選択しました ρ(u)=⎧⎩⎨1−[1−(uk)2]31if |u|≤kif |u|>k,ρ(u)={1−[1−(uk)2]3if |u|≤k1if |u|>k,\rho ( u ) = \left\{ \begin{array}{ll} 1 - \left[ 1 - \left( \tfrac{u}{k} \right)^{2} \right]^{3} & \textrm{if } | u | \leq k \\ 1 & \textrm{if } | u | > k, \end{array} \right. で予備S-推定で(降伏点を与えるに等しい)、およびと共に(保証にM-推定ステップでガウス効率)。k=1.548k=1.548k = 1.54850%50%50 \%k=2.697k=2.697k = 2.69770%70%70\% Rを使用して、堅牢な回帰直線に適合させたいと思います。 …
8 r  robust 

4
統計関数の結果が大幅に異なるようなバージョン間で劇的に変化するRパッケージの例はありますか?
私は人々がRパッケージをどのように使用するかを理解しようとしていて、Rパッケージが異なる答えを出した文書化されたケースがあるかどうか疑問に思っていました。 明確化:この質問の背後にある動機は、分析方法における来歴の重要性を理解し、それが再現性のある研究をどのように促進するかを理解するという目標に私が関わってきた取り組みから来ています。現在Rは科学コミュニティで大きく、RパッケージはCRANでバージョン管理されていますが、詳細な情報(特にバージョン番号)はありませんが、将来的に一連の作品を複製しようとすると、元の作品(元のデータでも)。 例:John Doeによる論文では、「R 2.3.1を使用し、glmultiをパッケージ化してモデルに合わせています」と述べています。今から10年後、誰かがglmultiの新しいバージョンを使用する可能性があり(オリジナルでどのバージョンが使用されたかはだれも知らない)、非常に異なる結論をもたらす可能性があります。私の質問:そのようなことがすでに起こっている例はありますか?バージョン2またはRパッケージは、バージョン1とは大きく異なる結果を生成します。
8 r 

4
PCAの第1因子によって説明される分散が反復測定条件間で異なるかどうかをテストする方法は?
環境: 2つの反復測定実験条件(n = 200)のそれぞれで6つの数値変数が測定される研究があります。条件を呼び出しましょうAAAおよびと変数および。理論的には、条件では、変数の分散が主成分分析(PCA)の最初の要素によって説明されるはずだと私は予想しています。BBBA1,A2,...,A6A1,A2,...,A6A_1, A_2,..., A_6B1,B2,...,B6B1,B2,...,B6B_1, B_2,..., B_6BBB 一般的な値は次のとおりです。 のPCAの第1因子は、分散の30%を占めますA1,...,A6A1,...,A6A_1, ..., A_6 のPCAの第1因子は 、分散の40%を占めます。B1,...,B6B1,...,B6B_1, ..., B_6 質問: この違いが統計的に有意であるかどうかをどのようにテストできますか? これはどのようにRに実装できますか?

1
Breusch-Pagan検定による同等分散性の検定
最近では、Breusch-Paganと協力して同等分散性をテストしています。 私はこの方法で2つの株の価格をテストしました。これが結果です: > mod <- lm(prices[,1] ~ prices[,2]) > bp <- bptest(mod) > bp studentized Breusch-Pagan test data: prices[, 1] ~ prices[, 2] BP = 0.032, df = 1, p-value = 0.858 結果を読み取ると、系列は等分散性になるはずですが、残差と二乗残差をプロットすると、完全にそうではありません!以下を見てください: 残差と以下の組み合わせ: このシリーズが非常に高いp値でテストに合格する可能性はありますか?

1
Rのsem関数によって生成された係数を解釈する方法は?
semRの関数を使用してパス分析を実行しました。フィットしたモデルは、直接パスと間接パスの両方で構成されています。SEM係数の推定値の解釈に問題があります。 Rは合計効果=(直接効果+間接効果)の値を直接与えるのですか、それとも間接パスにある係数を乗算してから直接パスにある係数に追加する必要がありますか?これは、生/絶対相関係数を使用してパス分析を行う通常の方法です。 たとえば、X(独立変数)、Y(独立変数)、およびM(仲介変数)について考えてみます。 それらの間の生/絶対相関/標準化回帰係数はXとY -0.06です。XおよびM 0.22およびMおよびY 0.28一方、Rのパス分析/ semでは、上記の係数はXおよびY -0.13です。XおよびM 0.22およびMおよびY 0.31。 したがって、XとYの合計効果は-0.13に等しいですか? あるいは、変数Mのアカウントへの影響を考慮して、この係数をどのように解釈すべきですか?


4
条件付き確率でデータセットを作成する方法は?
ある病気(DDD)の有病率 3100031000\dfrac3{1000}。また、ある症状(SSS)有病率(一般集団=その病気の人) Dおよびその疾患のない人(おそらく他の疾患にかかっているが、それは重要ではない))の 5100051000\dfrac5{1000}。以前の研究では、条件付き確率がP(S|D)=30%P(S|D)=30%P(S|D) = 30\% (症状が出る確率 SSS、病気を考えると DDD です 30%30%30\%)。 最初の質問:P(S|D)P(S|D)P(S|D) 症状の有病率と同等と解釈される SSS 病気にかかっている人々のグループで DDD? 2番目の質問:Rでデータセットを作成します。 P(D|S)=P(S|D)P(D)P(S)P(D|S)=P(S|D)P(D)P(S)P(D|S) = \frac{P(S|D)P(D)} {P(S)} 私の架空のデータを使って、 P(D|S)=0.18P(D|S)=0.18P(D|S)=0.18、それはこのように解釈されます:症状のある患者がいる場合 SSS、彼が病気にかかっている確率 DDD です 18%18%18\%。 これを行う方法?sample関数を単純に使用すると、データセットには次の情報が不足しています。P(S|D)=30%P(S|D)=30%P(S|D)=30\%: symptom <- sample(c("yes","no"), 1000, prob=c(0.005, 0.995), rep=T) disease <- sample(c("yes","no"), 1000, prob=c(0.002, 0.998), rep=T) だから私の質問は:私が望む条件付き確率を含めて、良いデータセットを作成する方法は? 編集:私の意見では、私の質問のため、私は同じ質問をstackoverflow.com(/programming/7291935/how-to-create-a-dataset-with-conditional-probability)にも投稿しましたR言語プログラムに継承されますが、統計理論にも継承されます。

3
データのより良い視覚化によるデータ分析の改善?
4つのプログラムを2つの異なるマシンでa, b, c, d 並行してX、Y別々に10回実行しました。以下はデータのサンプルです。10各プログラムの実行時間(ミリ秒)は、それぞれの名前で示されています。 Machine-X: a b c d 29 40 21 18 28 43 20 18 30 49 20 28 29 50 19 19 28 51 21 19 29 41 30 29 32 47 10 18 29 43 20 18 28 51 30 29 29 41 21 19 …

3
Rでの機能構築
Rに機能構築(既存の予測子から候補予測子を導出する)のためのアルゴリズム(おそらく遺伝的アルゴリズム)があるかどうか疑問に思っていますか?私は、既存の変数(sin、cos、atanなど)の高次のべき、相互作用、比率、線形結合、および非線形関数をテストするルーチンを考えています。 これは、フィルターまたはラッパールーチンである可能性があります(つまり、学習アルゴリズムを使用したり、機能の適合度を定義するために使用したりしません)。 私の目標は、既存の予測子の潜在的に意味のある比率などを「発見」することです。 ありがとう!

1
Rでプロットを分割
各ベンチマークにベンチマークとサブサンプルのデータセットがあります。これらのベンチマークとそのサブサンプルを対象マシンで実行します。サブサンプルによって調査される「個人」は各対象マシンで同じであり、ベンチマークは各対象マシンで同じです。んんnメートルメートルmppp この状況でRで分散分析を実行するにはどうすればよいですか? 主に、平均値と信頼区間の合計を計算します。サブサンプルの平均についてはまったく気にしませんが、最終的な信頼と平均でそこの複製を認識したいと思います。ベンチマークの手段については気にするかもしれません。このanovaをRでセットアップする方法を理解できません。手動で計算して平均を再現できるようにしたいと考えています。 私が試してみましたglm、anova、aov、とlme私は完全に混乱しています。ANOVAの結果は、2つの対象マシンについて、ネストされたマシン/ベンチマーク/チェックポイントの平均と同等であると思いますが、それらを試しても平均値は同じにはなりません。 編集: http://zoonek2.free.fr/UNIX/48_R/13.htmlから手がかりを取得し始めています
8 r  anova  split-plot 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.