統計とビッグデータ r

6

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新することがありますので、話題のクロス検証済みのため。 4年前に閉鎖されました。変数間に関係があるかどうかを調べるために使用できるRパッケージはありますか？通常、パターンを探しているときは、相関関係を調べ、次にファセットプロットを調べます。次に、データ内の変数にいくつかの変換を手動で適用します。Rパッケージによってこのプロセスを加速できるかどうか疑問に思っていました。

13 r data-visualization correlation eda

1

連続変数とバイナリ変数の組み合わせに基づくPCAおよびコンポーネントスコア

混合型変数（連続およびバイナリ）で構成されるデータセットにPCAを適用したい。手順を説明するために、以下のRに最小限の再現可能な例を貼り付けます。 # Generate synthetic dataset set.seed(12345) n <- 100 x1 <- rnorm(n) x2 <- runif(n, -2, 2) x3 <- x1 + x2 + rnorm(n) x4 <- rbinom(n, 1, 0.5) x5 <- rbinom(n, 1, 0.6) data <- data.frame(x1, x2, x3, x4, x5) # Correlation matrix with appropriate coefficients # Pearson product-moment: …

13 r pca

2

RとExcelの自己相関の式

Rがlag-k自己相関を計算する方法を理解しようとしています（明らかに、MinitabとSASで使用されているのと同じ式です）ので、シリーズとそのk-lagedバージョンに適用されるExcelのCORREL関数の使用と比較できます。RとExcel（CORRELを使用）は、わずかに異なる自己相関値を提供します。また、ある計算が他の計算よりも正しいかどうかを調べることにも興味があります。

13 r sas autocorrelation excel

1

Rでのロジスティック回帰出力の解釈

私はを使用してRの多重ロジスティック回帰に取り組んでいますglm。予測変数は連続的でカテゴリカルです。モデルの要約の抜粋は次を示しています。 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.451e+00 2.439e+00 1.005 0.3150 Age 5.747e-02 3.466e-02 1.658 0.0973 . BMI -7.750e-02 7.090e-02 -1.093 0.2743 ... --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 信頼区間： 2.5 % 97.5 % (Intercept) 0.10969506 1.863217e+03 Age 0.99565783 …

13 r logistic interpretation p-value

1

Rのplot.stlの範囲バーを解釈しますか？

範囲バーのplot.stl正確な意味を理解するのに苦労しています。この質問に関するGavinの投稿を見つけ、ドキュメントも読んで、分解されたコンポーネントの相対的な大きさを伝えることを理解していますが、それでもそれらがどのように機能するかは完全にはわかりません。例えば：データ：小さなバー、スケールなし季節的：フルバー、スケールが-0.6から0.2の範囲トレンド：別の小さなバー（データと等しいと思われる）、スケールなし残り：スケールが-1.5から0.5の中サイズのバー関係の基礎が何であるか、なぜトレンドに規模がないのかはわかりません。私が試したstlとdecompose乗法と加法方法で同一の結果に。

13 r time-series

2

Rの相互相関の有意性

2つの時系列の相互相関（ccf関数）から得られた異なるラグでの相関が有意であるかどうかをどのように確認しますか。

13 r statistical-significance cross-correlation

2

GLMでのダミー（手動または自動）変数の作成について

因子変数（レベルMとFの性別など）がglm式で使用されている場合、ダミー変数が作成され、関連する係数（たとえば、genderM）とともにglmモデルの要約に表示されます。この方法で因子を分割するためにRに依存する代わりに、因子が一連の数値0/1変数（たとえば、genderM（1はM、0はF））、genderF（1はF、0はM）そして、これらの変数は、glm式で数値変数として使用されますが、係数の結果は異なりますか？基本的に問題は次のとおりです。Rは因子変数と数値変数を操作するときに異なる係数計算を使用しますか？フォローアップの質問（上記で回答されている可能性があります）：Rにダミー変数を作成させる効率だけでなく、一連の数値0,1変数として係数を再コーディングし、代わりにモデルでそれらを使用することで問題はありますか？

13 r generalized-linear-model categorical-data categorical-encoding

2

Rを使用したCoxモデルでベースラインハザード関数を推定する方法

時間依存のCoxモデルでベースラインハザード関数を推定する必要がありますλ0（t ）λ0（t）\lambda_0(t) λ （t ）= λ0（t ）exp（Z（t ）』β）λ（t）=λ0（t）exp⁡（Z（t）』β）\lambda(t) = \lambda_0(t) \exp(Z(t)'\beta) サバイバルコースを受講している間、累積ハザード関数（）の直接導関数は、Breslow推定器がステップ関数を与えるため、良い推定器ではないことを覚えています。λ0（t ）dt = dΛ0（t ）λ0（t）dt=dΛ0（t）\lambda_0(t) dt = d\Lambda_0(t) では、Rに直接使用できる関数はありますか？またはこのトピックに関する参考資料はありますか？別の質問を開く価値があるかどうかわからないので、ベースラインハザード関数が私にとって重要である理由をいくつか追加します。次の式は、ある被験者の生存時間が別の被験者よりも長い確率を推定します。Coxモデル設定では、ベースラインハザード関数が必要です。 λ0（t ）λ0（t）\lambda_0(t) P（T1> T2）= - ∫∞0S1（t ）dS2（T ）= - ∫∞0S1（t ）S2（t ）λ2（t ）dtP（T1>T2）=−∫0∞S1（t）dS2（t）=−∫0∞S1（t）S2（t）λ2（t）dtP(T_1 > T_2 ) = - \int_0^\infty S_1(t) dS_2(t) = - \int_0^\infty S_1(t)S_2(t)\lambda_2(t)dt

13 r survival cox-model

1

交互作用項と高次多項式

線形説明変数と従属変数と2次関係にある別の説明変数間の双方向の相互作用のフィッティングに興味がある場合、2次成分との相互作用と線形との相互作用の両方を含める必要がありますか？モデルのコンポーネント？例：次に、前のスレッドを構築します：曲率項とモデル選択、これがRで使用するモデル選択分析であり、多くの説明変数がある場合、二次項を含む交互作用項を含む出力モデルaaabbbyyyy〜 + B + B2+ a b + a b2y〜a+b+b2+ab+ab2 y\sim a+b+b^2+ab+ab^2 MuMIna ：b2a：b2a:b^2線形成分との相互作用の用語場合にのみ有効であるまた、その同じモデルに存在したと同様に、、および直接効果として？a ：ba：ba:baaabbbb2b2b^2

13 r regression model-selection

2

RNA seqとChIPチップデータセット間の遺伝子リストの重複確率の計算

うまくいけば、これらのフォーラムの誰かが、遺伝子発現研究におけるこの基本的な問題について私を助けてくれることを願っています。実験組織と対照組織のディープシーケンスを行いました。次に、コントロール上の実験サンプルの遺伝子の倍濃縮値を取得しました。リファレンスゲノムは約15,000の遺伝子を持っています。15,000遺伝子のうち3,000は、対象となるサンプルの特定のカットオフを超えて、コントロールと比較して濃縮されています。つまり、A =遺伝子集団の総数= 15,000 B = RNA-Seq濃縮亜集団= 3,000。以前のChIPチップ実験で、ChIPチップによって濃縮された400遺伝子を発見しました。400個のChIPチップ遺伝子のうち、100個の遺伝子が3,000種類の濃縮RNA-Seq転写産物のグループに含まれています。したがって：C = ChIPチップが強化された遺伝子の総数= 400。私の100個のChIPチップ遺伝子が偶然だけでRNA-Seqによって濃縮される確率はどのくらいですか？言い換えると、BとC（100遺伝子）の間で観察された重複が、偶然だけで得られたものよりも優れているかどうかを計算する最も賢明な方法は何ですか？これまで読んだことから、これをテストする最良の方法は、超幾何分布を使用することです。オンライン計算機（stattrek.com）を使用して、次のパラメーターで超幾何分布テストを設定しました。-ポップサイズ= 15,000-母集団での成功数= 3,000-サンプルサイズ= 400 超幾何確率P（x = 100）= 0.00224050636447747について次の結果が得られます BとCの間で重複している遺伝子の実際の数=100。これは、たまたまだけの場合よりも優れていますか？1つの遺伝子が濃縮される可能性が1：5（15,000のうち3,000）である場合は、そうではありません。そのため、上記で計算したP（x = 100）が0.0022になる理由がわかりません。これは、偶然に発生するオーバーラップの0.2％の確率に相当します。これはもっと高くないでしょうか？ 15,000の大きなリストから400個のランダムな遺伝子をサンプリングした場合、これらの遺伝子の80個が偶然だけで濃縮されると予想されます（1：5）。実際に重複している遺伝子の数は100であるため、偶然よりもわずかに優れています。私はまた、Rのdhyper関数またはphyper関数を使用して（別の投稿で見たものを使用して）解決策を考え出しました：A =ゲノム内のすべての遺伝子（15,000）B = RNA-Seq濃縮遺伝子（3,000）C = ChIP -チップ濃縮遺伝子（400）これがRの入出力です（以前のstackexchangeポストから変更）。 > totalpop <- 15000 > sample1 <- 3000 > sample2 <- 400 > dhyper(0:2, sample1, totalpop-sample1, …

13 r genetics bioinformatics microarray biostatistics

1

線形混合効果モデルの結果を示すプロット

私はRで線形混合効果モデリングを使用していくつかのデータを分析しています。私は結果をポスターに含めることを計画しています。モデル。残差プロット、フィット値と元の値のプロットなどについて考えていました。これは私のデータに大きく依存することはわかっていますが、線形混合効果モデルの結果を説明するための最良の方法を感じようとしていました。Rでnlmeパッケージを使用しています。ありがとう

13 r data-visualization mixed-model

3

数式とRのfisher.testのオッズ比が異なるのはなぜですか？どちらを選ぶべきですか？

次の例では > m = matrix(c(3, 6, 5, 6), nrow=2) > m [,1] [,2] [1,] 3 5 [2,] 6 6 > (OR = (3/6)/(5/6)) #1 [1] 0.6 > fisher.test(m) #2 Fisher's Exact Test for Count Data data: m p-value = 0.6699 alternative hypothesis: true odds ratio is not equal to 1 …

13 r odds-ratio fishers-exact

1

Rのnlsの適合度を読み取る方法

nls（）の出力を解釈しようとしています。私はこの記事を読んだことがありますが、最適な選択方法をまだ理解していません。私の適合から、2つの出力があります。 > summary(m) Formula: y ~ I(a * x^b) Parameters: Estimate Std. Error t value Pr(>|t|) a 479.92903 62.96371 7.622 0.000618 *** b 0.27553 0.04534 6.077 0.001744 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 120.1 on 5 degrees …

12 r least-squares nonlinear-regression goodness-of-fit

1

オッズ比のメタ分析は本質的に絶望的ですか？

最近の論文でノートンら。（2018）は[ 1 ][1]^{[1]} オッズ比の推定値をもたらす統計モデルの説明変数が異なる場合、各モデルには異なる任意のスケーリング係数があるため、同じスタディの異なるオッズ比は比較できません。異なるサンプルと異なるモデル仕様には異なる任意のスケーリング係数があるため、ある研究のオッズ比の大きさを別の研究のオッズ比の大きさと比較することもできません。さらに、複数の研究における特定の関連性のオッズ比の大きさをメタ分析で合成することはできません。小さなシミュレーションがこれを示しています（Rコードは質問の下部にあります）。真のモデルは次のようになります：さらに、上記のモデルによって生成された同じデータが、ロジスティック回帰を使用して4人の異なる研究者によって分析されることを想像してください。研究者1には共変量としてのみが含まれ、研究者2にはと両方が含まれます。4人の研究者ののオッズ比の平均シミュレーション推定値は次のとおりです。l o g i t（ y私）= 1 + ログ（2 ）x1 i+ ログ（2.5 ）x2 i+ ログ（3 ）x3 i+ 0 x4 ilog私t（y私）=1+ログ⁡（2）バツ1私+ログ⁡（2.5）バツ2私+ログ⁡（3）バツ3私+0バツ4私 \mathrm{logit}(y_{i})=1 + \log(2)x_{1i} + \log(2.5)x_{2i} + \log(3)x_{3i} + 0x_{4i} バツ1バツ1x_{1}バツ1バツ1x_{1}バツ2バツ2x_{2}バツ1バツ1x_{1} res_1 res_2 res_3 res_4 1.679768 1.776200 2.002157 2.004077 研究者3と4だけが約正しいオッズ比を得るのに対して、研究者1と2はそうではないことは明らかです。これは線形回帰では発生せず、同様のシミュレーションで簡単に表示できます（ここでは示していません）。この問題はよく知られているように思えますが、この結果は私にとって非常に驚くべきものだったことを告白しなければなりません。ヘルナンら。（2011）は、これをバイアスではなく「数学的な奇妙」と呼んでいます。222[ 2 ][2]^{[2]}[ 3 ][3]^{[3]} 私の質問：オッズ比が基本的に研究およびモデル間で比較できない場合、バイナリの結果について異なる研究の結果をどのように組み合わせることができますか？ …

12 r logistic meta-analysis odds-ratio adjustment

3

バートランドのボックスパラドックスのモンテカルロシミュレーションをプログラムする方法は？

次の問題がメンサインターナショナルのFacebookページに投稿されました。 \quad\quad\quad\quad\quad\quad\quad\quad 投稿自体には1000件以上のコメントが寄せられましたが、ここでの議論については詳しく説明しません。これはバートランドの箱のパラドックスであり、答えは。ここで私が興味を持っているのは、モンテカルロ法を使用してこの問題にどのように答えるかです。この問題を解決するアルゴリズムはどのようになっていますか？2323\frac23 私の試みは次のとおりです。 0から1までの均一に分布した乱数を生成します。NNN000111 ボックスのイベントに、半分未満に選択された2つの金のボール（ボックス1）が含まれているとします。未満の数値をカウントし、結果をSとして呼び出します。0.50.50.5SSS ボックス1が選択されている場合はゴールドボールを取得するのは確実であり、ボックス2が選択されている場合はゴールドボールを取得する可能性は50％だけなので、シーケンスGGを取得する確率は P（B 2 = G | B 1 = G ）= SS+ 0.5 （N− S）P（B2=G|B1=G）=SS+0.5（N−S）P(B2=G|B1=G)=\frac{S}{S+0.5(N-S)} Rで上記のアルゴリズムを実装する： N <- 10000 S <- sum(runif(N)<0.5) S/(S+0.5*(N-S)) 0.670.670.67

12 r probability simulation monte-carlo paradox

タグ付けされた質問 「r」

タグ付けされた質問「r」