タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
R factanal出力の意味は何ですか?
これはどういう意味ですか?私は因子分析の「初心者」であり、私は本を読んだことがありましたが、明らかにすべてを教えてくれませんでした。 カイ二乗統計が非常に高く、p値が非常に低いため、データは6次元空間内で同一平面(2次元)に近いように見えます。それでも、差異の89.4%しか占めていません(私はこの権利を解釈していますか?) また、因子は互いに直交していると思ったので、両方の因子がすべての変数に対して正の負荷をどのように持つことができますか? そして、一意性はどういう意味ですか? > factanal(charges[3:8],2) Call: factanal(x = charges[3:8], factors = 2) Uniquenesses: APT CHELPG Natural AIM Hirshfeld VDD 0.217 0.250 0.082 0.052 0.005 0.033 Loadings: Factor1 Factor2 APT 0.609 0.642 CHELPG 0.657 0.564 Natural 0.571 0.769 AIM 0.382 0.896 Hirshfeld 0.910 0.408 VDD 0.844 0.504 Factor1 Factor2 SS …

1
データフレーム内の一意の各行の数を数えますか?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 5年前休業。 次のようなデータフレームがあるとします。 df<-data.frame(x1=c(0,1,1,1,2,3,3,3), x2=c(0,1,1,3,2,3,3,2), x3=c(0,1,1,1,2,3,3,2)) df x1 x2 x3 1 0 0 0 2 1 1 1 3 1 1 1 4 1 3 1 5 2 2 2 6 3 3 3 7 3 3 3 8 3 2 2 私が欲しいのは、次のような一意の各行の数を数えることです: x1 x2 x3 count 1 …
8 r 

1
メタ回帰の奇妙に大きなR二乗値(metafor)
私はRでmetaforパッケージを使用しています。次のように、連続予測子を使用して変量効果モデルを適合させました SIZE=rma(yi=Ds,sei=SE,data=VPPOOLed,mods=~SIZE) これは出力を生成します: R^2 (amount of heterogeneity accounted for): 63.62% Test of Moderators (coefficient(s) 2): QM(df = 1) = 9.3255, p-val = 0.0023 Model Results: se zval pval ci.lb ci.ub intrcpt 0.3266 0.1030 3.1721 0.0015 0.1248 0.5285 ** SIZE 0.0481 0.0157 3.0538 0.0023 0.0172 0.0790 ** 以下では、回帰をプロットしています。効果サイズは、標準誤差の逆数に比例してプロットされています。これは主観的な発言であることは承知していますが、R2(63%の分散の説明)の値は、プロットに示されている適度な関係(重みを考慮した場合でも)が反映する値よりもはるかに大きく見えます。 私が何を意味するかを示すために、次にlm関数で同じ回帰を行う場合(同じ方法で学習の重みを指定): lmod=lm(Ds~SIZE,weights=1/SE,data=VPPOOLed) 次に、R2は28%の分散に下がります。これは、物事のあり方(または少なくとも、どのようなR2がプロットに対応するべきかという私の印象)に近いようです。 …

4
確率変数の合計の条件付けを含むシミュレーション
私はこの質問を読んでいて、必要な量のシミュレーションについて考えました。問題は次のとおりですとBが標準のiidである場合、E (A 2 | A + B )とは何ですか?E (A 2 | A + B )をシミュレートしたいと思います。(選択した値A + Bの場合)あAABBBE(A2| A+B)E(A2|A+B)E(A^2|A+B)E(A2| A+B)E(A2|A+B)E(A^2|A+B)A + BA+BA+B これを達成するために次のコードを試しました: n <- 1000000 x <- 1 # the sum of A and B A <- rnorm(n) B <- rnorm(n) sum_AB = A+B estimate <- 1/sum(sum_AB==x) * sum( (A[sum_AB==x])^2 …

1
適切なスコアリングルールを使用して、ロジスティック回帰からクラスメンバーシップを決定する
ロジスティック回帰を使用して、イベントが発生する可能性を予測しています。最終的に、これらの確率は実稼働環境に入れられ、「はい」の予測に到達することにできるだけ焦点を当てます。したがって、この決定を通知するために使用する他の方法に加えて、どの「決定的」ヒットまたは「非ヒット」がアプリオリ(本番稼働前)であるかを知ることは有用です。 私の質問は、予測された確率に基づいて決定的なクラス(1,0)を予測する適切な方法は何ですか?具体的にglmnetは、モデリングにRのパッケージを使用しています。このパッケージは、はいまたはいいえのしきい値として0.5確率を任意に選択します。決定的なクラスに外挿するには、予測確率に基づいて適切なスコアリングルールの結果を取得する必要があると思います。私のモデリングプロセスの例を以下に示します。 mods <- c('glmnet', 'scoring') lapply(mods, require, character.only = T) # run cross-validated LASSO regression fit <- cv.glmnet(x = df1[, c(2:100)]), y = df1[, 1], family = 'binomial', type.measure = 'auc') # generate predicted probabilities across new data df2$prob <- predict(fit, type="response", newx = df2[, c(2:100)], s = 'lambda.min') …

1
スプライン(mgcvからのgrtも含む)の合計(または平均)センタリング制約はどの程度正確に行われますか?
データ生成プロセスは次のとおりです:y=sin(x+I(d=0))+sin(x+4∗I(d=1))+I(d=0)z2+3I(d=1)z2+N(0,1)y=sin(x+I(d=0))+sin(x+4∗I(d=1))+I(d=0)z2+3I(d=1)z2+N(0,1)y = \text{sin}\Big(x+I(d=0)\Big) + \text{sin}\Big(x+4*I(d=1)\Big) + I(d=0)z^2 + 3I(d=1)z^2 + \mathbb{N}\left(0,1\right) ましょx,zx,zx,zからの配列である−4−4-4に444長さの100100100およびddd対応する因子であることがd∈{0,1}d∈{0,1}d\in\{0,1\}。すべての可能な組み合わせを取り、yx,z,dx,z,dx,z,dを計算します。 yyy (中心化されていない)Bスプライン基準を使用するとx,zx,zx,z、各レベルのzはddd、parity-of-unity-property(行の合計が1)によって実現できなくなります。このようなモデルは識別できません(切片がない場合でも)。 例:(設定:5つの内部ノット間隔(均一に分布)、次数2のBスプライン、- spline関数はカスタムのもの) # drawing the sequence n <- 100 x <- seq(-4,4,length.out=n) z <- seq(-4,4,length.out=n) d <- as.factor(0:1) data <- CJ(x=x,z=z,d=d) set.seed(100) # setting up the model data[,y := sin(x+I(d==0)) + sin(x+4*I(d==1)) + I(d==0)*z^2 + 3*I(d==1)*z^2 …

1
多変量ガウスのコンターのハイパーボリューム
から抽出されたサイズサンプルで、原点までのユークリッド距離が最小の観測値の%の(行列式の対数)の共分散の()値の値を 探しています、二変量標準ガウス。α Nn→∞n→∞n\rightarrow \inftyαα\alphannn -楕円のハイパーボリュームは、その共分散行列の行列式に比例するため、タイトルに比例します- 標準変量ガウス--By、Iは平均長さ2の0のベクトルであり、ランク2単位行列であるが.--- 0 2 IN2(02,II2)N2(02,II2)\mathcal{N}_2(0_2,\pmb I_2)02020_2II2II2\pmb I_2 、数値が前後の 場合よりも、シミュレーションで簡単に確認でき。α=52/70α=52/70\alpha=52/70≈−1.28≈−1.28\approx -1.28 library(MASS) n<-10000 p<-2 x<-mvrnorm(n,rep(0,p),diag(2)) h<-ceiling(0.714286*n) p<-ncol(x) w<-mahalanobis(x,rep(0,p),diag(p),inverted=TRUE) #These are eucledian distances, because the covariance used is the identity matrix s<-(1:n)[order(w)][1:h] log(det(cov(x[s,]))) しかし、これについて正確な式を取得する方法(または失敗した場合、より良い近似)を思い出しません。

1
R-A / Bテストでのpower.prop.test、prop.test、および等しくないサンプルサイズ
成功の2つの比率の差が統計的に有意であるかどうかを判断しようとしている実験に必要なサンプルサイズを知りたいとしましょう。これが私の現在のプロセスです: 履歴データを見て、ベースライン予測を確立します。過去に、行動を起こすと10%の成功率になり、行動しないと9%の成功率になると言います。これらの結論は統計的に検証されていませんが、比較的大量のデータ(10,000以上の観測)に基づいていると仮定します。 これらの仮定をpower.prop.testにプラグインして、以下を取得します。 power.prop.test(p1=.1,p2=.11,power=.9) Two-sample comparison of proportions power calculation n = 19746.62 p1 = 0.1 p2 = 0.11 sig.level = 0.05 power = 0.9 alternative = two.sided したがって、これは、比率間の有意差を検出するために、A / Bテストの各グループで最大20000のサンプルサイズが必要になることを示しています。 次のステップは、各グループで20,000の観測値を使用して実験を実行することです。グループB(アクションなし)は20,000回の観測のうち2300回の成功を収めていますが、グループA(アクションを実行)は20,000回の観測のうち2200回の成功を収めています。 prop.testを実行する prop.test(c(2300,2100),c(20000,20000)) 2-sample test for equality of proportions with continuity correction data: c(2300, 2100) out of c(20000, 20000) …

2
左打ち切りデータを使用したRでの生存分析
survivalパッケージでRの生存分析を行っています。私は左切り捨てデータで作業していると思いますが、その処理方法は完全にはわかりません。 私は1990年から2012年の間に診断された患者のコホートを持っています。すべての患者は、明確に定義された診断時刻(開始時刻)を持っています。ただし、関心のある結果(特定の疾患の悪化)は、2000年以降にのみ文書化されています。したがって、2000年以前に診断された患者の場合、結果がその時間の前に発生したかどうかはわかりません。 私が最初に思ったのは、分析を2000年以降の期間に限定する必要があり、その時点以降に診断された患者だけを含める必要があるということでした。いくつかの読み取りを行った後、2000年より前に診断された患者を除外する必要はないように見えます。これは左打ち切りであると思われ、time1は左打ち切り時間(診断から文書化の開始までの時間)coxphを使用して処理できます。Surv(time1, time2, event)結果)および時間2は、イベントまでの時間(診断時から)です。 これが私のデータセットにある患者の2つの例です。 患者#1:1999年に診断されました。2001年に結果が観察されました。左打ち切り時間:1年(〜2000年)。イベントまでの時間:2年。 患者#2:2001年に診断されました。2005年に結果が観察されました。左打ち切り時間:0年。イベントまでの時間:4年。 これらの患者の場合、サバイバルオブジェクトでの生存時間(年単位)は(それぞれ)になると思います。 Surv(time1 = c(1,0), time2 = c(2,4), event = c(1,1)) これは左切り捨てデータの例ですか?もしそうなら、これはそれを処理する正しい方法ですか?

1
さまざまなソースからのデータを組み合わせる
さまざまなソースのデータを組み合わせたい。 化学的性質(例えば分配係数)を推定したいとしましょう: いくつかの経験的データがありますが、平均値周辺の測定誤差により変動します。 次に、他の情報から推定値を予測するモデルがあります(モデルには不確実性もあります)。 これら2つのデータセットを組み合わせるにはどうすればよいですか?[結合された推定値は、別のモデルで予測子として使用されます]。 メタ分析とベイズ法が適しているようです。しかし、それを実装する方法やアイディアはあまり見つかりませんでした(私はRを使用していますが、PythonとC ++にも精通しています)。 ありがとう。 更新 わかりました、これはより現実的な例です: 化学物質の毒性を推定するために(通常、 =動物の50%が死亡する濃度)ラボ実験を行います。幸いにも、実験の結果はデー​​タベース(EPA)に収集されます。LC50LC50LC_{50} 殺虫剤Lindaneの値をいくつか示します。 ### Toxicity of Lindane in ug/L epa <- c(850 ,6300 ,6500 ,8000, 1990 ,516, 6442 ,1870, 1870, 2000 ,250 ,62000, 2600,1000,485,1190,1790,390,1790,750000,1000,800 ) hist(log10(epa)) # or in mol / L # molecular weight of Lindane mw = 290.83 …

1
打ち切り分位回帰モデルのフィッティングのエラー
私はこのような正しい検閲の結果を持っています: y<-c(rep(2.83,3), rep(3.17,4), rep(3.83,4), rep(4.17,5), rep(4.83,8), rep(5.5,3), rep(7.17,5), rep(8.17,7), rep(8.83,12), rep(9.5, 12), rep(9.83,17), rep(10.17,30), rep(10.50,100)) ここでy=10.5、右打ち切り値です。次に、quantreg::crq検閲済み分位回帰モデルを当てはめるためにを使用して、バイナリ介入変数から始めます。 set.seed(123) require(quantreg) yc<-rep(10.5, length(y)) treat<-rbinom(length(y), 1, 0.5) age<-as.integer(rnorm(length(y), 50, 2)) モデル1 fit1<-crq(Curv(y, yc, "right")~treat, taus=(1:4)/5, , method="Powell") Error in solve.default(x[h, ]) : Lapack routine dgesv: system is exactly singular: U[2,2] = 0 Error in …

2
通常の切り捨てられた確率変数の合計
私が持っていると仮定しの独立した正規確率変数んnn バツ1〜N(μ1、σ21)バツ2〜N(μ2、σ22)⋮バツん〜N(μん、σ2ん)X1∼N(μ1,σ12)X2∼N(μ2,σ22)⋮Xn∼N(μn,σn2)X_1 \sim \mathrm{N}(\mu_1, \sigma_1^2)\\X_2 \sim \mathrm{N}(\mu_2, \sigma_2^2)\\\vdots\\X_n \sim \mathrm{N}(\mu_n, \sigma_n^2) および。各の分布がそれぞれ内に切り捨てられている場合、の密度をどのように特徴付けますか?つまり、独立した正規分布からサンプリングし、各平均の内にないサンプルを破棄して、それらを合計しています。 Y X I(μ I - 2 σ I、μ I + 2 σ I)N 2 σ IY= X1+ X2+ ⋯ + XんY=X1+X2+⋯+XnY=X_1+X_2+\dotsm+X_nYYYバツ私XiX_i(μ私- 2 σ私、μ私+ 2 σ私)(μi−2σi,μi+2σi)(\mu_i - 2\sigma_i, \mu_i + 2\sigma_i)んnn2つのσ私2σi2\sigma_i 現在、私は以下のRコードでこれを行っています: x_mu <- c(12, 18, 7) x_sd <- …

2
連続変数とカテゴリ変数が混在するデータのクラスタリング
人間の行動のいくつかの側面を表すデータがあります。私はそれを(監視なしで)ある種の行動プロファイルにクラスター化したいと考えています。現在、私の変数の一部はカテゴリカル(2つ以上のカテゴリを持つ)であり、一部は連続的です(ほとんどはパーセンテージです)。いくつかの変数はさらに複雑で、1つのカテゴリーにはさらに連続的であり、もう1つのカテゴリーにはそのような追加データはありません。 私の質問は、このデータを分類する方法についてです。それを扱う(一般的な?)アプローチは何ですか? コードや何かは必要ありませんが、この課題への対処方法をさらに理解するのに役立つ参照や指示が必要です。 そのRような分析を容易にする関数を知っていれば、それはすばらしいことですが、それは必須ではありません。 ありがとう。

1
従属変数が非正規分布である回帰データをシミュレートします
回帰分析の場合、データ生成プロセスを理解して、使用した方法がどのように機能するかを確認すると便利な場合があります。単純な線形回帰でこれを行うのはかなり簡単ですが、従属変数が特定の分布に従う必要がある場合は、これは当てはまりません。 単純な線形回帰を考えます。 N <- 100 x <- rnorm(N) beta <- 3 + 0.4*rnorm(N) y <- 1 + x * beta + .75*rnorm(N) 同じアプローチを使用する方法はありますがy、通常とは異なる方法があると思いますか?

1
これらの各方法を使用して相関を計算する必要があるのはいつですか?
データ分析にRを使用しています。Rはcorr、相関を計算するための関数を提供します。この関数はcorr、ピアソン、スピアマン、ケンドールを推定するための3つの異なるアプローチ/アルゴリズムを提供します。これらの各方法をいつ使用する必要がありますか?どの方法を使用する必要があるかを決定する要因は何ですか?
8 correlation  r 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.