統計とビッグデータ r

3

私はこのdecompose関数を使用してR、月次時系列の3つのコンポーネント（トレンド、季節性、ランダム）を考え出します。グラフをプロットするか、表を見ると、時系列が季節性の影響を受けていることがはっきりとわかります。ただし、時系列を11の季節性ダミー変数に回帰すると、すべての係数が統計的に有意ではなく、季節性がないことを示しています。 2つの非常に異なる結果が得られた理由がわかりません。これは誰かに起こりましたか？私は何か間違ったことをしていますか？ここにいくつかの役立つ詳細を追加します。これは私の時系列とそれに対応する毎月の変化です。どちらのグラフでも、季節性があることがわかります（または、これが私が評価したいものです）。特に、2番目のグラフ（シリーズの月ごとの変化）には、繰り返しのパターン（同じ月の高いポイントと低いポイント）が見られます。以下はdecompose関数の出力です。@RichardHardyが言ったように、この関数は実際の季節性があるかどうかをテストしません。しかし、分解は私の考えを裏付けているようです。ただし、11の季節ダミー変数（1月から11月、12月を除く）で時系列を回帰すると、次のようになります。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5144454056 372840549 13.798 <2e-16 *** Jan -616669492 527276161 -1.170 0.248 Feb -586884419 527276161 -1.113 0.271 Mar -461990149 527276161 -0.876 0.385 Apr -407860396 527276161 -0.774 0.443 May -395942771 527276161 -0.751 0.456 Jun -382312331 527276161 -0.725 0.472 …

9 r regression time-series

1

さまざまなR 2次計画ソルバーの違いは何ですか？

二次最適化の問題を解決するのに役立つパッケージを探しています。少なくとも6種類のパッケージがあることがわかりました。このページによると： QP（二次プログラミング、90C20）：cplexAPI、kernlab、limSolve、LowRankQP、quadprog、Rcplex、Rmosek これらの一部（RmosekおよびcplexAPI）は他の独自のパッケージに依存しているので、私はそれらに興味がありません。他のQPパッケージの注目すべき違いは何ですか？

9 r optimization

3

与えられた相関関係を得るために2Dデータを並べ替える方法は？

2つの連続変数を持つ次の単純なデータセットがあります。つまり： d = data.frame(x=runif(100,0,100),y = runif(100,0,100)) plot(d$x,d$y) abline(lm(y~x,d), col="red") cor(d$x,d$y) # = 0.2135273 変数間の相関が0.6になるようにデータを再配置する必要があります。両方の変数の平均と他の記述統計（sd、min、maxなど）を一定に保つ必要があります。私は与えられたデータとほとんどすべての相関関係を作ることが可能であることを知っています：すなわち： d2 = with(d,data.frame(x=sort(x),y=sort(y))) plot(d2$x,d2$y) abline(lm(y~x,d2), col="red") cor(d2$x,d2$y) # i.e. 0.9965585 sampleこのタスクに関数を使用しようとすると： cor.results = c() for(i in 1:1000){ set.seed(i) d3 = with(d,data.frame(x=sample(x),y=sample(y))) cor.results = c(cor.results,cor(d3$x,d3$y)) } 非常に広い範囲の相関関係が得られます。 > summary(cor.results) Min. 1st Qu. Median Mean 3rd Qu. …

9 r correlation

1

傾向スコアの重み付けによる平均治療効果の信頼区間？

傾向スコアの重み付け（具体的にはIPTW）を使用して、観測データから平均治療効果を推定しようとしています。私はATEを正しく計算していると思いますが、逆の傾向スコアの重みを考慮しながら、ATEの信頼区間を計算する方法がわかりません。以下は、平均治療効果を計算するために使用する方程式です（参照Stat Med。Sep 10、2010; 29（20）：2137–2148。）：ここで、被験者の総数、治療状態、結果状態、および傾向スコア。ATE=1N∑1NZiYipi−1N∑1N(1−Zi)Yi1−piATE=1N∑1NZiYipi−1N∑1N(1−Zi)Yi1−piATE=\frac1N\sum_1^N\frac{Z_iY_i}{p_i}-\frac1N\sum_1^N\frac{(1-Z_i)Y_i}{1-p_i}N=N=N=Zi=Zi=Z_i=Yi=Yi=Y_i=pi=pi=p_i= 重みを考慮して、平均治療効果の信頼区間を計算するRパッケージを知っている人はいますか？でしたsurveyここでパッケージのヘルプ？これがうまくいくかどうか疑問に思っていました： library(survey) sampsvy=svydesign(id=~1,weights=~iptw,data=df) svyby(~surgery=='lump',~treatment,design=sampsvy,svyciprop,vartype='ci',method='beta') #which produces this result: treatment surgery == "lump" ci_l ci_u No 0.1644043 0.1480568 0.1817876 Yes 0.2433215 0.2262039 0.2610724 比率間の差の信頼区間（平均治療効果など）を見つけるために、ここからどこへ行くべきかわかりません。

9 r survey causality propensity-scores observational-study

1

二項応答に対する異分散一般化線形モデルのあてはめ

次の実験計画のデータがあります。私の観察はK、対応する試行数（）のうち成功した数（）の数であり、各個人からN構成される2つのグループに対して測定されたI、T処理からの、そのような各因子の組み合わせにR反復がある。したがって、全体で2 * I * T * R Kと対応するNがあります。データは生物学からのものです。それぞれの個体は、2つの代替形態（代替スプライシングと呼ばれる現象による）の発現レベルを測定する遺伝子です。したがって、Kは1つの形式の発現レベルであり、Nは2つの形式の発現レベルの合計です。単一の表現されたコピーにおける2つの形式間の選択は、ベルヌーイ実験であると想定されるため、NのうちKコピーは二項式に従います。各グループは約20の異なる遺伝子で構成され、各グループの遺伝子は2つのグループ間で異なるいくつかの共通の機能を持っています。各グループの各遺伝子について、3つの異なる組織（処理）のそれぞれから約30の測定値があります。グループと治療がK / Nの分散に与える影響を推定したいと思います。遺伝子発現は過剰に分散していることがわかっているため、以下のコードでは負の二項式を使用しています。たとえば、Rシミュレートされたデータのコード： library(MASS) set.seed(1) I = 20 # individuals in each group G = 2 # groups T = 3 # treatments R = 30 # replicates of each individual, in each group, in each treatment groups = letters[1:G] …

9 r generalized-linear-model heteroscedasticity log-linear dglm

1

一般化線形混合モデルの変量効果の分散をどのように解釈しますか

ロジスティック一般化線形混合モデル（ファミリ=二項式）では、変量効果の分散を解釈する方法がわかりません。 Random effects: Groups Name Variance Std.Dev. HOSPITAL (Intercept) 0.4295 0.6554 Number of obs: 2275, groups: HOSPITAL, 14 この数値結果をどのように解釈しますか？多施設共同研究で腎移植患者のサンプルがあります。特定の降圧治療を受けている患者の確率がセンター間で同じかどうかをテストしていました。治療を受ける患者の割合はセンター間で大きく異なりますが、患者の基本的な特性の違いが原因である可能性があります。そこで、患者の主要な特徴を調整して、一般化線形混合モデル（ロジスティック）を推定しました。これは結果です： Generalized linear mixed model fit by maximum likelihood ['glmerMod'] Family: binomial ( logit ) Formula: HTATTO ~ AGE + SEX + BMI + INMUNOTTO + log(SCR) + log(PROTEINUR) + (1 …

9 r lme4-nlme

2

混合分布の逆CDFサンプリング

コンテキスト外のショートバージョンましょうyyy CDFを有する確率変数である F(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y = 0 y > 0F(⋅)≡{θ y = 0 θ+(1−θ)×CDFlog-normal(⋅;μ,σ) y > 0 F(\cdot) \equiv \cases{\theta & y = 0 \\ \theta + (1-\theta) \times \text{CDF}_{\text{log-normal}}(\cdot; \mu, \sigma) & y > 0} 逆CDF法を使用して描画をシミュレートしたいとしましょうyyy。それは可能ですか？この関数は、厳密には逆を持ちません。次に、2つの正規分布の混合分布の逆変換サンプリングがあります。これは、ここで逆変換サンプリングを適用する既知の方法があることを示唆しています。 2ステップの方法は知っていますが、自分の状況に適用する方法がわかりません（以下を参照）。背景付きロングバージョン MCMC（具体的には、Stan）を使用して、ベクトル値応答yi=(y1,…,yK)iyi=(y1,…,yK)iy^i = \left( y_1 , \dots , y_K \right)^iに次のモデルを適合させました。 θik≡logit−1(αkxi),μik≡βkxi−σ2k2F(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y …

9 r distributions sampling simulation copula

2

比例オッズの仮定の確認は、polr関数を使用した順序ロジスティック回帰で保持されます

MASSパッケージの 'polr'関数を使用して、15の連続的な説明変数を持つ順序カテゴリカル応答変数の順序ロジスティック回帰を実行しました。コード（以下に表示）を使用して、モデルがUCLAのガイドで提供されているアドバイスに従ってプロポーショナルオッズの仮定を満たしていることを確認しました。ただし、さまざまなカットポイントの係数が類似しているだけでなく、まったく同じであることを示す出力について少し心配しています（下の図を参照）。 FGV1b <- data.frame(FG1_val_cat=factor(FGV1b[,"FG1_val_cat"]), scale(FGV1[,c("X","Y","Slope","Ele","Aspect","Prox_to_for_FG", "Prox_to_for_mL", "Prox_to_nat_border", "Prox_to_village", "Prox_to_roads", "Prox_to_rivers", "Prox_to_waterFG", "Prox_to_watermL", "Prox_to_core", "Prox_to_NR", "PCA1", "PCA2", "PCA3")])) b <- polr(FG1_val_cat ~ X + Y + Slope + Ele + Aspect + Prox_to_for_FG + Prox_to_for_mL + Prox_to_nat_border + Prox_to_village + Prox_to_roads + Prox_to_rivers + Prox_to_waterFG + Prox_to_watermL + Prox_to_core …

9 r logistic assumptions ordered-logit polr

1

効率的な畳み込み（R）

畳み込みを計算/評価したい g(x)=∫Df(x−t)ϕ(t)dt,g(x)=∫Df(x−t)ϕ(t)dt,g(x)=\int_D f(x-t) \phi(t) dt, ここで、密度であり、φは、コンパクトサポート滑らかな関数であるD。畳み込みは閉じた形式では利用できません。数値的に統合する必要があります。私の質問は、これを行う効率的な方法はありますか？Rで実装したいので、コマンドを使用するよりも良い方法があるかどうかを確認したいと思います。fffϕϕ\phiDDD integrate()

9 r convolution

1

なぜこの多重代入が低品質なのですか？

次のRコードを考えます。 > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 ご覧のように、大まかにデータを設計しましたc = 2*b = 4*a。そのため、欠損値はであると予想しますa=1, b=2, c=12。だから私は分析を行いました： > imp <- mi(data) Beginning Multiple Imputation ( …

9 r data-imputation multiple-imputation

2

CFAが複数項目スケールに適合しない場合の対処方法

溶岩でこのCFAイムをどのように進めるかわかりません。私は172人の参加者のサンプル（CFAにとってはそれほど多くないことを知っています）と7つの要因に基づく7ポイントのリッカートスケールを持つ28のアイテムを持っています。「mlm」推定器を使用してCFAを実行しましたが、モデルの近似は本当に悪かった（χ2（df = 329）= 739.36;比較近似指数（CFI）= .69;標準化された二乗平均平方根残差（SRMR）=。10;二乗平均平方根誤差（RMSEA）=。09; RMSEA 90％信頼区間（CI）= [.08、.10]）。私は以下を試しました： 1つの一般的な方法因子を持つ二因子モデル—>は収束しませんでした。順序データの推定量（„ WLSMV“）—>モデルフィット：（χ2（df = 329）= 462;比較フィットインデックス（CFI）= .81;標準化二乗平均平方根残差（SRMR）=。09;二乗平均平方根エラー近似値（RMSEA）=。05; RMSEA 90％信頼区間（CI）= [.04、.06]）因子が少なく、特定のアイテム間の共分散を追加するアイテムによってモデルを削減->モデルフィット：χ2（df = 210）= 295; 比較適合指数（CFI）= .86; 標準化された二乗平均平方根残差（SRMR）=。08; 二乗平均平方根誤差（RMSEA）=。07; RMSEA 90％信頼区間（CI）= [.06、.08]。今私の質問：このようなモデルをどうすればよいですか？統計的に正しいことは何でしょうか？適合するか、適合しないと報告しますか？そして、それらのモデルのどれですか？この件についてお話しさせていただければ幸いです。以下は、元のモデルのCFAの溶岩出力です。 lavaan (0.5-17.703) converged normally after 55 iterations Used Total Number of observations 149 172 …

9 r sem fitting confirmatory-factor

1

Rを使用して時間依存の共変量を持つ生存データを生成する方法

時間依存の共変量を含むCox比例ハザードモデルから生存時間を生成したい。モデルは h(t|Xi)=h0(t)exp(γXi+αmi(t))h(t|Xi)=h0(t)exp⁡(γXi+αmi(t))h(t|X_i) =h_0(t) \exp(\gamma X_i + \alpha m_{i}(t)) ここで、はBinomial（1,0.5）およびます。XiXiX_imi(t)=β0+β1Xi+β2Xitmi(t)=β0+β1Xi+β2Xitm_{i}(t)=\beta_0 + \beta_1 X_{i} + \beta_2 X_{i} t 真のパラメータ値は、として使用されますγ=1.5,β0=0,β1=−1,β2=−1.5,h0(t)=1γ=1.5,β0=0,β1=−1,β2=−1.5,h0(t)=1\gamma = 1.5, \beta_0 = 0, \beta_1 = -1, \beta_2 = -1.5, h_0(t) = 1 時間に依存しない共変量（つまり、、次のように生成しましたh(t|Xi)=h0(t)exp(γXi)h(t|Xi)=h0(t)exp⁡(γXi)h(t|X_i) =h_0(t) \exp(\gamma X_i) #For time independent case # h_0(t) = 1 gamma <- -1 u <- runif(n=100,min=0,max=1) Xi …

9 r survival cox-model time-varying-covariate

2

ノイズの多いデータまたは異常値を使用したクラスタリング

このような2つの変数のノイズの多いデータがあります。 x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, 0.5,0.9) y <- c(y1 + e1,yn) x <- …

9 r machine-learning clustering

1

LSIのコンテキストでの特異値分解の理解

私の質問は、一般的に特異値分解（SVD）、特に潜在的意味論的索引付け（LSI）についてです。たとえば、7つのドキュメントに対して5ワードの頻度を含むとします。Aword×documentAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) rownames(A) <- c('doctor','car','nurse','hospital','wheel') 私はのための行列因数分解取得 SVDを使用して：A = U \ CDOT D \ CDOT V ^ T。AAAA=U⋅D⋅VTA=U⋅D⋅VTA = U \cdot D \cdot V^T s = svd(A) D = diag(s$d) # singular value matrix S = diag(s$d^0.5 ) # …

9 r svd natural-language latent-semantic-indexing

2

ポアソン回帰を使用したバイナリデータの調整済みリスク比の推定

ロジスティック回帰を使用して調整オッズ比を推定する方法に類似した、調整リスク比の推定に興味があります。一部の文献（例：this）は、Huber-White標準誤差でポアソン回帰を使用することが、これを行うためのモデルベースの方法であることを示しています連続共変量の調整がこれにどのように影響するかについては、文献を見つけていません。次の簡単なシミュレーションは、この問題がそれほど単純ではないことを示しています。 arr <- function(BLR,RR,p,n,nr,ce) { B = rep(0,nr) for(i in 1:nr){ b <- runif(n)<p x <- rnorm(n) pr <- exp( log(BLR) + log(RR)*b + ce*x) y <- runif(n)<pr model <- glm(y ~ b + x, family=poisson) B[i] <- coef(model)[2] } return( mean( exp(B), na.rm=TRUE ) ) } set.seed(1234) arr(.3, …

9 r references biostatistics poisson-regression relative-risk

タグ付けされた質問 「r」

タグ付けされた質問「r」