統計とビッグデータ r

1

さて、私は線形回帰を理解しようとしています。私はデータセットを持っていますが、それはすべて大丈夫に見えますが、私は混乱しています。これは私の線形モデルの要約です： Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.2068621 0.0247002 8.375 4.13e-09 *** temp 0.0031074 0.0004779 6.502 4.79e-07 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.04226 on 28 degrees of freedom Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 …

9 r regression

3

distribution =“ adaboost”でR gbmを使用する方法

ドキュメントには、distribution = "adaboost"のR gbmを0-1分類問題に使用できると記載されています。次のコードを見てください。 gbm_algorithm <- gbm(y ~ ., data = train_dataset, distribution = "adaboost", n.trees = 5000) gbm_predicted <- predict(gbm_algorithm, test_dataset, n.trees = 5000) これは、predict.gbmというドキュメントに記載されています。予測のベクトルを返します。デフォルトでは、予測はf（x）のスケールで行われます。ただし、distribution = "adaboost"の場合、特定のスケールは明確ではありません。誰かがpredict.gbmの戻り値の解釈を手伝って、0-1出力への変換のアイデアを提供できますか？

9 r gbm

1

観測されたイベントと期待されたイベントを比較する方法は？

4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています： p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計（18）を使用して、イベントの予想頻度を計算できますか？ expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

2

mcmc.listからplot.bugsおよびplot.jagsによって生成されるプロットと同様のプロットをどのように生成できますか？[閉まっている]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。 Rは、関数R2WinBUGS :: bugsとR2jags：jagsによって生成されたオブジェクトbugsとjagsオブジェクトから素晴らしい要約プロットを出力できるようです。しかし、私はrjagsパッケージを使用しています。結果をrjags::coda.samples使用R2WinBUGS::plot.mcmc.listして関数の結果をプロットしようとすると、各パラメーターの診断プロット（パラメーター密度、チェーン時系列、自己相関）になります。以下は、Andrew Gelmanのチュートリアル「RからのWinBuugsとOpenBugsの実行」から作成したいプロットのタイプです。これらはを使用して作成されましたplot.pugs。問題はplot.bugs、bugsオブジェクトを引数としてplot.mcmc.list受け取り、の出力を受け取ることですcoda.samples。次に例を示します（からcoda.samples）： library(rjags) data(LINE) LINE$recompile() LINE.out <- coda.samples(LINE, c("alpha","beta","sigma"), n.iter=1000) plot(LINE.out) 私が必要なのはによって生成されたものと同様の、情報が豊富な、1ページの要約プロットを生成する方法 plot.bugs LINE.outバグオブジェクトに変換する関数または

9 r data-visualization jags bugs

1

コックス比例ハザードモデルと、より大きなケースの相互作用が含まれる場合の係数の解釈

以下は、私が使用したCoxphモデルの要約出力です（Rを使用し、出力は最良の最終モデルに基づいています。つまり、すべての重要な説明変数とそれらの相互作用が含まれています）。 coxph(formula = Y ~ LT + Food + Temp2 + LT:Food + LT:Temp2 + Food:Temp2 + LT:Food:Temp2) # Y<-Surv(Time,Status==1) n = 555 coef exp(coef) se(coef) z Pr(>|z|) LT 9.302e+02 Inf 2.822e+02 3.297 0.000979 *** Food 3.397e+03 Inf 1.023e+03 3.321 0.000896 *** Temp2 5.016e+03 Inf 1.522e+03 3.296 0.000979 *** LT:Food …

9 r interaction regression-coefficients cox-model

4

外れ値を含む時系列のモデルを適合させる方法

私はauto.arima()、Rの関数を使用してARIMA（5,1,2）モデルを近似しました。そして、次数を調べることにより、これは予測するのに最適なモデルではないと言えます。データ系列に外れ値が存在する場合、そのようなデータにモデルを適合させる方法は何ですか？

9 r time-series forecasting outliers arima

1

95％信頼区間の繰り返し実験の説明のシミュレーション研究の問題-どこが間違っているのですか？

95％信頼区間の繰り返し実験解釈をシミュレートするRスクリプトを記述しようとしています。これは、割合の真の母集団値がサンプルの95％CIに含まれている時間の割合を過大評価していることがわかりました。大きな違いはありません-約96％対95％ですが、それでも私は興味を持っていました。私の関数は、samp_n確率pop_pでベルヌーイ分布からサンプルを取得し、prop.test()連続性補正を使用して、またはより正確に95％信頼区間を計算しbinom.test()ます。真の人口比率pop_pが95％CIに含まれている場合、1を返します。私は2つの関数を作成しました。1つはを使用する関数、もう1つはを使用しprop.test()、binom.test()両方で同様の結果を得たものです。 in_conf_int_normal <- function(pop_p = 0.3, samp_n = 1000, correct = T){ ## uses normal approximation to calculate confidence interval ## returns 1 if the CI contain the pop proportion ## returns 0 otherwise samp <- rbinom(samp_n, 1, pop_p) pt_result <- prop.test(length(which(samp == 1)), samp_n) lb <- pt_result$conf.int[1] ub …

9 r confidence-interval binomial theory

1

ランダムなスロープ効果の導入によりスロープのSEが拡大したのはなぜですか？

個人の特定のグループ（3つのグループがあります）の変数logIndに対する年の影響を分析しようとしています。最も単純なモデル： > fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata) > summary(fix1) Call: lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata) Residuals: Min 1Q Median 3Q Max -5.5835 -0.3543 -0.0024 0.3944 4.7294 Coefficients: Estimate Std. Error t value Pr(>|t|) Group1 4.6395740 0.0466217 …

9 r mixed-model lme4-nlme random-effects-model

3

データをテスト/証明する方法はゼロになっていますか？

簡単だと思うが、それを完全に理解できない問題があります。私は種子受粉を見ています。私はクラスターで花を咲かせる植物（n = 36）を持っています。各植物から3つの花クラスターをサンプリングし、各クラスターから6つの種子ポッド（各植物から合計18の種子ポッド）をサンプリングします。鞘は受粉する0から多くても4つの種子を持つことができます。したがって、データは上限付きでカウントされます。種子の平均約10％が受粉していることがわかりましたが、特定の植物では1から30％の範囲にあるため、分散したデータを超えています。もちろん、3つの植物で4つのクラスターの欠落の複製があるため、完全に対称的ではありません。。私が尋ねている質問は、このデータがこの植物が種子セットに花粉媒介者を必要とするという考えを支持するかどうかです。ポッド内の種子数の分布が、受粉種子ポッド0個（16個のうち6〜9個のポッド）と受粉種子ポッド3個および4個（それぞれ2〜4個）があるように見える集団の種子が無作為に受粉した場合に予想される。基本的に、これはゼロインフレーションデータの古典的な例だと思います。最初に昆虫が花を訪問するか、まったく訪問しません（1つのゼロジェネレーター）。訪問した場合、別の分布で0〜4個の種子を受粉します。対立仮説は、植物が部分的に自殖しているため、すべての種子が受粉する確率が同じになると予想されます（このデータは、およそ0.1の確率、つまり同じポッド内の2つの種子が0.01の確率である、などを示唆しています）。。しかし、私は単にデータがどちらか一方の分布に最適であることを実証したいだけであり、実際にデータに対してZIPまたはZINBを実行するのではありません。私が使用する方法はすべて、受粉した種子の実際の数と、各植物でサンプリングされた鞘の数を考慮に入れるべきだと思います。私が思いついた最良のことは、ある種の受粉した種子の数をサンプリングした種子の鞘の数にランダムに割り当て、その10,000回を実行して、それがどれほど可能性が高いかを確認することです与えられた植物の実験データは、そのランダムな分布から得られました。私はこれについてブルートフォースブートストラップよりもはるかに簡単なはずがあることを感じていますが、何日も考えて検索した後、私はあきらめています。上限であるため、ポアソン分布と比較することはできません。予想される分布を何らかの方法で1番目に生成する必要があるため、二項分布ではありません。何かご意見は？そして、私はRを使用しているので、アドバイス（特に、それぞれ最大4つのボールを含むことができる16のボックスにn個のボールの10,000個のランダム分布を最もエレガントに生成する方法）が最も歓迎されます。追加9/07/2012最初に、すべての関心と助けに感謝します。答えを読んで、質問を少し言い換えるようになりました。私が言っているのは、種子がポッド全体でランダムに受粉しているという仮説があり（今のところ、これはnullと考えています）、私の別の仮説は、少なくとも1つの受粉種子を持つシードポッドは、ランダムなプロセスで予想されるよりも複数の受粉種子を持っています。私が話していることを説明するために、例として3つのプラントからの実際のデータを提供しました。最初の列はポッド内の受粉種子の数、2番目の列はその種子数を持つポッドの頻度です。植物1（合計3種子：4％受粉）種子の数:: pod.freq 0 :: 16 1 :: 1 2 :: 1 3 :: 0 4 :: 0 植物2（合計19種子：26％受粉） num.seeds :: pod.freq 0 :: 12 1 :: 1 2 :: 1 3 :: 0 4 :: 4 植物3（合計16種子：22％受粉） num.seeds :: …

9 r distributions bootstrap zero-inflation

1

Rゼロインフレカウントデータ回帰から標準エラーを取得する方法 [閉まっている]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。次のコード PredictNew <- predict (glm.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) 3列のdata.frame--PredictNew、近似値、標準誤差、残差スケール項を生成します。パーフェクト...しかし、以下を備えたモデルを使用しzeroinfl {pscl}ます： PredictNew <- predict (zeroinfl.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) または PredictNew <- predict (zeroinfl.fit, newdata = Predict, …

9 r generalized-linear-model count-data zero-inflation

2

Rのoptimを使用して対数尤度関数を最大化することにより推定されたパラメーターのプロファイリングを使用して、95％の信頼区間をどのように推定できますか？

Rのoptimを使用して対数尤度関数を最大化することにより推定されたパラメーターのプロファイリングを使用して、95％の信頼区間をどのように推定できますか？ hessianを反転させることで、共分散行列を漸近的に推定できることはわかっていますが、この方法が有効であるために必要な前提条件がデータに適合していないことが心配です。他の方法を使用して信頼区間を推定したいと思います。 StryhnとChristensen、およびVenables and RipleyのMASSの本、§8.4、pp。220-221で説明されているように、プロファイル尤度法は適切ですか？もしそうなら、Rでこれを行うのに役立つパッケージはありますか？そうでない場合、そのようなメソッドの疑似コードはどのようになりますか？

9 r confidence-interval maximum-likelihood optimization profile-likelihood

2

混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックブートストラップ

以下の移植片は、この記事から引用したものです。私はブートストラップの初心者であり、R bootパッケージを使用した線形混合モデルのパラメトリック、セミパラメトリック、ノンパラメトリックのブートストラップブートストラップを実装しようとしています。 Rコードこれが私のRコードです： library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out ご質問 …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

3

ランダムフォレスト回帰における応答分布依存バイアス

RのrandomForestパッケージ（Rバージョン2.13.1、randomForestバージョン4.6-2）を回帰に使用していて、結果に大きなバイアスがあることに気付きました。予測エラーは応答変数の値に依存しています。高い値は予測不足であり、低い値は予測過剰です。最初はこれが私のデータの結果であると疑いましたが、次の簡単な例は、これがランダムフォレストアルゴリズムに固有であることを示唆しています。 n = 1000; x1 = rnorm(n, mean = 0, sd = 1) response = x1 predictors = data.frame(x1=x1) rf = randomForest(x=predictors, y=response) error = response-predict(rf, predictors) plot(x1, error) バイアスは応答の分布に依存していると思います。たとえば、x1均一に分布している場合、バイアスはありません。場合x1指数関数的に分布され、バイアスは片側です。基本的に、正規分布の裾での応答の値は異常値です。モデルが外れ値を予測するのが難しいのは当然のことです。randomForestの場合、分布の裾からの極端な大きさの応答値は最終的にリーフに到達する可能性が低くなり、その効果はアンサンブル平均では洗い流されます。前の例「R線形回帰の尾のランダムフォレストmtry」でこの効果をキャプチャしようとしたことに注意してください。これは悪い例でした。上記の例のバイアスがアルゴリズムに本当に固有のものである場合、予測しようとしている応答分布を前提としてバイアス補正を定式化でき、より正確な予測が得られます。ランダムフォレストなどのツリーベースの方法は、応答分布バイアスの影響を受けますか？もしそうなら、これは以前に統計コミュニティーに知られていますか、そしてそれは通常どのように修正されますか（例えば、バイアスされたモデルの残差を入力として使用する2番目のモデル）？本来、応答は不明であるため、応答依存バイアスの修正は困難です。残念ながら、推定/予測応答はバイアスと同じ関係を共有しないことがよくあります。

9 r regression random-forest

1

ロジスティック回帰：グループ化された変数とグループ化されていない変数（Rを使用）

私はA. Agresti（2007）、An Introduction to Categorical Data Analysis、2ndを読んでいます。版であり、この段落（p.106、4.2.1）を正しく理解しているかどうかはわかりません（ただし、簡単なはずです）。前章のいびきと心疾患に関する表3.1では、254人の被験者が毎晩いびきを報告しており、そのうち30人が心疾患を患っていました。データファイルにグループ化されたバイナリデータがある場合、データファイルの行は、これらのデータをサンプルサイズ254のうち30例の心臓病として報告します。データファイルにグループ化されていないバイナリデータがある場合、データファイルの各行は、個別の主題なので、30行には心疾患の1が含まれ、224行には心疾患の0が含まれます。ML推定値とSE値は、どちらのタイプのデータファイルでも同じです。グループ化されていないデータのセット（1つは依存、1つは独立）を変換すると、すべての情報を含めるのに「1行」以上かかることになります！？次の例では、（非現実的な！）単純なデータセットが作成され、ロジスティック回帰モデルが構築されます。グループ化されたデータは実際にはどのように見えますか（変数タブ？）グループ化されたデータを使用して同じモデルをどのように構築できますか？ > dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0)) > dat y x 1 0 1 2 1 1 3 0 0 4 1 0 5 0 0 > tab=table(dat) > tab x y 0 1 0 2 1 1 1 1 > …

9 r generalized-linear-model logistic

1

複雑な式なしで、Rにブラッドリー–テリー–ルースモデルを適合させる方法は？

Bradley–Terry–Luce（BTL）モデルは、であると述べていますここで、はオブジェクトが「より良い」と判断される確率です。重い、など、オブジェクトよりも、、および、およびパラメータです。pj i= l o g私トン− 1（δj- δ私）pj私=log私t−1（δj−δ私）p_{ji} = logit^{-1}(\delta_j - \delta_i)p私はjp私jp_{ij}jjj私私iδ私δ私\delta_iδjδj\delta_j これは、家族=二項式のglm関数の候補のようです。ただし、式は「Success〜S1 + S2 + S3 + S4 + ...」のようになります。ここで、Snはダミー変数です。つまり、オブジェクトnが比較の最初のオブジェクトの場合は1、それが-1の場合です。 2番目、それ以外の場合は0。その場合、Snの係数は対応するます。d電子リットルのt Aんdeltaんdelta_n これは、少数のオブジェクトだけで管理するのはかなり簡単ですが、非常に長い式になり、オブジェクトごとにダミー変数を作成する必要が生じる可能性があります。もっと簡単な方法があるのかなと思います。比較される2つのオブジェクトの名前または数が変数（因子？）Object1およびObject2であり、オブジェクト1がより適切であると判断された場合、Successは1であり、オブジェクト2がそうである場合、0です。

9 r logistic categorical-data paired-data bradley-terry-model

タグ付けされた質問 「r」

タグ付けされた質問「r」