統計とビッグデータ r

2

私たちは、私たちが作る意味し、ランダムずに線形回帰をシミュレートすることができの代わりに、。次に、線形モデルを当てはめると、係数は「グラウンドトゥルース」と同じになります。例を示します。Y = X β + εy=Xβy=Xβy=X\betay=Xβ+ϵy=Xβ+ϵy=X\beta+\epsilon set.seed(0) n <- 1e5 p <- 3 X <- matrix(rnorm(n*p), ncol=p) beta <- runif(p) # y <- X %*% beta + rnorm(n)*0.5 # remove the randomness y <- X %*% beta dat <- data.frame(y=y, x=X) lm.res = lm(y ~ .-1, data=dat) norm(as.matrix(lm.res$coefficients - beta)) …

8 r logistic regularization linear separation

2

反復測定ANOVAと主格因子による階乗ANOVA：aovの「エラーストラタ」とError（）の用語を理解する

被験者内因子を1つ持つ反復測定ANOVA（RM-ANOVA）とA、各レベルの被験者ごとに複数の測定を検討しますA。これは、2つの因子を備えた2因子ANOVAと密接に関連しAていsubjectます。：彼らは4つの部分に乗の和の同じ分解を使用しA、subject、A⋅subject、とresidual。ただし、双方向ANOVAはAのSSを残差SSと比較してAの効果をテストし、RM-ANOVAはAのSSをA主題相互作用SS と比較してAの効果をテストします。⋅⋅\cdot なぜ違いますか？この違いは、データの反復測定構造に自動的に従うのですか、それとも何らかの慣習ですか？双方向ANOVAとRM-ANOVAのこの違いは、2つの異なるnullのテストに対応していますか？もしそうなら、それらは正確には何であり、なぜこれらの2つのケースで異なるnullを使用するのですか？双方向ANOVAの検定は、2つのネストされたモデル（フルモデルとAなしのモデル）間のF検定として理解できます。RM-ANOVAも同様に理解できますか？（Aの各レベルの被験者ごとに測定値が1つしかない場合、A被験者と残差の変動を分解できないため、区別の種類は消えます：一方向反復測定ANOVAは双方向ANOVAと同等ですか？）⋅⋅\cdot デモンストレーション http://dwoll.de/rexrepos/posts/anovaMixed.htmlでd2生成されたおもちゃのデータを使用します。同じWebページに、RM-ANOVAの正しい構文が示されています。 # Discarding between-subject factors and leaving only one within-subject factor d = d2[d2$Xb1=='CG' & d2$Xb2 == 'f', c(1,4,6)] （ペーストビンの再現可能なバージョンはこちらを参照してください。）データは次のようになります。 id Xw1 Y 1 s1 A 28.6 2 s1 A 96.6 3 s1 A 64.8 4 s1 B 107.5 5 s1 …

8 r anova repeated-measures

1

Rのボックスプロット：変位値が決定されるときに異常値はカウントされますか？

1次元のデータセットがあり、boxplot関数を使用してボックスプロットを作成します。その後、私はいくつかの外れ値を持っていることがわかります。変位値が決定されるときに異常値はカウントされますか？どちらの方法が使用されているかが明らかである限り、正しい/間違った方法はありますか、それとも両方が正しいですか？もしそうなら、Rはそれをどのように行うのですか？

8 r data-visualization boxplot

2

ブートストラップによる標準偏差信頼区間推定の奇妙なパターン

一部のデータの標準偏差の信頼区間を推定したいと思いました。Rコードは次のようになります。 library(boot) sd_boot <- function (x, ind) { res <- sd(x$ReadyChange[ind], na.rm = TRUE) return(res) } data_boot <- boot::boot(data, statistic = sd_boot, R = 10000) plot(data_boot) そして、私は次のプロットを持っています：このブートストラップのヒストグラムを正しく解釈できません。同様のデータの他のすべてのセットは、ブートストラップ推定の正規分布を示しています...しかし、これはそうではありません。ちなみに、これは実際の生データです： > data$ReadyChange [1] 27.800000 8.985046 11.728021 8.830856 5.738600 12.028310 7.771528 9.208924 11.778611 6.024259 5.969931 6.063484 4.915764 [14] 12.027639 9.111146 13.898171 12.921377 6.916667 …

8 r confidence-interval standard-deviation bootstrap

1

cv.glmnet（）プロットを解釈する方法は？

投げ縄を実行してから、1回限りの相互検証を実行しました cv<-cv.glmnet(df, df$Price, nfolds = 1500) cvをプロットすると、次のようになります。また、私は2つの異なるラムダを得ることに気づいた：lambda.minとlambda.1se これらのラムダの違いは何ですか？上記のプロットから一般的に何を理解できますか（これらの信頼区間とは何か、2つの点線とは何ですか）？ nfolds=1010倍の検証を実行するように変更するとlambda.1se、このラムダに対して異なる係数が得られます。どのクリテリオに基づいて、自分に最適なものを選択できますか？

8 r cross-validation interpretation lasso

1

ポアソンGLMMの異分散性の解決

長期的な収集データがあり、収集した動物の数が天候の影響によって影響を受けるかどうかをテストしたいと思います。私のモデルは以下のようになります： glmer(SumOfCatch ~ I(pc.act.1^2) +I(pc.act.2^2) + I(pc.may.1^2) + I(pc.may.2^2) + SampSize + as.factor(samp.prog) + (1|year/month), control=glmerControl(optimizer="bobyqa", optCtrl=list(maxfun=1e9,npt=5)), family="poisson", data=a2) 使用される変数の説明： SumOfCatch：収集された動物の数 pc.act.1、pc.act.2：サンプリング中の気象条件を表す主成分の軸 pc.may.1、pc.may.2：5月の気象条件を表すPCの軸 SampSize：落とし穴トラップの数、または標準の長さのトランセクトの収集 samp.prog：サンプリングの方法年：サンプリングの年（1993年から2002年まで）月：サンプリングの月（8月から11月まで）フィットされたモデルの残差は、フィットされた値に対してプロットすると、かなりの不均一性（異分散性？）を示します（図1を参照）。私の主な質問は、これは私のモデルの信頼性を疑わしいものにする問題ですか？もしそうなら、それを解決するために私は何ができますか？これまでのところ、私は以下を試しました：観測レベルの変量効果を定義することによって過剰分散を制御します。つまり、観測ごとに一意のIDを使用し、このID変数を変量効果として適用します。私のデータはかなりの過剰分散を示していますが、残差がさらに醜くなったため、これは役に立ちませんでした（図2を参照）ランダムエフェクトのないモデルを、準ポアソンglmとglm.nbでフィッティングしました。元のモデルと同様の残差プロットと近似プロットも生成しました私の知る限り、異分散性一貫性のある標準誤差を推定する方法はあるかもしれませんが、Rのポアソン（または他の種類の）GLMMに対してそのような方法を見つけることはできませんでした。 @FlorianHartigへの応答：データセット内の観測値の数はN = 554であり、これはかなりの観測値だと思います。そのようなモデルの数ですが、もちろん、より多くの陽気です。2つの図を投稿します。最初の図は、DHARMaでスケーリングされたメインモデルの残差プロット（Florianが推奨）です。 2番目の図は2番目のモデルからのもので、唯一の違いは観測レベルの変量効果が含まれていることです（最初のモデルには含まれていません）。更新気象変数（予測子、つまりx軸）とサンプリングの成功（応答）の関係の図：アップデートII。予測値と残差を示す図：

8 r poisson-distribution heteroscedasticity glmm

1

毛虫では、捕食者に対する抵抗力においてサイズよりも食事が重要ですか？

自然食（モンキーフラワー）を食べる毛虫が、人工食（小麦胚芽とビタミンの混合物）を食べる毛虫よりも捕食者（アリ）に対して耐性があるかどうかを調べています。小さなサンプルサイズで試験研究を行いました（20の幼虫、食事あたり10匹）。実験前に各キャタピラーの重量を量った。アリのグループに5分間、1組の毛虫（食事ごとに1つ）を提供し、各毛虫が拒否された回数をカウントしました。このプロセスを10回繰り返しました。これは私のデータのようになります（A =人工食、N =自然食）： Trial A_Weight N_Weight A_Rejections N_Rejections 1 0.0496 0.1857 0 1 2 0.0324 0.1112 0 2 3 0.0291 0.3011 0 2 4 0.0247 0.2066 0 3 5 0.0394 0.1448 3 1 6 0.0641 0.0838 1 3 7 0.0360 0.1963 0 2 8 0.0243 0.145 0 3 9 …

8 r anova

2

Rはこの二項回帰のp値をどのように計算しますか？

次の二項回帰を考えます。 # Create some data set.seed(10) n <- 500 x <- runif(n,0,100) y <- x + rnorm(n,sd=100) < 0 # Fit a binomial regression model model <- glm(y ~ x, family="binomial") summary(model) summary関数は、p値を返します1.03e-05。をanova.glm使用する場合、p値の計算にどの方法を使用するかに関係なく、p値が少し極端になります。 anova(model, test="Rao") # p.value = 7.5e-6 anova(model, test="LRT") # p.value = 6.3e-6 anova(model, test="Chisq") # p.value = …

8 r hypothesis-testing logistic generalized-linear-model binomial

3

この残差プロットをどのように解釈すればよいですか？

このグラフを解釈できません。私の従属変数は、ショーで販売される映画チケットの総数です。独立変数は、ショーの前に残った日数、季節性ダミー変数（曜日、年、月、休日）、価格、日付までに販売されたチケット、映画の評価、映画の種類（スリラー、コメディなど）です。）。また、映画館の定員は固定ですのでご了承ください。つまり、最大xの人数のみをホストできます。線形回帰ソリューションを作成していますが、テストデータに適合していません。だから私は回帰診断から始めることを考えました。データは、需要を予測したい単一の映画館からのものです。は多変量データセットです。日付ごとに、ショーの前日を表す90の重複行があります。したがって、2016年1月1日のレコードは90です。ショーの何日前かを示す 'lead_time'変数があります。つまり、2016年1月1日の場合、lead_timeの値が5であれば、ショーの日付の5日前までチケットが販売されます。従属変数、販売されたチケットの合計では、同じ値が90回得られます。また、余談として、残差プロットを解釈して後でモデルを改善する方法を説明した本はありますか？

8 r regression logistic residuals diagnostic

4

重回帰モデルですべての変数が非常に重要になることは現実的ですか？

エンジンの排気量、燃料の種類、2対4輪駆動、馬力、マニュアルトランスミッションと自動トランスミッション、および速度の数について、燃費を後退させたいと思います。私のデータセット（リンク）には、2012〜2014年の車両が含まれています。 fuelEconomy ガロンあたりのマイル engineDisplacement：エンジンサイズ（リットル） fuelStd：ガス用1、ディーゼル用0 wheelDriveStd：2輪駆動の場合は1、4輪駆動の場合は0 hp：馬力 transStd：自動の場合は1、手動の場合は0 transSpeed：速度の数 Rコード： reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + transStd + transSpeed, data = a) summary(reg) Call: lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + transStd + transSpeed, data = a) Residuals: Min …

8 r statistical-significance multiple-regression interpretation

2

隠れマルコフモデルの場合、DepmixS4パッケージで新しいデータの状態確率または状態を予測する方法

パラメータをうまく学習してトレーニングデータの事後確率を見つけることができるようですが、新しいデータで新しい予測を行う方法についての手がかりはありません。特に問題は、共変量で変化する遷移確率に起因するため、新しいデータを予測するコードを書くのは簡単ではありません。標準的なアプローチは、（依存する）混合を定義し、モデルに適合させることです： mod <- depmix(EventTime ~ 1, data = data[1:40320,], nstates = 2, family =multinomial("identity"), transition = ~ Count, instart = runif(2)) fm <- fit(mod, emcontrol=em.control(classification="soft", maxit = 60)) 上記の内容は、イベントがシーケンスを移動する1/0従属変数として発生したかどうかを分類しようとしているため、バイナリHMMと同様に機能するはずです。遷移共変量は、状態の遷移確率に直接影響する頻度カウント変数で、その後、1/0従属変数の放出確率を制御します。モデルのパラメーターを取得し、別の新しいモデルにパラメーターを設定することが可能です。しかし、ライブラリの根本のどこかにあるはずですが、明確な予測方法はありません。 modNew <- depmix(EventTime~1,data=data2,transition=~Count,nstates=2, family=multinomial("identity")) modNew <- setpars(modNew,getpars(fm)) ドキュメントでは、ビタビアルゴリズムを実行して新しいデータの状態を生成することが可能であると記載されています。ただし、これは私にとって特に有用ではなく、データに完全に適合しているように見えますが、それでも新しいデータに適合できることを学習しています。 probs2 <- viterbi(modNew) 注：私はこのトピックを初めて使用します。実装のこの段階は私には難しいですが、どういうわけかそれは分析の基本的な部分のようです。

8 r hidden-markov-model mixture

3

ワイブルファミリーにフィットするGLM [終了]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 12か月前に閉鎖。ワイブルファミリーの一般化線形モデルを近似しようとしていますが、Rでそれを試すと、エラーが発生します。ワイブルが指数関数的ファミリーに適合しないことは知っていますが、GLMをワイブルファミリーに適合させることに関するいくつかの研究記事を読んだことがあります。誰かがこれを手伝ってくれるなら、本当に感謝しています。次のエラーが発生します。 > data(lung) > glm(time ~ age+sex+ph.ecog+ wt.loss, family = weibull(link='log'), data = lung) Error in glm(time ~ age + sex + ph.ecog + wt.loss, family = weibull(link = "log"), : could not find function "weibull"

8 r generalized-linear-model survival gamlss

3

SVDを実行して欠損値を代入する方法、具体例

SVDを適用する前に欠損値を処理する方法に関する素晴らしいコメントを読みましたが、簡単な例でどのように機能するか知りたいです。 Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 上記のマトリックスを考えると、NAの値を削除すると、User2とUser5しかなくなります。これは、私のUが2×kになることを意味します。しかし、欠損値を予測する場合、Uは5×kである必要があります。これは、特異値とVで乗算できます。上記のマトリックスで、最初に欠損値のあるユーザーを削除してからSVDを適用して、欠損値を記入する人はいますか？数学記号を使いすぎずに、適用した手順の非常に簡単な説明を提供し、答えを実用的なものにしてください（つまり、数値に別の数値を掛けると答えが得られます）。次のリンクを読みました。 stats.stackexchange.com/q/33142 stats.stackexchange.com/q/31096 stats.stackexchange.com/q/33103

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

1

連結された独立したAR（1）プロセスの自己相関

ましょう IIDは各ドローすなわち長さ10のベクトルであるAR（1）プロセスから描画連結することによって形成された確率論的プロセスであり、はAR（1）プロセスの実現です。は同じプロセスから描画されますが、最初の10個の観測から独立しています。など。{ X 1、X 2、… 、X 10 } { X 11、X 12、… 、X 20 }{ Xt}{Xt}\left\{X_t\right\}{ X1、X2、… 、X10}{バツ1、バツ2、…、バツ10}\left\{X_1, X_2, \ldots, X_{10}\right\}{ X11、X12、… 、X20}{バツ11、バツ12、…、バツ20}\left\{X_{11}, X_{12}, \ldots, X_{20}\right\} ACF何をします -それを呼び出すのように見て- ？仮定により、10個の観測値の各ブロックは他のすべてのブロックから独立しているため、長さラグの場合、はゼロであると期待していました。ρ （L ） ρ （L ） L ≥ 10バツバツXρ （l ）ρ（l）\rho\left(l\right)ρ （l ）ρ（l）\rho\left(l\right)L ≥ 10l≥10l \geq 10 しかし、データをシミュレートすると、次のようになります。 simulate_ar1 <- function(n, burn_in=NA) …

8 r autocorrelation independence lags

1

ガムモデルの結果の解釈

mgcvR のパッケージを使用していくつかの一般化された加法モデルをフィッティングしており、2つのモデル間でテストしたいと考えています。用語を削除できるかどうか。しかし、（私が知る限り）矛盾する結果が出ています。追加されm1たの滑らかな項を持つモデルは、、AIC、説明された逸脱度、およびF検定を使用してモデルを比較するときにx、より良い適合を与えるように見えます。ただし、平滑化項の重要性は重要ではありません（モデルにスプラインではなく線形共変量として追加した場合も同様です）。R2a djRadj2R^{2}_{adj} スムーズタームテストの私の解釈は正しいですか？私がヘルプページを理解できたのは、テストは概算であったということですが、ここにはかなり大きな違いがあります。モデルの出力 m1 <- gam(out ~ s(x) + s(y) + s(z), data=dat) > summary(m1) # # Family: gaussian # Link function: identity # # Formula: # out ~ s(x) + s(y) + s(z) # # Parametric coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) …

8 r regression gam

タグ付けされた質問 「r」

タグ付けされた質問「r」