統計とビッグデータ r

2

LeeとLemieux（p。31、2009）は、研究者に、回帰不連続設計分析（RDD）を実行しながらグラフを提示することを提案しています。彼らは以下の手順を提案します：「...帯域幅がいくつかあり、カットオフ値の左側と右側にそれぞれいくつかのビンと K_1がある場合、アイデアはビン（b_k、b_ {k + 1} ]、k = 1、。。。、K = K_0 + K_1、ここでb_k = c−（K_0−k + 1）\ cdot h。 "hhhK0K0K_0K1K1K_1bkbkb_kbk+1bk+1b_{k+1}k=1,...,K=K0k=1,...,K=K0k = 1, . . . ,K = K_0K1K1K_1bk=c−(K0−k+1)⋅h.bk=c−(K0−k+1)⋅h.b_k = c−(K_0−k+1) \cdot h. c=cutoff point or threshold value of assignment variable h=bandwidth or window width. ...次に、平均結果をカットオフポイントの左と右だけで比較します... " ..すべての場合において、カットオフポイントの両側で別々に推定された4次回帰モデルからの適合値も表示します...（同じ論文のp。34）私の質問は、私たちがその手順をプログラムはどうすればよいですStataかRに...シャープRDDのために（信頼区間）の割り当て変数に対して、結果変数のグラフをプロットするためのサンプル例がStata挙げられ、こことここ（rd_obsとRD置き換え）とサンプルの例Rはこちらです。ただし、これらはどちらもステップ1を実装していなかったと思います。どちらも生のデータと、プロットの適合線を持っていることに注意してください。信頼変数なしのサンプルグラフ[Lee and …

10 r regression data-visualization stata regression-discontinuity

1

AR（1）の推定におけるRおよびEViewsの違い

主な問題は次のとおりです。EViewsとRで同様のパラメーター推定を取得できません。自分がわからない理由で、EViewsを使用して特定のデータのパラメーターを推定する必要があります。これを行うには、NLS（非線形最小二乗）オプションを選択し、次の式を使用します。indep_var c dep_var ar(1) EViewsのクレーム：彼らはAR線形推定は、（1）のような処理ここエラーのように定義される：等価物を使用して方程式（代数的置換あり）：さらに、このスレッドはEViewsフォーラムのフォーラムでは、NLS推定はMarquardtアルゴリズムによって生成されることが示唆されています。U 、T 、U 、T = ρ ⋅ U T - 1 + ε YのT = （1 - ρ ）α + ρ YのT - 1 + β X T - ρ β X T - 1 + ε トンYt=α+βXt+utYt=α+βXt+ut Y_t = \alpha + …

10 r autoregressive software

1

全体的な切片なしでlme4の多変量混合モデルの係数を解釈する方法は？

多変量（つまり、複数の応答）の混合モデルをで近似しようとしていRます。ASReml-rおよびSabreRパッケージ（外部ソフトウェアが必要）を除いて、これはでのみ可能であるようMCMCglmmです。パッケージに付属する論文MCMCglmm（pp.6）で、Jarrod Hadfieldは、そのようなモデルを複数の応答変数を1つの長い形式の変数に再形成し、全体的なインターセプトを抑制するようにフィッティングするプロセスについて説明しています。私の理解では、切片を抑制すると、応答変数の各レベルの係数の解釈がそのレベルの平均になるように変更されます。したがって、上記を前提として、多変量混合モデルを当てはめることは可能lme4ですか？例えば： data(mtcars) library(reshape2) mtcars <- melt(mtcars, measure.vars = c("drat", "mpg", "hp")) library(lme4) m1 <- lmer(value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)), data = mtcars) summary(m1) # Linear mixed model fit by REML # Formula: value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)) …

10 r mixed-model multivariate-analysis lme4-nlme multivariate-regression

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

randomForestと変数の重要性のバグ？

MeanDecreaseAccuracy列のrfobject$importanceとの違いがimportance(rfobject)わかりません。例： > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > importance(fit) setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 1.277324 …

10 r random-forest importance

4

R対SciPyでの対数正規分布の近似

Rを使用して、データのセットで対数正規モデルを近似しました。結果のパラメーターは次のとおりです。 meanlog = 4.2991610 sdlog = 0.5511349 このモデルを、これまで使用したことがないScipyに転送したいと思います。Scipyを使用して、1と3.1626716539637488e + 90という非常に異なる数の形状とスケールを取得することができました。また、meanlogとsdlogのexpを使用しようとしましたが、奇妙なグラフが引き続き表示されます。私はscipyでできるすべてのドキュメントを読みましたが、この場合の形状とスケールのパラメーターの意味についてまだ混乱しています。関数を自分でコーディングするのは理にかなっていますか？私はscipyが初めてなので、エラーが発生しやすいようです。 SCIPYログノーマル（青）対Rログノーマル（赤）：どの方向に進むかについての考えはありますか？ちなみに、データはRモデルと非常によく適合しているので、Pythonで他のように見える場合は、自由に共有してください。ありがとうございました！更新：私はScipy 0.11を実行していますこれがデータのサブセットです。実際のサンプルは38k +で、平均は81.53627です。サブセット： x [60、170、137、138、81、140、78、46、1、168、138、148、145、35、82、126、66、147、88、106、80、54、83、13 102、54、134、34 ] numpy.mean（x） 99.071428571428569 または：私はpdfを取り込む機能に取り組んでいます： def lognoral(x, mu, sigma): a = 1 / (x * sigma * numpy.sqrt(2 * numpy.pi) ) b = - (numpy.log(x) - mu) …

10 r python numpy scipy

2

これらのカスタムコントラストを解釈する方法は？

私は、カスタムコントラストを使用して（種ごとに）一元配置分散分析を行っています。 [,1] [,2] [,3] [,4] 0.5 -1 0 0 0 5 1 -1 0 0 12.5 0 1 -1 0 25 0 0 1 -1 50 0 0 0 1 ここでは、強度0.5を5と比較し、5を12.5と比較しています。これらは私が取り組んでいるデータです次の結果 Generalized least squares fit by REML Model: dark ~ intensity Data: skofijski.diurnal[skofijski.diurnal$species == "niphargus", ] AIC BIC logLik …

10 r anova contrasts generalized-least-squares

1

非同期（不規則）時系列分析

2つの株価の時系列間のリードラグを分析しようとしています。通常の時系列分析では、VECM（Granger Causality）のCross Correlatonを実行できます。ただし、不規則な間隔の時系列で同じように処理するにはどうすればよいでしょうか。仮説は、楽器の1つがもう1つをリードするというものです。両方のシンボルのデータをマイクロ秒まで持っています。 RTAQパッケージを見て、VECMを適用してみました。RTAQは単変量時系列に基づいていますが、VECMはこれらのタイムスケールでは重要ではありません。 > dput(STOCKS[,])) structure(c(29979, 29980, 29980, 29980, 29981, 29981, 29991, 29992, 29993, 29991, 29990, 29992), .Dim = c(6L, 2L), .Dimnames = list(NULL, c("Pair_Bid", "Calc_Bid" )), index = structure(c(1340686178.55163, 1340686181.40801, 1340686187.2642, 1340686187.52668, 1340686187.78777, 1340686189.36693), class = c("POSIXct", "POSIXt"), tzone = ""), class = "zoo")

10 r time-series cross-correlation unevenly-spaced-time-series

1

poly（raw = T）とpoly（）の結果が大きく異なるのはなぜですか？

2つの異なる時間変数をモデル化します。そのうちのいくつかは、データ（年齢+コホート=期間）で非常に同一線上にあります。これを行うと、ととのlmer相互作用で問題が発生しましたがpoly()、おそらくそれに限定されずlmer、nlmeIIRCでも同じ結果が得られました。明らかに、poly（）関数の機能についての私の理解は欠けています。私は何をpoly(x,d,raw=T)しているのかを理解し、それなしraw=Tでは直交多項式を作成すると考えました（それが何を意味するのか本当に理解できていません）。これはフィッティングを容易にしますが、係数を直接解釈することはできません。私は予測関数を使用しているので、予測は同じであると読みました。しかし、モデルが正常に収束しても、そうではありません。私は中心に置かれた変数を使用していて、多分直交多項式が共線相互作用項との固定効果相関が高くなる可能性があると最初に思いましたが、それは同等であるようです。ここに 2つのモデルの概要を貼り付けました。これらのプロットは、うまくいけば、違いの程度を示しています。私は開発者でのみ利用可能な予測関数を使用しました。lme4のバージョン（ここで聞いた）ですが、修正された効果はCRANバージョンでも同じです（たとえば、DVの範囲が0〜4の場合、インタラクションの場合は〜5など）。 lmerコールは cohort2_age =lmer(churchattendance ~ poly(cohort_c,2,raw=T) * age_c + ctd_c + dropoutalive + obs_c + (1+ age_c |PERSNR), data=long.kg) 予測は固定データのみで、偽のデータ（他のすべての予測子= 0）に対して、元のデータに存在する範囲を外挿= Fとしてマークしました。 predict(cohort2_age,REform=NA,newdata=cohort.moderates.age) 必要に応じてより多くのコンテキストを提供できます（再現可能な例を簡単に作成することはできませんでしたが、もちろんもっと頑張ることができます）が、これはより基本的な嘆願だと思いますpoly()。機能を説明してください。生の多項式直交多項式（Imgurでクリップ、非クリップ）

10 r lme4-nlme polynomial

1

スプライン項と非スプライン項の相互作用はどういう意味ですか？

lm(y~a*b)R構文でaがバイナリ変数でb数値変数であるのようなものでデータを近似する場合、a:b相互作用項はy~bat a= 0とat a= 1の勾配の差です。ここで、との関係が曲線的であるyとしましょうb。私は今収まる場合はlm(y~a*poly(b,2))、その後a:poly(b,2)1の変化の変化であるy~bのレベルを条件とa上記のように、とa:poly(b,2)2の変化であるy~b^2のレベルを条件a。少し手を振る必要がありますが、これらの相互作用係数のいずれかがゼロと大幅に異なる場合、それはa、垂直方向の変位だけでyなく、ピークの位置とy~b+b^2曲線のピークへのアプローチの急角度にも影響を与えることを意味する可能性があります。私が合うならどうlm(y~a*bs(b,df=3))ですか？どのように私は解釈しないa:bs(b,df=3)1、a:bs(b,df=3)2とa:bs(b,df=3)3用語を？これらは、3つのセグメントのそれぞれにy起因するスプラインからの垂直変位aですか？

10 r multiple-regression splines

2

正則化

正則化を実行するには多くの方法があります。たとえば、、L 1、およびL 2ノルムベースの正則化です。Friedman Hastie＆Tibsharaniによると、最適な正則化器は問題に依存します。つまり、真のターゲット関数の性質、使用される特定の基底、信号対雑音比、およびサンプルサイズです。L0L0L_0L1L1L_1L2L2L_2 さまざまな正則化方法の方法とパフォーマンスを比較する実証的研究はありますか？

10 r regression machine-learning regularization

6

バイナリ結果の一連のカテゴリカル予測子の予測力を評価する方法は？確率またはロジスティック回帰を計算しますか？

私は、単純な確率が私の問題で機能するかどうか、またはロジスティック回帰などのより洗練された方法を使用（および学習）する方が良いかどうかを判断しようとしています。この問題の応答変数はバイナリ応答（0、1）です。私はすべてカテゴリカルで順序付けされていない多数の予測変数を持っています。私は、予測変数のどの組み合わせが1の割合が最も高いかを判断しようとしています。ロジスティック回帰は必要ですか？カテゴリカル予測子の各組み合わせについて、サンプルセットの比率を計算するだけの利点は何ですか？

10 r probability logistic

2

3因子反復測定分散分析の有効な事後分析とは何ですか？

私は3因子反復測定ANOVAを実行しました。どのような事後分析が有効ですか？これは完全にバランスの取れた設計（2x2x2）であり、因子の1つに被験者内の反復測定があります。Rで反復測定ANOVAへの多変量アプローチを知っていますが、私の最初の本能は、ANOVAの単純なaov（）スタイルを続行することです。 aov.repeated <- aov(DV ~ IV1 * IV2 * Time + Error(Subject/Time), data=data) DV =応答変数 IV1 =独立変数1（2レベル、AまたはB） IV2 =独立変数2（2レベル、はいまたはいいえ） IV3 =時間（2レベル、前または後）被験者=被験者ID（合計40被験者、IV1の各レベルに対して20：nA = 20、nB = 20） summary(aov.repeated) Error: Subject Df Sum Sq Mean Sq F value Pr(>F) IV1 1 5969 5968.5 4.1302 0.049553 * IV2 1 3445 3445.3 2.3842 …

10 r anova repeated-measures interaction post-hoc

1

交差する変量効果と不均衡データ

2つの交差したランダム効果があると思われるデータをモデリングしています。しかし、データセットはバランスが取れておらず、それを説明するために何をする必要があるのかわかりません。私のデータは一連のイベントです。イベントは、クライアントがプロバイダーと会ってタスクを実行するときに発生します。何千ものクライアントとプロバイダーがあり、各クライアントとプロバイダーはさまざまな数のイベント（約5〜500）に参加しています。各クライアントとプロバイダーにはある程度のスキルがあり、タスクが成功する可能性は両方の参加者のスキルの関数です。クライアントとプロバイダーの間に重複はありません。クライアントとプロバイダーの人口のそれぞれの差異に興味があるので、どのソースが成功率に大きな影響を与えるかを知ることができます。また、私たちが実際にデータを持っているクライアントとプロバイダー間のスキルの具体的な値を知り、最良または最悪のクライアントまたはプロバイダーを特定したいと考えています。最初は、成功の確率はクライアントとプロバイダーのスキルレベルの組み合わせによってのみ決定され、他の固定効果はないと仮定したいと思います。したがって、xがクライアントの係数であり、yがプロバイダーの係数であるとすると、Rでは（パッケージlme4を使用）、次のように指定されたモデルがあります。 glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events) 1つの問題は、クライアントがプロバイダー間で均等に分散されていないことです。スキルの高いクライアントは、スキルの高いプロバイダーと一致する可能性が高くなります。私の理解は、変量効果はモデル内の他の予測子と無相関でなければならないということですが、それをどのように説明するかわかりません。また、一部のクライアントとプロバイダーはイベントが非常に少ない（10未満）一方で、多くのイベント（最大500）があるため、各参加者のデータ量は広範囲に広がっています。理想的には、これは各参加者のスキル推定値の周りの「信頼区間」に反映されます（信頼区間という用語はここでは完全に正しくないと思います）。データのバランスが取れていないため、交差したランダム効果は問題になりますか？もしそうなら、私が考慮すべき他のいくつかのアプローチは何ですか？

10 r mixed-model random-effects-model logistic

1

SEMモデリングのサポート（OpenMx、polycor）

SEMを適用しようとしている1つのデータセットに多くの問題があります。 5つの潜在因子A、B、C、D、Eが存在し、指標がそれぞれ存在するとします。A1からA5（順序付けられた因子）、B1からB3（定量的）、C1、D1、E1（最後の3つの順序付けされた因子すべて、E1のレベルは2つのみ。すべての因子間の共分散に関心があります。使用OpenMxしてみました。ここに私の試みのいくつかがあります：最初にすべての順序付けされた要素にしきい値行列を使用しようとしましたが、収束は失敗しました。 hetcorライブラリの関数を使用して、生データの代わりにポリコリック/ポリシリアル相関を使用することにしましたpolycor（信頼区間を得るためにサンプルをブートストラップすることを計画していました）。また、収束に失敗します！私は完全なデータを持つ個人に制限しようとしました、それも失敗します！私の最初の質問は次のとおりです。これらの失敗を解釈する自然な方法はありますか？私の2番目の質問は次のとおりです。どうすればよいですか??? 編集：同じ問題に遭遇する可能性のある将来の読者のために、関数のコードを調べた後polycor...解決策はhetcor()オプションを使用することstd.err=FALSEです。これは、StasKが与えたものと非常によく似た見積もりを与えます。ここで何が起こっているのかをよく理解する時間はありません！以下の質問は、StasKによってかなりよく回答されています。他にも質問がありますが、何よりもまずL1、完全なデータのみを含むデータフレームを含むRDataファイルのURLを次に示します。data_sem.RData ここに、の失敗を示す数行のコードがありhetcorます。 > require("OpenMx") > require("polycor") > load("data_sem.RData") > hetcor(L1) Erreur dans cut.default(scale(x), c(-Inf, row.cuts, Inf)) : 'breaks' are not unique De plus : Il y a eu 11 avis (utilisez warnings() pour les visionner) > head(L1) A1 A2 A3 A4 …

10 r modeling multiple-regression sem

タグ付けされた質問 「r」

タグ付けされた質問「r」