統計とビッグデータ r

2

Rでのモデルの平均化を使用して、いくつかのデータの分析から何を報告するかを理解および把握しようとしています。次のスクリプトを使用して、特定の変数に対する測定方法の影響を分析しています。これはデータセットです。https：//www.dropbox.com/s/u9un273gzw9o30u/VMT4.csv？dl = 0 装着するモデル： LM.1 <- gls(VMTf ~ turn+sex+method, na.action="na.fail", method = "ML",VMT4) 浚渫フルモデル require(MuMIn) d=dredge(LM.1) print(d) coefficients(d) すべてのモデルの要約情報を取得してパラメーター推定値を取得する summary(model.avg(d)) すべてのモデルを平均化（フルモデル平均）することも、それらのサブセットのみ（条件付き平均化）にすることもできます。さて、私は知りたいのですが、完全平均または条件付き平均を使用して推論を行う方が良い場合はいつですか。科学論文についてこれをすべて報告する必要がありますか？モデルの平均化状況で正確にZ値と関連するpはどういう意味ですか？質問を視覚化しやすくするため。これが結果表です > summary(model.avg(d))# now, there are effects Call: model.avg(object = d) Component model call: gls(model = VMT ~ <8 unique rhs>, data = VMT4, method = ML, na.action …

11 r model-averaging

1

GLMにはいくつのディストリビューションがありますか？

私は、GLMが5つの分布（つまり、ガンマ、ガウス、二項、逆ガウス、およびポアソン）で記述されている教科書の複数の場所を特定しました。これは、Rの家族関数でも例示されています。追加のディストリビューションが含まれているGLMへの参照に遭遇することがあります（例）。これらの5つがなぜ特別なのか、または常にGLMにあるのか、誰かがなぜ他の人が特別なのかを誰かが説明できますか？私がこれまでに学んだことから、指数関数的に家族の中でGLM分布フォームにすべて適合：ここで、ϕは分散パラメーター、θは正準パラメーターです。f(y;θ,ϕ)=exp{yθ−b(θ)ϕ+c(y,ϕ)}f(y;θ,ϕ)=exp⁡{yθ−b(θ)ϕ+c(y,ϕ)}f(y;\theta,\phi)=\exp\left\{\frac{y\theta-b(\theta)}{\phi}+c(y,\phi)\right\}ϕϕ\phiθθ\theta GLMに適合するように分布を変換することはできませんか？

11 r probability distributions generalized-linear-model

3

ブラウニアンブリッジを使用してブラウニアンエクスカーションをシミュレートしますか？

私はブラウンエクスカーションプロセス（場合は常に正である条件付けられるブラウン運動をシミュレートしたいとで）。ブラウニアンエクスカーションプロセスは、常にポジティブになるように条件付けされたブラウニアンブリッジであるため、ブラウニアンブリッジを使用して、ブラウニアンエクスカーションのモーションをシミュレートしたいと考えていました。0 t = 10<t<10<t<10 \lt t \lt 1000t=1t=1t=1 Rでは、ブラウンブリッジプロセスをシミュレートするために 'e1017'パッケージを使用しています。このブラウン橋プロセスを使用して、ブラウンエクスカーションを作成するにはどうすればよいですか？

11 r gaussian-process brownian

2

RのglmnetとPythonのscikit-learnを使用したリッジ回帰の違いは何ですか？

James、Witten、Hastie、Tibshirani（2013）著の「An Introduction to Statistical Learning with Applications in R」の Ridge Regression / LassoのLABセクション§6.6を通過します。より具体的にはRidge、Rパッケージ 'ISLR'の 'Hitters'データセットにscikit-learn モデルを適用しようとしています。Rコードに示されているのと同じ機能セットを作成しました。ただし、glmnet()モデルの結果に近づくことはできません。比較するL2チューニングパラメーターを1つ選択しました。（scikit-learnの「alpha」引数）。 Python： regr = Ridge(alpha=11498) regr.fit(X, y) http://nbviewer.ipython.org/github/JWarmenhoven/ISL-python/blob/master/Notebooks/Chapter%206.ipynb R：の引数alpha=0はglmnet()、L2ペナルティを適用する必要があることを意味することに注意してください（リッジ回帰）。ドキュメンテーションでは、に単一の値を入力しないように警告していますlambdaが、結果は、ISLの場合と同じで、ベクトルが使用されています。 ridge.mod <- glmnet(x,y,alpha=0,lambda=11498) 何が違いの原因ですか？編集： Rのペナルティパッケージから使用する場合penalized()、係数はscikit-learnと同じです。 ridge.mod2 <- penalized(y,x,lambda2=11498) おそらく問題は、「リッジ回帰を実行するときglmnet()と実行するpenalized()ときの違いは何ですか？」 Rパッケージglmnetで使用される実際のFortranコード用の新しいPythonラッパー https://github.com/civisanalytics/python-glmnet

11 r machine-learning scikit-learn regression

2

偏ったブートストラップ：観測された統計を中心にCIを中心にしても大丈夫ですか？

これはブートストラップに似ています：推定は信頼区間外です母集団の遺伝子型の数を表すデータがいくつかあります。Shannonのインデックスを使用して遺伝的多様性を推定し、ブートストラップを使用して信頼区間も生成したいと考えています。ただし、ブートストラップによる推定は非常に偏りがちであり、信頼区間が私の観察した統計の範囲外にあることに気づきました。以下に例を示します。 # Shannon's index H <- function(x){ x <- x/sum(x) x <- -x * log(x, exp(1)) return(sum(x, na.rm = TRUE)) } # The version for bootstrapping H.boot <- function(x, i){ H(tabulate(x[i])) } データ生成 set.seed(5000) X <- rmultinom(1, 100, prob = rep(1, 50))[, 1] 計算 H(X) ## [1] 3.67948 …

11 r confidence-interval bootstrap bias diversity

2

与えられた応答変数に関する最適なビニング

与えられた応答（ターゲット）バイナリ変数に関して、パラメーターとして間隔の最大数を持つ連続変数の最適なビニング方法（離散化）を探しています。例：「height」（数値連続）および「has_back_pains」（バイナリ）変数を持つ人々の一連の観察結果があります。高さを最大3つの間隔（グループ）に離散化して、背中の痛みを持つ人々の比率を変えて、アルゴリズムがグループ間の差を最大化するようにします（たとえば、各間隔には少なくともx個の観測値があるという制限があります）。この問題の明らかな解決策は、決定木（単純な1変数モデル）を使用することですが、Rで「最大分岐数」をパラメーターとして持つ関数を見つけることができません。それらすべてが変数を分割します。 2 gropus（<= x and> x）に。SASマイナーには「最大ブランチ」パラメーターがありますが、私は非商用ソリューションを探しています。一部の変数には一意の値がわずかしかありません（離散変数として扱うこともできます）が、それらを同様に少数の間隔に離散化したいと考えています。私の問題に最も近い解決策は、Rのsmbinningパッケージ（パーティパッケージのctree関数に依存）に実装されていますが、2つの欠点があります。間隔の数を設定することはできません（ただし、変更することで回避策を見つけることができます） pパラメータ）。データベクトルの一意の値が10未満の場合は機能しません。とにかく、ここで出力例を見ることができます（カットポイントとオッズ列は重要です）： Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV 1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596 2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 …

11 r dataset optimization discrete-data binning

1

サンプリング変数を使用した混合効果モデルの設計

lme4実験計画の線形混合効果モデル（を使用）の式を指定しようとしていますが、正しく実行されているかどうかはわかりません。設計：基本的には植物の応答パラメーターを測定しています。私は4つのレベルの治療と2つの灌漑レベルがあります。植物は16のプロットにグループ化され、各プロット内で4つのサブプロットをサンプリングします。各サブプロットで、15から30の間の観測値をとります（見つかった植物の数に依存します）。つまり、合計1500行あります。当初、サブプロットレベルはサンプリングのためだけにありましたが、サブプロットごとに多くの変動があることがわかったので、モデルで（64レベル変数として）考慮に入れたいと思いました。、同じプロット内でも（プロット全体のばらつきよりも大きい）。私の最初のアイデアは、書くことでした： library(lme4) fit <- lmer(y ~ treatment*irrigation + (1|subplot/plot), data=mydata) または fit <- lmer(y ~ treatment*irrigation + (1|subplot) + (1|plot), data=mydata) あれは正しいですか？数式でプロットとサブプロットの両方のレベルを維持する必要があるかどうかはわかりません。固定効果は重要ではありませんが、ランダム効果は非常に重要です。

11 r experiment-design mixed-model

1

溶岩の出力をどのように解釈しますか？

を使用して確認因子分析（CFA）を試みていlavaanます。によって生成された出力を解釈するのに苦労していlavaanます。私は単純なモデルを持っています-収集された調査データからのアイテムによってそれぞれサポートされる4つの要素。これらの要素は、それらが有効な測定値として機能する可能性が高いと思われる程度まで、項目によって測定されるものと一致しています。私はによって生成次の出力を理解する助けてくださいlavaanさんをcfa()： Number of observations 1730 Estimator ML Minimum Function Test Statistic 196.634 Degrees of freedom 21 P-value (Chi-square) 0.000 Model test baseline model: Minimum Function Test Statistic 3957.231 Degrees of freedom 36 P-value 0.000 User model versus baseline model: Comparative Fit Index (CFI) 0.955 Tucker-Lewis Index (TLI) 0.923 …

11 r sem confirmatory-factor lavaan

2

ロジスティック回帰とロジット線形回帰によって推定される係数はいつ異なりますか？

連続比率をモデル化する場合（例：調査区画での比例植生被覆、または活動に従事する時間の比率）、ロジスティック回帰は不適切であると見なされます（例：Warton＆Hui（2011）Arcsine is asinine：the analysis of ratios in ecology）。むしろ、比率をロジット変換した後のOLS回帰、またはおそらくベータ回帰がより適切です。 R lmとを使用すると、ロジット線形回帰とロジスティック回帰の係数推定値はどのような条件下で異なりますglmか？次のシミュレートされたデータセットを取り上げます。ここでpは、それが生データ（つまり、表すのではなく、連続比率）であると想定できます。んS U C C E S S E Sんt r i a l snsuccessesntrials{n_{successes}\over n_{trials}} set.seed(1) x <- rnorm(1000) a <- runif(1) b <- runif(1) logit.p <- a + b*x + rnorm(1000, 0, 0.2) p <- plogis(logit.p) plot(p ~ x, …

11 r regression logistic

1

R-Lasso Regression-リグレッサごとに異なるラムダ

次のことを実行したい： 1）ベータ係数を取得するためのOLS回帰（ペナルティ項なし） ; は、回帰に使用される変数を表します。私はこれをしますb∗jbj∗b_{j}^{*}jjj lm.model = lm(y~ 0 + x) betas = coefficients(lm.model) 2）ペナルティ項を伴うLasso回帰。選択基準は、以下によって与えられるベイジアン情報基準（BIC）とする λj=log(T)T|b∗j|λj=log⁡(T)T|bj∗|\lambda _{j} = \frac{\log (T)}{T|b_{j}^{*}|} ここで、は変数/リグレッサ番号、は観測数、はステップ1）で取得した初期ベータを表します。この特定の値の回帰結果を取得したいのですが、これは使用する各リグレッサによって異なります。したがって、3つの変数がある場合、3つの異なる値ます。jjjB * jを λ jをλ jをTTTb∗jbj∗b_{j}^{*}λjλj\lambda_jλjλj\lambda_j 次に、OLS-Lasso最適化問題は minbϵRn={∑t=1T(yt−b⊤Xt)2+T∑j=1m(λt|bj|)}minbϵRn={∑t=1T(yt−b⊤Xt)2+T∑j=1m(λt|bj|)}\underset{b\epsilon \mathbb{R}^{n} }{min} = \left \{ \sum_{t=1}^{T}(y_{t}-b^{\top} X_{t} )^{2} + T\sum_{j=1}^{m} ( \lambda_{t}|b_{j}| )\right \} Rでlarsまたはglmnetパッケージを使用してこれを行うにはどうすればよいですか？ラムダを指定する方法が見つからず、実行しても正しい結果が得られるかどうか100％わかりません lars.model <- lars(x,y,type = "lasso", intercept = FALSE) …

11 r regression glmnet lars

1

完全な成功を収めたカテゴリー変数を含む2項式glmm

二項応答変数とカテゴリカル予測子を使ってglmmを実行しています。ランダムな効果は、データ収集に使用されるネストされたデザインによって与えられます。データは次のようになります。 m.gen1$treatment [1] sucrose control protein control no_injection ..... Levels: no_injection control sucrose protein m.gen1$emergence [1] 1 0 0 1 0 1 1 1 1 1 1 0 0.... > m.gen1$nest [1] 1 1 1 2 2 3 3 3 3 4 4 4 ..... Levels: 1 2 3 4 …

11 r generalized-linear-model lme4-nlme separation

1

ACFグラフは私のデータについて何を教えてくれますか？

2つのデータセットがあります。私の最初のデータセットは、時間に対する投資の価値（数十億ドル単位）であり、各単位時間は1947年の第1四半期から四半期です。時間は2002年の第3四半期まで延長されます。私の2番目のデータセットは、「[最初のデータセット]への投資の値をほぼ定常的なプロセスに変換した結果」です。最初のデータセットと2番目のデータセットそれぞれのACFプロット：プロットが正しいことを知っているので、「コメントする」ように求められます。自己相関関数は比較的新しいので、自分のデータについて何がわかるのかは完全にはわかりません。誰かが時間をかけて簡単に説明できるとしたら、非常にありがたいです。

11 r self-study data-visualization autocorrelation

1

Rでのモンテカルロシミュレーション

私は次の演習を解こうとしていますが、実際にこれを開始する方法についての手がかりはありません。私の本の中にそのようなコードを見つけましたが、それは完全に異なる演習であり、それらを相互に関連付ける方法がわかりません。到着のシミュレーションを開始するにはどうすればよいですか？それらを保存し、それに従ってa、b、c、dを計算する方法を知っています。しかし、実際にモンテカルロシミュレーションをどのようにシミュレートする必要があるのかわかりません。誰かが私を始めるのを手伝ってくれませんか？ここはあなたの質問に答える場所ではなく、代わりに解決するだけの場所だと知っています。しかし、問題は私が始める方法がわからないことです。 ITサポートヘルプデスクは、5人のアシスタントが顧客からの電話を受けるキューシステムを表しています。呼び出しは、45秒ごとに1つの呼び出しの平均レートでポアソンプロセスに従って発生します。1番目、2番目、3番目、4番目、および5番目のアシスタントのサービス時間はすべて、パラメーターがそれぞれλ1= 0.1、λ2= 0.2、λ3= 0.3、λ4= 0.4、およびλ5= 0.5 min-1の指数確率変数です（ j番目のヘルプデスクアシスタントはλk= k / 10 min-1です）。サポート対象のお客様以外に、最大10人のお客様を保留にすることができます。この容量に達すると、新しい発信者はビジー信号を受信します。モンテカルロ法を使用して、次のパフォーマンス特性を推定します。（a）ビジー信号を受信する顧客の割合。（b）予想される応答時間。（c）平均待ち時間; （d）各ヘルプデスクアシスタントが担当する顧客の割合。編集：私がこれまでに持っているものは（あまりない）です： pa = 1/45sec-1 jobs = rep(1,5); onHold = rep(1,10); jobsIndex = 0; onHoldIndex = 0; u = runif(1) for (i in 1:1000) { if(u <= pa){ # new arrival if(jobsIndex < 5) …

11 r monte-carlo queueing

6

教師なし学習で特徴選択を実行するRまたはPythonのメソッド[終了]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、上のトピッククロス検証済みのため。 2年前休業。データ内の重要でない/重要な機能を破棄/選択するためにR / Pythonで利用可能なメソッド/実装は何ですか？データにラベルがありません（監視なし）。データには、タイプが混在する約100の特徴があります。一部は数値ですが、その他はバイナリ（0/1）です。

11 r feature-selection python

1

PCAとPLSの「読み込み」と「相関読み込み」の違いは何ですか？

主成分分析（PCA）を実行するときに行う一般的なことの1つは、2つの負荷を互いにプロットして、変数間の関係を調べることです。主成分回帰とPLS回帰を行うためのPLS Rパッケージに付属するペーパーには、相関負荷プロットと呼ばれる別のプロットがあります（ペーパーの図7および15ページを参照）。相関負荷は、それが説明するように、（PCAからまたはPLS）スコアとの相関関係と実際の観測データです。ローディングと相関ローディングは、スケーリングが少し異なることを除いて、かなり似ているように思えます。組み込みのデータセットmtcarsを使用したRでの再現可能な例は次のとおりです。 data(mtcars) pca <- prcomp(mtcars, center=TRUE, scale=TRUE) #loading plot plot(pca$rotation[,1], pca$rotation[,2], xlim=c(-1,1), ylim=c(-1,1), main='Loadings for PC1 vs. PC2') #correlation loading plot correlationloadings <- cor(mtcars, pca$x) plot(correlationloadings[,1], correlationloadings[,2], xlim=c(-1,1), ylim=c(-1,1), main='Correlation Loadings for PC1 vs. PC2') これらのプロットの解釈の違いは何ですか？そして、（もしあれば）実際に使用するのに最適なプロットはどれですか？

11 r pca terminology partial-least-squares biplot

タグ付けされた質問 「r」

タグ付けされた質問「r」