統計とビッグデータ r

1

線のフィッティングに関するプレゼンテーションを行っています。単純な線形関数ます。散布図に入れることができる散布データポイントを取得しようとしています。これにより、同じ方程式に最適なラインを維持できます。y=1x+by=1x+by=1x+b RまたはExcelのどちらか簡単な方でこのテクニックを学びたいです。

15 r regression least-squares excel

1

多変量生物学的時系列：VARと季節性

相互作用する生物学的変数と環境変数（およびおそらく外生変数も含む）を含む多変量時系列データセットがあります。季節性のほかに、データには明確な長期的な傾向はありません。私の目的は、どの変数が互いに関連しているかを確認することです。予測は実際には求められていません。時系列分析は初めてなので、いくつかの参考文献を読みました。私の知る限り、Vector Autoregressive（VAR）モデルは適切ですが、季節性と季節性のない経済学分野（多くの場合、時系列分析など）に気付いたほとんどの例に不安を感じています。季節データをどうすればよいですか？私はそれらを非季節化することを検討しました。たとえば、Rではdecompose、$trend + $rand値を使用してから、かなり静止しているように見える信号を取得します（で判断acf）。VARモデルの結果は混乱を招きます（1ラグモデルが選択されますが、直観的にはもっと期待していたので、自己回帰の係数だけが-他の遅延変数との回帰ではなく-重要です）。私は何か間違ったことをしていますか、または変数が（線形に）関連していない/私のモデルが良いものではないと結論付ける必要があります（補助的な質問：VARに相当する非線形はありますか？） [別の方法として、ダミーの季節変数を使用できるかもしれないと読みましたが、実装方法を正確に把握することはできません]。経験豊富なユーザーの詳細が実際に私に有益である可能性があるため、ステップバイステップの提案は非常に高く評価されます（そして、具体的な例へのRコードスニペットまたはリンクはもちろん大歓迎です）。

15 r time-series var seasonality

1

なぜglmer（family = binomial）出力をGauss-Newtonアルゴリズムの手動実装と一致させられないのですか？

lmer（本当にglmer）の出力をおもちゃの二項式の例と一致させたいと思います。私はビネットを読んで、何が起こっているのか理解していると信じています。しかし、どうやらそうではありません。立ち往生した後、私はランダム効果の観点から「真実」を修正し、修正された効果だけを評価した。以下にこのコードを含めます。それが合法であることを確認するには、コメントアウトする+ Z %*% b.kと、通常のglmの結果と一致します。私は、ランダム効果が含まれているときにlmerの出力を一致させることができない理由を理解するために、いくらかの知力を借りたいと思っています。 # Setup - hard coding simple data set df <- data.frame(x1 = rep(c(1:5), 3), subject = sort(rep(c(1:3), 5))) df$subject <- factor(df$subject) # True coefficient values beta <- matrix(c(-3.3, 1), ncol = 1) # Intercept and slope, respectively u <- matrix(c(-.5, .6, .9), ncol = 1) …

15 r mixed-model optimization lme4-nlme

1

スプラインを使用して密度関数の局所極値を見つける

確率密度関数の局所的な最大値を見つけようとしています（Rのdensity方法を使用して見つけました）。大量のデータがあるため、単純な「周辺を見る」方法（ポイントを見て周辺の最大値であるかどうかを確認する方法）を実行できません。さらに、フォールトトレランスやその他のパラメータを使用して「辺りを見る」のではなく、スプライン補間のようなものを使用してから1次導関数の根を見つける方がより効率的で一般的です。だから、私の質問：からの関数が与えられた場合splinefun、どのメソッドが局所最大値を見つけますか？を使用して返される関数の導関数を見つける簡単/標準的な方法はありsplinefunますか？確率密度関数の極大値を見つけるためのより良い/標準的な方法はありますか？参考のために、以下は私の密度関数のプロットです。私が使用している他の密度関数の形式は似ています。私はRには慣れていないが、プログラミングには慣れていないので、必要なものを達成するための標準ライブラリまたはパッケージがあるかもしれません。ご協力いただきありがとうございます！！

15 r pdf splines maximum

2

Rの「係数：14特異点のために定義されていません」などのエラーを処理するにはどうすればよいですか？

GLMを実行して、anovaの出力で「特異点のために定義されていない」エラーが発生した場合、このエラーの発生をどのように防ぐことができますか？共変量間の共線性によるか、データセットにレベルの1つが存在しないことを示唆する人もいます（lmの「特異点のために定義されていない」の解釈を参照）私はこれは「特定の治療法は、」モデルを推進して見てみたかったと私は治療の4つのレベルがある場合：Treat 1、Treat 2、Treat 3＆Treat 4、として私のスプレッドシートに記録されていますとき、Treat 1残りの1であるゼロで、ときTreat 2ゼロである残りの1です、など、私は何をしなければなりませんか？

15 r generalized-linear-model regression-coefficients

4

Rに観測値や予測値を追加するときに線形回帰を効率的に更新する

観測または予測子が追加されたときに線形モデルを効率的に更新する方法をRで見つけることに興味があります。biglmには観測値を追加する際の更新機能がありますが、データはメモリに常駐するのに十分なサイズです（ただし、更新するインスタンスは多数あります）。これを素手で行う方法、例えばQR分解を更新する方法があります（HammarlingとLucasによる「QR分解と最小二乗問題の更新」を参照）が、既存の実装を期待しています。

15 r regression computational-statistics linear-model

2

Rの拡張ディッキーフラーテストにおけるkラグの理解

Rでいくつかのユニットルートテストを試しましたが、k lagパラメーターをどのように作成すればよいかわかりません。tseriesパッケージの拡張Dickey FullerテストとPhilipps Perronテストを使用しました。明らかに、デフォルトのkパラメータ（の場合）は、系列の長さにのみ依存します。別のkを選択した場合kkkadf.testkkk値、かなり異なる結果が得られます。nullを拒否する： Dickey-Fuller = -3.9828, Lag order = 4, p-value = 0.01272 alternative hypothesis: stationary # 103^(1/3)=k=4 Dickey-Fuller = -2.7776, Lag order = 0, p-value = 0.2543 alternative hypothesis: stationary # k=0 Dickey-Fuller = -2.5365, Lag order = 6, p-value = 0.3542 alternative hypothesis: stationary # k=6 プラスPPテスト結果： …

15 r time-series trend

2

ロジスティック回帰モデルのRに決定境界をプロットする方法は？

Rでglmを使用してロジスティック回帰モデルを作成しました。2つの独立変数があります。2つの変数の散布図にモデルの決定境界をプロットするにはどうすればよいですか。たとえば、http：//onlinecourses.science.psu.edu/stat557/node/55のような図をどのようにプロットできますか。ありがとう。

15 r logistic

2

精密リコール曲線の「ベースライン」とは

正確なリコール曲線を理解しようとしていますが、精度とリコールが何であるかは理解していますが、理解できないのは「ベースライン」値です。私はこのリンクを読んでいました https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ 「完全な分類子の精度-リコール曲線」に示されているように、ベースライン部分が理解できません。そして、どのように計算するのですか？選択したランダムなベースラインですか？たとえば、retweet,status_countetcなどの属性を持つtwitterデータがあり、Favoritedお気に入りの場合はクラスラベルは1、お気に入りでない場合は0で、単純なベイズを適用し、今度は正確なリコールカーブを描画したいのですが、この場合のベースラインの設定方法を教えてください？

15 r machine-learning classification precision-recall

3

`predict.randomForest`はクラスの確率をどのように推定しますか？

randomForestパッケージを使用すると、クラスの確率はどのように推定されますpredict(model, data, type = "prob")か？確率を予測する引数をranger使用してランダムフォレストをトレーニングするために使用していましたprobability = T。rangerドキュメントでそれを言う： Malleyらのように確率の森を育てます。（2012）。いくつかのデータをシミュレートし、両方のパッケージを試して、非常に異なる結果を得ました（以下のコードを参照）だから、私はそれが確率を推定するために異なるテクニック（そしてレンジャー）を使用することを知っています。しかし、どれですか？ simulate_data <- function(n){ X <- data.frame(matrix(runif(n*10), ncol = 10)) Y <- data.frame(Y = rbinom(n, size = 1, prob = apply(X, 1, sum) %>% pnorm(mean = 5) ) %>% as.factor() ) dplyr::bind_cols(X, Y) } treino <- simulate_data(10000) teste <- simulate_data(10000) …

15 r random-forest prediction

1

lmerモデルに使用する多重比較方法：lsmeansまたはglht？

1つの固定効果（条件）と2つのランダム効果（被験者内のデザインとペアによる参加者）を含む混合効果モデルを使用して、データセットを分析しています。モデルはlme4パッケージで生成されました：exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp)。次に、固定効果（条件）のないモデルに対してこのモデルの尤度比検定を実行しましたが、有意差があります。データセットには3つの条件があるため、多重比較を行いたいのですが、どの方法を使用すればよいかわかりません。CrossValidatedや他のフォーラムで同様の質問をいくつか見つけましたが、それでもかなり混乱しています。私が見たものから、人々は使用することを提案しました 1.lsmeansパッケージ- lsmeans(exp.model,pairwise~condition)私に次のような出力が得られます。 condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts contrast estimate SE df t.ratio p.value Condition1 - Condition2 -0.04893538 0.03813262 62.07 -1.283 0.4099 Condition1 - …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

3

多次元分布が同じかどうかをテストする

n次元の連続値ベクトルのサンプル母集団が2つ以上あるとしましょう。これらのサンプルが同じ分布からのものかどうかをテストするノンパラメトリックな方法はありますか？もしそうなら、これのためにRまたはPythonに関数がありますか？

15 r distributions nonparametric python

2

lrtest（）がanova（test =“ LRT”）と一致しないのはなぜですか

モデルの適合度を比較するために、Rで尤度比検定を行う方法を探していました。私が最初にそれを自分でコード化され、デフォルトの両方見つかったanova()機能ともlrtest()にlmtestパッケージ。ただし、チェックするとanova()、「test」パラメータが「LRT」に設定されていても、常に他の2つの値とはわずかに異なるp値が生成されます。はanova()、実際にいくつかの微妙に異なるテストを実行する、または私は何かを理解していないのですか？プラットフォーム：Linux Mint 17で実行されているR 3.2.0 lmtestバージョン0.9-33でサンプルコード： set.seed(1) # Reproducibility n=1000 y = runif(n, min=-1, max=1) a = factor(sample(1:5, size=n, replace=T)) b = runif(n) # Make y dependent on the other two variables y = y + b * 0.1 + ifelse(a==1, 0.25, 0) mydata = data.frame(y,a,b) # Models base …

15 r anova likelihood-ratio

1

glmnetロジスティック回帰は、ダミー変数を必要とせずに因子（カテゴリ）変数を直接処理できますか？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新することがありますので、話題のクロス検証済みのため。閉じた3年前。私は関数でLASSO法を使用してRにロジスティック回帰を構築していますcv.glmnet選択するlambdaとglmnet、最終的なモデルのため。私はすでに自動モデル選択に関するすべての欠点を知っていますが、とにかくそれをする必要があります。私の問題は、ファクター（カテゴリ）変数をモデルに含める必要があることです。ダミー変数を大量に作成せずにそれを行う方法はありますか？この変数はほとんどすべて文字列であり、数値ではありません。

15 r logistic categorical-data lasso glmnet

1

1つの観測値のみのランダム効果は、一般化線形混合モデルにどのように影響しますか？

ランダム効果として使用したい変数がいくつかのレベルで単一の観測値を持つデータセットがあります。以前の質問への回答に基づいて、原則としてこれで問題ないことをまとめました。混合モデルを、観測値が1つだけの被験者に適合させることはできますか？ランダム切片モデル-被験者ごとに1つの測定ただし、2番目のリンクでは、最初の答えは次のとおりです。「...一般的な線形混合モデルGLMMを使用していないと仮定します。この場合、過剰分散の問題が発生します」 GLMMの使用を検討していますが、1回の観測でのランダムな効果レベルがモデルにどのように影響するかを本当に理解していません。ここに、私が当てはめようとしているモデルの1つの例を示します。私は鳥を研究していますが、移動中のストップの数に対する人口と季節の影響をモデル化したいと思います。一部の個人では最大5年間のデータがあるため、個人をランダム効果として使用したいと思います。 library(dplyr) library(lme4) pop <- as.character(c("BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "BF", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "MA", "NU", "NU", "NU", …

14 r mixed-model generalized-linear-model glmm lme4-nlme

タグ付けされた質問 「r」

タグ付けされた質問「r」