統計とビッグデータ r

4

多変量分布の分位数を計算する方法に興味があります。図では、特定の単変量正規分布の5％および95％の分位点を描画しました（左）。適切な多変量正規分布の場合、アナログは密度関数の基底を囲む等値線になると想像しています。以下は、パッケージを使用してこれを計算する試みの例ですが、mvtnorm成功しません。多変量密度関数の結果の等高線を計算することでこれを行うことができると思いますが、別の選択肢（たとえばの類似体qnorm）があるかどうか疑問に思っていました。ご協力いただきありがとうございます。例： mu <- 5 sigma <- 2 vals <- seq(-2,12,,100) ds <- dnorm(vals, mean=mu, sd=sigma) plot(vals, ds, t="l") qs <- qnorm(c(0.05, 0.95), mean=mu, sd=sigma) abline(v=qs, col=2, lty=2) #install.packages("mvtnorm") require(mvtnorm) n <- 2 mmu <- rep(mu, n) msigma <- rep(sigma, n) mcov <- diag(msigma^2) mvals <- expand.grid(seq(-2,12,,100), seq(-2,12,,100)) mvds <- …

24 r pdf quantiles multivariate-normal multivariate-distribution

3

Rを使用した反復測定によるANOVA後の事後検定

次のように、Rで反復測定ANOVAを実行しました。 aov_velocity = aov(Velocity ~ Material + Error(Subject/(Material)), data=scrd) summary(aov_velocity) Rのどの構文を使用して、反復測定によるANOVAの後に事後検定を実行できますか？ボンフェローニ補正によるテューキーのテストは適切でしょうか？もしそうなら、これをRでどのように行うことができますか？

24 r anova repeated-measures post-hoc contrasts

3

「エイリアス係数」とは何ですか？

R（lm）で回帰モデルを構築しているときに、頻繁にこのメッセージが表示されます "there are aliased coefficients in the model" 正確にはどういう意味ですか？また、これによりpredict()警告も出ています。これは単なる警告ですが、モデルを構築する前にエイリアス係数を検出/削除する方法を知りたいです。また、この警告を無視した場合に考えられる結果は何ですか？

24 r regression

2

固定効果をランダムな効果にネストするのは理にかなっていますか、それともR（aovとlmer）で反復測定をコーディングするのは意味がありますか？

私は@conjugatepriorによるlm / lmer R公式のこの概要を見ていて、次のエントリで混乱しました：ここで、Aはランダムですが、Bは固定され、BはA内にネストされていると仮定します。 aov(Y ~ B + Error(A/B), data=d) lmer(Y ~ B + (1 | A:B), data=d) 同じケースについて、以下の類似した混合モデル式が提供されています。意味がよくわかりません。被験者をいくつかのグループに分割する実験では、固定因子（グループ）内にランダム因子（被験者）をネストします。しかし、固定因子をランダム因子内にどのようにネストできますか？ランダムなサブジェクト内にネストされた固定された何か？それも可能ですか？それが不可能な場合、これらのR式は意味をなしますか？この概要は、R での反復測定に関するこのチュートリアルに基づいて、RでANOVAを実行するパーソナリティプロジェクトのページに部分的に基づいていると述べられています。そこで、反復測定ANOVAの次の例を示します。 aov(Recall ~ Valence + Error(Subject/Valence), data.ex3) ここでは、被験者にさまざまな価数の単語（3つのレベルを持つ因子）が提示され、その想起時間が測定されます。各主題には、3つのすべての価数レベルの単語が表示されます。私は（それがあたりとして、交差表示されます。この設計で入れ子に何も表示されません。ここでは素晴らしい答え）、と私は単純にそれを思うだろうように、Error(Subject)または(1 | Subject)このような場合には適切なランダムな用語でなければなりません。Subject/Valence「ネスティングは」（？）混乱しています。私はそれValenceが被験者内要因であることを理解していることに注意してください。しかし、それは被験者内の「ネストされた」要因ではないと思います（すべての被験者がの3つのレベルすべてを経験するためValence）。更新。Rの反復測定ANOVAのコーディングに関するCVに関する質問を調査しています。ここで、以下は固定被験者内/反復測定Aおよびランダムに使用されますsubject。 summary(aov(Y ~ A + Error(subject/A), data = d)) anova(lme(Y ~ A, random = ~1|subject, data …

23 r anova mixed-model repeated-measures lme4-nlme

4

Rの正確な2つのサンプル比率の二項検定（およびいくつかの奇妙なp値）

私は次の質問を解決しようとしています：プレーヤーAは25ゲーム中17勝、プレーヤーBは20ゲーム中8勝-両方の比率に大きな違いはありますか？ Rで頭に浮かぶことは次のとおりです。 > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent confidence interval: -0.002016956 0.562016956 sample estimates: prop 1 prop 2 0.68 0.40 したがって、このテストでは、95％の信頼レベルでは差は有意ではないと述べています。 prop.test()近似のみを使用していることがわかっているので、正確な二項検定を使用してより正確にしたい-と私は両方の方法でそれを行う： > …

23 r hypothesis-testing statistical-significance binomial proportion

2

ARMAを使用した非定常プロセスのモデリングの結果は？

非定常時系列のモデリングにはARIMAを使用する必要があることを理解しています。また、ARMAは定常時系列にのみ使用されるべきだと私が読んだことすべてがあります。私が理解しようとしているのは、モデルを誤分類し、d = 0非定常の時系列を仮定したときに実際に何が起こるかです。例えば： controlData <- arima.sim(list(order = c(1,1,1), ar = .5, ma = .5), n = 44) 制御データは次のようになります。 [1] 0.0000000 0.1240838 -1.4544087 -3.1943094 -5.6205257 [6] -8.5636126 -10.1573548 -9.2822666 -10.0174493 -11.0105225 [11] -11.4726127 -13.8827001 -16.6040541 -19.1966633 -22.0543414 [16] -24.8542959 -25.2883155 -23.6519271 -21.8270981 -21.4351267 [21] -22.6155812 -21.9189036 -20.2064343 -18.2516852 -15.5822178 [26] …

23 r time-series arima stationarity

2

混合モデルのサンプルサイズの計算

混合モデルでサンプルサイズを計算する方法はありますか？lmerRでモデルを近似するために使用しています（ランダムな勾配と切片があります）。

23 r mixed-model lme4-nlme power-analysis

2

等高線/熱オーバーレイを使用した散布図

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。最近の論文の補足でこのプロットを見て、Rを使用して再現できるようにしたいと思います。それは散布図ですが、オーバープロットを修正するために、「熱」に対応する等高線があります。密度のオーバープロット。どうすればいいですか？

23 r data-visualization scatterplot

4

Rの累積分布を計算する方法は？

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。データサンプルの累積分布関数を計算する必要があります。累積密度関数を測定するRのhist（）に似たものはありますか？私はecdf（）を試しましたが、ロジックを理解できません。

23 r distributions cdf

4

非常にまばらなデータでうまく機能するランダムフォレストの実装はありますか？

非常にまばらなデータでうまく機能するRランダムフォレストの実装はありますか？数千または数百万のブール入力変数がありますが、与えられた例では数百またはそれだけがTRUEになります。私はRが比較的新しく、スパースデータを処理するための「Matrix」パッケージがあることに気付きましたが、標準の「randomForest」パッケージはこのデータ型を認識しないようです。重要な場合、入力データはRの外部で生成され、インポートされます。何かアドバイス？また、Weka、Mahout、または他のパッケージの使用について調べることもできます。

23 r random-forest sparse

3

残差の自己相関をテストする方法は？

多くの価格（750）を持つ2つの列を持つマトリックスがあります。以下の画像では、次の線形回帰の残差をプロットしました。 lm(prices[,1] ~ prices[,2]) 画像を見ると、残差の非常に強い自己相関があるようです。しかし、これらの残差の自己相関が強いかどうかをどのようにテストできますか？どの方法を使用すればよいですか？ありがとうございました！

23 r regression correlation autocorrelation

4

Rコードと出力を整理する効率的な方法は何ですか？[閉まっている]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。去年閉鎖されました。他の人がどのようにRコードと出力を整理するかについてのインプットを探しています。私の現在のプラクティスは、次のようなテキストファイルのブロックにコードを記述することです。 #================================================= # 19 May 2011 date() # Correlation analysis of variables in sed summary load("/media/working/working_files/R_working/sed_OM_survey.RData") # correlation between estimated surface and mean perc.OM in epi samples cor.test(survey$mean.perc.OM[survey$Depth == "epi"], survey$est.surf.OM[survey$Depth == "epi"])) #================================================== 次に、通常は注釈を付けて、出力を別のテキストファイルに貼り付けます。この方法の問題は次のとおりです。コードと出力は、日付以外では明示的にリンクされていません。コードと出力は時系列に編成されているため、検索が難しい場合があります。目次を作成できるので、すべてを使って1つのSweaveドキュメントを作成することを検討しましたが、これは、提供するメリットよりも手間がかかるようです。 Rコードと出力を整理して、分析の効率的な検索と編集を可能にする効果的なルーチンを教えてください。

23 r project-management

3

RのARIMAモデルのパラメーターのp値を計算する方法は？

Rで時系列調査を行うarima と、適合モデルの係数値とその標準誤差のみが提供されることがわかりました。ただし、係数のp値も取得する必要があります。 coefの重要性を提供する機能は見つかりませんでした。したがって、私は自分で計算したいのですが、係数のtまたはchisq分布の自由度はわかりません。だから私の質問は、Rのフィットされたアリマモデルの係数のp値を取得する方法ですか？

23 r time-series chi-squared arima parametric

4

カルマンフィルターを使用した時系列予測のRコード

Rのカルマンフィルターを使用した時系列予測/平滑化の良い例はありますか？

23 r time-series kalman-filter

5

予測ツリー（CVなど）のパフォーマンスが向上した分類ツリーの代替手段

私はより良い予測力をもたらすかもしれない分類木に代わるものを探しています。私が扱っているデータには、説明変数と説明変数の両方の要因があります。このコンテキストでランダムフォレストとニューラルネットワークに出くわしたことを覚えていますが、以前に試したことはありませんが、このようなモデリングタスクの別の良い候補はありますか（明らかにRで）？

23 r machine-learning classification cart

タグ付けされた質問 「r」

タグ付けされた質問「r」