タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
マルチレベルの混合効果モデルの数式を書き出す
CVの質問 混合効果モデルの詳細かつ簡潔な数学的表現を提供しようとしています。lme4Rでパッケージを使用しています。モデルの正しい数学表現は何ですか? データ、科学の質問、Rコード 私のデータセットは、さまざまな地域の種で構成されています。私は、絶滅に至るまでに種の有病率が変化するかどうかをテストしています(絶滅は必ずしも永続的ではなく、再植民地化する可能性があります)、または植民地化の後です。 lmer(prevalence ~ time + time:type + (1 + time + type:time | reg) + (1 + time + type:time | reg:spp)) 有病率は、地域の年間に種が占める層の割合です 時間は、絶滅または植民地化までの時間を示す連続変数です。それは常にポジティブです タイプは、2つのレベルを持つカテゴリ変数です。これらの2つのレベルは「-」と「+」です。タイプが-の場合、植民地化(デフォルトレベル)です。タイプが+の場合、それは絶滅です。 Regは、地域を示す9つのレベルを持つカテゴリ変数です Sppはカテゴリ変数です。レベルの数は地域によって異なり、48レベルから144レベルの間で異なります。 言葉で言えば、応答変数は有病率です(占有されている階層の割合)。固定効果には、1)およびインターセプト、2)イベントからの時間、3)イベントまでの時間とイベントのタイプ(コロニー化または消滅)の相互作用が含まれます。これらの3つの固定効果は、地域ごとにランダムに変化しました。領域内では、各効果は種間でランダムに変化しました。 モデルの数学方程式を書く方法を見つけようとしています。Rコードで何が起こっているかを理解していると思います(ただし、ある程度の知識のギャップがあるはずです。正式な数式を書き出すことで理解が深まることを願っています)。 私はウェブとこれらのフォーラムをかなり検索しました。確かにたくさんの有用な情報を見つけました(そして、この質問の編集でこれらのいくつかにリンクするかもしれません)。ただし、Rコードの「Rosetta Stone」が数学に変換されていること(コードに慣れていること)は、これらの方程式が正しいことを確認するのに非常に役立ちます。実際、すでにいくつかのギャップがあることは知っていますが、それについては説明します。 私の試み 行列表記において混合効果モデルの基本的な形態は、(私の理解に)である:Y=Xβ+Zγ+ϵY=Xβ+Zγ+ϵ Y = X \beta + Z \gamma + \epsilon βX=⎡⎣⎢⎢1⋮1Δt⋮ΔtnΔt+⋮Δt+,n⎤⎦⎥⎥X=[1ΔtΔt+⋮⋮⋮1ΔtnΔt+,n] X = \begin{bmatrix} 1 …

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
BSTSモデル(R)からの予測は完全に失敗しています
ベイジアン構造時系列モデルに関するこのブログ投稿を読んだ後、以前にARIMAを使用していた問題のコンテキストでこれを実装することを検討しました。 私はいくつかの既知の(しかしノイズの多い)季節的要素に関するデータを持っています-これには間違いなく年次、月次、週次の要素があり、特別な日(連邦政府や宗教の祝日など)による影響もあります。 bstsパッケージを使用してこれを実装しましたが、コンポーネントと予測は単に期待どおりに見えませんが、間違ったことは何もしていないと言えます。私の実装が間違っているか、不完全であるか、その他の問題があるかどうかは明確ではありません。 フルタイムシリーズは次のようになります。 データの一部のサブセットでモデルをトレーニングできます。モデルは一般に適合性の点で見栄えがよくなります(プロットは下にあります)。これを行うために使用しているコードは次のとおりです。 library(bsts) predict_length = 90 training_cut_date <- '2015-05-01' test_cut_date <- as.Date(training_cut_date) + predict_length df = read.csv('input.tsv', sep ='\t') df$date <- as.Date(as.character(df$date),format="%Y-%m-%d") df_train = df[df$date < training_cut_date,] yts <- xts(log10(df_train$count), order.by=df_train$date) ss <- AddLocalLinearTrend(list(), yts) ss <- AddSeasonal(ss, yts, nseasons = 7) ss <- AddSeasonal(ss, yts, nseasons …
15 r  time-series  bayesian  mcmc  bsts 

1
QR分解について
私はさらに理解しようとしている(Rでの)実用的な例を持っています。私は線形モデルを作成するためにLimmaを使用しており、倍率変更の計算でステップごとに何が起こっているのかを理解しようとしています。私は主に、係数を計算するとどうなるかを理解しようとしています。私が理解できることから、係数を取得するためにQR分解が使用されているので、本質的に説明または計算中の方程式、またはqr()のソースコードをステップバイステップで見る方法を探しています自分でトレースするR。 次のデータを使用します。 expression_data <- c(1.27135202935009, 1.41816160331787, 1.2572772420417, 1.70943398046296, 1.30290218641586, 0.632660015122616, 1.73084258791384, 0.863826352944684, 0.62481665344628, 0.356064235030147, 1.31542028558644, 0.30549909383238, 0.464963176430548, 0.132181421105667, -0.284799809563931, 0.216198538884642, -0.0841133304341238, -0.00184472290008803, -0.0924271878885008, -0.340291804468472, -0.236829711453303, 0.0529690806587626, 0.16321956624511, -0.310513510587778, -0.12970035111176, -0.126398635780533, 0.152550803185228, -0.458542514769473, 0.00243517688116406, -0.0190192219685527, 0.199329876859774, 0.0493831375210439, -0.30903829000185, -0.289604319193543, -0.110019942085281, -0.220289950537685, 0.0680403723818882, -0.210977291862137, 0.253649629045288, 0.0740109953273042, 0.115109148186167, 0.187043445057404, 0.705155251555554, 0.105479342752451, 0.344672919872447, 0.303316487542805, …

1
ブライマンのランダムフォレストは、情報ゲインまたはGiniインデックスを使用しますか?
ブライマンのランダムフォレスト(R randomForestパッケージのランダムフォレスト)が分割基準(属性選択の基準)情報ゲインまたはGiniインデックスとして使用するかどうかを知りたいのですが?私はhttp://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htmとRのrandomForestパッケージのドキュメントでそれを見つけようとしました。しかし、私が見つけた唯一のことは、Giniインデックスを使用できることです変数重要度計算。

2
クラスタリングのための混合モデルの適合方法
XとYの2つの変数があり、クラスターを最大(および最適)= 5にする必要があります。変数の理想的なプロットは次のようになります。 このクラスターを5つ作成したいと思います。このようなもの: したがって、これは5つのクラスターを持つ混合モデルだと思います。各クラスターには中心点とその周囲の信頼円があります。 クラスターは必ずしもこのようにきれいであるとは限らず、次のようになります。2つのクラスターが互いに近接している場合や、1つまたは2つのクラスターが完全に欠落している場合があります。 この状況で混合モデルをどのように適合させ、分類(クラスタリング)を効果的に実行できますか? 例: set.seed(1234) X <- c(rnorm(200, 10, 3), rnorm(200, 25,3), rnorm(200,35,3), rnorm(200,65, 3), rnorm(200,80,5)) Y <- c(rnorm(1000, 30, 2)) plot(X,Y, ylim = c(10, 60), pch = 19, col = "gray40")

2
Rで「手動」でAICを計算する
私はRの線形回帰のAICを計算しようとしましたが、次のAICように関数を使用しませんでした: lm_mtcars <- lm(mpg ~ drat, mtcars) nrow(mtcars)*(log((sum(lm_mtcars$residuals^2)/nrow(mtcars))))+(length(lm_mtcars$coefficients)*2) [1] 97.98786 ただし、AIC異なる値を指定します。 AIC(lm_mtcars) [1] 190.7999 誰かが私が間違っていることを教えてもらえますか?

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

1
LASSO変数トレースプロットの解釈
私はこのglmnetパッケージを初めて使用しますが、結果の解釈方法がまだわかりません。誰でも次のトレースプロットを読むのを手伝ってもらえますか? グラフは、次を実行して取得していました。 library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, "lambda", label=TRUE) par(op)



1
日次データを使用した時系列予測:リグレッサーを使用したARIMA
私は、約2年間の毎日のデータポイントを含む販売データの毎日の時系列を使用しています。いくつかのオンラインチュートリアル/例に基づいて、データの季節性を特定しようとしました。毎週、毎月、そしておそらく毎年の周期性/季節性があるようです。 たとえば、特に月の最初の給料日には、週の数日間続く給料日があります。また、いくつかの特定の休日の影響もあり、観測に注目することで明確に識別できます。 これらの観察のいくつかを装備して、私は次を試みました: (持つARIMA Arimaとauto.arima回帰(及び機能に必要な他のデフォルト値)を用いてR-予測パッケージから)。私が作成したリグレッサーは、基本的に0/1値のマトリックスです。 11か月(n-1)変数 12の休日変数 給料日の部分を理解できませんでした...それは思ったよりも少し複雑な効果だからです。給料日の効果は、月の1日の平日によって異なります。 時系列をモデル化するために7(つまり、週ごとの頻度)を使用しました。テストを試してみました-一度に7日間予測します。結果は合理的です。11週間の予測の平均精度は、週平均5%のRMSEになります。 TBATSモデル(R予測パッケージから)-複数の季節性(7、30.4375、365.25)を使用し、明らかにリグレッサーなし。週平均RMSE 3.5%では、精度はARIMAモデルよりも驚くほど優れています。 この場合、ARMAエラーのないモデルのパフォーマンスはわずかに向上します。#1で説明したARIMAモデルのHoliday Effectsの係数のみをTBATSモデルの結果に適用すると、週平均RMSEは2.95%に向上します 現在、これらのモデルの基礎理論に関する多くの背景や知識がなくても、このTBATSアプローチが有効なものであるかどうかはジレンマに陥っています。11週間のテストでRMSEを大幅に改善していますが、将来この精度を維持できるかどうか疑問に思っています。または、ARIMAからTBATSの結果にホリデー効果を適用することは正当化できます。すべての貢献者からのどんな考えでも高く評価されます。 テストデータのリンク 注:ファイルをダウンロードするには、「名前を付けてリンクを保存」を実行します。

1
ggplotは回帰の信頼区間をどのように計算しますか?
Rプロットパッケージggplot2には、関連する信頼帯を使用して回帰直線(または曲線)をプロットするためのstat_smoothという素晴らしい関数があります。 ただし、回帰線(または「メソッド」)のたびに、この信頼帯がどのように生成されるかを正確に把握するのは困難です。どうすればこの情報を見つけることができますか?

1
Rを使用してポアソン過程を推定する方法は?(または:NHPoissonパッケージの使用方法?)
イベントのデータベース(日付の変数)と関連する共変量があります。 イベントは、パラメータがいくつかの共変量の未知の(ただし線形の可能性がある)関数である非定常ポアソンプロセスによって生成されます。 NHPoissonパッケージはこの目的のためだけに存在すると思います。しかし、15時間の失敗した研究の後、私はまだそれを使用する方法を知ることに近づいていません。 ヘック、私は両方の参考書を読んでみました:Coles、S.(2001)。極値の統計モデリングの紹介。スプリンガー。Casella、G. and Berger、RL、(2002)。統計的推論。ブルックス/コール。 fitPP.funのドキュメントにある1つの例は、私の設定に合わないようです。私には極端な価値はありません!むき出しのイベントがあります。 誰もが、パラメータを持つポアソン過程フィッティングの簡単な例で助けを私にしてくださいすることができ単一の共変量を持つX、および仮定を、そのλ = λ 0 + α ⋅ X?私はの推定に興味λ 0とα。イベントの時間(たとえば、任意の時間t 0の後の秒単位で測定)を含む2列のデータセットと、共変量Xの値を含む別の列を提供します。λλ\lambdaXXXλ=λ0+α⋅Xλ=λ0+α⋅X\lambda = \lambda_0 + \alpha \cdot Xλ0λ0\lambda_0αα\alphat0t0t_0XXX

1
gbmパッケージの出力用語の意味?
分類にgbmパッケージを使用しています。予想どおり、結果は良好です。しかし、分類器の出力を理解しようとしています。出力には5つの用語があります。 `Iter TrainDeviance ValidDeviance StepSize Improve` 誰もが各用語の意味、特にImproveの意味を説明できますか。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.