タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

1
インターバル打ち切り
R、JMP、SASで区間検閲生存曲線を実行しました。どちらも同じグラフを提供してくれましたが、表は少し異なりました。これは、JMPから提供されたテーブルです。 Start Time End Time Survival Failure SurvStdErr . 14.0000 1.0000 0.0000 0.0000 16.0000 21.0000 0.5000 0.5000 0.2485 28.0000 36.0000 0.5000 0.5000 0.2188 40.0000 59.0000 0.2000 0.8000 0.2828 59.0000 91.0000 0.2000 0.8000 0.1340 94.0000 . 0.0000 1.0000 0.0000 これは、SASから提供されたテーブルです。 Obs Lower Upper Probability Cum Probability Survival Prob Std.Error 1 14 …

3
Rの「bnlearn」パッケージを使用した連続変数の予測
Rでbnlearnパッケージを使用して、ベイジアンネットワークの構造とそのパラメーターを学習します。私がやりたいことは、証拠として他のノードの値を与えられたノードの値を「予測」することです(当然、予測している値のノードを除いて)。 連続変数があります。 library(bnlearn) # Load the package in R data(gaussian.test) training.set = gaussian.test[1:4000, ] # This is training set to learn the parameters test.set = gaussian.test[4001:4010, ] # This is test set to give as evidence res = hc(training.set) # learn BN structure on training set data fitted = bn.fit(res, …


2
統計関数でInfsを適切に処理する方法
次のような関数があるとします。 f <- function(x){ exp(x) / (1 + exp(x)) } これは、xの任意の実際の値で機能するはずですが、実際には、xが710以上の場合、NaNを返します。この問題を処理する適切な方法は何だろうと思います。1を返すだけにするのは簡単だと思いますが、統計学者の観点からは、それは良い行動ではないかもしれません。誰かコメントや提案がありますか?
8 r  function  numerics 

3
Borutaの機能選択(Rで)では、変数間の相関関係が考慮されますか?
私はRと機能選択の初心者で、Borutaパッケージで変数の数(n = 40)を選択(減少)しようとしました。この方法は変数間の可能な相関も考慮に入れていると思いましたが、2つ(選択した20変数のうち)は高度に相関しており、他の2つは完全に相関しています。これは正常ですか?Borutaメソッドは、2つのうちの1つを重要でないと分類すべきではありませんか?

1
時系列は明らかに周期的ですが、季節分解はRでは機能しません[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。 私の時系列は明らかに周期的ですが、stl()を使用した季節分解はRでは機能しません。 a <- c(6.7, 20.3, 23.5, 7.9, 3.3, 2.0, 2.5, 2.9, 2.3, 5.0, 15.0, 20.1, 27.0, 28.2, 18.3, 7.8, 1.6, 0.8, 1.3, 1.2, 0.6, 1.6, 4.9, 24.2, 28.8, 23.6, 18.6, 5.3, 1.8, 0.4, 0.5, 0.2, 0.1, 0.3, 3.5, 17.6, 26.1, 22.7, 18.2, 7.2, 2.1, 1.0, 1.1, …

1
ロジスティック回帰における過剰分散のテスト
R in Action(Kabacoff、2011年)は、ロジスティック回帰の過分散をテストするために次のルーチンを提案しています。 二項分布を使用してロジスティック回帰を近似します。 model_binom <- glm(Species=="versicolor" ~ Sepal.Width, family=binomial(), data=iris) 準二項分布を使用してロジスティック回帰を近似します。 model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width, family=quasibinomial(), data=iris) カイ二乗を使用して、過剰分散をテストします。 pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual, model_binom$df.residual, lower = F) # [1] 0.7949171 カイ二乗分布がここで過剰分散のテストに使用されている方法と理由を誰かが説明できますか?p値は0.79です。これは、過剰分散が二項分布モデルの問題ではないことをどのように示しますか?

2
膨らんだカウントデータモデルがないのはなぜですか?
このpsclパッケージを使用して、インフレがゼロのカウントデータモデルに取り組んでいます。なぜ、1カウントのカウントデータモデルのモデルが開発されていないのだろう。また、なぜバイモーダル、つまりゼロおよび2インフレのカウントデータモデルの開発がないのですか。一度膨らませたポアソンデータを生成すると、glmwith family=poissonモデルも負の二項(glm.nb)モデルもデータにうまく適合するには不十分であることがわかりました。誰かが私の考えに光を当てることができれば、それは偏心かもしれませんが、それは私にとって非常に役に立ちます。

1
変分推論エンジン
このトピックについて調査したところ、PythonとRのメッセージパッシングまたは最適化メソッドに依存する推論パッケージとライブラリの驚くべき不足に気づきました。 私の知る限りでは、これらの方法は非常に便利です。たとえば、ベイズネットワーク(有向、非循環)の場合、信念の伝播だけで正確な答えが得られるはずです。ただし、オンラインで利用できるほとんどの推論ソフトウェア(たとえば、STAN、BUGS、PyMC)は、MCMCメソッドに依存しています。 Pythonの場合、私の知る限りでは、PyMC、scikit-learn、statsmodelsのいずれにも、信念伝播、メッセージパッシングメソッド、またはそれらのバリアントなどの変分推論アルゴリズムは含まれていません。 何故ですか?これらの方法は、MCMCの対応物ほど強力でも汎用的でもないため、実際にはあまり使用されていませんか?またはそれは単に人手と時間の不足の問題ですか?

1
不定期時系列の予測(Rあり)
等距離の時系列を予測する方法はいくつかあります(例:Holt-Winters、ARIMAなど)。しかし、私は現在、次の不規則な間隔のデータセットに取り組んでいます。これには、年間のデータポイントの量が異なり、それらのポイント間に定期的な時間間隔はありません。 プロット: サンプルデータ: structure(list(date = structure(c(664239600, 665449200, 666658800, 670888800, 672184800, 673394400, 674517600, 675727200, 676936800, 678146400, 679356000, 680565600, 682984800, 684194400, 685404000, 686613600, 687823200, 689036400, 690246000, 691455600, 692665200, 695084400, 696294000, 697503600, 698713200, 699922800, 701132400, 703548000, 705967200, 707176800, 708472800, 709682400, 710805600, 712015200, 713224800, 714434400, 715644000, 716853600, 718063200, 719272800, 720486000, 721695600, 722905200, 724114800, 726534000, …

1
「lmerTest」を使用する場合、「lme4」を引用する必要がありますか?
私が使用していlmerTestたp値を取得するために、線形混合モデル(LMM)を実行します。しかし、私が書いた記事では、彼らは両方が表示されますlme4とlmerTest。次に、LMMモデルを実行lme4するためだけに使用する場合も引用するかどうかはわかりませんlmerTest。 これについて何かご存知ですか?
8 r 

1
lmerで2方向および3方向の相互作用を解釈する方法は?
lmerで2方向および3方向の相互作用を解釈することに問題があります。私のDVは、連続変数である高さです。すべてのIVはカテゴリ変数です。最初の要素は、ラットまたはライオンの動物です。2番目の要素は、男性または女性の性別です。3番目の要素は色です:赤、白、または黄色。出力の解釈に戸惑います: Fixed effects: Estimate Std. Error t value (Intercept) 164.6888 7.8180 21.065 rat -14.1342 8.2889 -1.705 sexmale -16.0883 10.0071 -1.608 colorred 0.5776 6.2473 0.092 coloryellow -14.4048 6.1025 -2.360 rat:sexmale 15.3645 11.8567 1.296 rat:colorred 12.5258 4.4028 2.845 rat:coloryellow 10.3136 4.3196 2.388 sexmale:colorred 2.0272 5.2773 0.384 sexmale:coloryellow 5.7643 5.1669 1.116 rat:sexmale:colorred -5.5144 …

3
RでArimaモデルを近似するときのoptimのエラー
Rの統計パッケージのarimaメソッドを、時系列の17376要素で使用しています。私の目標は、AIC基準の値を取得することです。最初のテストでこれを観察しました。 ts <- arima(serie[,1], order = c(2,1,1), seasonal = list(order=c(2,0,1),period = 24), method = "CSS", optim.method = "BFGS",) > ts$coef ar1 ar2 ma1 sar1 sar2 sma1 0.8883730 -0.0906352 -0.9697230 1.2047580 -0.2154847 -0.7744656 > ts$aic [1] NA ご覧のとおり、AICは定義されていません。AICについて、Rの「ヘルプ」は「ML」でのみ使用できると述べました。しかし、それは起こります: > ts <- arima(serie[,1], order = c(2,1,1), seasonal = list(order=c(2,0,1),period = 24), method …

2
Rを使用して時間の経過に伴う分布をプロットする良い方法は何ですか?
私は約400人の個人とそれぞれ> 1万回のタイムポイント(シミュレーション結果)を持っています。これらは時間の経過とともに変化するので、監視できるようにしたいと考えています。すべての個人をプロットするのは面倒であり、平均値+ -sd、最小/最大値、または変位値をプロットすることは、私の好みには情報が少なすぎます。このタイプのデータを視覚化するために他の人が思いついたのは、どういうことかと思います。データポイントが少ない場合は、各タイムポイントにbeanplotsを使用しますが、それはそれほど多くのタイムポイントでは機能しません。

2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.