統計とビッグデータ r

1

R、JMP、SASで区間検閲生存曲線を実行しました。どちらも同じグラフを提供してくれましたが、表は少し異なりました。これは、JMPから提供されたテーブルです。 Start Time End Time Survival Failure SurvStdErr . 14.0000 1.0000 0.0000 0.0000 16.0000 21.0000 0.5000 0.5000 0.2485 28.0000 36.0000 0.5000 0.5000 0.2188 40.0000 59.0000 0.2000 0.8000 0.2828 59.0000 91.0000 0.2000 0.8000 0.1340 94.0000 . 0.0000 1.0000 0.0000 これは、SASから提供されたテーブルです。 Obs Lower Upper Probability Cum Probability Survival Prob Std.Error 1 14 …

8 r survival sas jmp interval-censoring

3

Rの「bnlearn」パッケージを使用した連続変数の予測

Rでbnlearnパッケージを使用して、ベイジアンネットワークの構造とそのパラメーターを学習します。私がやりたいことは、証拠として他のノードの値を与えられたノードの値を「予測」することです（当然、予測している値のノードを除いて）。連続変数があります。 library(bnlearn) # Load the package in R data(gaussian.test) training.set = gaussian.test[1:4000, ] # This is training set to learn the parameters test.set = gaussian.test[4001:4010, ] # This is test set to give as evidence res = hc(training.set) # learn BN structure on training set data fitted = bn.fit(res, …

8 r machine-learning prediction bayesian-network

1

相関によるクラスタリングの樹状図の高さを解釈する方法

次のデータフレームがあるとします。 df <- data.frame(x1 = c(26, 28, 19, 27, 23, 31, 22, 1, 2, 1, 1, 1), x2 = c(5, 5, 7, 5, 7, 4, 2, 0, 0, 0, 0, 1), x3 = c(8, 6, 5, 7, 5, 9, 5, 1, 0, 1, 0, 1), x4 = c(8, 5, 3, …

8 r correlation hierarchical-clustering

2

統計関数でInfsを適切に処理する方法

次のような関数があるとします。 f <- function(x){ exp(x) / (1 + exp(x)) } これは、xの任意の実際の値で機能するはずですが、実際には、xが710以上の場合、NaNを返します。この問題を処理する適切な方法は何だろうと思います。1を返すだけにするのは簡単だと思いますが、統計学者の観点からは、それは良い行動ではないかもしれません。誰かコメントや提案がありますか？

8 r function numerics

3

Borutaの機能選択（Rで）では、変数間の相関関係が考慮されますか？

私はRと機能選択の初心者で、Borutaパッケージで変数の数（n = 40）を選択（減少）しようとしました。この方法は変数間の可能な相関も考慮に入れていると思いましたが、2つ（選択した20変数のうち）は高度に相関しており、他の2つは完全に相関しています。これは正常ですか？Borutaメソッドは、2つのうちの1つを重要でないと分類すべきではありませんか？

8 r feature-selection random-forest boruta

1

時系列は明らかに周期的ですが、季節分解はRでは機能しません[終了]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。私の時系列は明らかに周期的ですが、stl（）を使用した季節分解はRでは機能しません。 a <- c(6.7, 20.3, 23.5, 7.9, 3.3, 2.0, 2.5, 2.9, 2.3, 5.0, 15.0, 20.1, 27.0, 28.2, 18.3, 7.8, 1.6, 0.8, 1.3, 1.2, 0.6, 1.6, 4.9, 24.2, 28.8, 23.6, 18.6, 5.3, 1.8, 0.4, 0.5, 0.2, 0.1, 0.3, 3.5, 17.6, 26.1, 22.7, 18.2, 7.2, 2.1, 1.0, 1.1, …

8 r time-series seasonality

1

ロジスティック回帰における過剰分散のテスト

R in Action（Kabacoff、2011年）は、ロジスティック回帰の過分散をテストするために次のルーチンを提案しています。二項分布を使用してロジスティック回帰を近似します。 model_binom <- glm(Species=="versicolor" ~ Sepal.Width, family=binomial(), data=iris) 準二項分布を使用してロジスティック回帰を近似します。 model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width, family=quasibinomial(), data=iris) カイ二乗を使用して、過剰分散をテストします。 pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual, model_binom$df.residual, lower = F) # [1] 0.7949171 カイ二乗分布がここで過剰分散のテストに使用されている方法と理由を誰かが説明できますか？p値は0.79です。これは、過剰分散が二項分布モデルの問題ではないことをどのように示しますか？

8 r regression distributions logistic overdispersion

2

膨らんだカウントデータモデルがないのはなぜですか？

このpsclパッケージを使用して、インフレがゼロのカウントデータモデルに取り組んでいます。なぜ、1カウントのカウントデータモデルのモデルが開発されていないのだろう。また、なぜバイモーダル、つまりゼロおよび2インフレのカウントデータモデルの開発がないのですか。一度膨らませたポアソンデータを生成すると、glmwith family=poissonモデルも負の二項（glm.nb）モデルもデータにうまく適合するには不十分であることがわかりました。誰かが私の考えに光を当てることができれば、それは偏心かもしれませんが、それは私にとって非常に役に立ちます。

8 r generalized-linear-model zero-inflation poisson-regression

1

変分推論エンジン

このトピックについて調査したところ、PythonとRのメッセージパッシングまたは最適化メソッドに依存する推論パッケージとライブラリの驚くべき不足に気づきました。私の知る限りでは、これらの方法は非常に便利です。たとえば、ベイズネットワーク（有向、非循環）の場合、信念の伝播だけで正確な答えが得られるはずです。ただし、オンラインで利用できるほとんどの推論ソフトウェア（たとえば、STAN、BUGS、PyMC）は、MCMCメソッドに依存しています。 Pythonの場合、私の知る限りでは、PyMC、scikit-learn、statsmodelsのいずれにも、信念伝播、メッセージパッシングメソッド、またはそれらのバリアントなどの変分推論アルゴリズムは含まれていません。何故ですか？これらの方法は、MCMCの対応物ほど強力でも汎用的でもないため、実際にはあまり使用されていませんか？またはそれは単に人手と時間の不足の問題ですか？

8 r python bayes variational-bayes

1

不定期時系列の予測（Rあり）

等距離の時系列を予測する方法はいくつかあります（例：Holt-Winters、ARIMAなど）。しかし、私は現在、次の不規則な間隔のデータセットに取り組んでいます。これには、年間のデータポイントの量が異なり、それらのポイント間に定期的な時間間隔はありません。プロット：サンプルデータ： structure(list(date = structure(c(664239600, 665449200, 666658800, 670888800, 672184800, 673394400, 674517600, 675727200, 676936800, 678146400, 679356000, 680565600, 682984800, 684194400, 685404000, 686613600, 687823200, 689036400, 690246000, 691455600, 692665200, 695084400, 696294000, 697503600, 698713200, 699922800, 701132400, 703548000, 705967200, 707176800, 708472800, 709682400, 710805600, 712015200, 713224800, 714434400, 715644000, 716853600, 718063200, 719272800, 720486000, 721695600, 722905200, 724114800, 726534000, …

8 r time-series forecasting unevenly-spaced-time-series

1

「lmerTest」を使用する場合、「lme4」を引用する必要がありますか？

私が使用していlmerTestたp値を取得するために、線形混合モデル（LMM）を実行します。しかし、私が書いた記事では、彼らは両方が表示されますlme4とlmerTest。次に、LMMモデルを実行lme4するためだけに使用する場合も引用するかどうかはわかりませんlmerTest。これについて何かご存知ですか？

8 r

1

lmerで2方向および3方向の相互作用を解釈する方法は？

lmerで2方向および3方向の相互作用を解釈することに問題があります。私のDVは、連続変数である高さです。すべてのIVはカテゴリ変数です。最初の要素は、ラットまたはライオンの動物です。2番目の要素は、男性または女性の性別です。3番目の要素は色です：赤、白、または黄色。出力の解釈に戸惑います： Fixed effects: Estimate Std. Error t value (Intercept) 164.6888 7.8180 21.065 rat -14.1342 8.2889 -1.705 sexmale -16.0883 10.0071 -1.608 colorred 0.5776 6.2473 0.092 coloryellow -14.4048 6.1025 -2.360 rat:sexmale 15.3645 11.8567 1.296 rat:colorred 12.5258 4.4028 2.845 rat:coloryellow 10.3136 4.3196 2.388 sexmale:colorred 2.0272 5.2773 0.384 sexmale:coloryellow 5.7643 5.1669 1.116 rat:sexmale:colorred -5.5144 …

8 r interaction interpretation lme4-nlme

3

RでArimaモデルを近似するときのoptimのエラー

Rの統計パッケージのarimaメソッドを、時系列の17376要素で使用しています。私の目標は、AIC基準の値を取得することです。最初のテストでこれを観察しました。 ts <- arima(serie[,1], order = c(2,1,1), seasonal = list(order=c(2,0,1),period = 24), method = "CSS", optim.method = "BFGS",) > ts$coef ar1 ar2 ma1 sar1 sar2 sma1 0.8883730 -0.0906352 -0.9697230 1.2047580 -0.2154847 -0.7744656 > ts$aic [1] NA ご覧のとおり、AICは定義されていません。AICについて、Rの「ヘルプ」は「ML」でのみ使用できると述べました。しかし、それは起こります： > ts <- arima(serie[,1], order = c(2,1,1), seasonal = list(order=c(2,0,1),period = 24), method …

8 r time-series forecasting arima

2

Rを使用して時間の経過に伴う分布をプロットする良い方法は何ですか？

私は約400人の個人とそれぞれ> 1万回のタイムポイント（シミュレーション結果）を持っています。これらは時間の経過とともに変化するので、監視できるようにしたいと考えています。すべての個人をプロットするのは面倒であり、平均値+ -sd、最小/最大値、または変位値をプロットすることは、私の好みには情報が少なすぎます。このタイプのデータを視覚化するために他の人が思いついたのは、どういうことかと思います。データポイントが少ない場合は、各タイムポイントにbeanplotsを使用しますが、それはそれほど多くのタイムポイントでは機能しません。

8 r time-series data-visualization

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

タグ付けされた質問 「r」

タグ付けされた質問「r」