統計とビッグデータ r

2

次のデータがあるとします。 8232302 684531 116857 89724 82267 75988 63871 23718 1696 436 439 248 235 これ（および他のいくつかのデータセット）をパレート分布に適合させる簡単な方法が必要です。理想的には、一致する理論値を出力し、理想的ではないパラメーターを出力します。

22 r pareto-distribution

1

複数の季節成分を含む時系列を分解する方法は？

2つの季節成分を含む時系列があり、その系列を次の時系列成分（トレンド、季節成分1、季節成分2、不規則成分）に分解したいと思います。私の知る限り、Rでシリーズを分解するためのSTL手順では、季節成分は1つしか許可されないため、シリーズを2回分解してみました。まず、次のコードを使用して、頻度を最初の季節成分に設定します。 ser = ts(data, freq=48) dec_1 = stl(ser, s.window="per") 次に、dec_1次のように頻度を2番目の季節成分に設定することにより、分解された系列の不規則成分（）を分解しました。 ser2 = ts(dec_1$time.series[,3], freq=336) dec_2 = stl(ser2, s.window="per") このアプローチには自信がありません。また、複数の季節性を持つシリーズを分解する他の方法があるかどうかを知りたいです。また、tbats()R 予測パッケージの関数を使用すると、複数の季節性を持つシリーズにモデルを適合させることができますが、それを使用してシリーズを分解する方法はわかりません。

22 r time-series forecasting decomposition multiple-seasonalities

1

Rでは、ヘッセ行列を使用したoptimからの出力が与えられた場合、ヘッセ行列を使用してパラメーターの信頼区間を計算する方法は？

ヘッセ行列を使用したoptimからの出力が与えられた場合、ヘッセ行列を使用してパラメータ信頼区間を計算する方法 fit<-optim(..., hessian=T) hessian<-fit$hessian 最尤分析のコンテキストに主に興味を持っていますが、この方法を超えて拡張できるかどうか知りたいです。

22 r maximum-likelihood

4

変数間の相互作用を考慮する場合、線形回帰とANOVAが異なる値を与えるのはなぜですか？

回帰モデルを使用して、1つの時系列データ（複製なし）を近似しようとしました。データは次のようになります。 > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 1 1 9 8.090211 6 1 10 8.031459 12 1 11 8.118308 24 1 …

22 r regression statistical-significance anova p-value

1

R関数「princomp」と「prcomp」が異なる固有値を与えるのはなぜですか？

これを再現するには、十種競技データセット{FactoMineR}を使用できます。問題は、計算された固有値が共分散行列の固有値と異なる理由です。を使用した固有値はprincomp次のとおりです。 > library(FactoMineR);data(decathlon) > pr <- princomp(decathlon[1:10], cor=F) > pr$sd^2 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1.348073e+02 2.293556e+01 9.747263e+00 1.117215e+00 3.477705e-01 1.326819e-01 Comp.7 Comp.8 Comp.9 Comp.10 6.208630e-02 4.938498e-02 2.504308e-02 4.908785e-03 そして同じを使用してPCA： > res<-PCA(decathlon[1:10], scale.unit=FALSE, ncp=5, graph = FALSE) > res$eig eigenvalue percentage of variance cumulative percentage of variance comp …

22 r pca

6

グラフ理論—分析と可視化

被験者がCrossValidatedの利益を得るかどうかはわかりません。教えてくれます。私は（グラフ理論から）グラフを研究する必要があります。特定の数のドットが接続されています。すべてのドットと各ドットが依存しているドットを含むテーブルがあります。（私も含意を持つ別のテーブルを持っています）私の質問は次のとおりです。それを簡単に研究するための優れたソフトウェア（またはRパッケージ）はありますか？グラフを表示する簡単な方法はありますか？

22 r data-visualization graph-theory

3

部分依存プロットのy軸の解釈

この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 5年前に移行されました。部分依存プロットに関する他のトピックを読みましたが、それらのほとんどは、それらを正確に解釈する方法ではなく、異なるパッケージで実際にプロットする方法に関するものです。私はかなりの量の部分依存プロットを読んで作成しています。私は、彼らが私のモデルからの他のすべての変数（χc）の平均の影響で関数ƒS（χS）に対する変数χsの限界効果を測定することを知っています。yの値が大きいほど、クラスの正確な予測に大きな影響を与えます。しかし、私はこの定性的な解釈に満足していません。私のモデル（ランダムフォレスト）は、2つの控えめなクラスを予測しています。「はい」と「いいえ」。TRIは、これに適した変数であることが証明されている変数です。私が考え始めたのは、Y値が正しい分類の確率を示しているということです。例：y（0.2）は、TRI値が30を超えていると、True Positive分類を正しく識別する可能性が20％であることを示しています。逆に y（-0.2）は、TRI値が<〜15の場合、True Negative分類を正しく識別する確率が20％であることを示しています。文献で行われている一般的な解釈は、「TRI 30より大きい値がモデルの分類にプラスの影響を与え始める」というように聞こえますが、それだけです。潜在的にあなたのデータについて多くを語ることができるプロットにとって、それはとても曖昧で無意味に聞こえます。また、すべてのプロットは、y軸の範囲内で-1から1の範囲で制限されます。-10〜10などの他のプロットを見ました。これは、予測しようとしているクラスの数の関数ですか？誰もこの問題に話すことができるかどうか疑問に思っていました。これらのプロットまたは私を助けてくれるいくつかの文献をどのように解釈すべきかを教えてください。多分私はこれを読みすぎていますか？統計学習の要素であるデータマイニング、推論、および予測を非常によく読んでおり、素晴らしい出発点でしたが、それだけです。

22 r classification data-visualization random-forest interpretation

2

データに多少のばらつきがあるにもかかわらず、混合モデルでランダム効果の分散がゼロになるのはなぜですか？

次の構文を使用して、混合効果ロジスティック回帰を実行しました。 # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) 件名と項目はランダムな効果です。対象の項の係数と標準偏差が両方ともゼロであるという奇妙な結果が得られています。 Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: GoalEncoding ~ 1 + Group + (1 | Subject) …

22 r mixed-model stata glmm lme4-nlme

2

バイナリ行列のクラスタリング

次元250k x 100 のバイナリフィーチャの半小さなマトリックスがあります。各行はユーザーであり、列は、「likes_cats」などのユーザー動作のバイナリ「タグ」です。 user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 ユーザーを5〜10個のクラスターに適合させ、負荷を分析して、ユーザーの行動のグループを解釈できるかどうかを確認します。バイナリデータにクラスターをフィッティングするためのアプローチはかなりあるように思われます-このデータに最適な戦略は何だと思いますか？ PCA Jaccard Similarityマトリックスを作成し、階層クラスターを適合させてから、上位の「ノード」を使用します。 Kメディアン K-medoid プロキシマス？アグネスこれまでのところ、階層的クラスタリングを使用することである程度の成功を収めてきましたが、それが最善の方法であるかどうかは確かではありません。 tags = read.csv("~/tags.csv") d = dist(tags, method = "binary") hc = …

22 r clustering binary-data

3

Rのwilcox.test（）によるW統計の出力は、U統計と同じですか？

私は最近、Mann-Whitney Uテストについて読んでいます。Rでこのテストを実行するには、実際にWilcoxonテストを実行する必要があることがわかります！私の質問：wilcox.testRのW統計はU統計と同じですか？

22 r wilcoxon-mann-whitney

2

回帰におけるWaldテスト（OLSおよびGLM）：t分布とz分布

回帰係数のWald検定は、漸近的に保持される次のプロパティに基づいていることを理解しています（たとえばWasserman（2006）：All Statistics、pages 153、214-215）：ここで推定回帰係数を示し、は回帰係数の標準誤差を示し、は係数の値をテストするために関心のある値（は通常0です） 0とは大きく異なります）。サイズようワルドテストがある：リジェクト場合β^SE（β）β0β0αH0| W| >Zα/2（β^- β0）seˆ（β^）〜 N（0 、1 ）(β^−β0)se^(β^)∼N(0,1) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}seˆ（β^）se^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}|W| > zα / 2|W|>zα/2|W|> z_{\alpha/2}ここで、 W= β^seˆ（β^）。W=β^se^(β^). W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. ただしlm、Rで線形回帰を実行する場合、回帰係数が0（with ）と大きく異なるかどうかをテストするために、値の代わりに値が使用されます。さらに、in R の出力は、テスト統計として値と値を提供する場合があります。明らかに、分散パラメータが既知であると想定される場合は値が使用され、分散パラメータが推定される場合は値が使用されます（このリンクを参照）。z z t z ttttzzzsummary.lmglmzzztttzzzttt 係数とその標準誤差の比率が標準正規分布として分布していると想定されているのに、なぜWald検定に分布が使用されることがあるのか、誰か説明できますか？ttt 質問に答えた後に編集するこの投稿は、質問に役立つ情報も提供します。

22 r regression hypothesis-testing generalized-linear-model

3

LarsとGlmnetがLasso問題に対して異なるソリューションを提供するのはなぜですか？

私は、より良好なRパッケージを理解したいLarsとGlmnet：ラッソ問題解決するために使用され、（p変数およびNサンプルについては、3ページのwww.stanford.edu/~hastie/Papers/glmnet.pdfを参照）M I nは（β0β）∈ Rp + 1[ 12N∑私 = 1N（ y私− β0− xT私β）2+ λ | |β| |l1]m私n（β0β）∈Rp+1[12N∑私=1N（y私−β0−バツ私Tβ）2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppNNN したがって、同じおもちゃのデータセットに両方を適用しました。残念ながら、2つの方法は同じデータ入力に対して同じソリューションを提供しません。誰が違いがどこから来るのかを知っていますか？結果を次のように取得しました。いくつかのデータ（8個のサンプル、12個の特徴、Toeplitzデザイン、すべてが中心）を生成した後、Larsを使用してLassoパス全体を計算しました。次に、Larsによって計算されたラムダのシーケンス（0.5を乗算）を使用してGlmnetを実行し、同じソリューションを取得したいと考えましたが、実行しませんでした。ソリューションが似ていることがわかります。しかし、どのように違いを説明できますか？以下に私のコードを見つけてください。関連する質問があります：LASSOソリューションを計算するためのGLMNETまたはLARS？、しかし、私の質問に対する答えは含まれていません。セットアップ： # Load packages. library(lars) library(glmnet) library(MASS) # Set parameters. nb.features <- 12 nb.samples <- 8 nb.relevant.indices <- 3 snr <- 1 …

22 r regression machine-learning lasso regularization

1

相互作用のクラス内相関（ICC）

各サイトの各被験者の測定値があるとします。サブジェクトとサイトの2つの変数は、クラス内相関（ICC）値の計算に関して重要です。通常lmer、Rパッケージの関数を使用lme4して実行します lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) ICC値は、上記のモデルの変量効果の分散から取得できます。しかし、最近私は本当に困惑する論文を読みました。上記の例を使用して、著者は、nlmeパッケージの関数lmeを使用して、論文の3つのICC値を計算しました。論文にはこれ以上の詳細は記載されていません。次の2つの観点から混乱しています。 lmeでICC値を計算する方法は？lmeでこれらの3つのランダム効果（被験者、サイト、およびそれらの相互作用）を指定する方法がわかりません。主題とサイトの相互作用のためにICCを考慮することは本当に意味がありますか？モデリングまたは理論的な観点から計算できますが、概念的にはこのような相互作用の解釈に問題があります。

22 r lme4-nlme intraclass-correlation

5

生または直交多項式回帰？

変数をに回帰させたい。生の多項式または直交多項式を使用してこれを行う必要がありますか？私はこれらを扱っているサイトで質問を見ましたが、私はそれらを使用することの違いが何であるかを本当に理解していません。 x 、x 2、… 、x 5yyyx 、x2、… 、x5x,x2,…,x5x,x^2,\ldots,x^5 なぜだけ係数を取得するために「正常な」回帰を行うことはできませんの、Yが= Σ 5 iは= 0 β I X Iをβ私βi\beta_iy= ∑5i = 0β私バツ私y=∑i=05βixiy=\sum_{i=0}^5 \beta_i x^i（p値及び全ての他の素敵なものと一緒に）、代わりに生の多項式を使用するか直交多項式を使用するかを心配する必要がありますか？この選択は、私がやりたいことの範囲外にあるように思えます。私が現在読んでいる統計書（TibshiraniらによるISLR）では、これらのことは言及されていませんでした。実際、彼らはある意味で軽視されていました。その理由は、lm()R の関数で、y ~ poly(x, 2)直交多項式の使用にy ~ x + I(x^2)量を使用し、生の多項式の使用に量を使用することです。しかし116ページで著者は最初のオプションを使用すると言っています。後者は「面倒」であり、これらのコマンドが実際に完全に異なるものに影響を与える（そして結果として異なる出力を持つ）ことを示しません。（3番目の質問）ISLRの著者は、なぜ読者をそのように混乱させるのでしょうか？

22 r regression polynomial

8

3つのカテゴリ変数間の関係をどのように視覚化できますか？

3つのカテゴリ変数を含むデータセットがあり、3つすべての関係を1つのグラフで視覚化したい。何か案は？現在、次の3つのグラフを使用しています。各グラフは、ベースライン低下のレベル（軽度、中度、重度）に対応しています。次に、各グラフ内で、治療（0,1）とうつ病の改善（なし、中程度、実質）の関係を調べます。これらの3つのグラフは3方向の関係を確認するために機能しますが、1つのグラフでこれを行う既知の方法はありますか？

21 r data-visualization categorical-data

タグ付けされた質問 「r」

タグ付けされた質問「r」