統計とビッグデータ r

2

R（組み込み関数）に一連の観測からマルコフ連鎖の遷移行列を計算する方法はありますか？たとえば、次のようなデータセットを取得して、一次遷移行列を計算しますか？ dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))

29 r markov-process

2

正則化またはペナルティ化によるARIMAXモデルの適合（たとえば、なげなわ、エラスティックネット、またはリッジ回帰）

予測パッケージのauto.arima（）関数を使用して、ARMAXモデルをさまざまな共変量に適合させます。ただし、選択する変数は多数あることが多く、通常はそれらのサブセットで機能する最終モデルになります。私は人間であり、バイアスの影響を受けるため、変数選択のアドホックな手法は好きではありませんが、時系列の相互検証は難しいので、利用可能な変数のさまざまなサブセットを自動的に試す良い方法が見つかりませんでした。自分の最高の判断力を使ってモデルを調整するのにこだわっています。 glmモデルを適合させると、glmnetパッケージを介して、正則化と変数選択にエラスティックネットまたは投げ縄を使用できます。ARMAXモデルでエラスティックネットを使用するための既存のツールキットがRにありますか、それとも自分でロールバックする必要がありますか？これは良いアイデアですか？編集：ARとMAの項（例えばAR5とMA5まで）を手動で計算し、glmnetを使用してモデルに適合させるのは理にかなっていますか？編集2：FitARパッケージは、そのすべてではなく一部を私に与えているようです。

29 r time-series lasso regularization elastic-net

6

シャピロウィルクテストの解釈

私は統計が初めてなので、あなたの助けが必要です。次のような小さなサンプルがあります。 H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 Rを使用してShapiro-Wilkテストを実行しました。 shapiro.test(precisionH4U$H4U) そして、私は次の結果を得ました： W = 0.9502, p-value = 0.6921 ここで、p値よりも0.05の有意水準がalpha（0.6921> 0.05）よりも大きいと仮定すると、正規分布に関する帰無仮説を拒否できませんが、サンプルに正規分布があると言えますか？ありがとう！

29 r distributions interpretation goodness-of-fit normality-assumption

3

PCAを介して直交回帰（合計最小二乗）を実行する方法は？

私は常にlm()R での線形回帰を実行するために使用します。この関数は、ような係数返しますyyyxxxββ\betay=βx.y=βx.y = \beta x. 今日、私は総最小二乗について学び、そのprincomp()機能（主成分分析、PCA）を使用してそれを実行できることを学びました。それは私にとって良いはずです（より正確に）。を使用していくつかのテストを行いましたprincomp()： r <- princomp( ~ x + y) 私の問題は、結果をどのように解釈するかです。回帰係数を取得するにはどうすればよいですか？「係数」とは、値を掛けて近い数を与えるために使用しなければならない数を意味します。ββ\betaxxxyyy

29 r pca least-squares deming-regression total-least-squares

4

lm（）の結果を方程式に変換する方法は？

lm()値を予測するために使用できますが、場合によっては結果の式の方程式が必要です。たとえば、プロットに方程式を追加します。

29 r regression lm

3

R：データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]

キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

2

glmを実行しているときのエラー「システムは計算上特異」

glm推定を実行するために、robustbaseパッケージを使用しています。しかし、それを行うと、次のエラーが表示されます。 Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 これはどういう意味ですか？そして、どうすればデバッグできますか？ PS。答えるために何か（式/仕様またはデータ）が必要な場合は、喜んで提供します。

29 r generalized-linear-model robust

1

Rの秒/分間隔データの「頻度」値

予測にR（3.1.1）とARIMAモデルを使用しています。私が次のような時系列データを使用している場合、ts()関数で割り当てられる「頻度」パラメータはどうあるべきかを知りたい分単位で区切られ、180日間に分散（1440分/日）秒で区切られ、180日間（86,400秒/日）に広がります。定義を正しく思い出せば、Rのtsでの「頻度」は、「季節」ごとの観測数です。質問パート1：私の場合の「季節」とは何ですか？季節が「日」の場合、分数の「頻度」は1440、秒数の86,400ですか。質問パート2：「頻度」は、達成/予測しようとしているものにも依存しますか？たとえば、私の場合、非常に短期的な予測が必要です。毎回10分先に進みます。季節を1日ではなく1時間と見なすことは可能でしょうか？その場合、分数の頻度は60、秒の頻度は3600ですか？たとえば、分データに頻度= 60を使用しようとしましたが、頻度= 1440と比較してより良い結果が得られました（使用されfourierているリンクはHyndmanによる下記のリンクを参照してください） http://robjhyndman.com/hyndsight/forecasting-weekly-data/ （予測は、予測精度の測定にMAPEを使用して行われました）結果が完全に任意であり、頻度を変更できない場合。私のデータでfreq = 60を使用することの実際の解釈は何でしょうか？また、私のデータには1時間ごとおよび2時間ごとの季節性が含まれていることに言及する価値があると思います（生データと自己相関関数を観察することにより）

28 r time-series arima multiple-seasonalities mape

1

異なる距離と方法で得られた階層的クラスタリング樹状図の比較

[最初のタイトル「階層的クラスタリングツリーの類似性の測定」は、トピックをよりよく反映するために@ttnphnsによって後に変更されました] 私は患者記録のデータフレームでいくつかの階層的クラスター分析を実行しています（例：http ://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=yに類似）私は、さまざまな距離測定、さまざまなパラメーターの重み、さまざまな階層的手法を試し、最終的なクラスター/構造/ビューのツリー（樹形図）への影響を理解しています。異なる階層ツリー間の差を計算する標準的な計算/尺度があるかどうか、およびRでこれを実装する方法（たとえば、一部のツリーがほぼ同一で、一部が大幅に異なることを定量化する）

28 r clustering distance-functions similarities dendrogram

3

混合モデル（lme4）のカテゴリー因子の「全体的な」p値と効果サイズを取得する方法は？

独立したカテゴリ変数（複数のレベル）のp値と効果サイズを取得したいです。つまりlme4、R からの通常の出力のように、各レベルごとにではなく「全体」です。 ANOVAの実行時に人々が報告するもの。どうすれば入手できますか？

28 r hypothesis-testing anova mixed-model lme4-nlme

2

glmnet ridge回帰が手動計算とは異なる答えを与えるのはなぜですか？

glmnetを使用して、リッジ回帰推定値を計算しています。glmnetが本当に思っていることを実際に行っているという点で、私は疑わしい結果になりました。これを確認するために、簡単なRスクリプトを作成し、solveとglmnetで行われたリッジ回帰の結果を比較しました。違いは重要です。 n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) Y <- X%*%beta+rnorm(n,0,0.5) beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y) beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, family="gaussian")$beta@x beta1-beta2 違いの標準は通常20前後であり、これは数値的に異なるアルゴリズムが原因ではないため、何か間違ったことをしているに違いありません。glmnetridgeと同じ結果を得るために設定する必要がある設定は何ですか？

28 r ridge-regression glmnet

7

Rパッケージを作成する理由と時期

私はこの質問が非常に広範なものであることを理解していますが、Rの新しいパッケージを作成する（またはしない）ことを決定する際の決定的なポイントは何だろうと思います。具体的には、この質問は、さまざまなスクリプトをコンパイルし、それらを新しいパッケージに統合する決定について、R自体を使用します。これらの決定につながる可能性のあるポイントの中で、私は（非常に網羅的ではない）次のことを考えました：同じサブフィールドに他のパッケージが存在しない。他の研究者と交換し、実験の再現性を可能にする必要性; そして、反対の決定につながる可能性のあるポイントの中で：既に使用されているメソッドの一部は、他のいくつかのパッケージに既に存在します。新しい独立したパッケージを作成するのに十分ではない新しい関数の数。どちらのリストにも載る可能性のある多くのポイントを忘れていたかもしれません。また、これらの基準は部分的に主観的なようです。それで、文書化されて広く利用可能な新しいパッケージにさまざまな機能とデータを統合することを開始する正当な理由は何ですか？

28 r software

5

線形回帰の等分散性の仮定に違反する危険性は何ですか？

例として、ChickWeightRのデータセットを考えてみましょう。分散は明らかに時間とともに増大するため、次のような単純な線形回帰を使用すると、 m <- lm(weight ~ Time*Diet, data=ChickWeight) 私の質問：モデルのどの側面に疑問があるか？問題はTime範囲外の外挿に限定されていますか？この仮定の違反に対する線形回帰の許容度（つまり、問題を引き起こすためにはどの程度異分散が必要か）。

28 r regression heteroscedasticity assumptions

1

混合効果モデルで変量効果の分散と相関を解釈する方法は？

皆さんがこの質問を気にしないことを願っていますが、Rでやろうとしている線形混合効果モデル出力の出力を解釈するのに助けが必要です。私は、時間予測子として週に適合したモデルを持ち、私の結果として雇用コースで得点します。スコアを数週間（時間）といくつかの固定効果、性別、人種でモデル化しました。私のモデルにはランダム効果が含まれています。分散と相関関係の意味を理解する助けが必要です。出力は次のとおりです。 Random effects Group Name Variance EmpId intercept 680.236 weeks 13.562 Residual 774.256 相関は.231です。相関関係は、週とスコアの間に正の関係があるため、解釈できますが、「23％の...」の観点からそれを言いたいと思います。本当に感謝しています。返信してくれた「ゲスト」とマクロに感謝します。申し訳ありませんが、返信しないため、私は会議に出ていたので、追いついています。出力とコンテキストは次のとおりです。以下は、私が実行したLMERモデルの概要です。 >summary(LMER.EduA) Linear mixed model fit by maximum likelihood Formula: Score ~ Weeks + (1 + Weeks | EmpID) Data: emp.LMER4 AIC BIC logLik deviance REMLdev 1815 1834 -732.6 1693 1685 Random effects: …

28 r mixed-model interpretation panel-data

1

lmerモデルからの効果の再現性の計算

混合効果モデリングによる測定の再現性（別名信頼性、別名クラス内相関）の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

タグ付けされた質問 「r」

タグ付けされた質問「r」