統計とビッグデータ r

4

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 6か月前に閉鎖されました。 ROCの下で面積を計算するパッケージを見つけるのは簡単ですが、精度-リコールカーブの下の面積を計算するパッケージはありますか？

14 r precision-recall

2

誰かが線形と非線形の混合効果に光を当てることができますか？

Rの学習に飛び込もうとしています。私の学習プロジェクトでは、予測式を作成するために、混合効果またはランダム効果の回帰をデータセットに適用する必要があります。この投稿で筆者の懸念を共有します。混合効果モデルでnlmeまたはlme4 Rライブラリを選択する方法は？NLMEとLME4のどちらが自分に馴染みやすいパッケージなのか疑問に思います。より基本的な質問は、線形混合効果と非線形混合効果のモデリングの違いは何ですか？背景については、MSの研究（MEではなくR）でMEモデリングを適用したため、固定変数とランダム変数の処理方法に精通しています。しかし、私が行った作業が線形MEと非線形MEのどちらであるかは定かではありません。それは単に使用された方程式の機能的な形なのか、それとも何か他のものなのか？

14 r regression random-effects-model

4

「残留標準誤差」と言うのはなぜですか？

標準誤差は、推定された標準偏差であるσ（θ）推定器のθパラメータのためのθ。σ^(θ^)σ^(θ^)\hat \sigma(\hat\theta)θ^θ^\hat\thetaθθ\theta なぜ残差の推定標準偏差は「残差標準誤差」と呼ばれ（例えば、Rのsummary.lm関数の出力）、「残差標準偏差」ではないのですか？ここで、どのパラメータ推定値に標準誤差を装備しますか？各残差を「その」誤差項の推定量と見なし、これらすべての推定量の「プールされた」標準誤差を推定しますか？

14 r standard-error residuals terminology

1

Rに複数の外生変数がある有馬時系列予測（auto.arima）

複数の外生変数を持つ複数の時系列ARIMAモデルに基づいて予測を実行したいと思います。私は統計もRIも維持したくないという点に関しては、十分なスキルを持っているわけではないので、可能な限り簡単です（3ヶ月のトレンド予測で十分です）。 1つの依存時系列と3〜5の予測時系列、すべて月間データ、ギャップなし、同じ時間「水平線」があります。 auto.arima関数に遭遇し、これが私の問題の適切な解決策であるかどうかを自問しました。私は異なる商品価格とそれらから作られた製品の価格を持っています。すべての生データは非定常ですが、1次差分によりすべて定常データになります。ADF、KPSSはこれを示します。（これは、統合のテストを行ったことを意味しますか？）私の質問は次のとおりです：auto.arima関数でこれをどのように適用し、ARIMAはとにかく正しいアプローチですか？一部の人々はすでにVARを使用するようにアドバイスしてくれましたが、ARIMAでも可能ですか？次の表は私のデータです。実際、データセットは105回の観測まで増加しますが、最初の50回は増加します。ここでは、トレンドと季節性が明らかに重要です。アドバイスや助けをありがとう！ゲオルグ

14 r time-series arima

4

ROCおよびmultiROC分析：最適なカットポイントの計算方法

ROC曲線の最適なカットポイント（感度と特異性が最大になる値）を計算する方法を理解しようとしています。aSAHパッケージのデータセットを使用していますpROC。 outcome変数は、2つの独立変数によって説明することができますs100bとndka。Epiパッケージの構文を使用して、2つのモデルを作成しました。 library(pROC) library(Epi) ROC(form=outcome~s100b, data=aSAH) ROC(form=outcome~ndka, data=aSAH) 出力は、次の2つのグラフに示されています。最初のグラフ（s100b）では、関数は、最適なカットポイントがに対応する値に局在していることを示していlr.eta=0.304ます。2番目のグラフ（ndka）では、最適なカットポイントがlr.eta=0.335（の意味はlr.eta）に対応する値にローカライズされています。私の最初の質問は：何対応するs100bとndkaの値lr.etaの値が示されている（の点で最適なカットポイントは何であるs100bとはndka）？第二の質問：次に、両方の変数を考慮してモデルを作成するとします。 ROC(form=outcome~ndka+s100b, data=aSAH) 得られるグラフは次のとおりです。関数によって感性と特異性が最大化されるndkaAND の値を知りたいですs100b。他の面では：の値が何であるかndka及びs100bその時、我々がse = 68.3パーセントとSP値76.4パーセント（グラフから得られた値）を有しますか？この2番目の質問はmultiROC分析に関連していると思いますが、Epiパッケージのドキュメントには、モデルで使用される両方の変数の最適なカットポイントを計算する方法が説明されていません。私の質問は、簡単に言うとreasearchGateからのこの質問と非常によく似ています。メジャーの感度と特異性の間のより良いトレードオフを表すカットオフスコアの決定は簡単です。ただし、多変量ROC曲線分析については、ほとんどの研究者がAUCの観点からいくつかのインジケーター（変数）の線形結合の全体的な精度を決定するアルゴリズムに注目していることに注目しました。[...] ただし、これらの方法では、最高の診断精度を提供する複数のインジケーターに関連付けられたカットオフスコアの組み合わせを決定する方法については言及していません。可能な解決策は、Shultzの論文で提案されたものですが、この記事からは、多変量ROC曲線の最適なカットポイントを計算する方法を理解できません。 Epiパッケージからの解決策は理想的ではないかもしれないので、他の有用なリンクを歓迎します。

14 r roc sensitivity-analysis sensitivity-specificity

2

多重線形回帰シミュレーション

R言語は初めてです。回帰の4つの仮定すべてを満たす多重線形回帰モデルからシミュレーションする方法を知りたい。わかりました。ありがとう。このデータセットに基づいてデータをシミュレートしたいとしましょう： y<-c(18.73,14.52,17.43,14.54,13.44,24.39,13.34,22.71,12.68,19.32,30.16,27.09,25.40,26.05,33.49,35.62,26.07,36.78,34.95,43.67) x1<-c(610,950,720,840,980,530,680,540,890,730,670,770,880,1000,760,590,910,650,810,500) x2<-c(1,1,3,2,1,1,3,3,2,2,1,3,3,2,2,2,3,3,1,2) fit<-lm(y~x1+x2) summary(fit) 次に、出力を取得します： Call: lm(formula = y ~ x1 + x2) Residuals: Min 1Q Median 3Q Max -13.2805 -7.5169 -0.9231 7.2556 12.8209 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 42.85352 11.33229 3.782 0.00149 ** x1 -0.02534 0.01293 -1.960 0.06662 . x2 0.33188 2.41657 …

14 r multiple-regression simulation

5

最小クラスターサイズの制約によるクラスタリング（k-meansなど）

グループ内平方和（WSS）を最小化するために、ユニットをクラスターにクラスター化する必要がありますが、クラスターに少なくともm個のユニットが含まれていることを確認する必要があります。Rのクラスタリング機能のいずれかが、最小クラスターサイズの制約の対象となるkクラスターへのクラスタリングを可能にするかどうかについての考えはありますか？kmeans（）はサイズ制約オプションを提供していないようです。kkkmmmkkk

14 r clustering

2

Rのcoxphの「coef」と「（exp）coef」の出力の違いは何ですか？

私は、coxphの「coef」および「（exp）coef」出力が正確に何を意味するかを見極めようとしています。「（exp）coef」は、コマンドで割り当てられたグループに応じたモデルの最初の変数の比較であるようです。 coxph関数は、「coef」および「（exp）coef」の値にどのように到達しますか？さらに、打ち切りが含まれる場合、coxphはこれらの値をどのように決定しますか？

14 r survival interpretation

1

bcaメソッドを使用して信頼区間を計算すると、Rブートパッケージから「推定調整 'a'はNA」というエラーが生成されるのはなぜですか？

dputを使用してここにアップロードした数値のベクトル（... / code / MyData.Rdata）があります。 bca ciを取得したいので、次のコードを記述しました。 my.mean <- function(dat, idx){ return (mean(dat[idx], na.rm = TRUE)) } boot.out<-boot(data=my.data, statistic = my.mean, R=1000) しかし、私が以下を実行すると、これが得られます： > boot.ci(boot.out) Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o, : estimated adjustment 'a' is NA In addition: Warning message: In …

14 r bootstrap

2

Rでの生存確率の推定

生存時間のサンプルに基づいて、カプラン・マイヤー推定器を使用して、特定のtについて、生存時間tの確率を推定したいと思います。でこれを行うことは可能ですか？tは必ずしもイベント時間ではないことに注意してください。nnnttttttRttt

14 r kaplan-meier

1

カテゴリカルデータを使用した負の二項GLMからの.L＆.Q出力の解釈

私は負の二項GLMを実行しただけで、これが出力です。 Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 *** method.L -0.6828 0.1637 -4.171 …

14 r categorical-data generalized-linear-model interpretation negative-binomial

2

CLR（集中ログ比変換）を使用してPCAのデータを準備できますか？

スクリプトを使用しています。コアレコード用です。特定の深さ（最初の列）の列に異なる元素組成を示すデータフレームがあります。PCAを実行したいのですが、選択しなければならない標準化方法について混乱しています。あなたの誰もがのclr()ためにあなたのデータを準備するために使用しましたprcomp()か？または、ソリューションを悪化させますか。で属性スケールをclr()使用するprcomp()ことに加えて、関数を使用する前にデータのon を使用してみましたprcomp()。 data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html スケールはデータをスケーリングするために記述されているため、単位分散があります。私のデータは私が望んでいたものとは非常に異なるスケールを持っているので、私は思う。問題は、上記のコードを使用するとき、またはスキップするときclr()（より望ましい結果が得られる）、別のソリューションを受け取ることです。しかし、私はなぜclr()その場合に邪魔なのか知りたいですか？

13 r pca normalization compositional-data

1

複合対称の場合の（0 + factor | group）および（1 | group）+（1 | group：factor）ランダム効果の仕様の等価性

ダグラス・ベイツは、次のモデルは「ベクトル値のランダム効果の分散共分散行列が複合対称性と呼ばれる特別な形式を持っている場合」と同等であると述べています（このプレゼンテーションのスライド91）。 m1 <- lmer(y ~ factor + (0 + factor|group), data) m2 <- lmer(y ~ factor + (1|group) + (1|group:factor), data) 具体的には、Batesは次の例を使用します。 library(lme4) data("Machines", package = "MEMSS") m1a <- lmer(score ~ Machine + (0 + Machine|Worker), Machines) m2a <- lmer(score ~ Machine + (1|Worker) + (1|Worker:Machine), Machines) 対応する出力： print(m1a, corr …

13 r anova mixed-model repeated-measures lme4-nlme

2

r、rの2乗、残差標準偏差は線形関係について何を教えてくれますか？

リトル背景私は、回帰分析の解釈に取り組んでいますが、私は本当にRの意味について混乱、rは乗と残留標準偏差。私は定義を知っています：特徴づけ rは、散布図上の2つの変数間の線形関係の強度と方向を測定します R-2乗は、データが近似回帰直線にどれだけ近いかを示す統計的尺度です。残差標準偏差は、線形関数の周囲に形成される点の標準偏差を記述するために使用される統計用語であり、測定される従属変数の精度の推定値です。（ユニットが何であるかわからない、ここのユニットについての情報は役に立つでしょう）（ソース：ここ）質問私はキャラクタリゼーションを「理解」していますが、これらの用語がどのようにデータセットについて結論を導き出すかを理解しています。ここに小さな例を挿入します。これは私の質問に答えるためのガイドとして役立つかもしれません（あなた自身の例を自由に使用してください！）例これは手間がかかる質問ではありませんが、簡単な例を得るために本で検索しました（私が分析している現在のデータセットは複雑すぎて、ここに表示するには大きすぎます）トウモロコシの大きな畑で、それぞれ10 x 4メートルの20のプロットがランダムに選択されました。各プロットについて、植物密度（プロット内の植物の数）と平均穂軸重量（穂軸あたりの穀物のグラム）が観察されました。次の表に結果を示します。（出典：生命科学の統計） ╔═══════════════╦════════════╦══╗ ║ Platn density ║ Cob weight ║ ║ ╠═══════════════╬════════════╬══╣ ║ 137 ║ 212 ║ ║ ║ 107 ║ 241 ║ ║ ║ 132 ║ 215 ║ ║ ║ 135 ║ 225 ║ ║ ║ 115 …

13 r regression regression-coefficients linear pearson-r

1

ロジスティック回帰と分数応答回帰の違いは何ですか？

私の知る限り、ロジスティックモデルと分数応答モデル（frm）の違いは、frmが[0,1]であるがロジスティックが{0、1}である従属変数（Y）であるということです。さらに、frmは準尤度推定器を使用してそのパラメーターを決定します。通常、を使用glmしてロジスティックモデルを取得できますglm(y ~ x1+x2, data = dat, family = binomial(logit))。 frmの場合、に変更family = binomial(logit)しfamily = quasibinomial(logit)ます。 family = binomial(logit)同じ推定値が得られるため、frmのパラメーターの取得にも使用できることに気付きました。次の例をご覧ください library(foreign) mydata <- read.dta("k401.dta") glm.bin <- glm(prate ~ mrate + age + sole + totemp, data = mydata ,family = binomial('logit')) summary(glm.bin) 戻り、 Call: glm(formula = prate ~ mrate + age + …

13 r logistic generalized-linear-model quasi-likelihood

タグ付けされた質問 「r」

タグ付けされた質問「r」