統計とビッグデータ r

2

PCA分析のバイプロットを作成すると、x軸に主成分PC1スコア、y軸にPC2スコアがあります。しかし、画面の右側と上部にある他の2つの軸は何ですか？

18 r pca biplot

2

重みの治療の間どのように異なるかを私は知っていただきたいと思いますsvyglmし、glm twangR のパッケージを使用して、次のように重みとして使用される傾向スコアを作成しています（このコードはtwangドキュメントから取得しています）。 library(twang) library(survey) set.seed(1) data(lalonde) ps.lalonde <- ps(treat ~ age + educ + black + hispan + nodegree + married + re74 + re75, data = lalonde) lalonde$w <- get.weights(ps.lalonde, stop.method="es.mean") design.ps <- svydesign(ids=~1, weights=~w, data=lalonde) glm1 <- svyglm(re78 ~ treat, design=design.ps) summary(glm1) ... Coefficients: Estimate Std. Error …

18 r survey

1

線形回帰係数の信頼区間は、正規分布または

単純なANOVAなどの線形モデルを作成してみましょう。 # data generation set.seed(1.234) Ng <- c(41, 37, 42) data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1) fact <- as.factor(rep(LETTERS[1:3], Ng)) m1 = lm(data ~ 0 + fact) summary(m1) 結果は次のとおりです。 Call: lm(formula = data ~ 0 + fact) Residuals: Min 1Q Median 3Q Max -2.30047 …

18 r regression confidence-interval

1

ランダムフォレストでは、％IncMSEが大きいほど良いですか、悪いですか？

私はRに（回帰）ランダムフォレストモデルを構築した後、コールはrf$importance各予測変数のための2つの対策を提供してくれる、%IncMSEとIncNodePurity。%IncMSE値が小さい予測変数の解釈は、%IncMSE値が大きい予測変数よりも重要ですか？どうIncNodePurityですか？

17 r feature-selection random-forest

2

回帰の多項式対比

回帰フィッティングにおける多項式コントラストの使用法を理解できません。特に、このページRで説明されている間隔変数（等間隔のレベルを持つ順序変数）を表現するために使用されるエンコーディングを参照しています。そのページの例では、私が正しく理解していれば、Rは区間変数のモデルに適合し、線形、二次、または三次の傾向に重みを付けるいくつかの係数を返します。したがって、近似モデルは次のようになります。 write=52.7870+14.2587X−0.9680X2−0.1554X3,write=52.7870+14.2587X−0.9680X2−0.1554X3,{\rm write} = 52.7870 + 14.2587X - 0.9680X^2 - 0.1554X^3, ここで、値取るべき、、、または間隔変数の異なるレベルに応じ。XXX111222333444 これは正しいです？そして、もしそうなら、多項式対比の目的は何でしたか？

17 r regression contrasts

2

Rで数値/カテゴリ値の両方で順序ロジスティック回帰分析を実行するにはどうすればよいですか？

基本データ：評価「1,1」「良い」「2」「中間」または「3」「悪い」でマークされた人が約1,000人あります-これらは将来の人のために予測しようとしている値です。それに加えて、性別（カテゴリ：M / F）、年齢（数値：17-80）、および人種（カテゴリ：黒/白人/ラテン系）の人口統計情報があります。主に4つの質問があります。最初に、上記のデータセットを重回帰分析として実行しようとしました。しかし、私は最近、私の従属変数が順序変数であり、連続変数ではないため、このようなことには順序ロジスティック回帰を使用する必要があることを学びました。最初はのようなものを使用していましたがmod <- lm(assessment ~ age + gender + race, data = dataset)、誰かが私を正しい方向に向けられますか？そこから、私が快適だと思う係数を取得すると仮定して、x1、x2などの数値のみをプラグインする方法を理解します-しかし、たとえば、複数の応答がある場合、レースにどのように対処しますか：黒/白人/ラテン系？それで、コーカサス係数が0.289で、予測しようとしている人がコーカサス人であることがわかった場合、値は数値ではないので、どのように元に戻すのですか？レース用、性別用など、欠落しているランダムな値もあります。これが歪んでいないことを確認するために、さらに何かをする必要がありますか？（データセットがR-StudioにロードされNA、欠落データがとしてロードされると、Rは次のよう(162 observations deleted due to missingness)になりますが、空白としてロードされても、何もしません。）これがすべてうまくいき、性別、年齢、人種を予測したい新しいデータがあると仮定します。新しい係数を持つ私の式が判明したとしても、Rでそれをすべて実行する簡単な方法がありますか？手動で行うのではなく？（この質問がここで適切でない場合は、Rフォーラムに戻すことができます。）

17 r regression logistic missing-data ordered-logit

2

ポアソンGLMが非整数の数値を受け入れることはどのように可能ですか？

ポアソンGLMが整数以外の数値を受け入れるという事実に本当に驚かされます！見て：データ（の内容data.txt）： 1 2001 0.25 1 1 2002 0.5 1 1 2003 1 1 2 2001 0.25 1 2 2002 0.5 1 2 2003 1 1 Rスクリプト： t <- read.table("data.txt") names(t) <- c('site', 'year', 'count', 'weight') tm <- glm(count ~ 0 + as.factor(site) + as.factor(year), data = t, family = …

17 r generalized-linear-model poisson-distribution poisson-regression

2

この近似対残差プロットをどのように解釈しますか？

私は不均一分散性を本当に理解していません。私のモデルがこのプロットに従って適切かどうかを知りたいです。

17 r regression residuals heteroscedasticity independence

3

Rのt分布のフィッティング：スケーリングパラメーター

t分布のパラメーター、つまり正規分布の「平均」と「標準偏差」に対応するパラメーターをどのように適合させますか。私はそれらがt分布の「平均」と「スケーリング/自由度」と呼ばれていると思いますか？次のコードは、多くの場合「最適化に失敗しました」エラーになります。 library(MASS) fitdistr(x, "t") 最初にxをスケーリングするか、確率に変換する必要がありますか？それを行うのに最適な方法は？

17 r distributions maximum-likelihood fitting robust

5

Rのglmファミリー引数で対数正規分布を指定するにはどうすればよいですか？

簡単な質問：RのGLMファミリ引数で対数正規分布を指定するにはどうすればよいですか？これをどのように達成できるかわかりませんでした。対数正規（または指数）がファミリー引数のオプションではないのはなぜですか？ R-Archivesのどこかで、対数正規分布を指定するために、GLMでガウスに設定されたファミリのログリンクを使用するだけでよいことを読みました。ただし、これは非線形回帰に適合し、Rは開始値を求め始めるため、これはナンセンスです。 GLMの対数正規（または指数）分布を設定する方法を知っている人はいますか？

17 r distributions generalized-linear-model lognormal

3

多変量の自然な3次スプラインの近似

注： 1か月後に正しい答えが得られないため、SOに再投稿しましたバックグラウンドモデルがあり、Y = f （X）fffY=f(X)Y=f(X)Y=f(\textbf{X}) n × m m Y n × 1XX\textbf{X}はパラメーターからのサンプルの行列で、はモデル出力のベクトルです。n×mn×mn \times mmmmYYYn×1n×1n \times 1 f （X 、Y ）Yfffは計算量が多いためポイントを通る多変量3次スプラインを使用してを近似し、より多くのポイントでを評価できるようにします。fff（X、Y）（バツ、Y）(X,Y)YYY 質問 XとYの間の任意の関係を計算するR関数はありますか？具体的にはsplinefun、単変量の場合にスプライン関数を生成する関数の多変量バージョンを探しています。たとえば、これはsplinefun単変量の場合にどのように機能するかです x <- 1:10 y <- runif(10) foo <- splinefun(x,y) foo(1:10) #returns y, as example all(y == foo(1:10)) ## TRUE 私が試したこと mdaパッケージを確認しましたが、次のように動作するはずです。 library(mda) x …

17 r multivariate-analysis splines interpolation gaussian-process

2

95パーセンタイルの計算：正規分布、R分位、およびExcelアプローチの比較

次のデータセットで95パーセンタイルを計算しようとしていました。私はそれを行うためのいくつかのオンライン参照に出会いました。アプローチ1：サンプルデータに基づく最初のものは得ることが私に語っTOP 95 Percent選択し、次にデータセットのをし、MINまたはAVG結果セットの。次のデータセットに対してこれを行うと、次のことがわかります。 AVG: 29162 MIN: 0 アプローチ2：正規分布を仮定二つ目は、第95パーセンタイルは約2標準偏差の平均を上回っている（私は理解している）と私が実行したことを言います： AVG(Column) + STDEV(Column)*1.65: 67128.542697973 アプローチ3：R分位点以前Rは95パーセンタイルを取得していました。 > quantile(data$V1, 0.95) 79515.2 アプローチ4：Excelのアプローチ最後に、私はこれに出会いました。それはExcelがそれをどのように行うかを説明しています。メソッドの概要は次のとおりです。 N順序付けられた値のセットと{v[1], v[2], ...}、pthパーセンタイルを計算するための要件が与えられたら、次の手順を実行します。計算する l = p(N-1) + 1 l整数と小数のコンポーネントに分割l = k + d 必要な値を次のように計算します V = v[k] + d(v[k+1] - v[k]) この方法は私に与えます 79515.2 Rの値は正しいと信じていますが、値は一致しません（ecdfプロットからも観察しました）。私の目標は、特定のデータセットから95番目のパーセンタイルを（AVGおよびSTDEV関数のみを使用して）手動で計算することであり、ここで何が起こっているのか実際にはわかりません。誰かが私が間違っている場所を教えてもらえますか？ 93150 93116 …

17 r dataset quantiles sql

3

等尺性の対数比変換を実行する方法

移動行動（睡眠、座りがち、および身体活動の実行に費やした時間）に関するデータがあり、合計は約24時間（1日あたりの時間）です。これらの各動作に費やされた相対的な時間をキャプチャする変数を作成します-等尺性のログ比変換がこれを達成すると言われました。 Rでilr関数を使用する必要があるように見えますが、コードで実際の例を見つけることができません。どこから始めますか？私が持っている変数は、睡眠時間、平均座りがちな時間、平均的な軽い身体活動、平均的な中程度の身体活動、平均的な激しい身体活動です。睡眠は自己申告でしたが、その他は有効な加速度計データの平均です。したがって、これらの変数の場合、ケースの合計は正確に24にはなりません。私の推測：私はSASで働いていますが、このパートではRの方がはるかに使いやすいようです。そのため、最初に目的の変数のみを含むデータをインポートします。次に、acomp（）関数を使用します。すると、ilr（）関数の構文がわかりません。どんな助けでも大歓迎です。

17 r multivariate-analysis data-transformation compositional-data

1

Cox比例ハザードモデルのロジスティック回帰よりもp値が高いことが多いのはなぜですか？

コックス比例ハザードモデルについて学んでいます。私は、ロジスティック回帰モデルを当てはめる多くの経験を持っており、そのビルド直感に私がモデルを比較してきた使用してフィットcoxphロジスティック回帰モデルを使用してフィットとR「生存」からglmとfamily="binomial"。コードを実行した場合： library(survival) s = Surv(time=lung$time, event=lung$status - 1) summary(coxph(s ~ age, data=lung)) summary(glm(status-1 ~ age, data=lung, family="binomial")) 年齢がそれぞれ0.0419と0.0254のp値を取得します。同様に、年齢を問わず性別を予測因子として使用する場合。モデルをフィッティングする際に経過時間を考慮すると、単に死亡をバイナリの結果として扱うよりも統計的な力が得られるのに対し、p値は統計的な力の低い人と一致すると思われるため、この不可解なことに気付きます。ここで何が起こっていますか？

17 r logistic survival cox-model power

3

Rのglm関数で使用される最適化アルゴリズムはどれですか？

このようなコードを使用して、Rでロジット回帰を実行できます。 > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 最適化アルゴリズムが収束したようです-フィッシャースコアリングアルゴリズムのステップ数に関する情報があります。 Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max -2.0363 -0.9953 -0.4900 0.7780 1.3675 Coefficients: …

17 r generalized-linear-model optimization algorithms logit

タグ付けされた質問 「r」

タグ付けされた質問「r」