統計とビッグデータ r

3

5,000万個のユニークなものの人口があり、1,000万個のサンプル（交換）を取得したとします...最初のグラフは、同じ「もの」をサンプリングする回数を示しています。母集団は私のサンプルよりも大きいです。ただし、2番目のグラフが示すように、人口が1,000万個で、1,000万個のサンプルを採取する場合、同じものを繰り返しサンプリングする頻度が高くなります。私の質問は-観測の頻度表（棒グラフのデータ）から、未知の場合に元の人口サイズの推定値を取得することは可能ですか？そして、Rでこれを実行する方法へのポインタを提供できれば素晴らしいと思います。

13 r sampling expectation-maximization

3

lmモデルのカスタム消費電力解析をシミュレートする方法（Rを使用）

ここにあった最近の質問に従って。線形モデルのシミュレーションに基づいてカスタム消費電力解析を実行するために、誰かがRコードを見つけた、または共有できるかどうかを知りたいと思いましたか？後で、より複雑なモデルに拡張したいのは明らかですが、lmは開始するのに適した場所のようです。ありがとう。

13 r power power-analysis

3

値と1次/ 2次導関数を含むデータにスプラインを適合させるにはどうすればよいですか？

たとえば、位置、速度、加速度の測定値を含むデータセットがあります。すべて同じ「実行」から来ます。線形システムを構築し、それらの測定すべてに多項式を当てはめることができました。しかし、スプラインでも同じことができますか？これを行う「R」方法とは何ですか？当てはめたいシミュレーションデータをいくつか示します。 f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- rbind(data, data.frame(type=rep('df'), x=x_df, y=df(x_df))) data <- rbind(data, …

13 r model fitting splines derivative

1

Rの二項GLMの応答の入力形式

でR、使用してロジスティック回帰のための入力データをフォーマットするための3つの方法があるglm関数は：データは、観測ごとに「バイナリ」形式にすることができます（たとえば、観測ごとにy = 0または1）。データは「Wilkinson-Rogers」形式（例：）で、y = cbind(success, failure)各行が1つの処理を表します。またはデータは、観測ごとに加重形式にすることができます（たとえば、y = 0.3、加重= 10）。 3つのアプローチはすべて同じ係数推定値を生成しますが、自由度と結果の逸脱値とAICスコアが異なります。最後の2つの方法では、観測値の数ごとに各処理を使用するのに対し、最初の方法では観測値の数ごとに各観測値を使用するため、観測値が少なくなります（したがって自由度）。私の質問：ある入力形式を別の入力形式よりも使用することには、数値的または統計的な利点がありますか？私が見る唯一の利点はR、モデルで使用するためにデータを再フォーマットする必要がないことです。私はglmのドキュメントを見て、ウェブで検索し、このサイトで接線的に関連する投稿を見つけましたが、このトピックに関するガイダンスはありません。この動作を示すシミュレーション例は次のとおりです。 # Write function to help simulate data drc4 <- function(x, b =1.0, c = 0, d = 1, e = 0){ (d - c)/ (1 + exp(-b * (log(x) - log(e)))) } # simulate …

13 r logistic generalized-linear-model

2

95％信頼区間の式

Googleでstats.stackexchangeを検索しましたが、線形回帰のR2R2R^2値の95％信頼区間を計算する式が見つかりません。誰でも提供できますか？さらに良いことに、以下のRで線形回帰を実行したとしましょう。Rコードを使用して、R2R2R^2値の95％信頼区間をどのように計算しますか。 lm_mtcars <- lm(mpg ~ wt, mtcars)

13 r regression confidence-interval inference r-squared

2

回帰係数の共分散の解釈は何ですか？

Rのlm関数は、回帰係数の推定共分散を出力できます。この情報から何が得られますか？モデルをよりよく解釈したり、モデルに存在する可能性のある問題を診断したりできますか？

13 r multiple-regression least-squares

2

Nakagawa＆Schielzeth（2013）R2glmmメソッドを使用した混合モデルでの計算

私は混合モデルで値の計算について読んでおり、R-sig FAQ、このフォーラムの他の投稿（いくつかリンクしますが、十分な評判はありません）および使用することを理解しているいくつかの他の参照混合モデルのコンテキストでの値は複雑です。R 2R2R2R^2R2R2R^2 しかし、最近、以下の2つの論文に出会いました。これらの方法は有望に見えますが（私には）統計学者ではないので、他の誰かが提案する方法や提案されている他の方法とどのように比較するかについての洞察が他にあるのではないかと思いました。中川、シンイチ、ホルガー・シエルツェス。「一般化線形混合効果モデルからR2を取得するための一般的かつ簡単な方法。」Methods in Ecology and Evolution 4.2（2013）：133-142。ジョンソン、ポールCD。「Nakagawa＆SchielzethのR2GLMMのランダム勾配モデルへの拡張。」生態学と進化の方法（2014）。 isメソッドは、MuMInパッケージの r.squaredGLMM関数を使用して実装することもできます。これは、メソッドの以下の説明を提供します。混合効果モデルの場合、は2つのタイプに分類できます。限界は固定因子によって説明される分散を表し、次のように定義されます条件付きは、固定因子とランダム因子（モデル全体）の両方によって説明される分散として解釈され、式に従って計算されます：ここで、は固定効果成分の分散、は、すべての分散成分（グループ、個人など）の、R 2 R G L M M（M ）2 = σ 2 FR2R2R^2R2R2R^2 R2RGLMM（C）2=（σ 2 F +Σ（σ 2 L））RGLMM(m)2=σ2fσ2f+∑(σ2l)+σ2e+σ2dRGLMM(m)2=σf2σf2+∑(σl2)+σe2+σd2R_{GLMM}(m)^2 = \frac{σ_f^2}{σ_f^2 + \sum(σ_l^2) + σ_e^2 + σ_d^2}R2R2R^2RGLMM(c)2=(σ2f+∑(σ2l))(σ2f+∑(σ2l)+σ2e+σ2dRGLMM(c)2=(σf2+∑(σl2))(σf2+∑(σl2)+σe2+σd2R_{GLMM}(c)^2= \frac{(σ_f^2 + \sum(σ_l^2))}{(σ_f^2 + \sum(σ_l^2) + σ_e^2 + σ_d^2}σ2fσf2σ_f^2∑(σ2l)∑(σl2)\sum(σ_l^2)σ2lσl2σ_l^2は加法分散による分散であり、は分布固有の分散です。 …

13 r mixed-model r-squared lme4-nlme

1

経験的CDFの統合

経験的分布G(x)G(x)G(x)ます。次のように計算します x <- seq(0, 1000, 0.1) g <- ecdf(var1) G <- g(x) 私はh(x)=dG/dxh(x)=dG/dxh(x) = dG/dx。つまり、hhhはpdfで、GGGはcdfです。私は今（と言う統合の上限のための方程式を解決したいの期待値というように、）xはいくつかあるのk。aaaxxxkkk それから、積分、ある000にbbb、私が持っているべきである∫xh(x)dx=k∫xh(x)dx=k\int xh(x)dx = k。について解きたいbbb。部品ごとに統合して、方程式を次のように書き換えることができます。 bG(b)−∫b0G(x)dx=kbG(b)−∫0bG(x)dx=kbG(b) - \int_0^b G(x)dx = k積分はあり、000にbbb -------（1）次のように積分を計算できると思います intgrl <- function(b) { z <- seq(0, b, 0.01) G <- g(z) return(mean(G)) } しかし、この関数を使用しようとすると library(rootSolve) root <- uniroot.All(fun, c(0, 1000)) …

13 r integral ecdf

1

自己相関の解釈方法

魚の動きのパターンに関する時系列データの自己相関を、その位置に基づいて計算しました：X（x.ts）およびY（y.ts）。 Rを使用して、次の関数を実行し、次のプロットを作成しました。 acf(x.ts,100) acf(y.ts,100) 私の質問は、これらのプロットをどのように解釈すればよいですか？あらゆる種類のパターンを報告するには、どのような情報が必要ですか？私はインターネットをサーフィンしてきましたが、それを効果的に説明する簡潔な方法をまだ見つけていません。また、使用するラグの正しい量をどのように決定しますか？100を使用しましたが、多すぎるかどうかはわかりません。

13 r time-series autocorrelation

5

欠損値の多重代入

特定の制約の下でデータセットの欠損値を置き換えるために代入を使用したいと思います。たとえば、代入さx1れた変数が、他の2つの変数、たとえばx2との合計以上になるようにしますx3。またx3、0またはのいずれかに代入され>= 14たいx2、0またはのいずれかに代入されたい>= 16。複数の代入に対してSPSSでこれらの制約を定義しようとしましたが、SPSSでは最大値と最小値しか定義できません。SPSSでさらに制約を定義する方法はありますか、または、欠損値の代入のためにこのような制約を定義できるRパッケージを知っていますか？私のデータは次のとおりです。 x1 =c(21, 50, 31, 15, 36, 82, 14, 14, 19, 18, 16, 36, 583, NA,NA,NA, 50, 52, 26, 24) x2 = c(0, NA, 18,0, 19, 0, NA, 0, 0, 0, 0, 0, 0,NA,NA, NA, 22, NA, 0, 0) x3 = c(0, 0, 0, 0, …

13 r spss missing-data multiple-imputation

5

平滑化されたデータからRの変曲点を見つける

私が使用して滑らかにしたいくつかのデータがありますloess。平滑化された線の変曲点を見つけたいです。これは可能ですか？私は誰かがこれを解決するための派手な方法を作っていると確信しています...つまり...結局のところ、それはRです！使用する平滑化機能を変更しても問題ありません。それloessは私が過去に使用したものだからです。ただし、平滑化機能は問題ありません。変曲点は、使用する平滑化関数に依存することを理解しています。大丈夫です。変曲点を吐き出すのに役立つ平滑化関数を用意することから始めたいと思います。私が使用するコードは次のとおりです。 x = seq(1,15) y = c(4,5,6,5,5,6,7,8,7,7,6,6,7,8,9) plot(x,y,type="l",ylim=c(3,10)) lo <- loess(y~x) xl <- seq(min(x),max(x), (max(x) - min(x))/1000) out = predict(lo,xl) lines(xl, out, col='red', lwd=2)

13 r smoothing loess

1

係数パス–リッジ、なげなわおよびエラスティックネット回帰の比較

リッジ、なげなわ、エラスティックネットで選択したモデルを比較したいと思います。以下の図は、3つの方法すべてを使用した係数パスを示しています。リッジ（図A、アルファ= 0）、投げ縄（図B、アルファ= 1）、弾性ネット（図C、アルファ= 0.5）。最適なソリューションは、クロス検証に基づいて選択されたラムダの選択値に依存します。これらのプロットを見ると、エラスティックネット（図C）がグループ化効果を示すことが予想されます。ただし、提示されたケースでは明確ではありません。投げ縄とエラスティックネットの係数パスは非常に似ています。この理由は何でしょうか？それは単なるコーディングミスですか？Rで次のコードを使用しました。 library(glmnet) X<- as.matrix(mydata[,2:22]) Y<- mydata[,23] par(mfrow=c(1,3)) ans1<-cv.glmnet(X, Y, alpha=0) # ridge plot(ans1$glmnet.fit, "lambda", label=FALSE) text (6, 0.4, "A", cex=1.8, font=1) ans2<-cv.glmnet(X, Y, alpha=1) # lasso plot(ans2$glmnet.fit, "lambda", label=FALSE) text (-0.8, 0.48, "B", cex=1.8, font=1) ans3<-cv.glmnet(X, Y, alpha=0.5) # elastic net plot(ans3$glmnet.fit, "lambda", label=FALSE) text (0, …

13 r multiple-regression modeling regularization

2

ガンマ分布でGLMにRを使用する

現在、ガンマ分布を使用してGLMを近似するためのRの構文を理解するのに問題があります。データのセットがあり、各行には3つの共変量（）、応答変数（Y）、および形状パラメーター（K）が含まれています。ガンマ分布のスケールを3つの共変量の線形関数としてモデル化したいのですが、データの各行に対して分布の形状をKに設定する方法がわかりません。X1,X2,X3X1,X2,X3X_1, X_2, X_3YYYKKKKKK 私が似ていると思う状況は、二項分布の場合、GLMでは各データエントリについて試行回数（）がわかっている必要があるということです。NNN

13 r generalized-linear-model gamma-distribution dglm

3

Rでの非負のなげなわ実装

使用できるオープンソースまたは既存のライブラリを探しています。私が言う限り、glmnetパッケージは非負のケースをカバーするために非常に簡単に拡張できません。私は間違っているかもしれません、どんなアイデアでも大歓迎です。非負とは、すべての係数が正（> 0）に制約されることを意味します。

13 r lasso

2

e1071 libsvmの問題？

2つの重複するクラス（各クラスに7つのポイント、ポイントは2次元空間）を持つデータセットがあります。Rでは、これらのクラスの分離ハイパープレーンを構築するためにパッケージから実行svmしていe1071ます。私は次のコマンドを使用しています： svm(x, y, scale = FALSE, type = 'C-classification', kernel = 'linear', cost = 50000) ここにxは私のデータポイントとyそのラベルが含まれています。このコマンドはsvm-objectを返します。これを使用して、分離する超平面のパラメーター（法線ベクトル）とb（切片）を計算します。wwwbbb 下の図（a）は、私のポイントとsvmコマンドによって返された超平面を示しています（この超平面を最適なものと呼びましょう）。記号Oの付いた青い点はスペースの原点を示し、点線はマージンを示し、丸で囲まれた点は非ゼロの（スラック変数）を持ちます。ξξ\xi 図（b）は別の超平面を示しています。これは、最適な平面を5だけ平行移動したものです（b_new = b_optimal-5）。この超平面の目的関数（C-分類SVMによって最小化される）は、図（）に示す最適な超平面の場合よりも低い値を有するであろう。この機能に問題があるように見えますか？または、どこかでミスをしましたか？0.5 || w | |2+ C O S T Σ ξ私0.5||w||2+cost∑ξ私 0.5||w||^2 + cost \sum \xi_i svm 以下は、この実験で使用したRコードです。 library(e1071) get_obj_func_info <- function(w, b, c_par, x, y) { xi <- rep(0, …

13 r machine-learning svm libsvm e1071

タグ付けされた質問 「r」

タグ付けされた質問「r」