統計とビッグデータ r

3

Rでカスタム関数を最大化/最小化する方法はありますか？

カスタム関数を最小化しようとしています。5つのパラメーターとデータセットを受け入れ、あらゆる種類の計算を実行して、出力として単一の数値を生成する必要があります。関数の最小の出力を生成する5つの入力パラメーターの組み合わせを見つけたいです。

18 r optimization

1

指定された点を通る制約付き線形回帰

与えられたデータセット（X、Y）を通過させる線形回帰子が必要なポイント（x、y）があります。Rでこれを実装するにはどうすればよいですか？

18 r regression

6

SAS PROC FREQに相当するRはありますか？

SASに相当するRを知っている人はいPROC FREQますか？複数の変数の要約記述統計を一度に生成しようとしています。

18 r descriptive-statistics sas

3

Rのパーセンタイルランクの計算[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。閉じた3年前。変数の1つのパーセンタイルランクとなる新しい変数をデータフレームに追加するにはどうすればよいですか？これはExcelで簡単に実行できますが、実際にはRで実行したいです。ありがとう

18 r quantiles

5

マルチレベル構造方程式モデリングのためのRパッケージ？

すべての変数がグループ内にネストされた個々の観測値であるマルチステージパスモデル（AはBを予測し、BはCを予測し、CはDを予測します）をテストします。これまで、Rでの複数のユニークなマルチレベル分析を通じてこれを行ってきました。 SEMのような手法を使用して、複数のパスを同時にテストし（A-> B-> C-> D）、2レベル（グループ内の個人）を適切に処理することをお勧めします。 MPLUSがこれを処理できることを理解しています。使用できるRパッケージはありますか？

18 r multilevel-analysis sem path-model

8

Rの結合パッケージ

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Rの使いやすいまたは包括的なコンジョイント分析パッケージをお勧めしますか？

18 r conjoint-analysis

1

Rでスパークラインをプロットする

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Rを使用して、次のようなものをプロットしたいと思います。座標、幅、高さなどを追跡することは可能ですが、非常に複雑に思えます。直感的には、各セルを新しいプロットとして扱い、各セルの座標を変換するのが最善のように思われます。Rでこれを行う方法はありますか？ありがとう！

18 r data-visualization tables

3

線形モデルでの予測限界の式の取得（例：予測間隔）

次の例を見てみましょう。 set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) これにより、OLS回帰を使用して、x1およびx2に基づいてyのモデルが作成されます。与えられたx_vecのyを予測したい場合は、から取得する式を使用できsummary(fit)ます。ただし、yの下位予測と上位予測を予測する場合はどうでしょうか。（所定の信頼レベル）。それでは、式をどのように構築しますか？

18 r regression predictive-models prediction-interval

3

SASを学ぶ必要があるRユーザー向けのリソース

私はRを使用しています。毎日。data.frames、apply（）ファミリーの関数、オブジェクト指向プログラミング、ベクトル化、ggplot2ジオム/美学の観点から考えます。私は、主にSASを使用する組織で働き始めました。SASユーザー向けのRの学習に関する本があることは知っていますが、SASを使用したことがないRユーザー向けの優れたリソースは何ですか？

18 r sas

4

Tufteの軸を達成するためのRプロットの境界線の削除

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。次のグラフを検討してください。 x <- 1:100 y1 <- rnorm(100) y2 <- rnorm(100)+100 par(mar=c(5,5,5,5)) plot(x,y1,pch=0,type="b",col="red",yaxt="n",ylim=c(-8,2),ylab="") axis(side=2, at=c(-2,0,2)) mtext("red line", side = 2, line=2.5, at=0) par(new=T) plot(x,y2,pch=1,type="b",col="blue",yaxt="n",ylim=c(98,108), ylab="") axis(side=4, at=c(98,100,102), labels=c("98%","100%","102%")) mtext("blue line", side=4, line=2.5, at=100) Tufteのスタイルを実現するために、自動生成された境界線を削除し、軸線のみを保持するにはどうすればよいですか？

18 r data-visualization

5

予測にlmerを使用する

こんにちは私は、マルチレベル/混合モデルの自然な候補のように聞こえる2つの問題を抱えています。より簡単な、導入として試してみたいものは次のとおりです。データはフォームの多くの行のように見えます x y innergroup outergroup ここで、xはy（別の数値変数）を回帰する数値共変量であり、各yは内部グループに属し、各内部グループは外部グループにネストされます（つまり、特定の内部グループのすべてのyは同じ外部グループに属します）。残念ながら、内部グループには多くのレベル（数千）があり、各レベルにはyの観測値が比較的少ないため、この種のモデルが適切であると考えました。私の質問はこの種のマルチレベルの数式を作成するにはどうすればよいですか？いったんlmerフィットモデル、どのようにして、それから予測するのでしょうか？いくつかの簡単なおもちゃの例に適合しましたが、predict（）関数は見つかりませんでした。ほとんどの人は、この種の手法での予測よりも推論に興味があるようです。数百万の行があるため、計算が問題になる可能性がありますが、必要に応じていつでも削減できます。しばらくは2番目の操作を行う必要はありませんが、考えてみて、遊んでみてください。以前と同様のデータがありますが、xがなく、yは形式の二項変数です。yは、内部グループ内であっても、多くの過剰分散を示します。nのほとんどは2または3（またはそれ以下）であるため、各y iの成功率の推定値を導出するには、ベータ二項収縮推定量（α + k i）/（α + β + n i）、ここで(n,n−k)(n,n−k)(n,n-k)nnnyiyiy_i(α+ki)/(α+β+ni)(α+ki)/(α+β+ni)(\alpha+k_i)/(\alpha+\beta+n_i)および βは、MLEによって各内部グループに対して個別に推定されます。これはある程度適切ですが、データのスパース性は依然として私を悩ませているので、利用可能なすべてのデータを使用したいと思います。1つの観点からは、この問題は共変量がないためより簡単ですが、他の観点からは、二項の性質によりそれはより困難になります。高い（または低い）レベルのガイダンスはありますか？αα\alphaββ\beta

18 r mixed-model maximum-likelihood generalized-linear-model

1

これらの尤度比を正しく計算しましたか？

私はR のezパッケージの作成者であり、ANOVAの出力に尤度比（LR）の自動計算を含めるための更新に取り組んでいます。アイデアは、ANOVAが達成する効果のテストに類似した各効果のLRを提供することです。例えば、主な効果のためにLRは、主な効果を含むモデルにヌルモデルの比較を示し、相互作用のためのLRは、主効果の両方を含むモデル対の両方の成分主効果含むモデルの比較を表しとを彼らの相互作用など LR計算の私の理解は、基本的な計算と複雑さの修正をカバーするGlover＆Dixon（PDF）と、反復測定変数を含む計算をカバーするBortolussi＆Dixon（付録PDF）の付録から得ています。理解度をテストするために、サンプルのANOVA（偽データを使用して2 * 2 * 3 * 4設計から生成された）からdfとSSを取得し、各効果のLRを計算するこのスプレッドシートを開発しました。そのような計算にもう少し自信がある人が見て、私がすべてを正しくしたことを確認できたら本当に感謝しています。抽象コードを好む人のために、ezANOVA（）への更新を実装するRコードがあります（特に15〜95行目を参照）。

18 r anova likelihood-ratio

2

lmerモデルで事後テストを実行する方法は？

これは私のデータフレームです。 Group <- c("G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3") Subject <- c("S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15","S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15","S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15") Value <- c(9.832217741,13.62390117,13.19671612,14.68552076,9.26683366,11.67886655,14.65083473,12.20969772,11.58494621,13.58474896,12.49053635,10.28208078,12.21945867,12.58276212,15.42648969,9.466436017,11.46582655,10.78725485,10.66159358,10.86701127,12.97863424,12.85276916,8.672953949,10.44587257,13.62135205,13.64038394,12.45778874,8.655142642,10.65925259,13.18336949,11.96595556,13.5552118,11.8337142,14.01763101,11.37502161,14.14801305,13.21640866,9.141392359,11.65848845,14.20350364,14.1829714,11.26202565,11.98431285,13.77216009,11.57303893) data <- data.frame(Group, Subject, Value) 次に、線形混合効果モデルを実行して、「値」に関する3つのグループの違いを比較します。「対象」はランダム係数です。 library(lme4) library(lmerTest) model <- lmer (Value~Group + (1|Subject), data = data) summary(model) 結果は次のとおりです。 Fixed effects: Estimate Std. Error df t value Pr(>|t|) (Intercept) 12.48771 0.42892 31.54000 29.114 <2e-16 *** GroupG2 -1.12666 0.46702 28.00000 -2.412 …

18 r lme4-nlme post-hoc

3

Rの欠損データの完全情報最尤法

コンテキスト：いくつかの欠損データがある階層回帰。質問：完全な情報最尤法（FIML）推定を使用して、Rの欠落データに対処するにはどうすればよいですか？推奨するパッケージはありますか？また、一般的な手順は何ですか？オンラインリソースと例も非常に役立ちます。 PS：私は最近Rの使用を開始した社会科学者です。多重代入はオプションですが、MplusのようなプログラムがいかにエレガントにFIMLを使用して欠損データを処理するかが大好きです。残念ながら、現時点では、Mplusは階層回帰のコンテキストでモデルを比較していないようです（その方法を知っている場合はお知らせください！）。Rに似たようなものがあるのだろうか？どうもありがとう！

18 r maximum-likelihood missing-data

5

cv.glmnetの結果のばらつき

cv.glmnet予測子を見つけるために使用しています。私が使用するセットアップは次のとおりです。 lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] 作るために必ず結果が再現可能Iですset.seed(1)。結果は大きく変わります。まったく同じコード100を実行して、結果がどの程度変動するかを確認しました。98/100の実行では、1つの特定の予測子が常に選択されていました（時にはそれだけで）; 通常は50/100回、他の予測変数が選択されました（係数はゼロ以外）。だから、クロス検証が実行されるたびに、おそらくフォールドの最初のランダム化が重要であるため、異なる最良のラムダを選択するだろうと私に言います。他の人はこの問題を見ました（CV.glmnet結果）が、提案された解決策はありません。私はおそらく、98/100を示すものはおそらく他のすべてと非常に高い相関関係があると考えていますか？LOOCV（）を実行するだけで結果は安定しますが、\ text {nfold} <nの場合になぜこれらの変数が変動するのか興味があります。fold-size=nfold-size=n\text{fold-size} = nnfold<nnfold<n\text{nfold} < n

18 r cross-validation feature-selection glmnet

タグ付けされた質問 「r」

タグ付けされた質問「r」