タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

3
ベータ確率変数の逆正規CDFはどの分布に従うのですか?
以下を定義するとします: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) ここで、は標準正規分布のCDFの逆数です。Φ−1Φ−1\Phi^{-1} 私の質問は次のとおりです続く単純な分布はありますか、それともを近似できますか?YYYYYYシミュレーション結果(以下に示す)に基づいて、およびが高い場合にが正規分布に収束するという強い疑念があるので、私は尋ねていますが、なぜ数学的にそうなるのかわかりません。(もちろん、場合、は均一で、Yは標準の法線になりますが、より高い値に当てはまるのはなぜですか?)YYYαα\alphaββ\betaα=1;β=1α=1;β=1\alpha=1;\beta=1XXXYYY これが法線に収束する場合、αα\alphaとに関して、その法線のパラメーターはどうなりますββ\betaか?(私は平均が可能だろうと期待しておりΦ−1(αα+β)Φ−1(αα+β)\Phi^{-1}(\frac{\alpha}{\alpha+\beta})それはモードの変換なので、標準偏差はわかりません)。 (別の言い方をすれば、これは「Φ(Norm(μ,σ))Φ(Norm(μ,σ))\Phi(\mbox{Norm}(\mu, \sigma))はベータ分布に収束し、μμ\muとある方向についてはσσ\sigma」と尋ねることができますか?それが答えやすいかどうかわかりません)。 シミュレーション結果 ここで、結果が正常であると疑う理由を示します(数学でバックアップできないため)。シミュレーションはYYY、qnormとでRで実行できますrnorm。たとえば、高いパラメーターα=3000α=3000\alpha=3000および選択する場合β=7000β=7000\beta=7000: hist(qnorm(rbeta(5000, 3000, 7000))) これは正常に見えqqnorm、Shapiro-Wilk検定(正規性は帰無仮説)も同様に示唆します。 qqnorm(qnorm(rbeta(5000, 3000, 7000))) shapiro.test(qnorm(rbeta(5000, 3000, 7000))) #> #> Shapiro-Wilk normality test #> #> data: qnorm(rbeta(5000, 3000, 7000)) #> W = 0.99954, p-value = 0.2838 正常性をもう少し詳しく調べるために、から5,000の値をシミュレートするたびに2,000回のシミュレーションYYYを実行し、それからテストを実行して正常と比較します。(5Kの値を選択したのはshapiro.test、それが最大の処理能力であり、標準からの逸脱を検出する能力を最大化するためです)。 分布が本当に正規である場合、p値は均一であると予想されます(nullがtrueであるため)。それらは確かに均一に近く、分布が正規に非常に近いことを示唆しています。 hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value)) いくつかの実験では、とβが高いほど、分布が正規に近くなることが示されています(たとえば、正規からかなり離れていますが、試してみてください。αα\alphaββ\betarbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, …

2
キャレットと基本的なrandomForestパッケージを介したrandomForestからの異なる結果
私は少し混乱しています:キャレットを介してトレーニングされたモデルの結果は、元のパッケージのモデルとどう違うのですか?キャレットパッケージでRandomForestのFinalModelを使用して予測する前に前処理が必要かどうかを読みました。ただし、ここでは前処理を使用しません。 キャレットパッケージを使用して、さまざまなmtry値を調整することにより、さまざまなランダムフォレストをトレーニングしました。 > cvCtrl = trainControl(method = "repeatedcv",number = 10, repeats = 3, classProbs = TRUE, summaryFunction = twoClassSummary) > newGrid = expand.grid(mtry = c(2,4,8,15)) > classifierRandomForest = train(case_success ~ ., data = train_data, trControl = cvCtrl, method = "rf", metric="ROC", tuneGrid = newGrid) > curClassifier = classifierRandomForest mtry = …

1
exp(係数)からオッズ比まで、および要因を使用したロジスティック回帰でのその解釈
私は、SATスコアおよび家族/民族的背景に対する大学への受け入れの線形回帰を実行しました。データは架空のものです。これは、すでに回答済みの前の質問のフォローアップです。この質問は、SATスコアを単純化するために脇に置いておくときのオッズ比の収集と解釈に焦点を当てています。 変数はAccepted(0または1)およびBackground( "red"または "blue")です。「赤」の背景を持つ人々が入る可能性が高くなるようにデータを設定しました。 fit <- glm(Accepted~Background, data=dat, family="binomial") exp(cbind(Odds_Ratio_RedvBlue=coef(fit), confint(fit))) Odds_Ratio_RedvBlue 2.5 % 97.5 % (Intercept) 0.7088608 0.5553459 0.9017961 Backgroundred 2.4480042 1.7397640 3.4595454 質問: 「青い」背景の人の奇数比は0.7ですか?私がこれを求めているのはBackgroundblue、代わりに次のコードを実行すると、「」に対して0.7も得られるからです。 fit <- glm(Accepted~Background-1, data=dat, family="binomial") exp(cbind(OR=coef(fit), confint(fit))) 「赤」のオッズ比()だけの逆数ではありません:(O d d s B l u e = 1 / O d d s R e …
14 r  regression  logistic 

3
経験的確率密度間の重複を計算する方法は?
2つのサンプル間の類似性の尺度として、Rの2つのカーネル密度推定値間のオーバーラップ領域を計算する方法を探しています。明確にするために、次の例では、紫がかった重複領域の面積を定量化する必要があります。 library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3))) ggplot(d, aes(value, fill=variable)) + geom_density(alpha=.4, color=NA) 同様の質問がここで議論されました。違いは、事前定義された正規分布ではなく、任意の経験的データに対してこれを行う必要があることです。overlapパッケージアドレスこの質問が、どうやら私だけのために動作しないタイムスタンプデータ、のために。Bray-Curtisインデックス(veganパッケージのvegdist(method="bray")関数に実装されている)も関連しているように見えますが、やはりデータが多少異なります。 理論的なアプローチと、それを実装するために使用する可能性のあるR関数の両方に興味があります。

1
尤度比検定-lmer R-入れ子になっていないモデル
現在、いくつかの作業をレビューしていますが、次のことに気付きました。lmerを使用して、2つの混合モデルが(Rで)近似されます。モデルはネストされておらず、尤度比検定によって比較されます。要するに、ここに私が持っているものの再現可能な例があります: set.seed(105) Resp = rnorm(100) A = factor(rep(1:5,each=20)) B = factor(rep(1:2,times=50)) C = rep(1:4, times=25) m1 = lmer(Resp ~ A + (1|C), REML = TRUE) m2 = lmer(Resp ~ B + (1|C), REML = TRUE) anova(m1,m2) 私が見る限りlmer、対数尤度を計算するために使用され、anovaステートメントは通常の自由度を持つカイ二乗を使用してモデル間の差をテストします。これは私には正しくないようです。それが正しい場合、誰かがこれを正当化する参照を知っていますか?私はシミュレーションに依存する方法(ルイス他による論文、2011)とVuong(1989)によって開発されたアプローチを知っていますが、これがここで生み出されるものだとは思いません。anovaステートメントの使用が正しいとは思わない。

3
ランダムフォレストモデルの最新データの重み付け
6つのカテゴリを区別するために、ランダムフォレストで分類モデルをトレーニングしています。私のトランザクションデータには、約60k +の観測値と35の変数があります。これがおおよそどのように見えるかの例を次に示します。 _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG | group1 | |333 | 2013-05-05 | 30 | DE | group2 | |444 | 2013-05-10 | 78 | US | group3 | |555 | 2013-06-15 …

3
サンプルサイズ、最小値と最大値から正規分布を再構築できますか?中間点を使用して平均を代理できます
私はこれが統計的には少し強引かもしれないことを知っていますが、これは私の問題です。 範囲データ、つまり変数の最小、最大、サンプルサイズがたくさんあります。これらのデータの一部については平均値もありますが、多くはありません。これらの範囲を互いに比較して、各範囲の変動性を定量化し、平均を比較したいと思います。分布が平均に関して対称的であり、データがガウス分布を持っていると仮定する正当な理由があります。このため、平均値が存在しない場合、分布の中間点を平均値のプロキシとして使用することを正当化できると考えています。 私がやりたいのは、各範囲の分布を再構築し、それを使用してその分布の標準偏差または標準誤差を提供することです。私が持っている唯一の情報は、サンプルから観測された最大値と最小値、および平均値のプロキシとしての中点です。 このようにして、各グループの加重平均を計算でき、また、私が持っている範囲データと(対称および正規分布の)仮定に基づいて、各グループの変動係数も計算できるようになります。 私はこれを行うためにRを使用する予定であるため、コードのヘルプも歓迎します。


3
多項式回帰から信頼帯を理解する
以下のグラフに表示される結果を理解しようとしています。通常、Excelを使用して線形回帰線を取得する傾向がありますが、以下の場合はRを使用しており、コマンドで多項式回帰を取得します: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() だから私の質問はこれに要約されます: 青い回帰線の周りの灰色の領域(矢印#1)は何ですか?これは多項式回帰の標準偏差ですか? 灰色の領域の外側(矢印#2)が「外れ値」であり、灰色の領域の内側(矢印#3)が標準偏差内にあると言えますか?

3
各葉に線形回帰モデルを使用した回帰ツリーアルゴリズム
短いバージョン:意思決定ツリーを構築できるRパッケージを探していますが、意思決定ツリーの各リーフは完全な線形回帰モデルです。知る限り、ライブラリrpartは、各リーフで従属変数が定数である決定木を作成します。rpartそのようなツリーを構築できる別のライブラリ(または私が知らない設定)はありますか? ロングバージョン:トレーニングデータセットに基づいて決定木を構築するアルゴリズムを探しています。ツリー内の各決定は、独立変数の1つの条件に従って、トレーニングデータセットを2つの部分に分割します。ツリーのルートには完全なデータセットが含まれ、データセットの各アイテムは1つのリーフノードに含まれています。 アルゴリズムは次のようになります。 ツリーのルートノードである完全なデータセットから始めます。このノードを選択してと呼びますNNN。 のデータに線形回帰モデルを作成します。NNN 場合はのさん線形モデルがある閾値以上である、そして、我々が行われている、そのマークステップ5に葉やジャンプなど。 N θ R 2 N NR2R2R^2NNNθR2θR2\theta_{R^2}NNNNNN ランダムな決定を試して、サブノードで最適なを生成するものを選択します。 R 2nnnR2R2R^2 ランダムな独立変数と、ランダムなしきい値ます。θ Iviviv_iθiθi\theta_i 決定は、のデータセットを2つの新しいノードおよび分割します。 N N 〜Nvi≤θivi≤θiv_i \leq \theta_iNNNN^N^\hat{N}N~N~\tilde{N} と両方で線形回帰モデルを作成し、それらのを計算します(それらをおよびと呼びます)。 〜N R2、R 〜RN^N^\hat{N}N~N~\tilde{N}R2R2R^2r^r^\hat{r}r~r~\tilde{r} それらすべてのタプルから、最大持つものを選択します。これによりツリーで新しい決定が行われ、は2つの新しいサブノードおよび\ tilde {N}が追加されます。(V I、θ I、R、〜R)は、mは、I N (R、〜R)N N 〜Nnnn(vi,θi,r^,r~)(vi,θi,r^,r~)(v_i, \theta_i, \hat{r}, \tilde{r})min(r^,r~)min(r^,r~)min(\hat{r}, \tilde{r})NNNN^N^\hat{N}N~N~\tilde{N} 処理が完了しました。まだ処理されていない新しいノードを選択し、手順2に戻ります。すべてのノードが処理された場合、アルゴリズムは終了します。NNNNNNN これにより、データを小さな部分に分割し、各部分の線形モデルを計算する決定ツリーが再帰的に構築されます。 ステップ3は終了条件であり、アルゴリズムが過剰適合するのを防ぎます。もちろん、他の可能な終了条件があります。 ツリーのの深さが超える場合は終了しNNNθdepthθdepth\theta_{depth} のデータセットがより小さい場合は終了しますNNNθdatasetθdataset\theta_{data set} Rパッケージにそのようなアルゴリズムはありますか?
14 r  regression  rpart  cart 

1
多重線形モデルからの関係を視覚的に提示する最良の方法
約6つの予測変数を含む線形モデルがあり、推定値、F値、p値などを表示します。しかし、単一の予測変数の個々の効果を表すのに最適な視覚的プロットは何かと思いまして応答変数?散布図?条件付きプロット?効果プロット?等?そのプロットをどのように解釈しますか? Rでこれを行うので、可能であれば例を自由に提供してください。 編集:私は主に、特定の予測変数と応答変数との関係を提示することに関心があります。

1
Rの非線形混合効果回帰
驚いたことに、Googleを使用して次の質問に対する答えを見つけることができませんでした。 私はいくつかの個人からのいくつかの生物学的データを持っていますが、それはおおよそS字状の成長挙動を示しています。したがって、標準のロジスティック成長を使用してモデル化したい P(t) = k*p0*exp(r*t) / (k+p0*(exp(r*t)-1)) p0はt = 0での開始値、kはt-> infinityでの漸近極限、rは成長速度です。私が見る限り、nlsを使用してこれを簡単にモデル化することができます(私の理解が不足しています:時間とデータをスケーリングすることにより、標準のロジット回帰を使用して類似のものをモデル化できないのはなぜですか?編集:ニック、どうやら、例えばプロポーションですが、めったにhttp://www.stata-journal.com/article.html?article=st0147この接線に関する次の質問は、モデルが異常値を処理できるかどうかです> 1)。 ここで、3つのパラメーターk、p0、およびrに対する固定(主にカテゴリー)およびランダム(個別のID、場合によってはスタディID)の効果を許可したいと思います。nlmeはこれを行う最良の方法ですか?SSlogisモデルは、私がやろうとしていることに対して賢明なようです、それは正しいですか?次のいずれかが賢明なモデルから始まりますか?開始値を正しく取得できないようで、update()はランダムな効果に対してのみ機能し、固定された効果に対しては機能しないようです-ヒントはありますか? nlme(y ~ k*p0*exp(r*t) / (k+p0*(exp(r*t)-1)), ## not working at all (bad numerical properties?) data = data, fixed = k + p0 + r ~ var1 + var2, random = k + p0 + r ~ 1|UID, start …

1
中央値不偏推定量は、平均絶対偏差を最小化しますか?
これはフォローアップですが、以前の質問とは別の質問でもあります。 私はウィキペディアで、「ラプラスで観察されたように、中央値偏りのない推定量は絶対偏差損失関数に関するリスクを最小化する」と読みました。しかし、私のモンテカルロシミュレーションの結果はこの議論をサポートしていません。 私は、対数正規母集団からサンプルを想定、μ及びσは、対数平均および対数SDであるβ = EXP (μ )= 50X1,X2,...,XN∼LN(μ,σ2)X1,X2,...,XN∼LN(μ,σ2)X_1,X_2,...,X_N \sim \mbox{LN}(\mu,\sigma^2)μμ\muσσ\sigmaβ=exp(μ )= 50β=exp⁡(μ)=50\beta = \exp(\mu)=50 幾何平均推定量は、人口中央値expの中央値不偏推定量です。。exp(μ)exp⁡(μ)\exp(\mu) 場合には、μ及びσは、対数平均値であり、ログ-SDを、μと σはのためのMLEはありμとσ。β^GM=exp(μ^)=exp(∑log(Xi)N)∼LN(μ,σ2/N)β^GM=exp⁡(μ^)=exp⁡(∑log⁡(Xi)N)∼LN(μ,σ2/N)\hat{\beta}_{\mbox{GM}}= \exp(\hat{\mu})= \exp{(\sum\frac{\log(X_i)}{N})} \sim \mbox{LN}(\mu,\sigma^2/N)μμ\muσσ\sigmaμ^μ^\hat\muσ^σ^\hat\sigmaμμ\muσσ\sigma 一方、補正された幾何平均推定量は、母集団の中央値の平均不偏推定量です。 β^CG=exp(μ^−σ^2/2N)β^CG=exp⁡(μ^−σ^2/2N)\hat{\beta}_{\mbox{CG}}= \exp(\hat{\mu}-\hat\sigma^2/2N) LNからサイズ5のサンプルを繰り返し生成します。レプリケーション番号は10,000です。私が得た平均絶対偏差は、幾何平均推定器で25.14、補正幾何平均で22.92です。どうして?(log(50),log(1+22)−−−−−−−−−√)(log⁡(50),log⁡(1+22))(\log(50),\sqrt{\log(1+2^2)}) ところで、推定された絶対偏差の中央値は、幾何平均では18.18、補正幾何平均推定では18.58です。 私が使用したRスクリプトは次のとおりです。 #```{r stackexchange} #' Calculate the geomean to estimate the lognormal median. #' #' This function Calculate the geomean to estimate the lognormal #' …

4
RのARIMA残差のLjung-Box統計:混乱したテスト結果
予測しようとしている時系列があり、そのために季節のARIMA(0,0,0)(0,1,0)[12]モデル(= fit2)を使用しました。Rがauto.arimaで提案したものとは異なります(Rで計算されたARIMA(0,1,1)(0,1,0)[12]の方がより適切であるため、fit1と名付けました)。ただし、時系列の最後の12か月では、モデル(fit2)を調整するとよりよくフィットするようです(慢性的に偏っていたため、残差平均を追加し、新しいフィットは元の時系列の周囲によりぴったりと収まるようです)過去12か月の例と、両方の近似の最近12か月のMAPEは次のとおりです。 時系列は次のようになります。 ここまでは順調ですね。私は両方のモデルの残差分析を実行しましたが、これが混乱です。 acf(resid(fit1))は素晴らしく、非常にホワイトノイズが多い: ただし、Ljung-Boxテストは、たとえば20のラグに対しては見栄えがよくありません。 Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1) 次の結果が得られます。 X-squared = 26.8511, df = 19, p-value = 0.1082 私の理解では、これは残差が独立していないことの確認です(p値が大きすぎて独立仮説を維持できない)。 ただし、ラグ1では、すべてが素晴らしいです。 Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1) 私に結果を与えます: X-squared = 0.3512, df = 0, p-value < 2.2e-16 テストを理解していないか、またはacfプロットで見たものとわずかに矛盾しています。自己相関は非常に低いです。 次に、fit2をチェックしました。自己相関関数は次のようになります。 いくつかの最初のラグでのこのような明らかな自己相関にもかかわらず、Ljung-Boxテストでは、fit1よりも20ラグではるかに良い結果が得られました。 Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0) 結果: X-squared = 147.4062, df = 20, p-value < 2.2e-16 一方、lag1で自己相関をチェックするだけで、帰無仮説の確認もできます。 Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0) X-squared = 30.8958, df …

1
これは、Rでlme4を使用した混合効果モデルを分析するのに受け入れられる方法ですか?
分析するための不均衡な反復測定データセットがあり、ほとんどの統計パッケージがこれをANOVA(つまり、タイプIIIの二乗和)で処理する方法が間違っていることを読みました。したがって、これらのデータを分析するために混合効果モデルを使用したいと思います。私はで混合モデルについて多くのことを読みましたRが、私はまだ混合モデルに非常に新しく、R自信を持っていません。「伝統的な」方法から完全に離婚することはまだできず、値と事後検定が必要であることに注意してください。ppp 次のアプローチが理にかなっているのか、何かひどい間違いをしているのかを知りたい。ここに私のコードがあります: # load packages library(lme4) library(languageR) library(LMERConvenienceFunctions) library(coda) library(pbkrtest) # import data my.data <- read.csv("data.csv") # create separate data frames for each DV & remove NAs region.data <- na.omit(data.frame(time=my.data$time, subject=my.data$subject, dv=my.data$dv1)) # output summary of data data.summary <- summary(region.data) # fit model # "time" is a factor with three …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.