タグ付けされた質問 「r」

このタグは、(a)質問の重要な部分または予想される回答として「R」が含まれる* on-topic *の質問に使用します。&(b)「R」の使い方について「*」だけではありません。

3
堅牢なステップ関数を時系列に適合させる方法は?
いくつかのレベルをホバリングする、やや騒々しい時系列があります。 たとえば、次のデータ: 実線のデータがあり、破線の見積もりを取得したい。区分的に一定でなければなりません。 ここで試すのに適切なアルゴリズムは何ですか? これまでのところ、私のアイデアは0度のPスプライン(ただし、ノットを配置する場所を見つける方法は?)または構造破壊モデルを中心に扱っています。回帰木は現在私が持っている最高のアイデアですが、理想的には、y = 250の2つのレベルが等しいy値にあるという事実を考慮した方法を探しています。私が正しく理解していれば、回帰ツリーはこれらの2つの区間を2つの異なるグループに分割し、それぞれの平均は異なり​​ます。 それを生成したRコードはこれです: set.seed(20181118) true_fct = stepfun(c(100, 200, 250), c(200, 250, 300, 250)) x = 1:400 y = true_fct(x) + rt(length(x), df=1) plot(x, y, type="l") lines(x, true_fct(x), lty=2, lwd=3)

1
glm()がリンクスケールの推定値と標準エラーを提供するのはなぜですか?
Rでは、誰かが最近ここで私に明らかにしたように、によって推定されたパラメーターglm()とその標準誤差の両方がリンクスケールで提供されます。同じスケールでパラメーターとその標準誤差の両方を提供することは理にかなっていますが、それでは、データの元のスケールで両方を表示してみませんか?ほとんどの人は元のスケールでの見積もりに興味があり、ほとんどの場合それらを逆変換すると思います。この質問へのコメントは、パラメーター推定値とその標準誤差を逆変換する方法に関する質問に対応していますが、そのような推定値が元のスケールではなくリンクスケールの関数によって提供される理由については、まだ知りたくありませんsummary()。

2
QQプロットと
qqplotは線形ですが、勾配が45度の線と同じでない場合、これは何を示唆していますか? 私はラプラス分布のサンプルデータへの適合を調べようとしているので、ランダムにラプラス分布(サンプルから推定されたパラメーターを使用)の観測を生成し、それらをサンプルに対してプロットしました。 qqplot(rand, sample) abline(0, 1, col = 'red')
7 r  qq-plot 

2
なぜ治療コーディングはランダムな傾きと切片の間の相関をもたらすのですか?
実験的処理変数に2つのレベル(条件)がある被験者内および項目内の要因計画を考えます。をm1最大モデルとm2非ランダム相関モデルにします。 m1: y ~ condition + (condition|subject) + (condition|item) m2: y ~ condition + (1|subject) + (0 + condition|subject) + (1|item) + (0 + condition|item) Dale Barr はこの状況について次のように述べています。 編集(2018年4月20日):Jake Westfallが指摘したように、次のステートメントはこの Webサイトの図1および2に示されているデータセットのみを参照しているようです。ただし、基調講演は変わりません。 偏差コーディング表現(条件:-0.5 vs. 0.5)m2では、被験者のランダムな切片が被験者のランダムな傾きと無相関である分布が可能です。最大モデルのみm1が、2つが相関している分布を許可します。 治療コーディング表現(条件:0対1)では、被験者のランダム切片が被験者のランダムな傾きと無相関であるこれらの分布は、無作為相関モデルを使用してフィッティングできません。治療コード表現における勾配と切片。 なぜ治療コーディングは 常に ランダムな傾きと切片の間に相関関係が生じますか?

2
SAS nlmixedとR nlmeで異なるモデルフィット結果が得られるのはなぜですか?
library(datasets) library(nlme) n1 <- nlme(circumference ~ phi1 / (1 + exp(-(age - phi2)/phi3)), data = Orange, fixed = list(phi1 ~ 1, phi2 ~ 1, phi3 ~ 1), random = list(Tree = pdDiag(phi1 ~ 1)), start = list(fixed = c(phi1 = 192.6873, phi2 = 728.7547, phi3 = 353.5323))) 私nlmeはR を使用して非線形混合効果モデルを適合させ、これが私の出力です。 > …
7 r  mixed-model  sas 

2
GLM標準エラー
GLMモデルの係数の標準誤差を取得する方法について質問があります。手作業で計算したフィッシャー情報マトリックスを持っていますが、スケーリングされていません。GLM関数から同じ標準エラーを取得できるように、フィッシャー情報マトリックスをどのようにスケーリングできますか?

2
ランダムな予測子を使用したロジスティック回帰から均一なp値分布が得られないのはなぜですか?
以下のコードは、周囲に二項ノイズを含む一連の「信号」確率で構成されるテストデータのセットを生成します。次に、コードは5000組の乱数を「説明的な」系列として使用し、それぞれについてロジスティック回帰のp値を計算します。 ランダムな説明シリーズは、57%のケースで5%レベルで統計的に有意であることがわかりました。以下の投稿の長い部分を読んだ場合、これはデータに強い信号が存在することに起因します。 だから、ここに主な質問があります:データに強い信号が含まれているときに説明変数の統計的有意性を評価するときに、どの検定を使用すべきですか?単純なp値は誤解を招くようです。 問題の詳細な説明は次のとおりです。 予測子が実際には単なる乱数のセットであるときに、ロジスティック回帰のp値を取得した結果に戸惑っています。私の最初の考えは、この場合、p値の分布はフラットでなければならないということでした。以下のRコードは、実際には低いp値で大きなスパイクを示しています。これがコードです: set.seed(541713) lseries <- 50 nbinom <- 100 ntrial <- 5000 pavg <- .1 # median probability sd <- 0 # data is pure noise sd <- 1 # data has a strong signal orthogonalPredictor <- TRUE # random predictor that is orthogonal to the true …

1
閉じたフォームなしで逆Cdfからランダムサンプルを生成する
私は、逆累積分布関数が閉じた形で存在しない特定の分布に取り組んでいます。分布の累積分布関数は、 F(x;d,m,p,α,β)=1−(1+xm)−dexp(−βxα)1−p(1+xm)−dexp(−βxα)F(x;d,m,p,α,β)=1−(1+xm)−dexp⁡(−βxα)1−p(1+xm)−dexp⁡(−βxα)F(x; d, m, p, \alpha, \beta) = \frac{1-(1+x^m)^{-d} \exp(-\beta x^\alpha)}{1-p(1+x^m)^{-d} \exp(-\beta x^\alpha)} 正に m 、d、α 、βm,d,α,βm, d, \alpha, \beta そして 0 < p < 10<p<10\lt p \lt 1。 私の問題は、Rパッケージが初めてで、を使用して配布からランダムサンプルを生成する必要があることですR。

2
x1> x2の確率の計算
私は、R、線形モデル、および確率計算を使用して確率について自己学習しています。現在、モデルからの2つの予測を比較する方法にこだわっています。私が使用しているデータはここからダウンロード(無料)されています:wmbriggs.com/public/sat.csv df <- read.csv("sat.csv") # Load data lm <- lm(cgpa~hgpa+sat+ltrs,data=df) # model to predict College GPA new.df <- data.frame(hgpa=c(4,3),sat=c(1168,1168),ltrs=c(6,6)) # 2 scenario data. Same SAT and LTRS, differing Highschool GPA predict(lm,new.df) # plug our scenario data into the model to predict cgpa based on input 1 2 2.881214 2.508154 これが設定データです。より高い予測 …

1
カウントデータがポアソン分布に適合しない場合の対処
私は博士の統計学の学生です。カウントデータのデータセットを使用しています。n方向のリアルタイムチャット会話に関与しているユーザーの数です。ユーザー数は1〜6人で、セットには約300個のデータがあります。 私の最初の動機は、データがポアソン分布に適合するかどうかを理解することでした。良い適合が見つかった場合、この結果をさらに推論するために使用できると考えていました。 長い話を短くするために、データを適合させようとしたところ、0.05の有意水準で適合できませんでした。したがって、私の仮説を拒否できます(ポアソン分布を使用してデータセットを近似できる)。 密度プロットを見ると、このように適合度が低いのは、「2人のユーザーに対して記録された値が多すぎるためです。ポアソン分布は、このビンの値が少ないほどよく適合します。しかし、私自身のデータ私は外れ値があると信じる理由はありません(つまり、上位または下位のビンに割り当てられる2人のユーザーとの会話) users <- c(1, 2, 2, 1, 1, 1, 1, 2, 2, 3, 2, 2, 2, 1, 1, 1, 2, 2, 1, 1, 4, 3, 3, 3, 1, 2, 1, 1, 2, 4, 3, 2, 2, 1, 2, 3, 2, 2, 1, 1, 1, 2, 2, 1, …

1
2つの多項分布の比較
背景:ピザを8つのスライスに切ったところを想像してみてください。 [ スライスの各直線エッジに、反対の極性を外側に向けた磁石を挿入します。これらのコンポーネントを分離して、ひっくり返さないようにして振ると、完全なピザになります。 ここで、追加のスライス(同じサイズ、フルピザの1/8)を入れても、フルピザが常に形成されるとは限りません。4&5、3&6、2&7および1&8のクラスターを形成できます。 モデル(Hosokawa et al。(1994)により提供)は、各クラスターが形成される確率を示します。モデルを検証するために、いくつかの物理実験を行います。実験条件ごとに20回試行しています。 私の結果は次のようになります: Cluster Theoretical Physical 3,6: 6.01961132827 4 1,8: 2.77455224377 5 4,5: 6.62198848501 5 2,7: 4.58384794294 6 上記のデータは多項分布です(ダイスを振ったときに得られる分布に似ています)。9つのスライスがある場合、各試行は4つの状態のいずれかで終了できます。 9スライスの実験に加えて、40スライス(およびその他いくつか)の実験のデータも持っています。(ここに含めたい場合はお知らせください) 問題:適合度をテストするために、ピアソンのカイ2乗検定を実行します。ただし、両方の分布の平均は「近い」ため、帰無仮説を棄却できません。ただし、帰無仮説も受け入れられません。 質問:モデルが物理実験にどの程度「近づく」かを示すより良い方法はありますか?「標準偏差」に相当する多項式、またはおそらく信頼区間?信頼区間のある回帰? 更新:私の同僚は、Rでの回帰分析のために次のアプローチを提案しました: d=read.csv("data.csv") length(unique(d$abs_state)) nrow(d) d$n_componentsf=as.factor(d$n_components) ncomps=9 dsubs=d[d$n_components==ncomps,] # using exact multinomial test in EMT (better) library(EMT) # using Chi square test statistics EMT::multinomial.test(dsubs$freq_obs, …

1
3次元散布図の代替
プレゼンテーションでは、3次元データを視覚化する必要があります。それらを「散布図のスタイル」で視覚化する必要があります。 最初のアイデアは 三次元散布図 散布図行列 次元削減(PCA)とその後の2次元散布図 これらの概念に代わるものは何ですか?可能であれば、回答にRコードを含めてください。 編集:3次元のオブジェクトが40個あります。各観測は、1から6までの整数値を取ることができます。


1
検量線の解釈
私は段階的に導出されたバイナリロジスティック回帰モデルを持っています。R calibrate(, bw=200, bw=TRUE)のrmsパッケージの関数を使用して、将来のキャリブレーションを推定しました。出力を以下に示します。これは、バックワードステップダウンロジスティックモデルのブートストラップ過適合が補正された検量線推定を示しています。しかし、私はそれをどのように解釈するかわかりません。 キャリブレーションとは、将来の予測確率が観測された確率と一致するかどうかを指すことを理解しています。予測モデルは、新しい被験者の予測が極端すぎる(つまり、結果の観測確率が低リスク被験者の予測よりも高く、高リスク被験者の予測よりも低い)ことに悩まされています。これは、リスクの低いグループの理想(破線)よりも高く、リスクの高いグループの理想よりも低い点線の曲線をトレースするとわかります。 同じ推論を使用すると、バイアスが補正された曲線は、さらに極端な確率を生成するという意味で、より悪くなります。私の解釈は正しいですか?

3
モデル間のキャリブレーションを比較するための統計的アプローチ
これは一般的な問題のようですが、解決策が見つかりません。 一連のバイナリ観測と2つの異なるモデルがあり、それぞれに各観測の予測があります。モデルのキャリブレーションを比較したい。 これらのモデルの差別を比較する方法はいくつかあります(RのpROCパッケージのroc.testを参照)が、キャリブレーションを比較する方法はありません。ほとんどの経験的論文は、各モデルのキャリブレーションがオフであるかどうかをテストしている2つの異なるキャリブレーションテスト(すなわち、Hosmer-Lemeshow、Brierスコア)からのp値のみをリストしています。 私が探しているのは、2つのモデル間のキャリブレーションの直接統計比較です。 これが極端なテストデータセットです。ブライア検定、シュピーゲルハルターZ検定などの値はすべて、p2がより適切に較正されていることを裏付けています。誰かがこれを正式な統計的検定にすることができますか? library("pROC") y <- rbinom(100,1,1:100/100) p1 <- 1:100/10001 p2 <- 1:100/101 val.prob(p1,y) val.prob(p2,y)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.