統計とビッグデータ simulation

3

逆変換ではなく、アーレンスとディーター（1972）の方法を使用する指数ランダムジェネレーターの利点は何ですか？

私の質問は、Rの組み込みの指数乱数ジェネレーターである関数に触発されましたrexp()。指数分布の乱数を生成しようとする場合、多くの教科書では、このWikipediaページで概説されている逆変換方法を推奨しています。このタスクを実行する他の方法があることを知っています。特に、Rのソースコードは、Ahrens＆Dieter（1972）の論文で概説されているアルゴリズムを使用しています。アーレンスディーター（AD）法が正しいことを確信しました。それでも、逆変換（IT）メソッドと比較して、これらのメソッドを使用する利点はわかりません。ADは、ITよりも実装が複雑なだけではありません。スピードメリットもないようです。以下に、両方の方法のベンチマークを行うためのRコードと、それに続く結果を示します。 invTrans <- function(n) -log(runif(n)) print("For the inverse transform:") print(system.time(invTrans(1e8))) print("For the Ahrens-Dieter algorithm:") print(system.time(rexp(1e8))) 結果： [1] "For the inverse transform:" user system elapsed 4.227 0.266 4.597 [1] "For the Ahrens-Dieter algorithm:" user system elapsed 4.919 0.265 5.213 2つの方法のコードを比較すると、ADは少なくとも2つの均一な乱数（C関数を使用unif_rand()）を描画して、1つの指数乱数を取得します。ITは1つの均一な乱数のみを必要とします。対数を取るのがより均一な乱数を生成するよりも遅いかもしれないと想定していたため、おそらくRコアチームはITの実装に反対しました。対数を取る速度はマシンに依存する可能性があることを理解していますが、少なくとも私にとってはその逆です。おそらく、ITの数値精度に関連して、0の対数の特異性に関係する問題があるのでしょうか。しかし、その後、R ソースコードsexp.cは、Cコードの次の部分が一様乱数uから先頭ビットを削除するため、ADの実装も数値精度を失うことを示しています。 double u = unif_rand(); while(u <= 0. || u …

11 r simulation random-generation exponential inverse-cdf

2

サンプルサイズが増加すると、信頼区間はどの設定で改善されませんか？

でブログの記事、私はその主張を発見しました「私はWGコクランが最初の指摘（およそ1970年代）を信じて、観測設定の信頼区間では、サンプルサイズが小さいと、カバレッジがゼロに近く、十分に大きいサンプルでカバレッジが良くなると思います。」ここで、サンプルサイズが大きくなるとCI幅が0に近づくと想定しますが、カバレッジが同時に悪化するという考えは私には納得できません。これは本当ですか、そしてどのような状況下ですか？それとも私はそれを誤解していますか？私は、10000から1000000のサンプルサイズ（1サンプルのt検定、95％CI）のランダムな正規分布データを使用してシミュレーションを実行しました。サンプルサイズごとに1000回実行し、高いサンプルサイズではカバレッジは悪化しませんでした。（代わりに、予想されるほぼ一定の約5％のエラー率が見つかりました）。

11 confidence-interval t-test simulation

3

コンピュータシミュレーションを使用して、大学院レベルでの統計的概念をよりよく理解する

こんにちは私は統計学の大学院コースを受講しており、テスト統計学およびその他の概念をカバーしてきました。しかし、私はしばしば公式を適用して、物事がどのように機能するかについて一種の直感を開発することができますが、シミュレーションの実験で私の研究をバックアップした場合、私は目の前の問題により優れた直感を開発するだろうと感じることがよくあります。したがって、私はクラスで議論するいくつかの概念をよりよく理解するために、簡単なシミュレーションを書くことを考えてきました。今私は言うJavaを使用することができます：正規平均と標準偏差でランダムな母集団を作成します。次に、小さなサンプルを取り、Type-IおよびType-IIエラーを経験的に計算してみます。今私が持っている質問は：これは直感を養うための正当なアプローチですか？これを行うソフトウェアはありますSASか（？、R？）これは、このようなプログラミングを扱う統計学の分野ですか？シミュレーション？

11 r hypothesis-testing sas simulation computational-statistics

3

シミュレーション研究：反復回数の選択方法？

「モデル1」でデータを生成し、「モデル2」でフィッティングしたい。基本的なアイデアは、「モデル2」のロバスト性のプロパティを調査することです。私は、95％信頼区間（正規近似に基づく）のカバレッジレートに特に関心があります。反復実行の数を設定するにはどうすればよいですか？必要な複製よりも大きいと偽のバイアスが発生する可能性があるのは本当ですか？もしそうなら、それはどうですか？

11 simulation monte-carlo

2

部分的にシミュレーションされたデータに対してメタ分析を実行しないのはなぜですか？

バックグラウンド：心理学の典型的なメタ分析は、2つの変数XとYの間の相関をモデル化しようとする場合があります。分析には、通常、サンプルサイズとともに、関連する相関のセットを文献から取得することが含まれます。次に、式を適用して加重平均相関を計算できます。次に、分析を実行して、ランダムサンプリングの単なる影響によって暗示される以上に、研究間で相関が変化するかどうかを確認できます。さらに、分析ははるかに複雑にすることができます。推定値は、信頼性、範囲制限などに合わせて調整できます。相関関係を組み合わせて使用して、メタ構造方程式モデリングやメタ回帰などを調べることができます。ただし、これらすべての分析は、入力データとして要約統計量（相関、オッズ比、標準化された平均差など）を使用して実行されます。これには、要約統計量を受け入れる特別な式と手順を使用する必要があります。メタ分析への代替アプローチしたがって、生データを入力として使用するメタ分析の代替アプローチについて考えていました。つまり、相関の場合、入力データは相関を形成するために使用される生データになります。明らかに、ほとんどのメタ分析では、実際の生データのほとんどではないにしても、いくつかは利用できません。したがって、基本的な手順は次のようになります。生データを求めるすべての公開された著者に連絡し、提供されている場合は実際の生データを使用してください。生データを提供しない作成者の場合は、生データをシミュレートして、報告されたものと同じ要約統計を持つようにします。このようなシミュレーションには、生データから得られた知識を組み込むこともできます（たとえば、変数が歪んでいることがわかっている場合など）。そのようなアプローチにはいくつかの利点があるかもしれないように私には思えます：生データを入力として使用する統計ツールを分析に使用できます少なくともいくつかの実際の生データを取得することにより、メタ分析の作成者は、実際のデータに関連する問題（たとえば、外れ値、分布など）を考慮する必要があります。質問真の生データと、既存の公開された研究と同一の要約統計量を持つようにシミュレーションされたデータの組み合わせでメタ分析研究を実行することに問題はありますか？このようなアプローチは、要約統計量のメタ分析を実行する既存の方法よりも優れているでしょうか？このアプローチについて議論、支持、批判している既存の文献はありますか？

11 simulation meta-analysis

1

混合効果モデルの残差をブートストラップすると、なぜ保守的な信頼区間が得られないのですか？

私は通常、複数の個人がそれぞれ2つ以上の条件のそれぞれで複数回測定されるデータを扱います。私は最近、条件間の差異の証拠を評価するために混合効果モデリングを試しindividual、ランダム効果としてモデリングしています。そのようなモデリングからの予測に関する不確実性を視覚化するために、私はブートストラップを使用しており、ブートストラップの各反復で、個体と観測内の条件内の両方が置換でサンプリングされ、新しい混合効果モデルが予測から計算されます取得されます。これは、ガウス誤差を仮定するデータに対しては正常に機能しますが、データが2項式の場合、各反復で比較的計算集中型の2項式混合効果モデルを計算する必要があるため、ブートストラップに非常に長い時間がかかる可能性があります。私が考えていたのは、元のモデルの残差を使用して、ブートストラップの生データの代わりにこれらの残差を使用できるため、ブートストラップの各反復でガウス混合効果モデルを計算できるというものでした。生データの二項モデルからの元の予測を残差からのブートストラップ予測に追加すると、元の予測の95％CIが生成されます。ただし、私は最近、このアプローチの簡単な評価をコード化し、2つの条件の差をモデル化せず、95％信頼区間にゼロを含めることができなかった時間の割合を計算しました。上記の残差ベースのブートストラップ手順では、かなり強い反保守的な間隔（ゼロを除外するのは、時間の5％以上）。さらに、元のガウシアンであるデータに適用した場合と同様に、このアプローチの同様の評価をコード化し（以前と同じリンク）、同様に（極端ではないが）反保守的なCIを取得しました。これがなぜなのか、何か考えはありますか？

11 confidence-interval mixed-model bootstrap monte-carlo simulation

2

打ち切りデータをシミュレートする方法

タイプIの右打ち切り観測を含むn個のワイブル分布の寿命のサンプルをどのようにシミュレートできるのかと思います。たとえば、n = 3、形状= 3、スケール= 1、打ち切り率= .15、打ち切り時間= .88とします。ワイブルサンプルを生成する方法は知っていますが、Rで右打ち切りされたタイプの打ち切りデータを生成する方法がわかりません。 T = rweibull(3, shape=.5, scale=1)

11 r survival simulation random-generation

2

ベイジアンはどのようにしてモンテカルロシミュレーション法を使用してメソッドを検証しますか？

背景：私は社会心理学の博士号を取得しており、理論的な統計と数学は私の定量的な授業ではほとんどカバーされていません。学部と大学院を通して、私は（おそらく社会科学の多くの人と同じように）「古典的な」頻出主義の枠組みを通じて教えられました。今、私はまた、Rを愛し、メソッドの作業が行うことを確認するためにシミュレーション手法を使用しての道を数学的な証明よりも私には感覚的です（ここでも、理論的な統計ではなく、量的社会科学の背景）。頻度論的手法とシミュレーション手法を組み合わせることは、私にとって非常に意味のあることです。常連客は確率を長期的なオッズと見なしているためです（たとえば、これを任意の回数実行すると、50％の確率で発生し、50％の確率になります）。モンテカルロ法でこの長期をシミュレーションできます！合併症：学部生以来、ベイズ法に非常に気づいていて、人生の中でベイズ側に電話をかけてくる人が常にいて、結果の解釈が簡単で、データの代わりに仮説の確率が得られると言ってきました仮説などを与えられました。私は本当にこれに夢中になって、ベイジアンクラスを取り、いくつかのベイジアンの本や論文を読み、現在はスタンとそれに関連するRパッケージにかなり精通しています。 Mayoに入る：「Bayesianはおそらく未来の道だ」としばらく考えた後、私はDeborah Mayoの統計的推論をSevere Testingとして読みました。彼女は本の最初でどちらか一方を選ぶことはないと言いますが、そうします：彼女は常習者であり、本の多くは頻出主義の方法論を擁護しています。私は、彼女が証拠を見る方法が有効であると私たちが考えるかどうかの議論に必ずしも入りたくありませんが、これは私に考えさせました：ベイズが宣伝されているすべては本当にですか？つまり、ベイズの群衆はそれ自体が分裂しているため、ベイジアンフレームワークでデータを分析するための「正しい」方法をよく知りません。通常、私は単に使用しますrstanarm現在のポイントの推定値と信頼できる区間...これは、頻繁に頻度論者の推定値と信頼区間と一致します。私はモデル比較を行うかもしれませんが、ベイズ因子を事後確率比較などとして説明することは常に恐れています。もっと考える：メイヨーの本を通して私がずっと考えていたのは次のとおりです。コンピュータを使用して頻出主義の方法を確実に機能させる方法があります。なぜなら、確率は長期的に見られるものであり、それをシミュレートできるからです。ベイジアンは、どの確率が実際にあるのかについてさえ合意することができないようです。それは、ベイジアンスクール（デフォルト、主観など）によって異なります。それが私の質問につながります：質問：長期的に確率が確率として定義されていない場合、モンテカルロシミュレーション法を使用して、ベイズの方法が不確実性を適切に定義している（つまり、有効な信頼できる区間と事後分布を計算する）ことをどのように確認しますか？例：データジェネレータを作成します。これは、0.5の確率でベルヌーイ分布からシミュレーションを行うだけです。 set.seed(1839) p <- .50 n <- 100 gen_dat <- function(n, p) { rbinom(n, 1, p) } ここで、ロジスティック回帰の信頼区間が実際に有効であることを確認したいとします。回帰を何度もシミュレートして、実際の母集団の値が95％の時間の95％信頼区間内にあることを確認できます。これは切片のみのモデルなので、p正しく推定していることを確認したいだけです。 set.seed(1839) iter <- 10000 results <- sapply(seq_len(iter), function(zzz) { mod <- glm(gen_dat(n, p) ~ 1, binomial) conf <- suppressMessages(confint(mod)) log(p / (1 - p)) < …

11 probability bayesian simulation monte-carlo frequentist

2

ARMA-GARCHモデルを使用した外国為替価格のシミュレーション

ARIMA（1,1,1）-GARCH（1,1）モデルを、数年にわたって1分間隔でサンプリングされたAUD / USD為替レートログ価格の時系列に適合させ、2つ以上のモデルを推定する100万のデータポイント。データセットはこちらから入手できます。明確にするために、これはログ価格の1次積分により、ログのリターンに適合したARMA-GARCHモデルでした。元のAUD / USD時系列は次のようになります。次に、当てはめたモデルに基づいて時系列をシミュレートしようとしましたが、次のようになりました。シミュレーションされた時系列が元の時系列と異なることを期待し、望んでいますが、それほど大きな違いがあるとは思っていませんでした。本質的に、私はシミュレートされたシリーズがオリジナルのように動作するか、概して見たいと思っています。これは、モデルの推定とシリーズのシミュレーションに使用したRコードです。 library(rugarch) rows <- nrow(data) data <- (log(data[2:rows,])-log(data[1:(rows-1),])) spec <- ugarchspec(variance.model = list(model = "sGARCH", garchOrder = c(1, 1)), mean.model = list(armaOrder = c(1, 1), include.mean = TRUE), distribution.model = "std") fit <- ugarchfit(spec = spec, data = data, solver = "hybrid") sim …

10 time-series arima simulation garch finance

2

不適切な混合物からの正確なサンプリング

連続分布からサンプリングしたいとします。次の形式で式がある場合pp(x)p(x)p(x)ppp p(x)=∑i=1∞aifi(x)p(x)=∑i=1∞aifi(x)p(x) = \sum_{i=1}^\infty a_i f_i(x) ここで、、およびf_iは、簡単にサンプリングできる分布であり、pから簡単にサンプルを生成できます。ai⩾0,∑iai=1ai⩾0,∑iai=1a_i \geqslant 0, \sum_i a_i= 1fifif_ippp 確率a_iでラベルiiiをサンプリングするaiaia_i XのサンプリングX∼fiX∼fiX \sim f_i aiaia_iが時々負になる場合、この手順を一般化することは可能ですか？私はこれがどこかで行われたのを見たことがあると思います-おそらく本の中で、おそらくコルモゴロフの分布について-だから、私はリファレンスを回答として受け入れて完全に幸せです。具体的なおもちゃの例が役に立つ場合は、p（x、y）\ propto \ exp（-xy- \ alpha \ sqrt {xy}）\ qquad x、y> 0からサンプリングしたいp(x,y)∝exp(−x−y−αxy−−√)x,y>0p(x,y)∝exp⁡(−x−y−αxy)x,y>0p(x,y) \propto \exp(-x-y-\alpha\sqrt{xy})\qquad x,y > 0とします。物事の壮大な計画において、あまり重要ではない技術的理由のためにα∈(0,2)α∈(0,2)\alpha \in (0, 2)を取ります。原則として、これを次の合計として展開できます。 p(x,y)∝∑n=0∞(−1)nαn(n2)!(n2)!n!(xn/2e−x(n2)!)(yn/2e−y(n2)!).p(x,y)∝∑n=0∞(−1)nαn(n2)!(n2)!n!(xn/2e−x(n2)!)(yn/2e−y(n2)!).p(x,y) \propto \sum_{n=0}^\infty \frac{(-1)^n \alpha^n \left( \frac{n}{2} \right)! \left( \frac{n}{2} \right)!}{n!} \left( …

10 simulation monte-carlo mixture accept-reject

4

リサンプリングされたデータセットの仮説検定でnullが頻繁に拒否されるのはなぜですか？

tl; dr：nullの下で生成されたデータセットから始めて、置換でケースをリサンプリングし、リサンプリングされた各データセットに対して仮説検定を行いました。これらの仮説検定は、ヌルを5％以上の確率で拒否します。以下の非常に単純なシミュレーションでは、でデータセットを生成し、それぞれに単純なOLSモデルを当てはめます。次に、各データセットについて、元のデータセットの行を置換して再サンプリングすることにより、1000個の新しいデータセットを生成します（Davison＆Hinkleyの古典的なテキストで線形回帰に適していると特に説明されているアルゴリズム）。それらのそれぞれについて、私は同じOLSモデルを適合させました。最終的に、ブートストラップサンプル内の仮説テストの約16％がnullを拒否しますが、5％を取得する必要があります（元のデータセットで行うように）。バツ〜N（0 、1 ）⨿ Y〜N（0 、1 ）X∼N(0,1)⨿Y∼N(0,1)X \sim N(0,1) \amalg Y \sim N(0,1) 私はそれが膨張した関連を引き起こす繰り返しの観察に関係しているのではないかと思ったので、比較のために、以下のコードで他の2つのアプローチを試しました（コメントアウト）。方法2では、を修正してから、を元のデータセットのOLSモデルからのリサンプリングされた残差で置き換えます。方法3では、置換せずにランダムなサブサンプルを描画します。これらの選択肢はどちらも機能します。つまり、それらの仮説テストでは、ヌルが5％の確率で拒否されます。YバツXXYYY 私の質問：繰り返しの観察が原因だと思いますか？もしそうなら、これがブートストラップへの標準的なアプローチであるとすれば、どこで標準的なブートストラップ理論に正確に違反しているのでしょうか？アップデート＃1：より多くのシミュレーションさらに単純なシナリオである切片のみの回帰モデルを試しました。同じ問題が発生します。YYY # note: simulation takes 5-10 min on my laptop; can reduce boot.reps # and n.sims.run if wanted # set the number of cores: can change this to match your machine library(doParallel) registerDoParallel(cores=8) …

10 r bootstrap simulation resampling

2

確率変数のサンプルとは何ですか？

ランダム変数は、基礎となる測度を持つ1つの -algebraから別の -algebra測定可能な関数として定義されます。XXXσσ\sigma(Ω1,F1)(Ω1,F1)(\Omega_1, \mathcal F_1)PPPσσ\sigma(Ω2,F2)(Ω2,F2)(\Omega_2, \mathcal F_2) この確率変数のサンプルについてどのように話しますか？要素として扱いますか？またはと同じ測定可能な関数として？XnXnX^nΩ2Ω2\Omega_2XXX これについてどこでもっと読むことができますか？例：モンテカルロ推定では、サンプルを関数と見なして、推定量の不偏性を証明します。確率変数期待が次のように定義されている場合(Xn)Nn=1(Xn)n=1N(X^n)_{n = 1}^NXXX E[X]=∫Ω1X(ω1)dP(ω1)E[X]=∫Ω1X(ω1)dP(ω1)\begin{align} \mathbb E[X] = \int_{\Omega_1} X(\omega_1) \,\mathrm dP(\omega_1) \end{align} そして、仮定するとである機能及び、我々は次の通り進行することができます。XnXnX^nXn=XXn=XX^n = X E[1N∑n=1Nf(Xn)]=1N∑n=1NE[f(Xn)]=1N∑n=1NE[f(X)]=E[f(X)].E[1N∑n=1Nf(Xn)]=1N∑n=1NE[f(Xn)]=1N∑n=1NE[f(X)]=E[f(X)].\begin{align} \mathbb E\left[\frac{1}{N} \sum_{n = 1}^N f(X^n)\right] &= \frac{1}{N} \sum_{n = 1}^N \mathbb E[f(X^n)] \\ &= \frac{1}{N} \sum_{n = 1}^N \mathbb E[f(X)] \\ &= \mathbb …

10 sampling random-variable simulation

2

ファットフィンガー分布

簡単な質問：太い指の分布はありますか？存在する場合は別の名前になっているはずです。分析関数としてどのように定式化するかわかりません。それの既存のバージョンを見つけるか、巨大なシミュレーションよりもきれいなものでそれを公式化することから始めることができますか？これは、特定の数値を対象としたときに実際にヒットする数値の分布ですが、ボタンは指よりもはるかに小さいため、近くのボタンが誤ってヒットする場合があります。このような分布の使用は、携帯電話のボタンを押す際の誤ったエントリです。「今すぐ1を押す」か何かをする必要があり、「1を押したのは正しい」という会社を経営していた場合、2列に並ぶ太い指で混乱する可能性はありますが、太った指の確率はまともな近似になるでしょう。いくつか。（太った指のハミング距離？太い指のマルコフ連鎖？）私はそれを使って、キーを押すことでエラー訂正を試みたいと思います。私は自分のサンプルをいくつか持っていますが、指の「太さ」や携帯電話のキーボードトポロジのバリエーションが十分でないため、堅牢ではありません。背景と詳細：通常の携帯電話のキーパッドレイアウトは次のとおりです。私の指がキーよりもはるかに大きいことを想像してください。そのため、5を押すと、ほとんどの場合5を獲得しますが、2、4、6、または8も獲得する可能性があります（等しく可能性があります））そして、1,3,7,9を得る可能性が低く（ゼロではない）、等しく（可能性が高い）、0を得る可能性はほとんどありません。固定された「指の直径」に対して無数の5を入力しようとすると、値の分布が得られると想像できます。私の指の値が小さい場合、分布が変化します。別の数をヒットしようとすると、分布が変化します。実際には、これはキーのレイアウトに依存します。それらが3x3グリッドではなく巨大なリングにある場合、それは別の種類の質問になります。この場合、3x3の長方形グリッドのみを扱うことになると思います。また、キーパッドにはデジタルラッチが付いているため、1回のキー操作しか検出できないと思われます。「0」が押されたときなど、他のボタンには最大7つの周波数があります。私はそれに従事するためのきれいな方法がわかりません。おそらく、ターゲットキーとトリガーされた候補キーの間の正規化された2乗距離の因数倍ですか？ 5つが押されたときの分布をシミュレートする方法は次のとおりです（重みは多少任意です）。 #number of presses npress <- 1000 #hack this (not quadratic) myprobs <- c(0.85) myprobs <- c(myprobs, 0.1275/4, 0.1275/4, 0.1275/4, 0.1275/4) myprobs <- c(myprobs, 0.019125/4, 0.019125/4, 0.019125/4, 0.019125/4) myprobs <- c(myprobs,1-sum(myprobs) ) #order of number my_button <- …

10 distributions simulation

1

観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか？

私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA（0,2,1）モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値（IO）TSAを検出しました。この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか？Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか？これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

タグ付けされた質問 「simulation」

タグ付けされた質問「simulation」