タグ付けされた質問 「fixed-effects-model」

生物統計学では、固定効果は人口平均効果を意味する場合があります。計量経済学では、固定効果は、量が非ランダムであるかのように扱われる説明変数に関して観測された量を表す場合があります。


3
R's lmerチートシート
このフォーラムでは、を使用してさまざまな階層モデルを指定する適切な方法について多くの議論が行われていますlmer。 すべての情報を1か所にまとめるのは素晴らしいことだと思いました。開始するいくつかの質問: 複数のレベルを指定する方法。1つのグループがもう1つのグループ内にネストされている(1|group1:group2)場合:it または(1+group1|group2)? (~1 + ....)and (1 | ...)と(0 | ...)etcの違いは何ですか? グループレベルの相互作用を指定する方法

2
ランダム効果、固定効果、および限界モデルの違いは何ですか?
統計の知識を広げようとしています。私は物理学のバックグラウンドから来て、統計的テストへの「レシピベース」アプローチを採用しています。 私の読書では、ランダム効果モデル、固定効果モデル、限界モデルという用語に出くわしました。私の質問は: 非常に簡単に言えば、それらは何ですか? それらの違いは何ですか? それらのいずれかは同義語ですか? OLS回帰、ANOVA、ANCOVAなどの従来のテストは、この分類のどこに該当しますか? 自己学習で次に進むべき場所を決めようとしているだけです。

4
Rの標準エラークラスタリング(手動またはplmのいずれか)
標準エラーの「クラスタリング」とRでの実行方法を理解しようとしています(Stataでは簡単です)。RIでは、どちらplmかを使用するか、独自の関数を作成することに失敗しました。パッケージのdiamondsデータを使用しggplot2ます。 いずれかのダミー変数で固定効果を実行できます > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t test of coefficients: Estimate Std. Error t value Pr(>|t|) …

5
変量効果と固定効果の数学的な違いは何ですか?
ランダム効果と固定効果の解釈に関して、インターネット上で多くのことを発見しました。ただし、以下をピン留めするソースを取得できませんでした。 変量効果と固定効果の数学的な違いは何ですか? つまり、モデルの数学的定式化とパラメーターの推定方法を意味します。

5
混合モデルで因子をランダムとして扱うことの利点は何ですか?
いくつかの理由で、モデルファクターをランダムとしてラベル付けすることの利点を受け入れるのに問題があります。私には、ほとんどすべての場合、最適な解決策はすべての要因を固定として扱うことのように見えます。 まず、固定とランダムの区別は非常にarbitrary意的です。標準的な説明では、特定の実験ユニット自体に興味がある場合は固定効果を使用し、実験ユニットによって表される母集団に興味がある場合はランダム効果を使用する必要があります。これは、データと実験デザインが同じままであっても、固定ビューとランダムビューを交互に切り替えられることを意味するため、あまり役に立ちません。また、この定義は、因子がランダムとしてラベル付けされている場合、モデルから引き出された推論は、因子が固定としてラベル付けされている場合よりも母集団により何らかの形で適用できるという幻想を促進します。最後に、ゲルマンは、固定ランダムな区別が混乱していることを示しています 定義レベルでも、固定効果とランダム効果の定義がさらに4つあるためです。 第二に、混合モデルの推定は非常に複雑です。「完全に固定された」モデルとは対照的に、p値を取得する方法はいくつかあります。 。 第三に、ランダムな要因によっていくつの暗黙的なパラメータが導入されるかという不透明な問題があります。次の例は、Burnham&Andersonのモデル選択とマルチモデル推論:実用的な情報理論的アプローチでの私の適応です。バイアスと分散のトレードオフの観点から、ランダム効果の役割は次のように説明できます。処理と主因子効果を持つ一元配置分散分析を検討してくださいは推定可能です。エラー項には分布があります。観測値の数が固定されている場合、バイアス分散のトレードオフは、が上がるにつれて低下します。我々はと言うと仮定K K - 1 N(0 、σ 2)K KKKKKKKK− 1K−1K - 1N(0 、σ2)N(0、σ2)\mathcal N(0, \sigma^2)KKKKKK主効果は分布から引き出されます。対応するモデルは、固定(オーバーフィット)バージョンとインターセプトのみを含むアンダーフィットモデルの中間の複雑さを持ちます。固定モデルの有効なパラメーターの数はN(0 、σK)N(0、σK)\mathcal N(0, \sigma_K) 1i n t e r c e p t +(K− 1 )mはI nはe ffe c t s +1σ= K+ 1。1私ntercept+(K−1)ma私neffects+1σ=K+1。1 \:\:\mathrm{intercept} + (K - 1) \:\:\mathrm{main\: effects} + …

2
混合モデルでグループをランダムまたは固定として扱う場合の勾配推定値の大きな不一致
いくつかのモデルパラメーターがいくつかのグループ化因子にわたってランダムに変化すると考えられる場合、ランダム効果(または混合効果)モデルを使用することを理解しています。私は、応答がグループ化因子全体で正規化されて(完全ではないがかなり近い)中心に置かれているが、独立変数xはいかなる方法でも調整されていないモデルに適合することを望んでいます。これにより、次のテスト(作成されたデータを使用)に導かれ、実際に効果があるかどうかを確認しました。ランダムインターセプト(で定義されたグループ間)を使用した1つの混合効果モデルと、固定効果予測子として因子fを使用しfた2つ目の固定効果モデルを実行しました。lmer混合効果モデルと基本関数にRパッケージを使用しましたlm()固定効果モデル用。以下はデータと結果です。 yグループに関係なく、0付近で変化することに注意してください。そして、それxはyグループ内で一貫して変化しますが、y > data y x f 1 -0.5 2 1 2 0.0 3 1 3 0.5 4 1 4 -0.6 -4 2 5 0.0 -3 2 6 0.6 -2 2 7 -0.2 13 3 8 0.1 14 3 9 0.4 15 3 10 -0.5 -15 4 11 -0.1 -14 …

2
REMLまたはMLは、異なる固定効果を持つ2つの混合効果モデルを比較しますが、同じランダム効果を持ちますか?
背景: 注:テキストの下にデータセットとRコードが含まれています AICを使用して、Rのlme4パッケージを使用して生成された2つの混合効果モデルを比較します。各モデルには、1つの固定効果と1つのランダム効果があります。固定効果はモデル間で異なりますが、ランダム効果はモデル間で同じままです。REML = Tを使用すると、model2のAICスコアが低くなりますが、REML = Fを使用すると、model1のAICスコアが低くなります。 MLの使用のサポート: ズール等。(2009; PAGE 122)「ネストされた固定効果(ただし、同じランダム構造)を持つモデルを比較するには、REMLではなくML推定を使用する必要がある」ことを示唆しています。これは、ランダム効果は両方のモデルで同じですが、固定効果は異なるため、MLを使用する必要があることを示しています。[Zuur et al。2009.エコロジーにおける混合効果モデルと拡張機能とR.スプリンガー。] REMLの使用のサポート: ただし、MLを使用すると、ランダム効果に関連付けられた残差分散は2つのモデル間で異なります(model1 = 136.3; model2 = 112.9)が、REMLを使用するとモデル間で同じです(model1 = model2 = 151.5)。これは、ランダムな残差分散が同じランダム変数を持つモデル間で同じままになるように、代わりにREMLを使用する必要があることを意味します。 質問: 固定効果が変化し、ランダム効果が同じままであるモデルの比較に、MLよりもREMLを使用する方が理にかなっていますか?そうでない場合は、理由を説明したり、詳細を説明している他の文献を教えてください。 # Model2 "wins" if REML=T: REMLmodel1 = lmer(Response ~ Fixed1 + (1|Random1),data,REML = T) REMLmodel2 = lmer(Response ~ Fixed2 + (1|Random1),data,REML = T) AIC(REMLmodel1,REMLmodel2) …

3
クラスターSEを使用する場合と固定効果を使用する場合
あなたは、個人がグループ内に配置されているデータの単一断面(学校内などの生徒を)持っていて、フォームのモデルを推定したいと仮定し、個々のレベル特性とのベクトルである定数を。Y_i = a + B*X_iXa この場合、観測されていないグループ間不均一B性が、対象の独立変数と相関しているため、ポイント推定値とそのSEにバイアスをかけていると仮定します。 1つのオプションは、グループ(学校)によってSEをクラスター化することです。もう1つは、グループFEを含めることです。別の方法は両方を使用することです。これらのオプションを選択する際に考慮すべきことは何ですか?グループごとにSEをクラスタ化し、グループFEを使用する理由は特に不明です。私の特定のケースでは、35のグループと、各グループ内にネストされた5,000人の個人がいます。このpdfの説明に従いましたが、クラスター化されたSEと固定効果の両方を使用する理由と時期についてはあまり明確ではありません。 (マルチレベルモデルに適合することを提案する代わりに、クラスター化されたSEとFEの長所と短所について議論してください。)

4
混合効果モデルにすべての可能性が含まれる場合の固定効果とランダム効果
混合効果モデルでは、可能なレベルがすべて含まれている場合(男性と女性の両方など)、固定効果を使用してパラメーターを推定することをお勧めします。さらに、含まれるレベルが母集団(可能性のある患者の宇宙から登録された患者)からのランダムなサンプルであり、平均値の代わりに母集団の平均と分散を推定する場合、変数を説明するためにランダム効果を使用することをさらにお勧めします個々の因子レベルの。 この方法で常に固定効果を使用することが論理的に義務付けられているのかどうか疑問に思っています。開発によって足/靴のサイズがどのように変化し、たとえば身長、体重、年齢に関連するかについての研究を検討してください。 SideSide{\rm Side}長年にわたる測定値が特定のフィート内にネストされ、独立していないという事実を説明するために、モデルに何らかの形で明確に含める必要があります。さらに、右と左はすべて存在する可能性です。さらに、特定の参加者の右足が左足よりも大きい(または小さい)ことは事実です。ただし、すべての人の足のサイズは足によって多少異なりますが、平均して右足が左足よりも大きいと考える理由はありません。サンプルに含まれている場合、これはおそらく、右足に内在するものではなく、サンプルに含まれる人々の遺伝学に関する何かによるものです。最後に、sの私のD Eをs私de{\rm side}は迷惑なパラメータのように見えますが、あなたが本当に気にするものではありません。 この例を作成したことに注意してください。それは何の役にも立たないかもしれません。アイデアを広めるためだけです。私が知っているすべての人にとって、旧石器時代の生存には大きな右足と小さな左足が必要でした。 このような場合、ランダムな効果としてモデルにを組み込むことは(より多く/より少なく/任意に)意味があるsの私のD Eをs私de{\rm side}でしょうか?ここで固定効果とランダム効果を使用する場合の長所と短所は何でしょうか?

4
評判に対する投票の影響の分析を改善するにはどうすればよいですか?
最近、私はアップボットに対する評判の影響の分析を行い(ブログ投稿を参照)、その後、より啓発的な(またはより適切な)分析とグラフィックスについていくつか質問をしました。 いくつか質問があります(特に特定の人には自由に回答し、他の人は無視してください)。 現在の化身の中で、私は郵便番号を中央に置くつもりはありませんでした。これは、ポストカウントの下限に向かってより多くのポストがあるため、散布図に負の相関の誤った外観を与えることだと思います(これは、Jon Skeetパネルではなく、定命のユーザーでのみ発生しますパネル)。ポスト番号の平均を中心にしないのは不適切ですか?(ユーザーの平均スコアごとにスコアを中心にしたからです) グラフから、スコアが非常に右に歪んでいることが明らかであるはずです(そして、平均センタリングはそれを変更しませんでした)。回帰直線をフィッティングするとき、線形モデルと、Huber-White sandwhichエラー(rlmMASS Rパッケージを使用)を使用するモデルの両方にフィッティングしますが、勾配推定値に違いはありませんでした。ロバスト回帰の代わりにデータへの変換を検討すべきでしたか?変換では、0および負のスコアの可能性を考慮する必要があることに注意してください。または、OLSの代わりにカウントデータに他のタイプのモデルを使用する必要がありましたか? 一般に、最後の2つのグラフィックスは改善できると考えています(また、改善されたモデリング戦略にも関連しています)。私の(うんざりした)意見では、評判の効果が本当かどうかはポスターの歴史のかなり早い段階で実現されるのではないかと疑います(本当なら、これらは再考されるかもしれません。 「合計スコアによる評判」効果の代わりに「投稿」)。オーバープロットを考慮しながら、これが正しいかどうかを示すためにグラフィックを作成するにはどうすればよいですか?これを実証する良い方法は、フォームのモデルに適合することだと思いました。 Y=β0+β1(X1)+α1(Z1)+α2(Z2)⋯αk(Zk)+γ1(Z1∗X1)⋯γk(Zk∗X1)+ϵY=β0+β1(X1)+α1(Z1)+α2(Z2)⋯αk(Zk)+γ1(Z1∗X1)⋯γk(Zk∗X1)+ϵY = \beta_0 + \beta_1(X_1) + \alpha_1(Z_1) + \alpha_2(Z_2) \cdots \alpha_k(Z_k) + \gamma_1(Z_1*X_1) \cdots \gamma_k(Z_k*X_1) + \epsilon ここで、は(現在の散布図と同じ)、X 1は、Z 1はYYYscore - (mean score per user)X1X1X_1post number例えばポスト番号のいくつかの任意の範囲を表すダミー変数(ある Z 1つの等しいポスト番号である場合、 Zポスト番号がなどの場合、 2は等しくなります)。β 0Z1⋯ZkZ1⋯ZkZ_1 \cdots Z_kZ1Z1Z_111 through 25Z2Z2Z_2126 through 50β0β0\beta_0及びそれぞれグランドインターセプト及び誤差項です。次に、推定γを調べますϵϵ\epsilonγγ\gamma評判の影響がポスターの歴史の早い段階で出現したかどうかを判断する(またはグラフィカルに表示する)スロープ。これは合理的な(そして適切な)アプローチですか? ある種のノンパラメトリックな平滑化線をこれらのような散布図(黄土やスプラインなど)に適合させることは一般的なようですが、スプラインを使った私の実験では啓発的なものは何も明らかになりませんでした(ポスターの歴史の早い段階でのポスト効果の証拠はわずかで気まぐれでした)私が含めたスプラインの数に)。私は効果が早期に起こるという仮説を持っているので、上記のモデリングアプローチはスプラインよりも合理的ですか? また、私はこのデータのすべてをdrしましたが、調べるべき他のコミュニティがまだたくさんあります(スーパーユーザーやサーバーフォールトのようなものは同様に大きなサンプルを引き出しています)ので、将来提案するのは十分合理的ですホールドアウトサンプルを使用して関係を調べる分析。

4
固定効果モデルで時間不変変数を保持する方法
私はイタリアの大企業の従業員に関する10年以上のデータを持っていますが、男性と女性の収入の性差がどのように変化しているかを知りたいと思います。この目的のために、プールされたOLSを実行します: ここで、は1年あたりのログ収益、は個人と時間によって異なる共変量を含み、は年のダミー、は労働者が男性の場合は1、それ以外の場合はゼロです。yit=X′itβ+δmalei+∑t=110γtdt+εityit=Xit′β+δmalei+∑t=110γtdt+εit y_{it} = X'_{it}\beta + \delta {\rm male}_i + \sum^{10}_{t=1}\gamma_t d_t + \varepsilon_{it} yyyXitXitX_{it}dtdtd_tmaleimalei{\rm male}_i 今、私は共変量のいくつかが観測されていない固定効果と相関しているかもしれないという懸念を持っています。しかし、固定効果(内)推定器または最初の違いを使用すると、この変数は時間とともに変化しないため、性別ダミーが失われます。ランダム効果推定器を使用したくないのは、非常に非現実的でありそうもない仮定を置くと人々が言うのをよく耳にするからです。 性別をダミーに保ち、固定効果を同時に制御する方法はありますか?方法がある場合、性別変数の仮説検定のエラーに関連する他の問題をクラスター化するか、注意する必要がありますか?

1
偶発的なパラメーターの問題
私は、付随的なパラメーターの問題の真の本質をつかむのに常に苦労しています。「よく知られている」偶発的なパラメータの問題のために、非線形パネルデータモデルの固定効果推定量が大きく偏ることがあることを何度か読みました。 この問題の明確な説明を求めるときの典型的な答えは次のとおりです。パネルデータにはT時間にわたってN人の個人がいると仮定します。Tが固定されている場合、Nが大きくなると共変量の推定値にバイアスがかかります。これは、Nが増加するにつれて迷惑パラメーターの数が急速に増加するために発生します。 ありがたいです より正確だがシンプルな説明(可能であれば) および/またはRまたはStataで解決できる具体的な例。

1
従属変数のラグを回帰モデルに含める必要があるのはいつですか?どのラグですか?
従属変数として使用するデータは次のようになります(カウントデータです)。周期的な要素とトレンド構造を持っているため、回帰が何らかの形で偏っていることがわかります。 役立つ場合に備えて、負の二項回帰を使用します。データは、個人(州)ごとに1つのダミーのバランスパネルです。表示されている画像には、すべての状態の従属変数の合計が表示されていますが、ほとんどの状態のみが同様の動作をしています。固定効果モデルを検討しています。従属変数はあまり強く相関しておらず、研究の一部はこの変数間の予期しない関係を見つけることであるため、弱い関係は実際には良いものです。 従属変数の遅延変数を含めないことの正確な危険性は何ですか? 1つ含める必要がある場合、どの1つをテストする必要がありますか。 実装はRで行われています。 注:私はこの投稿を読みましたが、問題の解決にはなりませんでした。

3
固定/ランダム効果モデルの背後にある概念
誰かが固定/ランダム効果モデルを理解するのを手伝ってくれますか?これらの概念を消化した場合は、独自の方法で説明するか、特定のアドレス(ページ番号、章など)でリソース(書籍、メモ、Webサイト)に移動して、混乱なく学習できるようにします。 これは本当ですか:「一般に固定効果があり、ランダム効果は特定のケースです」?説明が一般的なモデルから固定およびランダムな効果のある特定のモデルに移行する場合に特に助けていただければ幸いです

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.