タグ付けされた質問 「panel-data」

パネルデータとは、計量経済学の経時的な測定を頻繁に含む多次元データを指します。これは、生物統計学の長期データとも呼ばれます。

5
時系列計量経済学とパネルデータ計量経済学の違いは何ですか?
この質問は非常に単純かもしれませんが、計量経済学の教え方は、時系列とパネルデータの方法に違いがある場合は非常に混乱しています。 時系列については、共分散定常、AR、MAなどのトピックを取り上げました。パネルデータについては、固定効果とランダム効果(または、より一般的には階層モデル)、差分の形式の議論しか見ていません。違いなど これらのトピックは何らかの形で関連していますか?パネルデータには時間ディメンションもあるため、なぜAR、MAなどの議論もないのですか? 答えがパネル手法に関する私の教育が単に不十分であるという場合、FE / RE、差の違い以上のものをカバーする本を指していただけますか?

1
従属変数のラグを回帰モデルに含める必要があるのはいつですか?どのラグですか?
従属変数として使用するデータは次のようになります(カウントデータです)。周期的な要素とトレンド構造を持っているため、回帰が何らかの形で偏っていることがわかります。 役立つ場合に備えて、負の二項回帰を使用します。データは、個人(州)ごとに1つのダミーのバランスパネルです。表示されている画像には、すべての状態の従属変数の合計が表示されていますが、ほとんどの状態のみが同様の動作をしています。固定効果モデルを検討しています。従属変数はあまり強く相関しておらず、研究の一部はこの変数間の予期しない関係を見つけることであるため、弱い関係は実際には良いものです。 従属変数の遅延変数を含めないことの正確な危険性は何ですか? 1つ含める必要がある場合、どの1つをテストする必要がありますか。 実装はRで行われています。 注:私はこの投稿を読みましたが、問題の解決にはなりませんでした。

3
固定効果ロジスティック回帰のRパッケージ
RChamberlainの1980推定器を使用して、個々の固定効果(個別インターセプト)を使用してロジットモデルの係数を推定するためのパッケージを探しています。チェンバレンの固定効果ロジット推定器としてよく知られています。 (少なくとも計量経済学で)バイナリの結果パネルデータを扱う場合、これは古典的な見積もりツールですが、CRANに関連するものは何も見つかりません。 どんな手掛かり?

6
パネルデータと混合モデルの違い
パネルデータ分析と混合モデル分析の違いを知りたいです。私の知る限り、パネルデータと混合モデルはどちらも固定効果とランダム効果を使用しています。もしそうなら、なぜ彼らは異なる名前を持っていますか?それとも同義語ですか? 固定効果、ランダム効果、混合効果の定義を説明する次の投稿を読みましたが、私の質問に正確には答えていません:固定効果モデル、ランダム効果モデル、混合効果モデルの違いは何ですか? また、混合モデル分析に関する簡単な(約200ページ)参照を誰かが私に紹介してくれた場合もありがたいです。付け加えると、ソフトウェアの扱いに関係なく、混合モデリングのリファレンスを好むでしょう。混合モデリングの主に理論的な説明。

3
縦断的ビッグデータをモデル化するには?
伝統的に、私たちは混合モデルを使用して、縦断的なデータ、つまり次のようなデータをモデル化します。 id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 異なる人に対してランダムなインターセプトまたはスロープを想定できます。しかし、私が解決しようとしている質問には、膨大なデータセット(数百万人、1か月の毎日の観測、つまり各人が30の観測を含む)が含まれます。 spark / mahoutにアクセスできますが、混合モデルを提供していません。私のデータは、RandomForestまたはSVMを使用してこのデータセットをモデル化できるようにデータを変更できるのでしょうか。 RF / SVMが自動相関を考慮できるようにするために利用できる機能エンジニアリング手法はありますか? どうもありがとう! いくつかの潜在的な方法がありますが、私はそれらをスパークに書き込む時間を費やすことができませんでした randomForestにランダム効果を含めるにはどうすればよいですか 縦断データを使用したSVM回帰

4
パネルデータと一致する傾向スコア
個人の縦断的なデータセットがあり、その一部は治療の対象であり、他の対象はそうではありませんでした。すべての個人は、出生から18歳までのサンプルに含まれており、治療はその範囲内のある年齢で行われます。治療の年齢は症例によって異なる場合があります。傾向スコアマッチングを使用して、生年の18歳までの各ペアを追跡できるように、生年に完全に一致するペアの治療ユニットとコントロールユニットを一致させたいと思います。マッチング後、アイデアは差異の差の戦略を使用して治療の効果を推定することです。 私が現在直面している問題は、パネルデータとのマッチングを行うことです。Stataのpsmatch2コマンドを使用しており、傾向スコアマッチングを使用して世帯と個人の特性を照合します。一般に、パネルデータでは、年齢ごとに最適な一致が異なります。例として、Aが処理され、BとCがコントロールであり、それらすべてが1980年に生まれた場合、AとBは1980年に0歳で一致し、AとCは1981年に1歳で一致します。 。また、Aは、過去数年間の独自の治療前の値と一致する場合があります。 この問題を回避するために、サンプルの期間全体で平均的に最も類似している個人をマッチングで識別できるように、すべての時変変数の平均を取り、0〜18の年齢グループごとに個別にマッチングを行います。残念ながら、これは依然として、年齢グループごとに異なる制御ユニットを各処理ユニットに一致させます。 誰かがStataのパネルデータとペアワイズマッチングを行う方法に私を導くことができれば、これは非常に高く評価されるでしょう。

1
パネルデータモデルのグループ内の標準化された従属変数?
識別グループ内の従属変数の標準化は意味がありますか? 次のワーキングペーパー(リーガルアマゾンでの森林破壊の減速、価格またはポリシー?、pdf)では、標準化された従属変数を使用して、森林破壊に対するブラジルの一般的な政策変更の影響を分析しています。 標準化は次のように行われます: YN E W私トン= Y私トン− Y私¯¯¯¯¯s d(Y私トン)Y私tnew=Y私t−Y私¯sd(Y私t) Y^{new}_{it} = \frac{Y_{it} - \overline{Y_i}}{sd(Y_{it})} 著者は、これは「自治体内の森林減少の相対的な変動を考慮する」のに役立つと主張している。著者は、パネルデータのFE推定(12ページ)を使用します。新しい法律の後、翌年ごとに政策後ダミーを含める。 従属変数がこのように標準化された場合、係数はどのように解釈されるべきですか? 標準化は、グループ/市町村が時間の経過とともにより低い変動を経験した観測により高い値を与えるため、非正統的ではありませんか?

2
連続時間縦断バイナリ応答用のRパッケージはありますか?
このbildパッケージは、シリアルバイナリレスポンスに最適なパッケージのようです。しかし、それは離散時間のためです。現在の応答Yと、以前に測定されたバイナリ応答、または少なくとも1次のマルコフバージョンのオッズ比接続の時間の滑らかな関数を指定したいと思います。これは交互ロジスティック回帰と呼ばれます。連続時間を処理するRパッケージを知っている人はいますか?つまり、測定時間はフォローアップ時間になりますか?モデルにランダム効果は必要ありません。

4
ゼロ切り捨て負の二項GEEのR / Stataパッケージ?
これは私の最初の投稿です。このコミュニティに本当に感謝しています。 ゼロが切り捨てられた縦断カウントデータ(応答変数= 0が0である確率)と平均!=分散を分析しようとしているため、ポアソンに対して負の二項分布が選択されました。 私が除外した機能/コマンド: R Rのgee()関数は、ゼロ切り捨ても負の二項分布も考慮しません(MASSパッケージがロードされていなくても) Rのglm.nb()は、異なる相関構造を許可しません VGAMパッケージのvglm()はposnegbinomialファミリーを利用できますが、非独立相関構造を使用してモデルを再適合できないという点で、Stataのztnbコマンド(以下を参照)と同じ問題があります。 スタタ データが縦方向ではない場合、Stataパッケージztnbを使用して分析を実行できますが、そのコマンドは私の観測が独立していると想定しています。 また、さまざまな方法論的/哲学的理由からGLMMを除外しました。 今のところ、Stataのxtgeeコマンドで解決しました(はい、xtnbregも同じことを知っています)。これは、非独立相関構造と負の二項族の両方を考慮しますが、ゼロ切り捨ては考慮しません。xtgeeを使用することの追加の利点は、(qicコマンドを使用して)qic値を計算して、応答変数に最適な相関構造を決定できることです。 RまたはStataに1)nbinomialファミリ、2)GEE、および3)ゼロ切り捨てを考慮に入れることができるパッケージ/コマンドがある場合、私は知りたくなります。 あなたが持っているかもしれないアイデアを大いに感謝します。ありがとうございました。 -ケーシー

3
縦断的データセットの分析でaov()とlme()を使用することの違いは何ですか?
縦断的データの使用aov()とlme()分析の違いと、これら2つの方法の結果の解釈方法の違いを教えてください。 以下は、私が使用して同じデータセットを分析aov()し、lme()そして2つの異なる結果を得ました。でaov()、私は治療の相互作用によって時間的に有意な結果を得たが、線形混合モデルを当てはめ、治療の相互作用によって時間は軽微であります。 > UOP.kg.aov <- aov(UOP.kg~time*treat+Error(id), raw3.42) > summary(UOP.kg.aov) Error: id Df Sum Sq Mean Sq F value Pr(>F) treat 1 0.142 0.1421 0.0377 0.8471 Residuals 39 147.129 3.7725 Error: Within Df Sum Sq Mean Sq F value Pr(>F) time 1 194.087 194.087 534.3542 < 2e-16 *** time:treat 1 2.077 …

2
パネルデータの機械学習アルゴリズム
この質問では- 構造化/階層的/マルチレベル予測子を考慮に入れる決定木を構築する方法はありますか?-彼らは木のパネルデータメソッドに言及しています。 ベクターマシンとニューラルネットワークをサポートするための特定のパネルデータメソッドはありますか?もしそうなら、アルゴリズムとそれを実装するRパッケージ(利用可能な場合)のいくつかの論文を引用できますか?

2
個々のレベルのパネルデータとの差異の違い
個々のレベルパネルデータを使用して、差異モデルの差異を指定する正しい方法は何ですか? セットアップは次のとおりです。都市に複数年にわたって埋め込まれた個人レベルのパネルデータがあり、その扱いは都市の年レベルで異なると想定します。正式には、聞かせて、個々のための結果であるの街のと年のとかどうか介入被災都市のためのダミーなるで年間。Bertrand et al(2004、p。250)で概説されているような典型的なDiD推定量は、都市と年の固定効果項を持つ単純なOLSモデルに基づいています。yistyisty_{ist}iiissstttDstDstD_{st}sssttt yist=As+Bt+cXist+βDst+ϵistyist=As+Bt+cXist+βDst+ϵist y_{ist} = A_{s} + B_t + cX_{ist} + \beta D_{st} + \epsilon_{ist} しかし、その推定者は個人レベルのパネル構造(つまり、都市内の各個人の複数の観測)を無視しますか?このモデルを個別レベルの固定効果項拡張することには意味がありますか?多くのDiDアプリケーションは、個々のレベルのパネルデータなしで繰り返し断面データを使用します。SiSiS_i バートランド、マリアンヌ、エスターデュフロ、センディルマライナサン。2004.「差の差の見積もりをどれだけ信頼すべきですか?」Quarterly Journal of Economics 119(1):249–75。

2
長期的な変化を推測/予測するために断面データを使用するのはなぜ悪いことですか?
存在することを望んでいる論文を探していますが、存在するかどうかはわかりません。横断的データを使用して長期的な変化を推測/予測することが悪いことである可能性がある理由について、ケーススタディのセット、および/または確率論からの議論である可能性があります(つまり、必ずしもそうではないかもしれませんが)。 私はいくつかの大きな間違いがあったのを見てきました。イギリスの裕福な人々は旅行するため、社会が豊かになるにつれて、人口は全体としてより多く旅行するという推論がなされました。その推論は、10年以上の長期間にわたって真実ではないことが判明しました。そして、国内の電力使用と同様のパターン:横断的なデータは、時間とともに明らかにならない、収入の大幅な増加を意味します。 コホート効果やサプライサイドの制約など、いくつかのことが起こっています。 そのようなケーススタディをまとめた単一のリファレンスがあると非常に便利です。および/または確率理論を使用して、横断データを使用して長期的な変化を推論/予測することが非常に誤解を招く可能性がある理由を説明する そのような論文は存在しますか、ある場合、それは何ですか?

1
パネル/縦断データの予測評価指標
月次レベルでの行動の予測を提供するいくつかの異なるモデルを評価したいと思います。データはバランスが取れており、 100,000および 12です。結果は特定の月のコンサートに参加しているため、任意の月の約80%の人にとってはゼロですが、ヘビーユーザーの長い右裾があります。私の予測は、結果のカウントの性質を尊重していないようです。フラクショナルコンサートが一般的です。n=n=n=T=T=T= モデルについては何も知りません。私は1人あたり1か月あたり6つの異なるブラックボックス予測のみを観察します。モデルビルダーが推定のために持っていなかった余分な1年分のデータがあります(コンサートの参加者は同じままですが)。それぞれのパフォーマンスが(正確さと精度の点で)どこにあるかを測定したいと思います。たとえば、あるモデルは、頻繁にコンサートに行く人にはよく予測しますが、カウチポテトには失敗しますか?1月の予測は12月の予測よりも良いですか?あるいは、正確な大きさが信頼できない場合でも、予測により、実績の点で人々を正しくランク付けできることを知っておくとよいでしょう。y^1,...,y^6y^1,...,y^6\hat y_1,...,\hat y_6 私の最初の考えは、予測ダミーと時間ダミーで実際の固定効果回帰を実行し、各モデルのRMSEまたはを確認することでした。しかし、これは、各モデルがどこでうまく機能するか、または差が大きいかどうか(RMSEをブートストラップしない限り)に関する質問には答えません。結果の分布も、このアプローチを心配しています。R2R2R^2 私の2番目のアイデアは、結果を0、1、3、3+に分類し、混同行列を計算することでしたが、これを12にしない限り、これは時間次元を無視します。また、かなり粗いです。 concordTJ SteichenとNJ CoxによるStataコマンドを知っていby()ます。これにはオプションがありますが、データを年次合計に集約する必要があります。これは、他の有用な統計の中でも、信頼区間を含むLinの相関相関インデックスを計算します。CCCの範囲は-1から1で、完全に1で一致しています。 オプションがあるハレルの(R.ニューソンによって計算さ れた)もありますが、それによってパネルデータを処理できるかどうかはわかりません。これにより、信頼区間が得られます。ハレルのcは、継続的な結果を得るためのROC曲線(AUC)の下の面積の一般化です。これは、より高い予測を持つ被験者が実際により高い結果を持つように注文できるすべてのペアの割合です。したがって、ランダム予測の場合は、完全に識別できるモデルの場合はです。ハレルの本、p.493を参照してくださいcccsomersdclusterc=0.5c=0.5c=0.5c=1c=1c=1 この問題にどのように取り組みますか?MAPEのように予測に共通する統計を計算することをお勧めしますか? これまでに見つかった便利なもの: スライド林のコンコーダンス相関係数の反復測定バージョンに

2
縦断的データからグループ化(軌跡)を見つける方法は?
環境 質問を少し拡張する前に、シーンを設定したいと思います。 私は縦断的なデータを持ち、約3か月ごとに被験者を測定しました。主な結果は5から14の範囲の数値(連続1dpまで)であり、(すべてのデータポイントの)バルクは7から10の間です。スパゲッティプロット(x軸に年齢があり、各人の線が表示されている)は、1500を超える被験者がいるため明らかに混乱していますが、年齢が高くなると値が高くなる傾向があります(これは既知です)。 幅広い質問:まず、トレンドグループ(高いレベルから始まり高いレベルに留まっているグループ、低いレベルから低いレベルに留まっているグループ、低いレベルから始まって高いレベルに上昇しているグループなど)を特定してから、 「トレンドグループ」のメンバーシップに関連する個々の要素を確認します。 ここでの私の質問は、特に最初の部分、傾向によるグループ化に関係しています。 質問 個々の縦軌道をどのようにグループ化できますか? これを実装するにはどのソフトウェアが適していますか? SASのProc Trajと同僚が提案したM-Plusを調べましたが、他の考えについて知りたいと思います。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.