高度な回帰モデリングの例


22

GLMまたはOLSを使用して複雑な複数の非線形関係をモデル化するために必要な手順を示す、高度な線形回帰のケーススタディを探しています。基本的な学校の例を超えてリソースを見つけることは驚くほど困難です:私が読んだ本のほとんどは、1つの予測子のBoxCox、または最良の場合の自然なスプラインと組み合わせた応答のログ変換よりも先に進むことはありません。また、これまでに見てきたすべての例は、個別のモデル、多くの場合単一の予測モデルで各データ変換の問題に取り組みます。

BoxCoxまたはYeoJohnson変換とは何かを知っています。私が探しているのは、応答/関係が明確ではない、詳細で実際のケーススタディです。たとえば、応答は厳密に肯定的ではないため(logまたはBoxCoxは使用できません)、予測子は応答間で応答に対して非線形の関係を持ち、最尤データ変換は標準の0.33を暗示していないようです。または0.5指数。また、残差分散は一定ではない(決して変わらない)ため、応答も変換する必要があり、非標準のGLMファミリー回帰または応答変換の間で選択を行う必要があります。研究者は、おそらくデータの過剰適合を避けるための選択をします。

編集

これまでのところ、次のリソースを収集しました。

  • 回帰モデリング戦略、F。ハレル
  • 適用された計量経済時系列、W。エンダーズ
  • R、G。Petrisを使用した動的線形モデル
  • 応用回帰分析、D。クラインバウム
  • 統計学習入門、G。ジェームズ/ D。ウィッテン

私は最後の(ISLR)のみを読んでおり、非常に良いテキスト(私の時計では5つ星5つ)ですが、高度な回帰モデリングよりもMLを重視しています。

また、CVには、リグレッションの難しいケースを提示するこの優れた投稿があります。


8
フランク・ハレルズの本(amazon.com/…)が役立つと思います。
アダムロビンソン14年

@AdamRobinsson TOCはいくつかの関連する主題(多変量モデル、スプライン、多重共線性)に触れていますが、これらの方法論は実際の例で一緒に示されていますか、または各トピックは個別に説明されていますか?通常、実際の例ではすべての問題が一緒に発生するため、それらをうまく管理する方法は明らかではありません。
ロバートキューブリック14年

1
私はまだ本全体を読んでいませんが、最初の150ページは絶対に素晴らしいものです(私は静的主義者ではなく、単なる愛好家です)。例は広範で詳細に説明されています。この本には、RへのRMS(回帰モデリング戦略)パッケージが付属しています。DavidKleinbaumsの競合する本(残念ながらタイトルを忘れました)も見てきましたが、戦略と例についてははるかに少ない(そして2倍高価でした)。
アダムロビンソン14年

3
@RobertKubrick:「多変量回帰」とは、複数の応答があることを意味します(追加したタグのwikiまたはこちらをご覧ください)。「多重回帰」とは、複数の予測変数を使用することを意味します。
Scortchi -復活モニカ

3
エンダーによる応用計量経済時系列を確認することをお勧めします。新しいバージョンは、本の終わりに向かって非線形モデルをカバーしています。ほぼすべてのデータはセントルイス連邦準備制度のウェブサイトで公開されており(Rのquantmodを介してアクセス可能)、実際の例を追跡することができます。Rを使用した動的線形モデルには、かなり適切な実際のデータを含むいくつかの例もあります。
エリックブレイディ14年

回答:


10

既に他の人によって言及されている回帰モデリング戦略とISLRは、2つの非常に良い提案です。あなたが検討したいと思うかもしれない他のいくつかがあります。

KuhnおよびJohnsonによる応用予測モデリングには、多くの優れたケーススタディが含まれており、かなり実践的です。

一般化された加法モデル: Simon WoodによるRの紹介は、一般化された加法モデルとmgcv、Rのパッケージを使用してそれらをどのように適合させるかをよく扱っています。GAMモデルの使用は、スプライン拡張とペナルティ付き最尤推定によるデータ適応型の方法で行われるため、「正しい」変換を理解する代わりになります。ただし、リンク機能の選択など、その他の選択が必要です。

R のmboostパッケージもGAMモデルに適合しますが、ブースティングによる異なるアプローチを使用します。パッケージ(ビネットの1つ)のチュートリアルをお勧めします。

この本はまだ読んでいませんが、HendryとDoornikによる経験的モデルの発見と理論評価についても触れます。私に勧められていました。


適用された予測モデリング...まあまあ。ISLRが好きです。
ロバートキューブリック

5

高度な複数の複雑な(非線形を含む)回帰で見つけることができる最高の教材の 1つは、Frank E. Harrell Jr.著のRegression Modeling Strategiesに基づいています。

この本はコメントで議論されていますが、この資料ではなく、それ自体が素晴らしいリソースです。


2

Joshua D. AngristとJörn-SteffenPischke の著書Mostly Harmless Econometricsをお勧めし ます

これは、私が所有する最も現実的な、地球への塩、テキストであり、新品の約$ 26.00の超安価です。この本は大学院の統計学者/経済学者向けに書かれているため、かなり進歩しています。

現在、この本は、内生性、解釈、巧妙な回帰設計などの基本的なコアと同じくらい「複雑な複数の非線形関係」に焦点を当てていないという意味で、あなたが求めているものとはまったく異なります。

しかし、私はこの本を提供してポイントを作ろうとしています。つまり、回帰分析の現実世界への適用に関しては、最も困難な問題は一般的に、モデルが十分に複雑ではないという事実とは関係ありません...モデル!むしろ最大の問題は次のようなものです

  1. 内因性
  2. 必要なすべてのデータがない
  3. 多くのデータが必要です...それはすべて混乱です!
  4. 多くの人々にとって、自分のモデルを正しく解釈することはできません(モデルをより複雑にするにつれてより一般的になる問題)

GMM、非線形フィルター、およびノンパラメトリック回帰のしっかりした理解は、リストしたすべてのトピックをほぼ網羅しており、学習しながら学習できます。ただし、実世界のデータでは、これらのフレームワークは不必要に複雑になる可能性があり、多くの場合有害です。

多くの場合、完全に一般化されて高度に洗練されたものではなく、巧妙にシンプルにできることが、実際の分析で最も役立ちます。この本は前者に役立ちます。


1

Rを使用した統計学習の概要(ISLR)を参照できます。この本では、スプラインと多項式回帰について事例とともに詳しく説明しています。


1

あなたの質問の目的は何なのか分かりません。Greeneの計量経済分析テキストをお勧めできます。それは内部の論文への参照のトンを持っています。本のほとんどの例は、出版された論文を参照しています。

風味を付けるには、p.195の例7.6「収入の対数線形モデルでの相互作用効果」を参照してください。それは、論文とデータセットを指します:Regina T. Riphahn、Achim Wambach、Andreas Million、「ヘルスケアの需要におけるインセンティブ効果:二変量パネル数データ推定」、Journal of Applied Econometrics、Vol。18、No。4、2003、pp。387-405。

この例は、対数線形モデルと相互作用効果の使用に関するものです。論文全体またはこの教科書の説明を読むことができます。これは、構成されたユースケースではありません。これは実際に公開された研究です。これは、人々が実際に経済学研究で統計的手法を使用する方法です。

私が書いたように、この本は高度な統計的手法の使用に関するこのようなユースケースに悩まされています。


0

Ruey Tsay(UChicago)が書いているいくつかのFinancial Time Series Analysisコース/ブックを調べましたか?

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

Ruey Tsaysのクラスと教科書は、金融市場で使用するために作成されたタイプの複雑な回帰について、Financeの複数の実世界の例を提供しています。第1章は多因子回帰モデルから始まり、第5章または第6章で季節性自己回帰時系列モデルに展開されます。


2
はい、私はそうしました、そして、まったくそれが好きではありません。それは非常に幅が広​​く(ボラティリティモデルから高頻度、ARIMAまで)、各テーマに軽く触れます(手元にあまり多くのトピックがありませんでした)。Rの研究と課題は最小限に抑えられます。それは学術論文の再ハッシュであり、すでに述べた理論/モデルは他の場所で見つけることができます。これはまさに、現実世界の高度な問題における複数の課題の複雑さに決して対処しない学校の場合の意味です。
ロバートキューブリック
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.