時間をかけてより詳細な説明変数を組み込む


9

私は、時間の経過とともに次第に詳細な予測子を取得する変数を最もよくモデル化する方法を理解しようとしています。たとえば、デフォルトのローンの回収率をモデル化することを検討してください。20年分のデータを含むデータセットがあり、それらの年の最初の15年にはローンが担保に入れられたかどうかだけがわかっていて、その担保の特性については何もわからないとします。ただし、過去5年間は、担保をさまざまなカテゴリに分類することができます。これらのカテゴリは、回復率の良い予測因子となることが期待されています。

この設定を前提として、モデルをデータに適合させ、予測子の統計的有意性などの測度を決定し、モデルで予測します。

これはどのミッシングデータフレームワークに適合しますか?履歴サンプル全体に散らばっているのではなく、より詳細な説明変数が特定の時点でのみ使用可能になるという事実に関連する特別な考慮事項はありますか?

回答:


1

わかりました。履歴データの使用経験から、履歴が多いほど回帰適合がよく見える可能性がありますが、予測が重要な場合は、一般的な答えが警告されます。データが「世界」が大きく異なる期間を反映している場合、相関の安定性は疑わしいものです。これは、市場と規制が常に進化している経済学で特に発生します。

これは、不動産市場にも当てはまります。さらに、これには長いサイクルがある可能性があります。たとえば、住宅ローン担保証券の発明は、住宅ローン市場を変革し、住宅ローンのオリジネーションと、残念ながら投機のための水門を開きました(実際には、ライアローンと呼ばれるノー/ロードキュメントローンのクラス全体がありました)。

レジームの変更をテストする方法は、履歴を除外するタイミングを主観的でない方法で決定する場合に特に役立ちます。


1

通常、これは境界パラメータ値の問題と見なすことができます。あなたの質問を理解しているように、データの早い段階で情報量の少ないパラメーター(品質が不明な[Cu]の資料)があり、情報量が多い(品質が[Ch]、中[Cm]、または低い[Cl]の資料)後のデータ。

モデルの観測されていないパラメーターが時間の経過とともに変化しないと思われる場合は、それぞれの点推定がCl <Cm <ChおよびCl <= Cu <= Chであると想定する方法は簡単です。論理は、Clが最悪でChが最高であるため、データが不明な場合は、それらの値の間か等しくなければなりません。わずかに制限して、最初の15年間にすべての担保が高品質または低品質ではなかったと想定する場合は、Cl <Cu <Chであると推定できます。これにより、見積もりが非常に簡単になります。

数学的には、これらは次のように推定できます。

Cl=exp(β1)Cm=exp(β1)+exp(β2)Cu=exp(β1)+exp(β3)1+exp(β4)Ch=exp(β1)+exp(β2)+exp(β3)

Cuのロジット関数は、Cmに対して相対的に制限することなく、値をClとChの間に制限します。(0と1の間の他の関数も使用できます。)

モデルのもう1つの違いは、各期間内の情報が異なるため、残差分散が期間に依存するように分散が構造化されていることです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.