従属変数に「カットオフ」がある場合のモデリング


12

私が使用する用語のいずれかが間違っている場合は、事前におApび申し上げます。訂正を歓迎します。「カットオフ」と説明するものが別の名前になっている場合はお知らせください。質問を更新できます。

私が興味を持っている状況はこれです:あなたは独立変数xと単一の従属変数を持っていますy。あいまいにしておきますが、これらの変数の良い回帰モデルを取得するのは比較的簡単だと思います。

xw=min(y,a)ayyw

これの(やや非現実的な)例は、年金を徴収する期間をモデル化しようとした場合です。この場合、xは性別、体重、週あたりの運動時間などの関連情報になります。「基礎となる」変数yは平均余命です。ただし、モデルでアクセスして予測しようとしている変数はw=min(0,yr)ここで、rは退職年齢です(簡単にするために固定されていると仮定)。

回帰モデリングでこれに対処するための良いアプローチはありますか?


1
確かではありませんが、これは生存分析のいくつかのバリエーションを通して親しみやすいかもしれません。1)検閲2)少なくともあなたの例では、時間を伴います。しかし、右打ち切りではなく左打ち切りです(より一般的です)。私に同意したら、サバイバルタグを追加して、誰かがジャンプするかどうかを確認できます。
ピーターフロム-モニカの復職

4
@ピーターそれは確かに私には正しい検閲に見えます。どちらの側で打ち切りが行われるかは重要ではありません。従属変数を否定することにより、右打ち切りと左打ち切りを切り替えるからです。
whuber

@whuberあなたは正しいと思います。しかし、あなたが言うように、検閲は十分簡単に​​切り替えることができます。
ピーターフロム-モニカの復職

退職の例では、カウントデータモデルが必要と思われます(1年に丸めたい場合、分析を実行するまでに全員が死亡している場合)。潜在的な変数アプローチは、時間が負になることはないため、これでストレッチのように見えます。
Dimitriy V. Masterov

回答:


14

この種のモデルには、専門分野とトピック領域に応じて、いくつかの名前が付けられています。一般的な名前は、打ち切り従属変数、打ち切り従属変数、限定従属変数、生存分析、Tobit、打ち切り回帰です。他のいくつかの名前はおそらく除外しています。

min{yi,a}yia

このようなデータを扱う1つの方法は、潜在変数を使用することです(これは基本的にあなたが提案するものです)。次に進む方法の1つを示します。

yi=xiβ+εiwi=min{yi,a}εiN(0,σ2) iid

P{yi>a}=Φ(1σxiβa)1σϕ((yixiβ)/σ)Φϕ

L(β,σ)=i  censoredΦ(1σxiβa)i  censored1σϕ((yixiβ)/σ)

βσ

ご想像のとおり、これは多くのアプローチの1つにすぎません。


1
+1 MLソリューションの実例がstats.stackexchange.com/questions/49443にあります。
whuber

@whuberそれは素晴らしい説明です。
ビル14年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.