一般化線形モデル(GLM)の潜在変数の解釈


21

短縮版:

ロジスティック回帰とプロビット回帰は、観測前に何らかの固定しきい値に従って離散化される連続潜在変数を含むものとして解釈できることを知っています。同様の潜在変数の解釈は、例えばポアソン回帰で利用可能ですか?3つ以上の個別の結果がある場合、二項回帰(ロジットまたはプロビットなど)についてはどうですか?最も一般的なレベルでは、潜在変数の観点からGLMを解釈する方法はありますか?


ロングバージョン:

バイナリ結果のプロビットモデルを動機付ける標準的な方法(たとえば、Wikipediaから)は次のとおりです。予測変数Xを条件として、正規分布している未観測/潜在結果変数Yがあります。この潜在変数はしきい値処理を受け、、場合、実際に観測される離散結果はXY γをu=1Yγu=0場合です。これにより、Xが与えられた場合のu = 1の確率は、平均および標準偏差がしきい値γの関数である正規CDFの形をとることになります。Y<γu=1XγおよびX上のの回帰の傾き。したがって、プロビットモデルは、X上のYの潜在的な回帰から勾配を推定する方法として動機付けられています。YXYX

これは、Thissen&Orlando(2001)の以下のプロットに示されています。これらの著者は、私たちの目的ではプロビット回帰に非常に似ているアイテム応答理論から通常のオジーブモデルを技術的に議論しています(これらの著者はXの代わりにを使用し、確率は通常のPではなくTで記述されていることに注意してください)。θXTP

プロビットモデル

ロジスティック回帰はほぼ同じ方法で解釈できます。唯一の違いは、Xが与えられると、観測されていない連続が正規分布ではなくロジスティック分布に従うことです。Yが正規分布ではなくロジスティック分布に従う理由の理論的議論は少し明確ではありません...しかし、結果のロジスティック曲線は、実際の目的(リスケーリング後)で通常のCDFと本質的に同じように見えるため、おそらく実際には、どのモデルを使用するかが重要になる傾向があります。ポイントは、両方のモデルに非常に簡単な潜在変数の解釈があるということです。YXY

-私たちは、他のGLMSに見て、類似した(または地獄、非類似に見える)潜在変数の解釈を適用することができるかどうかを知りたいにも、または任意の GLM。

上記のモデルを拡張して、項分布の結果(つまり、ベルヌーイの結果だけでなく)を説明することは、私には完全に明確ではありません。おそらく、単一のしきい値γを持つ代わりに、複数のしきい値(観測された個別の結果の数より1つ少ない)があることを想像することでこれを行うことができます。ただし、しきい値が等間隔になっているなど、しきい値に何らかの制約を課す必要があります。詳細は明らかにしていませんが、このようなことがうまくいくと確信しています。n>1γ

ポアソン回帰のケースに移行することは、私にはさらに明確ではないようです。この場合のモデルについて考えるのにしきい値の概念が最善の方法になるかどうかはわかりません。また、潜在的な結果がどのような分布であると考えられるかについてもわかりません。

これまで最も望ましい解決策は、解釈の一般的な方法だろう任意のいくつかのディストリビューションや他との潜在変数の面でGLMを-この一般的な解決策を暗示していた場合でも、異なるロジット/プロビット回帰の通常のものよりも潜在変数の解釈を。もちろん、一般的な方法が通常のロジット/プロビットの解釈に同意するだけでなく、他のGLMにも自然に拡張されると、さらに格好良くなります。

しかし、そのような潜在変数の解釈が一般的なGLMの場合に一般的に利用できない場合でも、上記の二項およびポアソンのような特殊な場合の潜在変数の解釈についても聞きたいです。


参照資料

Thissen、D.&Orlando、M.(2001)。2つのカテゴリでスコア付けされたアイテムのアイテム応答理論。D. Thissen&Wainer、H.(編)、Test Scoring(pp。73-140)。ニュージャージー州マーワー:Lawrence Erlbaum Associates、Inc.


2016-09-23を編集

GLMが潜在変数モデルであるという些細な感覚があります。つまり、推定される結果分布のパラメーターを「潜在変数」として常に見ることができるということです。つまり、直接観察しません。 、たとえば、ポアソンのレートパラメーターは、データから推測するだけです。この解釈によれば線形モデル(およびもちろん他の多くのモデル!)は「潜在変数モデル」であるため、これはかなり些細な解釈であり、私が探しているものではありません。たとえば、通常の回帰では、Xが与えられた場合に通常のYの「潜在的な」を推定します。μYバツ。そのため、潜在変数のモデリングとパラメーターの推定を混同しているようです。私が探しているものは、たとえばポアソン回帰の場合、観測された結果が最初にポアソン分布を持たなければならない理由についての理論モデルのように見えます。潜在的なの分布、存在する場合は選択プロセスなど。その後、(おそらく決定的には?)これらの潜在的な分布/プロセスのパラメーターの観点から推定GLM係数を解釈できるはずです。潜在正規変数の平均シフトおよび/または閾値γのシフトに関してプロビット回帰の係数を解釈します。Yγ


「線形予測子は、どのGLMファミリの一部の連続分布のロケーションパラメーターと選択モデルに対応していますか?」と質問を言い換えることができますか?プロビット回帰およびロジスティック回帰の場合、線形予測子はそれぞれガウスおよびロジスティック分布位置パラメーターです。選択モデルは0に閾値処理(FWIW、私は多くの人があるだろうとは思わない-と、実際にプロビット/ロジスティック...しかし、異なるリンク機能を持つ、同じファミリーである)される
アンドリュー・M

@AndrewM言い直しは、おそらく個別の結果を持つGLMで機能すると思います。しかし、このようなロケーション+選択モデルがGLMでどのように継続的な結果をもたらすかを実際に見ることができないため、質問全体をそれまで減らすことをためらいます。言い換えると、これらのGLMに対する答えがほとんど排除されているように見える
Jake Westfall

潜在クラスモデルは、有限混合モデルのカテゴリに分類されます。それらについて考える簡単な方法の1つは、それらが教師あり学習モデルであり、バックエンドで、モデルの残差の不均一性をグループに分割することです。同様のロジックとパーティション分割は、GLMを含む任意のモデルの残差に固有の不均一性に適用できます。もちろん、このパーティショニングへのアプローチは自明ではない選択かもしれませんし、それは手ごわい解決策かもしれませんが、機能させることができます。
マイクハンター

fy|ηgθ|ηfy|η=fy|ηθgθ|ηdθ
アンドリューM

1
順序付けられたプロビットは、同様の解釈を持つことができます。ETのBecker&Kennedyの論文を参照してください。
Dimitriy V. Masterov

回答:


1

複数の離散結果を持つモデルの場合、ロジットモデルにはいくつかのバージョンがあります(条件付きロジット、多項ロジット、混合ロジット、ネストロジットなど)。この件に関するケネス・トレインの本を参照してください:http : //eml.berkeley.edu/books/choice2.html

yJjバツjあなたはj=バツjβ+εjjεjj

Pry=j=expバツjβk=1Jexpバツkβ

あなたはjβ

あなたは

ここには「しきい値」パラメータがないことに注意してください。代わりに、1つのユーティリティが以前の最大のものよりも大きくなると、消費者はその代替の選択に切り替わります。

バツjβ

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.