過剰パラメーター化モデルのフィッシャー情報行列行列式


10

ベルヌーイ確率変数の検討X{0,1}パラメータとθ(成功の確率)。尤度関数とフィッシャー情報(1×1行列)は次のとおりです。

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

成功の確率:今、二つのパラメータを持つ「オーバー・パラメータ」バージョンを検討と失敗の確率。(であり、この制約はパラメーターの1つが冗長であることを意味します。)この場合、尤度関数とフィッシャー情報行列(FIM)は次のとおりです。θ1θ0θ1+θ0=1

L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1θ1)

これら2つのFIMの行列式は同一であることに注意してください。さらに、このプロパティは、カテゴリカルモデルのより一般的なケース(つまり、3つ以上の状態)まで拡張されます。また、ゼロになるように制約されたパラメーターのさまざまなサブセットを持つ対数線形モデルに拡張されるように見えます。この場合、追加の「冗長」パラメーターはログパーティション関数に対応し、2つのFIM行列式の同等は、より大きなFIMのSchur補集合に基づいて示すことができます。(実際には、対数線形モデルの場合、小さいFIMは大きいFIMのSchur補数にすぎません。)

このプロパティがパラメトリックモデルのより大きなセット(たとえば、すべての指数関数的ファミリー)に拡張され、そのような「拡張された」パラメーターのセットに基づいてFIM行列式を導出するオプションを許可するかどうか誰かが説明できますか?つまり、次元空間に埋め込まれた次元多様体上にあるパラメータを持つ任意の統計モデルを想定します。ここで、パラメーターのセットを拡張してもう1つの次元(他のものに基づいて完全に制約されます)を含め、それらのパラメーターに基づいてFIMを計算すると、常に元のパラメーターに基づくものと同じ行列式が得られます(独立した)パラメータ?また、これら2つのFIMはどのように関連していますか?nn(n+1)(n+1)n

私がこの質問をする理由は、追加のパラメーターを使用した FIMがしばしばより単純に見えるためです。私の最初の考えは、これは一般的には機能しないはずだということです。FIMには、各パラメーターに対する対数尤度の偏導関数の計算が含まれます。これらの偏微分は、問題のパラメーターが変化しても、他のすべてのパラメーターは一定のままであると仮定します。この場合、他のパラメーターが一定であると想定できないため、偏微分はもはや有効ではないように見えます。ただし、これが実際に問題であるという証拠はまだ見つかっていません。(従属パラメーターがある場合に偏微分が問題になる場合は、全微分が(n+1)×(n+1)代わりに必要ですか?完全な導関数でFIMを計算する例はまだ見ていませんが、それが解決策かもしれません...)

このような「拡張された」パラメーターセットに基づいてFIMを計算する唯一の例は次のとおりです。これらのノートには、カテゴリ分布の例が含まれ、必要な偏微分を通常どおり計算します(つまり、各パラメーターが独立している場合と同様) 、パラメータ間に制約が存在する場合でも)。


1
良い質問!ベルヌーイ確率変数の2つのパラメーターの指定は、不幸な例です。制約がないと、密度に拘束されなくなりました。たとえば、曲がった指数関数ファミリーの観察を再現できますか?p(X|θ1,θ0)=θ1Xθ01X
Khashaa 2015年

@Khashaa 2パラメータの場合(前述の場合)に制約適用されると想定しているため、尤度関数は有効な密度のままです。また、はい、私はこの観測を再現できます。たとえば、ゼロに制約されたパラメーターのさまざまなサブセットを持つ対数線形モデルの場合。この場合、「冗長」パラメーターはログパーティション関数に対応します。θ1+θ2=1
Tyler Streeter、2015年

1
どの程度?N(μ,μ2)
Khashaa 2015年

回答:


4

通常の場合、情報行列は カーブした法線の場合したがって、決定要因が等しいというあなたの観察は普遍的ではありませんが、それだけではありません。XN(μ,σ2)

I1=(1σ20012σ4)
XN(μ,μ2)
I2=3μ2.

一般に、が再パラメーター化下の情報行列である場合、それを確認することは難しくありません元のパラメーターの情報行列はここで、は変換のヤコビアンです。Ig

g(θ)=(g1(θ),...,gk(θ)),
I(θ)=GIg(g(θ))G
Gg=g(θ)

ベルヌーイの例では、およびです。したがって、ヤコビアンはあり、したがって (θ0,θ1)=(p,1p)g(p)=(p,1p)(1,1)

I(p)=(11)(1p0011p)(11)=1p(1p)

曲線法線の例では、

I2=(12μ)(1μ20012μ4)(12μ)=3μ2.

これで、行列式を簡単に関連付けることができると思います。

コメント後のフォローアップ

私があなたを正しく理解していれば、意味のある方法でパラメーターを拡張している限り、FIMは有効です。新しいパラメーター化の可能性は有効な密度でなければなりません。したがって、私はベルヌーイの例を不幸な例と呼んだ。

andがあるため、提供したリンクには、カテゴリ変数のFIMの導出に重大な欠陥があると思います。負のヘッセ行列を期待すると、が得られますが、スコアベクトルの共分散は得られません。制約を無視すると、情報行列の等式は成立しません。 E(xi2)=θi(1θi)θiE(xixj)=θiθj0diag{1/θi}


ヤコビアン変換アプローチに言及し、シンプルで明確な例をありがとう。ここで行うように、パラメータのセットを1次元拡張するとき、ここで行っているように、パラメータ間に制約を導入して、( FIM)は、1つのパラメーターを変更すると、他のパラメーターはもはや一定ではなくなるため、無効である必要があります。では、余分な制約のために偏微分が無効であるとすると、FIMはパラメーターの拡張セットに対しても有効ですか?
Tyler Streeter、2015年

@TylerStreeter私はあなたの問題に対処するために私の答えを更新しました。
Khashaa

3

結果は、パラメータ間の特定の種類の関係に当てはまるようです。

以下の結果の完全な一般性を主張することなく、私は「1対2のパラメーター」の場合に固執します。示す二つのパラメータの間の必須ホールドという関係を表す暗黙式。次に、「正しい拡張」、「2パラメータ」の対数尤度(OPが計算するものではなく、ここに到着します)g(θ0,θ1)=0

Le=L(θ0,θ1)+λg(θ0,θ1)
真尤度に相当する、以降、(あります乗数)と2つのパラメータを区別しながら、独立して扱うことができます。Lg(θ0,θ1)=0λ

添字を使用してパラメーターに関する導関数を示す(1つの添字1次導関数、2つの添字2次導関数)、正しい拡張対数尤度のヘッセ行列式は次のようになります。

(1)DH(Le)=[L00+λg00][L11+λg11][L01+λg01]2=DH(L)

OPは代わりに何をしていますか?

彼は誤った尤度を、2つのパラメーター間の関係を "無視"し、制約を考慮しないと考えています。その後、分化を進め、L(θ0,θ1)g(θ0,θ1)

(2)DH(L)=L00L11[L01]2

が一般にと等しくないことは明らかです。(2)(1)

ただし 場合、g00=g11=g00=0

(1)DH(Le)=L00L11[L01]2=DH(L)=DH(L)

したがって、実際のパラメーターと冗長パラメーターの関係が、それらをリンクする暗黙的な関数の2次偏微分がすべて0になるような関係である場合、根本的に間違っているアプローチは最終的に「正しい」ことになります。

ベルヌーイの場合、実際には

g(θ0,θ1)=θ0+θ11g00=g11=g01=0

補遺
@Khashaaの質問に対応するため、ここでメカニックを示したが、我々は可能性が冗長パラメータを使用して、だけでなく、真の1で冗長パラメータをリンク制約の下で指定を検討してください。対数尤度で行うことは、それらを最大化することです。したがって、ここでは、制限された最大化のケースがあります。サイズサンプルを想定します。n

maxLn(θ0,θ1)=lnθ0i=1nxi+(ni=1nxi)lnθ1,s.t.θ1=1θ0

この問題にはラングランジアンがあります(非公式に上記で「正しい拡張尤度」と呼んだもの)、

Le=lnθ0i=1nxi+(ni=1nxi)lnθ1+λ(θ11+θ0)

最大の1次条件は次のとおりです。

i=1nxiθ0+λ=0,ni=1nxiθ1+λ0=0

関係を得る

i=1nxiθ0=ni=1nxiθ1θ1i=1nxi=(ni=1nxi)θ0

上記が有効である制約を使用して、を取得しますθ1=1θ0

(1θ0)i=1nxi=(ni=1nxi)θ0

i=1nxi=nθ0θ^0=1ni=1nxi

私たちがすべきように。

さらに、制約はすべてのパラメーターで線形であるため、その2次導関数はゼロになります。これは、ラグランジュの1次導関数では乗数「単独」であり、ラグランジュの2次導関数を取るときに除去されるという事実に反映されています。これは次に、制約を課した後(これはOPが行うことです)、その行列式が元の1パラメータの対数尤度の(1次元)2次導関数に等しいヘッセ行列に導きます。次に、両方のケースで期待値の負の値をとっても、この数学的等価性は変更されず、「1次元フィッシャー情報= 2次元フィッシャー情報の行列式」という関係が得られます。今λ所定の制約は、すべてのパラメータで線形であることが、OPは、ための二次導関数のレベル、存在/効果で、最大化する関数で乗算して制約を導入することなく(第2の微分レベルで)同じ結果を得ますこのような場合、制約はなくなります。

これらはすべて、統計概念ではなく、微積分に関係しています。


私はあなたの論理に従うことができないようです。ラグランジュのようなが「正しい拡張」、「2パラメータ」の対数尤度と見なされる理由を説明していただけませんか?また、ヘシアンは私にとって完全に神秘的です。観測された情報行列を計算していますか?Le
Khashaa

@Khashaa「ヘッシアン」が多変量関数の二次導関数の行列であることは確立された用語です。
Alecos Papadopoulos、2015

OPの具体的な例が存在するため、ここでの反対投票者が回答を投稿し、説明を要求すると役立つでしょう。
Alecos Papadopoulos、2015

申し訳ありませんが、私の質問が不明だった場合。私の質問は、ヘッセ行列を情報行列にどのようにリンクするかについてでした。私はそれに対して動作する期待を何も見なかったため、結果は観測された情報行列のように見えました。さらに、が正しい対数尤度である理由を説明できますか?制限付き尤度を評価する原理的な方法を使用していると思いますが、それがどのように機能するのかわかりません。Le
Khashaa 2015年

@Khashaa OPの例を使用して説明を追加しました。
Alecos Papadopoulos、2015
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.