フィッシャー情報とはどのような情報ですか?


29

ランダム変数ます。場合は trueパラメータだった、尤度関数を最大化し、ゼロに等しい派生する必要があります。これが最尤推定量の背後にある基本原則です。バツfバツ|θθ0

私が理解するように、フィッシャー情報は次のように定義されます

θ=E[θfバツ|θ2]

したがって、が真のパラメーターである場合、です。しかし、が真のパラメーターでない場合、フィッシャーの情報が多くなります。θ0θ=0θ0

私の質問

  1. フィッシャー情報は、特定のMLEの「エラー」を測定しますか?言い換えると、ポジティブなフィッシャー情報の存在は、私のMLEが理想的ではないことを意味しないのでしょうか?
  2. 「情報」のこの定義は、シャノンが使用する定義とどのように異なりますか?なぜそれを情報と呼ぶのですか?

なぜと書くのですか?期待値は、パラメータを使用した分布に由来するかのように、分布した値を超えています。 X θEθXθ
ニールG

3
また、は真のパラメーターでゼロではありません。θ
ニールG

E(S)はゼロ(つまり、スコア関数の期待値)ですが、Neil Gが書いたように、漁師情報(V(S))は(通常)ゼロではありません。
タルガリリ

回答:


15

他の答えを補完しようとしています...フィッシャー情報とはどのような情報ですか?ログ尤度関数と開始 の関数としてのθのためのθ Θ、パラメータ空間。私たちがここで議論していないいくつかの規則性の条件を仮定すると、我々は持っている Eを

θ=ログfバツ;θ
θθΘ(ここではのようにドットとしてパラメータに対する導関数を記述します)。分散は、フィッシャー情報である Iθ=Eθ ˙ θ2=-Eθ ¨ θ がログ尤度関数の(負の)曲率であることを示す最後の式。多くの場合、次の最尤推定量(mle)が見つかります。Eθθ=Eθ˙θ=0
θ=Eθ˙θ2=Eθ¨θ
尤度方程式を解くことによって ˙ θ = 0スコアの分散としてフィッシャー情報 ˙ θが大きいが、その方程式の解は、データに対して非常に敏感であること高いへの希望を与えるであろうmleの精度。それは少なくとも漸近的に確認され、mleの漸近分散はフィッシャー情報の逆数です。θ˙θ=0˙θ

これをどのように解釈できますか? は、サンプルのパラメーターθに関する尤度情報です。これは、実際には、我々は、尤度比検定を介して2つの別個の可能なパラメータ値のplausibilitiesを比較するためにそれを使用するときのように、相対的な意味で解釈することができるθ 0- θ 1。対数尤度の変化率は、スコア関数である˙ θ 私たちどれだけ速く可能性の変化を伝え、そしてその分散I θ θθθ0θ1˙θθサンプルからのサンプルに、与えられたparamiter値で、どのくらいこのばらつくことを言う。(!本当に驚くべきものである)式 I θ = - E θ ¨ θは 与えられたパラメータ値、情報の変動との間にrelationsship(平等)(可能性)があるを教えてくれるθ 0は、とそのパラメーター値の尤度関数の曲率。これは、THS統計のばらつき(分散)との意外な関係である˙ θ | θ = θ 0θ0

θ=Eθ¨θ
θ0˙θθ=θ0そして尤度の予想される変更は、我々は、パラメータ変わるとき一部区間の周りでθ 0(同じデータ用)を。これは本当に奇妙で、驚くほど強力です!θθ0

それでは、尤度関数とは何ですか?我々は通常、統計モデルを考えるデータの確率分布のファミリーとしてXパラメータによって索引付け、θパラメータ空間内のいくつかの要素Θ。我々はいくつかの値が存在する場合は、trueであるとして、このモデルを考えるθ 0Θようなデータがあることxが実際に持っている確率分布F X ; θ 0{fバツ;θθΘ}バツθΘθ0Θバツfバツ;θ0。我々は真のdatagenerating確率分布埋め込むことにより、統計モデルを得るように、確率分布の家族の中に。しかし、そのような埋め込みは多くの異なる方法で実行でき、そのような埋め込みはそれぞれ「真の」モデルになり、異なる尤度関数を与えることは明らかです。そして、そのような埋め込みがなければ、尤度関数はありません。埋め込みを賢明に選択するためのいくつかの原則、いくつかの原則が本当に必要なようです!fバツ;θ0

それで、これはどういう意味ですか?つまり、尤度関数の選択により、真実が少し変わった場合にデータがどのように変化するかがわかります。データは唯一の真のモデル関数についての情報与えないようしかし、これは本当に、データによって検証することができません選びだし、モデル内の他のすべての要素については何も実際にデータを生成し、そしてません。このように、尤度関数の選択は、ベイジアン分析の事前の選択に似ており、非データ情報を分析に注入します。私たちは、単純な(やや人工)の例ではこれを見て、埋め込むの効果を見てみましょうF Xはθ 0fバツ;θ0fバツ;θ0 モデルのさまざまな方法で。

私たちがいると仮定しましょうとしてIIDされているN μ = 10 σ 2 = 1 。したがって、これが真のデータ生成ディストリビューションです。今、私たちは、2つの異なる方法、モデルAとモデルBのモデルでこれを埋め込むせて A X 1... X nが IID Nをμ σ 2 = 1 μ Rバツ1バツnNμ=10σ2=1 これが μ = 10で一致することを確認できます。

Aバツ1バツn イイド Nμσ2=1μRBバツ1バツn イイド Nμμ/10μ>0
μ=10

ログ尤度関数は、となる

Aμ=n2ログ2π12バツμ2Bμ=n2ログ2πn2ログμ/10102バツμ2μ

スコア機能(ログ尤度誘導体): 及び曲率 ¨ ℓの Aμ=-N

˙Aμ=nバツ¯μ˙Bμ=n2μ102バツμ215n
そう、フィッシャー情報は、実際に埋め込むに依存します。ここで、真の値μ=10IAμ=10=nフィッシャー情報を計算します
¨Aμ=n¨Bμ=n2μ2+1022バツ2μ3
μ=10 したがって、パラメーターに関するフィッシャー情報は、モデルBでいくらか大きくなります。
Aμ=10=nBμ=10=n1200+2020年2000年>n

μ

また、この例は、モデルファミリの構築方法を支援するための理論が本当に必要であることを示しています。


1
\ Eθ˙θ=0θθ0

1
はい、あなたが言うことは本当です、@ idadanny真のパラメーター値で評価されるとき、それはゼロです。
kjetil bハルヴォルセン

θθ0

θ^

θ0θmleθ0θ1

31

θθ

何百万ものパラメータを持つ大きなモデルがあると考えてください。そして、モデルを保存する小さなサムドライブがありました。格納する各パラメーターのビット数をどのように優先順位付けする必要がありますか?正しい答えは、フィッシャー情報に従ってビットを割り当てることです(リッサネンはこれについて書いています)。パラメーターのフィッシャー情報がゼロの場合、そのパラメーターは重要ではありません。

フィッシャーの情報は、このパラメーターがデータについてどれだけ伝えているかを測定するため、これを「情報」と呼びます。


これを口頭で考える方法は次のとおりです。パラメーターが車を運転しており、データが後部座席にあり、ドライバーを修正しているとします。データの煩わしさはフィッシャーの情報です。データによりドライバーが運転できる場合、フィッシャー情報はゼロです。データが常に修正を行っている場合、それは大きなものです。この意味で、フィッシャー情報は、データからパラメーターに移動する情報の量です。

ハンドルの感度を上げるとどうなるかを考えてください。これは、再パラメーター化と同等です。その場合、車のオーバーステアを恐れて、データはそれほど大きくなりたくありません。このような再パラメータ化により、フィッシャー情報が減少します。


20

@NeilGの素晴らしい回答(+1)を補完し、特定の質問に対処します。

  1. 「エラー」自体ではなく、「精度」を数えていると思います。

jjtr正でなければなりません。これは、あなたの主張に従って「理想的ではない」推定量しか持てないことを意味します。いいえ、フィッシャーの肯定的な情報は、MLEの理想とは関係ありません。

  1. 定義は、どちらの場合も情報の概念を解釈する方法が異なります。とはいえ、2つの測定値は密接に関連しています。

plog2pp変数が値を取る確率です。両方とも、変数の「情報量」の測定値です。ただし、最初のケースではこの情報を精度の観点で判断し、2番目のケースでは障害の観点で判断します。異なる側面、同じコイン!:D

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.