Fisher InformationとCramer-Raoバウンドの直感的な説明


59

私はフィッシャーの情報、それが何を測定し、どのように役立つかについて不満を感じています。また、Cramer-Raoとの関係は私には明らかではありません。

誰かがこれらの概念の直感的な説明をお願いできますか?


1
中に何があるWikipediaの記事の問題を引き起こしていますか?これは、観測可能な確率変数とする情報の量を測定するX、未知のパラメータ持ち歩くθの確率、その上にX依存し、その逆の不偏推定量の分散の下限クラマー・ラオですθ
ヘンリー

2
私はそれを理解していますが、私はそれで本当に快適ではありません。同様に、ここで「情報量」とは正確に何を意味しますか。密度の偏微分の二乗の負の期待がこの情報を測定するのはなぜですか?表現はどこから来たのかなどです。だから私はそれについていくつかの直観を得たいと思っています。
インフィニティ

@Infinity:スコアは、パラメーターの変化に伴う観測データの尤度の比例変化率であり、推論に役立ちます。フィッシャーは、(ゼロ平均)スコアの分散を通知します。したがって、数学的には、密度の対数の一次偏微分の二乗の期待値であり、密度の対数の二次偏微分の期待の負の値でもあります。
ヘンリー

回答:


32

ここで、最尤推定量の漸近分散がCramer-Raoの下限である理由を説明します。これがフィッシャー情報の関連性についての洞察を提供することを願っています。

統計的推論は、データから構築する尤度関数を使用して進められます。点推定値θが最大になる値Lθに。推定量θは確率変数であるが、それはということを理解するのに役立ちます尤度関数Lθは「ランダム曲線」です。L(θ)θ^L(θ)θ^ L(θ)

ここでは、分布から取得したiidデータを仮定し、尤度Lθ = 1を定義します。 f(x|θ)

L(θ)=1ni=1nlogf(xi|θ)

パラメーターは、「真の」尤度E Lθ の値を最大化する特性があります。ただし、データから構築される「観測された」尤度関数Lθ は、真の尤度からわずかに「外れています」。しかし、ご想像のとおり、サンプルサイズが大きくなると、「観測された」尤度は真の尤度曲線の形状に収束します。同じことは、パラメータに対する可能性の誘導体に適用されるスコア関数∂のL /θ。(長い話を短くすると、フィッシャーの情報は、θEL(θ)L(θ) L/θ 観測されたスコア関数は、真のスコア関数の形状に収束します。)

大きなサンプルサイズでは、我々は我々の最尤推定値と仮定θはに非常に近いですθ。私たちは、周りの小さな近傍を拡大θθ尤度関数は、「ローカル二次」になるように。θ^θθθ^

θ^ L/θabθ

a(θ^θ)+b=0

または

θ^=θb/a.

MLE推定量の一貫性から、次のことがわかります。

E(θ^)=θ

限界で。

したがって、漸近的に

nVar(θ^)=nVar(b/a)

θ

nVar(θ^)=1a2nVar(b)

anVar(b)

a=E[2Lθ2]=I(θ)

nVar(b)=nVar[Lθ]=I(θ)

副<文>この[前述の事実の]結果として、それ故に、従って、だから◆【同】consequently; therefore <文>このような方法で、このようにして、こんなふうに、上に述べたように◆【同】in this manner <文>そのような程度まで<文> AひいてはB◆【用法】A and thus B <文>例えば◆【同】for example; as an example、

nVar(θ^)=1a2nVar(b)=(1/I(θ)2)I(θ)=1/I(θ)
1/I(θ)

2
尤度関数が局所的に二次関数であると言及している部分のグラフィカルな表現はありますか?
quirik

@quirik、theta_hatの周囲の2次テイラー展開の使用を検討してください。
idnavid

@ charles.y.zhengこれは、シーンの最も興味深い説明の1つです。
idnavid

13

漁師情報を理解する1つの方法は、次の定義によるものです。

I(θ)=X2f(x|θ)θ2dxXf(x|θ)2θ2log[f(x|θ)]dx

f(x|θ)XθXf(x|θ)dx=1

最尤推定を行うとき(ここに「規則性条件」を挿入)設定します

θlog[f(x|θ)]=0

θθx

私がまだ興味を持っていることの1つは、対数尤度がどれほど急勾配であり、尤度の他の単調関数がどれほど急勾配ではないことです(おそらく決定理論の「適切な」スコアリング関数に関連していますか?またはエントロピーの一貫性公理?)。

exp(ax2)

f(data|θ)=exp(log[f(data|θ)])

そして、テイラーがMLEについて対数尤度を展開するとき:

f(data|θ)[f(data|θ)]θ=θMLEexp(12[2θ2log[f(data|θ)]]θ=θMLE(θθMLE)2)

2θ2log[f(data|θ)]=n(1ni=1n2θ2log[f(xi|θ)])nI(θ)

θ


1
「私が今でも気になっていることの1つは、対数尤度がどれほど急勾配であり、尤度の他の単調関数がどれほど急勾配でないかということです。」尤度の他の変換に関してフィッシャー情報の類似体を導出できると確信していますが、Cramer-Raoの下限の表現がきちんと得られないでしょう。
charles.y.zheng

2

これは私がこれまで見た中で最も直感的な記事です。

Cramér-Raoの分散の下限:アダムとイブの「不確実性原理」、マイケルR.パワーズ、ジャーナルオブリスクファイナンス、Vol。7、No。3、2006

この限界は、エデンの園でアダムとイブがコインを投げて誰が果物を食べるかを確認し、推定で一定の精度を達成するために必要なサンプルの大きさを自問することで説明されます。そして彼らはこの限界を発見します...

現実についての深遠なメッセージを伴う素晴らしい物語。


6
このリファレンスを投稿していただきありがとうございます。しかし、実際にはCRLBを説明していないことに気付いて、がっかりしました。それは単にそれが真実である理由についての洞察を提供することなくそれを述べ、それを説明する努力の中で、「情報を絞る」のような刺激的であるが最終的に無意味な言語のみを提供します。
whuber

@whuber:結構です。もっと深く潜ることができ、結末は少し突然です。しかし、私は記事を好きなこと、本当にサンプルサイズ、サンプルを意味し、大数の法則と標本分散しかないというポイント(すなわちまで低減することができるとの間の接続があることを自然に感じていることであるである必要がありますが、いくつかのバウンド、これはたまたま上記のものです)。また、これは、とらえどころのない数学的結果ではなく、実際に現実の知識を得る限界についての声明であることが明らかになりました。
vonjd

2

上記の説明は非常に興味深いものであり、詳しく説明しましたが、Cramer-Raoの下限の性質は幾何学的な観点から最もよく説明されたと感じています。この直観は、ScharfのStatistics Signal Processingに関する本の第6章にある集中楕円の概念の要約です。

任意の不偏推定量を検討します。さらに、推定器共分散ガウス分布があると仮定します。これらの条件下では、の分布は以下に比例します。θθ^Σθ^

f(θ^)exp(12(θ^θ)TΣ1(θ^θ))

のこの分布の等高線図を考えてください。の確率に対する上限制約(つまり、)は、固定半径を有する。楕円体の半径と希望確率間に1対1の関係があることを示すのは簡単です。言い換えれば、は、半径で確率決定される楕円内の近いθR2θ^f(θ^)dθPrθrrPrθ^θrPr。この楕円体は、集中楕円体と呼ばれます。

上記の説明を考慮すると、CRLBについて次のことが言えます。すべての公正な推定量の中で、CRLBは推定表す共分散とをつまり、「近さ」の固定された確率の(上記で定義した通り)、最小有します濃度楕円体。次の図は、2Dの図を示しています(Scharfの本の図に触発されています)。ΣCのRLのBのPのRθ^crlbΣcrlbPr

不偏推定量のコンテキストでのCRLBの2Dイラストレーション。


2
まあ、これは血まみれの素晴らしいです、特に画像は、より多くの賛成票が必要です。
アストリッド
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.