さまざまなトポロジのさまざまな推定量の収束動作について説明する必要があるのはなぜですか?


14

異なる機能空間での推定の収束について述べている本「代数幾何学と統計学習理論」の最初の章では、ベイジアン推定はシュワルツ分布トポロジーに対応し、最尤推定はsup-normトポロジーに対応していると述べています。 (7ページ):

たとえば、sup-norm、Lp -norm、ヒルベルト空間の弱いトポロジ、シュワルツ分布トポロジなどです。収束が成立するかどうかは、関数空間のトポロジに大きく依存します。ベイズ推定はシュワルツ分布トポロジーに対応しますが、最尤法または事後法はsup-normに対応します。この違いは、特異モデルの学習結果に大きく影響します。L2KnwKw

ここで、とはそれぞれ、経験的KL発散(観測値に対する合計)と真のモデルとパラメーターモデル(パラメーターを使用)間の真のKL発散(積分とデータ分布)です。KnwKww

誰もが説明を与えることができますか、本のどの場所に正当性があるのか​​を教えてくれますか?ありがとうございました。

更新:著作権の内容は削除されました。


ととは何ですか?K nKKn
テイラー

@Taylorいくつかの必要な情報を追加しました。
ziyuang

私は後であなたの質問に答えます、私は渡辺の本を比較的よく知っています。しかし、私はあなたが本を引用する方法を強く嫌います。ここにセクションを直接配置すると、著作権の問題が発生する可能性があります。適切なよだれかけを使用してページ番号を使用し、引用を入力することをお勧めします。
Henry.L 16

@ Henry.Lありがとう。著作権の内容は削除されました。
ziyuang 16

@Henry:著作権のある作品の一部を複製する際に慎重かつ良心的であることには価値があると思いますが、この場合、ziyuangにはまったく心配することはありません。学術的批評のためのOPの小さな抜粋の使用は、(米国の)「公正使用」の原則の範囲内にあります。確かに、正確な複製を持つことは、コンテンツの修正再表示によって導入される可能性のあるあいまいさを排除するため、特に価値がある場合があります。(言ったことはすべて、IANAL。)
枢機

回答:


2

渡辺の議論を理解するためには、彼が「特異点」が意味することを理解することが重要です。(厳密な)特異点は、彼の理論における特異計量の幾何学的概念と一致しています。

p.10 [Watanabe]:「統計モデルは、識別可能で正のメトリックを持つ場合、規則的であると言われます。統計モデルが規則的でない場合、厳密に特異と呼ばれます。」pバツw

実際には、「機械学習」の低ランクまたはスパースケースのように、モデルによって定義された多様体上でモデルによって誘導されたフィッシャー情報メトリックが縮退すると、通常、特異点が発生します。

経験的なKL発散の理論値への収束について渡辺が言ったことは、次のように理解できます。発散の概念の起源の1つは、堅牢な統計にあります。コントラスト関数を有する特別な場合としてMLEを含むM-推定量、、通常弱いトポロジを使用して議論されています。空間M X(ポーランド空間Xで定義されたすべての可能な測定の多様体上の弱いトポロジを使用して収束動作を議論するのが妥当ρθδバツ=ログpバツθMバツバツ)MLEの堅牢性の挙動を研究したいからです。古典的な定理は、[フーバー】ことはよく分離発散関数で述べinf | θ - θ 0 | ε| D θ 0θ - D θ 0θ 0|> 0Dθ0θ=Eθ0ρθδ

inf|θθ0|ϵ|Dθ0θDθ0θ0|>0
発散とは対照的機能の良い経験的近似、 の規則と共に、我々は意味で一貫性をもたらすことができる ^ θ N=ARG
supθ|1nρθδバツDθ0θ|0n
に収束する θ 0の確率 Pは、θ 0。ベイジアン推定量の一貫性が弱いDoobの結果[Doob]と比較した場合、この結果にははるかに正確な条件が必要です。
θn^:=argmnθρθδバツn
θ0Pθ0

したがって、ここではベイジアン推定量とMLEが分岐します。それでもベイジアン推定量の一貫性を議論するために弱いトポロジを使用する場合、ベイジアン推定量は常に(確率1で)Doobによって一貫性があるため、意味がありません。したがって、より適切なトポロジは、弱い導関数を可能にするシュワルツ分布トポロジであり、フォンミーゼスの理論が登場しました。バロンは、このトピックに関して、シュワルツの定理を使用して一貫性を得る方法について非常に優れた技術レポートを作成しました。

別の観点では、ベイジアン推定量は分布であり、それらのトポロジーは異なるものでなければなりません。それでは、そのようなトポロジーで発散がどのような役割を果たしますか?答えは、事前確率のKLサポートを定義することです。これにより、ベイズ推定量の整合性が強くなります。D

ご覧のように、Doobの一貫性定理により、ベイジアン推定量は弱いトポロジで(特異モデルでも)弱い一貫性を保ちながら、MLEは同じトポロジの特定の要件を満たす必要があるため、「特異学習結果」が影響を受けます。

一言、「渡辺」は初心者向けではありません。それはほとんどの統計学者が持っているよりも数学的な成熟度を必要とする実際の分析セットに深い意味を持っているので、適切なガイダンスなしでそれを読むことはおそらく良い考えではありません。

[渡辺]渡辺、すみお。代数幾何学と統計学習理論。巻 25.ケンブリッジ大学出版局、2009。

[Huber] Huber、Peter J.「非標準条件下での最尤推定値の動作。」数学統計と確率に関する第5回バークレーシンポジウムの議事録。巻 1. No. 1. 1967。

[Doob] Doob、Joseph L.「マルチンゲールの理論の応用。」Le calcul des probabilites et ses applications(1949):23-27。


答えの一部に直観を与えようとしているので、間違っている場合は修正してください。ベイズ推定量は、ポイント推定量(確率分布ではなくMAP)として見れば一貫しています。事前に正則化として機能しているため、直感的にMLEよりも一貫性のための条件が少なくて済みます。一方、シュワルツ分布トポロジーは、ベイズ推定器を分布と見なした場合により適しています。また、MLEとベイズ推定器の整合性の密接な関係を構築するのに役立ち、一方が発散し、他方が収束する場合は発生しません。 。
-ziyuang

申し訳ありませんが、説明が正しいとは思いません。事前は正則化として機能しますが、必ずしも収束率を制御するわけではありません。実際にフラットな事前分布は、実際に収束を遅くします。それらは単に2つの異なるトポロジです。
Henry.L
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.