渡辺の議論を理解するためには、彼が「特異点」が意味することを理解することが重要です。(厳密な)特異点は、彼の理論における特異計量の幾何学的概念と一致しています。
p.10 [Watanabe]:「統計モデルは、識別可能で正のメトリックを持つ場合、規則的であると言われます。統計モデルが規則的でない場合、厳密に特異と呼ばれます。」p (x ∣ w )
実際には、「機械学習」の低ランクまたはスパースケースのように、モデルによって定義された多様体上でモデルによって誘導されたフィッシャー情報メトリックが縮退すると、通常、特異点が発生します。
経験的なKL発散の理論値への収束について渡辺が言ったことは、次のように理解できます。発散の概念の起源の1つは、堅牢な統計にあります。コントラスト関数を有する特別な場合としてMLEを含むM-推定量、、通常弱いトポロジを使用して議論されています。空間M (X)(ポーランド空間Xで定義されたすべての可能な測定の多様体)上の弱いトポロジを使用して収束動作を議論するのが妥当ρ (θ 、δ(X))= − ログp (X| θ )M(X)バツ)MLEの堅牢性の挙動を研究したいからです。古典的な定理は、[フーバー】ことはよく分離発散関数で述べ。inf | θ - θ 0 | ≥ ε(| D (θ 0、θ )- D (θ 0、θ 0)|)> 0D (θ0、θ )= Eθ0ρ (θ 、δ)
inf| θ− θ0| ≥ε(| D (θ0、θ )− D (θ0、θ0)| )> 0
発散とは対照的機能の良い経験的近似、
の規則と共に、我々は意味で一貫性をもたらすことができる
^ θ N:=ARGsupθ∣∣∣1n∑私ρ (θ 、δ(X私))− D (θ0、θ )∣∣∣→ 0 、n → ∞
に収束する
θ 0の確率
Pは、θ 0。ベイジアン推定量の一貫性が弱いDoobの結果[Doob]と比較した場合、この結果にははるかに正確な条件が必要です。
θn^:= a r gM I nはθρ (θ 、δ(Xn))
θ0Pθ0
したがって、ここではベイジアン推定量とMLEが分岐します。それでもベイジアン推定量の一貫性を議論するために弱いトポロジを使用する場合、ベイジアン推定量は常に(確率1で)Doobによって一貫性があるため、意味がありません。したがって、より適切なトポロジは、弱い導関数を可能にするシュワルツ分布トポロジであり、フォンミーゼスの理論が登場しました。バロンは、このトピックに関して、シュワルツの定理を使用して一貫性を得る方法について非常に優れた技術レポートを作成しました。
別の観点では、ベイジアン推定量は分布であり、それらのトポロジーは異なるものでなければなりません。それでは、そのようなトポロジーで発散がどのような役割を果たしますか?答えは、事前確率のKLサポートを定義することです。これにより、ベイズ推定量の整合性が強くなります。D
ご覧のように、Doobの一貫性定理により、ベイジアン推定量は弱いトポロジで(特異モデルでも)弱い一貫性を保ちながら、MLEは同じトポロジの特定の要件を満たす必要があるため、「特異学習結果」が影響を受けます。
一言、「渡辺」は初心者向けではありません。それはほとんどの統計学者が持っているよりも数学的な成熟度を必要とする実際の分析セットに深い意味を持っているので、適切なガイダンスなしでそれを読むことはおそらく良い考えではありません。
■
[渡辺]渡辺、すみお。代数幾何学と統計学習理論。巻 25.ケンブリッジ大学出版局、2009。
[Huber] Huber、Peter J.「非標準条件下での最尤推定値の動作。」数学統計と確率に関する第5回バークレーシンポジウムの議事録。巻 1. No. 1. 1967。
[Doob] Doob、Joseph L.「マルチンゲールの理論の応用。」Le calcul des probabilites et ses applications(1949):23-27。