仮説検定と総変動距離対カルバック・ライブラー分岐


10

私の研究では、次の一般的な問題に遭遇しました。同じドメイン上に2つの分布PQがあり、それらの分布からのサンプルが多数(ただし有限)あります。サンプル独立して同一これら二つの分布のいずれかから分配される(分布が関係してもよいが:例えば、Qの混合物であってもよいP。およびいくつかの他のディストリビューション)帰無仮説は、試料から来ることであるP、代替仮説はことですサンプルはからのものQです。

分布P知って、サンプルのテストでタイプIとタイプIIのエラーを特徴づけようとしていQます。特に、私はP知識に加えて、もう1つのエラーを制限することに興味がありQます。

私が求めている質問の関係についてmath.SE上の全変動距離の間にPQ仮説検定には、私は受け入れたことの答えを受けました。その答えは理にかなっていますが、問題に関連するため、総変動距離と仮説検定の関係の背後にあるより深い意味に心を包むことができませんでした。したがって、私はこのフォーラムを利用することにしました。

私の最初の質問は次のとおりです。全体の変動は、タイプIとタイプIIのエラーの確率の合計にバインドされていますか?本質的に、サンプルがいずれかの分布によって生成された可能性があるゼロ以外の確率がある限り、エラーの少なくとも1つの確率はゼロ以外でなければなりません。基本的に、仮説テスターが信号処理をどれほど行っても、間違いを犯す可能性を回避することはできません。そして、総変動はその正確な可能性を制限します。私の理解は正しいですか?

タイプIとIIのエラーと基になる確率分布Qの間には、KLダイバージェンスという別の関係もあります。したがって、私の2番目の質問は次のとおりです。KLダイバージェンスバウンドは、特定の仮説検定法(対数尤度比法の周りに多く出てくるように思われる)にのみ適用できますか、それともすべての仮説検定法に一般的に適用できますか?すべての仮説検定法に適用できる場合、なぜそれが合計変動限界と非常に異なるように見えるのですか?動作は異なりますか?PQ

そして私の根底にある質問は、私がどちらかのバウンドを使用する必要がある所定の一連の状況がありますか、それとも純粋に便利な問題ですか?ある拘束を使用して、他の拘束を使用して結果をいつ導出する必要がありますか?

これらの質問が些細なものである場合はお詫び申し上げます。私はコンピュータサイエンティストです(つまり、これは私には空想的なパターンマッチングの問題のようです:))。しかし、私はこの仮説テストのすべてを学び始めたばかりです。必要に応じて、質問を明確にするために最善を尽くします。

回答:


8

文献:必要な答えのほとんどは、確かにリーマンとロマーノの本にあります。IngsterとSuslinaによる本は、より高度なトピックを扱っており、あなたに追加の答えを与えるかもしれません。

答えは:しかし、物事は非常に単純です:(またはT V)で使用される「真」の距離があります。正式な計算(特に製品メジャーの場合、つまりサイズがnの iidサンプルがある場合)には不便で、他の距離(L 1の上限)を使用できます。詳細をお教えします。L1TVnL1

開発:で示しましょう

  • g1(α0,P1,P0)α0P0P1
  • g2(t,P1,P0)t(1t)P0P1

L1L1L1TV

L1χ2P1P0Pi=pin i=0,1p1p0nh(P1,P0)h(p1,p0)KLχ2L1

A1(ν1,ν0)ν1ν2

A1(ν1,ν0)=min(dν1,dν0)

|ν1ν0|1=|dν1dν0|

  • 2A1(ν1,ν0)=(ν1+ν0)|ν1ν0|1
  • g1(α0,P1,P0)=supt[0,1/α0](A1(P1,tP0)tα0)
  • g2(t,P1,P0)=A1(tP0,(1t)P1)

ここに証明を書いた。

定理2について及び確率分布: P1P0

12|P1P0|1h(P1,P0)K(P1,P0)χ2(P1,P0)

これらの境界は、よく知られている統計学者(LeCam、Pinskerなど)によるものです。はHellinger距離、 KL発散、はカイ乗発散です。これらはすべてここで定義されています。そして、これらの境界の証明が与えられます(さらなることがTsybacovの本にあります)。Hellinger による下限に近いものもあります...Kは、χ 2 Lを1hKχ2L1


1
P0P1

そして、リーマンとロマーノの本の提案をありがとう、それは私の頭の上ではあまり役に立たず、あまり見えません。また、私のライブラリはコピーを所有しています!:)
MBMは、2011年

A1

g1g2A1
12π|exp(x2/2σ12)σ1exp(x2/2σ22)σ2|dx
A1
12πmin(exp(x2/2σ12)σ1,exp(x2/2σ22)σ2)dx

(ν1+ν2)

1

最初の質問への回答:はい、1から総変動距離を引いたものが、タイプI +タイプIIのエラー率の合計の下限になります。この下限は、選択した仮説検定アルゴリズムに関係なく適用されます。

A

(厳密に言えば、この推論の行は、仮説検定が決定論的な手順であることを前提としています。ただし、無作為化された手順を考慮した場合でも、同じ制限が依然として当てはまることを示すことは可能です。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.