ドイツ戦車問題の解がパラメーターk(観測されたサンプルの数)とm(観測されたサンプルの最大値)のみの関数であることを正式に数学的に証明したものはありますか?言い換えれば、解が最大値以外の他のサンプル値から独立していることを証明できますか?
ドイツ戦車問題の解がパラメーターk(観測されたサンプルの数)とm(観測されたサンプルの最大値)のみの関数であることを正式に数学的に証明したものはありますか?言い換えれば、解が最大値以外の他のサンプル値から独立していることを証明できますか?
回答:
確率論における一般的な問題は、特定のモデルとパラメーター(と呼ぶことにします)が与えられた場合の観測の確率を指します。たとえば、カードゲームやサイコロゲームの特定の状況の確率は、非常に単純です。
ただし、多くの実際的な状況では、逆の状況(推論統計)を扱っています。つまり、観測が指定され、モデルが不明であるか、少なくとも特定のパラメーターわかりません。
問題のこれらのタイプでは、多くの場合、用語を参照して、パラメータの可能性と呼ばれる、特定のパラメータを信じるの速度であり、観察所与。この項は、モデルパラメーターが仮説的に真であると仮定すると、観測の確率に比例するものとして表されます。
特定のパラメーター値の場合、特定の観測値は(他のパラメーター値との確率と比較して)確率が高いほど、観測値がこの特定のパラメーター(またはこのパラメーターを仮定する理論/仮説)をより多くサポートします。 。(相対的)高い可能性は、そのパラメーター値についての私たちの信念を強化します(これについて言うのはもっと哲学的です)。
ここで、ドイツ戦車の問題の場合、サンプルセットの尤度関数は次のとおり
サンプル{1、2、10}またはサンプル{8、9、10}を観察するかどうかは、サンプルがパラメーター均一分布から考慮される場合は問題になりません。両方のサンプルは確率で等しく可能性が高く、1つのサンプルが他のサンプルよりもパラメーターについて多くを伝えないという考えを使用します。
高い値{8、9、10}は、がより高いはずであると考える/信じさせるかもしれません。しかし、それは値{10} だけです。の可能性に関する関連情報を本当に提供します(値10は、が10以上になることを示し、他の値8および9はこの情報に何も寄与しません。 )。
この定理は、特定の統計値(つまり、平均値、中央値、またはドイツのタンク問題の最大値などの観測値の関数)で十分な場合(すべての情報を含む)、尤度関数では、他の観測値に依存する項を除外できますこれにより、この係数はパラメーターと(およびデータを架空のパラメーター値に関連付ける尤度関数の部分は、統計にのみ依存し、データ/観測全体には依存しません)。
ドイツの戦車問題のケースは単純です。上記の尤度の式全体がすでに統計のみ依存しており、残りの値は問題ではないことがます。
次のゲームを繰り返しプレイするとします。自体が確率変数であり、100または110のいずれかの等しい確率で描画されます。次に、サンプルを描画します。
観測されたに基づいて、を推測するための戦略を選択します。これは、正しい推測を行う確率を最大化するものです。
サンプルの数値のいずれかが100を超えない限り、適切な戦略は100を選択することです。
多くが100に近いすべての高い値になっている(ただし、正確には100を超えることはない)場合は、すでにパラメーター値110を選択したくなるかもしれませんが、それは誤りです。このような観測の確率は、真のパラメーター値が110の場合よりも100の場合の方が大きくなります。そのため、このような状況でパラメーター値として100を推測すると、間違いを犯す可能性が低くなります(これらの高い値が100に近いがまだ下回っている状況は、真の値が110である場合よりも、真の値が100である場合により頻繁に発生します。
「問題」の正確な定式化を提示していないため、何を証明するよう求めているのかが明確ではありません。ベイジアンの観点からすると、事後確率はすべてのデータに依存します。ただし、特定のシリアル番号の各観測はその番号を最もサポートします。すなわち、任意の観察所与、ある、オッズ比と後方と先立って仮説のために大きくなる「タンクの実際の数でありが」タンクの実際の数は、[以外の数値であるためであろうよりも「 ]」。したがって、均一な事前分布から始めた場合、はその観測結果を見て、後方が最も高くなります。
我々は、データポイント有する場合考える、仮説。明らかに、事後はゼロです。そして、は、以前のものよりも大きくなります。この理由は、ベイズの推論では、証拠の欠如が欠如の証拠であるためです。いつでも我々はチャンス持っている可能性が私たちの確率が低下しているだろう観察をしたが、しかし、ではない確率が上昇を行います。を見て、をゼロに設定することができたので、それが見えなかったという事実は、を増やす必要があることを意味します。。ただし、数値が小さいほど、その数値を除外していたはずの数値が多くなることに注意してください。、我々は見た後、その仮説を拒否しているだろう。しかし、場合、仮説を棄却するには少なくともが必要でした。仮説のでより多くの反証である、実際に我々はそれをしませんでした改ざんのためのより多くの証拠である偽造ではないよりも、の証拠である。
したがって、データポイントが表示されるたびに、その下にあるすべての事後がゼロに設定され、他のすべての事後が増加し、数値が小さいほど最大のブーストが得られます。したがって、全体的に最大のブーストが得られる数は、事後がゼロに設定されていない最小数、つまり観測値の最大値になります。
最大値よりも小さい数値は、最大値がどれだけ大きくブーストされるかに影響しますが、最大値が最大になるブーストの一般的な傾向には影響しません。すでに見た上の例を考えてみてください。次に表示される数値が場合、どのような影響がありますか?を超えるとよりも役立ちますが、両方の数値はすでに拒否されているため、関係ありません。これはアウトできます以上、しかし、すでに以上手伝ってきたそれはほとんどを手伝っされた数には影響しませんので、。