ドイツ戦車問題の解決策

ドイツ戦車問題の解がパラメーターk（観測されたサンプルの数）とm（観測されたサンプルの最大値）のみの関数であることを正式に数学的に証明したものはありますか？言い換えれば、解が最大値以外の他のサンプル値から独立していることを証明できますか？

mathematical-statistics sufficient-statistics

あなたが求めているのは、サンプルの最大値が1からまでの離散一様分布の上限を指定するパラメーターに対して十分であることを示す方法です。

θ

$\theta$

θ

$\theta$

— Scortchi-モニカの回復

フィッシャーナイマン因数分解の定理パラメーター（タンクの数）が与えられた場合の尤度関数、観測サンプルの確率（最大要約）は、およびで完全に記述できます

それが答えになりますか？

k

$k$

m

$m$

n

$n$

k

$k$

m

$m$

Pr (M = m | n, k) = {\begin{cases} 0 & if m > n \\ \frac{(\binom{m - 1}{k - 1})}{(\binom{n}{k})} & if m \leq n, \end{cases}

$\Pr(M=m | n,k) = \begin{cases} 0 &\text{if } m > n \\ \frac{\binom{m - 1}{k - 1}}{\binom n k} &\text{if } m \leq n, \end{cases}$

— Sextus Empiricus

@Scortchi正解です。わかりやすく言い換えていただき、ありがとうございます。

— Bogdan Alexandru

@MartijnWeteringsいいえ; 基本的に私はサンプルの最大値が実際にソリューションを計算することなくソリューションに十分であることの証明を求めています（上記のScortchiのコメントを引用）。

— Bogdan Alexandru

フィッシャー・ネイマン分解の定理を証明として探していませんか？

— Sextus Empiricus

回答:

可能性

確率論における一般的な問題は、特定のモデルとパラメーター（と呼ぶことにします）が与えられた場合の観測の確率を指します。たとえば、カードゲームやサイコロゲームの特定の状況の確率は、非常に単純です。 $x_1, x_2, ... , x_n$ $\theta$

ただし、多くの実際的な状況では、逆の状況（推論統計）を扱っています。つまり、観測が指定され、モデルが不明であるか、少なくとも特定のパラメーターわかりません。 $x_1, x_2, ... , x_k$ $\theta$

問題のこれらのタイプでは、多くの場合、用語を参照して、パラメータの可能性と呼ばれる、特定のパラメータを信じるの速度であり、観察所与。この項は、モデルパラメーターが仮説的に真であると仮定すると、観測の確率に比例するものとして表されます。 $\mathcal{L(\theta)}$ $\theta$ $x_1, x_2, .. x_k$ $x_1, x_2, .. x_k$ $\theta$

L (θ, x_{1}, x_{2}, . . x_{k}) \propto probability observations x_{1}, x_{2}, . . x_{k} given θ

$\mathcal{L}(\theta,x_1, x_2, .. x_k) \propto \text{probability observations $x_1, x_2, .. x_k$ given $\theta$ }$

特定のパラメーター値の場合、特定の観測値は（他のパラメーター値との確率と比較して）確率が高いほど、観測値がこの特定のパラメーター（またはこのパラメーターを仮定する理論/仮説）をより多くサポートします。。（相対的）高い可能性は、そのパラメーター値についての私たちの信念を強化します（これについて言うのはもっと哲学的です）。 $\theta$ $x_1, x_2, .. x_n$

ドイツ戦車問題の可能性

ここで、ドイツ戦車の問題の場合、サンプルセットの尤度関数は次のとおり $x_1, x_2, .. x_k$

L (θ, x_{1}, x_{2}, . . x_{k}) = Pr (x_{1}, x_{2}, . . x_{k}, θ) = {\begin{cases} 0 & if max (x_{1}, x_{2}, . . x_{k}) > θ \\ {(\binom{θ}{k})}^{- 1} & if max (x_{1}, x_{2}, . . x_{k}) \leq θ, \end{cases}

$\mathcal{L}(\theta,x_1, x_2, .. x_k ) = \Pr(x_1, x_2, .. x_k, \theta) = \begin{cases} 0 &\text{if } \max(x_1, x_2, .. x_k) > \theta \\ {{\theta}\choose{k}}^{-1} &\text{if } \max(x_1, x_2, .. x_k) \leq \theta, \end{cases}$

サンプル{1、2、10}またはサンプル{8、9、10}を観察するかどうかは、サンプルがパラメーター均一分布から考慮される場合は問題になりません。両方のサンプルは確率で等しく可能性が高く、1つのサンプルが他のサンプルよりもパラメーターについて多くを伝えないという考えを使用します。 $\theta$ ${{\theta}\choose{3}}^{-1}$ $\theta$

高い値{8、9、10}は、がより高いはずであると考える/信じさせるかもしれません。しかし、それは値{10} だけです。の可能性に関する関連情報を本当に提供します（値10は、が10以上になることを示し、他の値8および9はこの情報に何も寄与しません。）。 $\theta$ $\theta$ $\theta$

フィッシャー・ネイマン因数分解定理

この定理は、特定の統計値（つまり、平均値、中央値、またはドイツのタンク問題の最大値などの観測値の関数）で十分な場合（すべての情報を含む）、尤度関数では、他の観測値に依存する項を除外できますこれにより、この係数はパラメーターと（およびデータを架空のパラメーター値に関連付ける尤度関数の部分は、統計にのみ依存し、データ/観測全体には依存しません）。 $T(x_1, x_2, … , x_k)$ $x_1, x_2, … , x_k$ $\theta$ $x_1, x_2, … , x_k$

ドイツの戦車問題のケースは単純です。上記の尤度の式全体がすでに統計のみ依存しており、残りの値は問題ではないことがます。 $\max(x_1, x_2, .. x_k)$ $x_1, x_2, .. x_k$

例としての小さなゲーム

次のゲームを繰り返しプレイするとします。自体が確率変数であり、100または110のいずれかの等しい確率で描画されます。次に、サンプルを描画します。 $\theta$ $x_1,x_2,...,x_k$

観測されたに基づいて、を推測するための戦略を選択します。これは、正しい推測を行う確率を最大化するものです。 $\theta$ $x_1,x_2,...,x_k$ $\theta$

サンプルの数値のいずれかが100を超えない限り、適切な戦略は100を選択することです。

多くが100に近いすべての高い値になっている（ただし、正確には100を超えることはない）場合は、すでにパラメーター値110を選択したくなるかもしれませんが、それは誤りです。このような観測の確率は、真のパラメーター値が110の場合よりも100の場合の方が大きくなります。そのため、このような状況でパラメーター値として100を推測すると、間違いを犯す可能性が低くなります（これらの高い値が100に近いがまだ下回っている状況は、真の値が110である場合よりも、真の値が100である場合により頻繁に発生します。 $x_1,x_2,...,x_k$

— Sextus Empiricus
ソース

すごい、まさに私が必要なもの！あなたの最後の括弧にジャスト1コメント：あなたはそれが本当だ理由を私は理解している、「近い百これらの高い値は、...もっと頻繁に起こる」が、ちょうど明確にするために言っている任意の 1と100の間の値は、より多くの可能性が発生することがありますパラメータが100の場合（基本的に、1〜100の各数値の確率は1 /パラメータです）。

— ボグダンアレクサンドル

また、私の投稿への最初のコメントは理にかなっています。これらの概念を適用する方法を知っていれば、あなたのコメントは、証明を取得するために必要なヒントでした。再度、感謝します！

— ボグダンアレクサンドル

@BogdanAlexandruあなたは正しいです。1〜100の任意の値に当てはまります。これは直観に反する考えです。高い観測値は、低い観測値よりも何らかのパラメーター値の証拠となると思われがちですが、どの数値でも同等の可能性が高いため、モデルパラメーターに関する私たちの信念に何も貢献しない/すべきではありません（私たちが観察する最大値を除きます。ただし、私が2つの値から選択しただけのゲームでも、最大値でさえも、100の境界を除いて、それがより高いまたはより低い場合、より多くの情報を提供しないようなものです）。

— Sextus Empiricus

私の最初のコメントは多すぎるかもしれませんが、私はどんな種類の答えが必要であるかをただ見ているだけでした。特に「証明」という用語は少し強いと思いますが、因数分解の定理（定理がわからない場合は「はい」で答えられる質問）だけを探しているのか、それとももっと曖昧で哲学、たとえば、統計/尤度の挑戦的な概念でさえ、そのような定理を超えて異なるタイプの「証明」を探すように。

— Sextus Empiricus

私の意図をよく読んでください！再度、感謝します。

— ボグダンアレクサンドル

「問題」の正確な定式化を提示していないため、何を証明するよう求めているのかが明確ではありません。ベイジアンの観点からすると、事後確率はすべてのデータに依存します。ただし、特定のシリアル番号の各観測はその番号を最もサポートします。すなわち、任意の観察所与、ある、オッズ比と後方と先立って仮説のために大きくなる「タンクの実際の数でありが」タンクの実際の数は、[以外の数値であるためであろうよりも「 ]」。したがって、均一な事前分布から始めた場合、はその観測結果を見て、後方が最も高くなります。 $n$ $n$ $n$ $n$

我々は、データポイント有する場合考える、仮説。明らかに、事後はゼロです。そして、は、以前のものよりも大きくなります。この理由は、ベイズの推論では、証拠の欠如が欠如の証拠であるためです。いつでも我々はチャンス持っている可能性が私たちの確率が低下しているだろう観察をしたが、しかし、ではない確率が上昇を行います。を見て、をゼロに設定することができたので、それが見えなかったという事実は、を増やす必要があることを意味します。 $13$ $N=10,13,15$ $N=10$ $N=13,15$ $16$ $N=13,15$ $N=13,15$ 。ただし、数値が小さいほど、その数値を除外していたはずの数値が多くなることに注意してください。、我々は見た後、その仮説を拒否しているだろう。しかし、場合、仮説を棄却するには少なくともが必要でした。仮説のでより多くの反証である、実際に我々はそれをしませんでした改ざんのためのより多くの証拠である偽造ではないよりも、の証拠である。 $N=13$ $14,15,16,...$ $N=15$ $16$ $N=13$ $N=15$ $N=13$ $N=13$ $N=15$ $N=15$

したがって、データポイントが表示されるたびに、その下にあるすべての事後がゼロに設定され、他のすべての事後が増加し、数値が小さいほど最大のブーストが得られます。したがって、全体的に最大のブーストが得られる数は、事後がゼロに設定されていない最小数、つまり観測値の最大値になります。

最大値よりも小さい数値は、最大値がどれだけ大きくブーストされるかに影響しますが、最大値が最大になるブーストの一般的な傾向には影響しません。すでに見た上の例を考えてみてください。次に表示される数値が場合、どのような影響がありますか？を超えるとよりも役立ちますが、両方の数値はすでに拒否されているため、関係ありません。これはアウトできます以上、しかし、すでに以上手伝ってきたそれはほとんどを手伝っされた数には影響しませんので、。 $13$ $5$ $5$ $6$ $13$ $15$ $13$ $15$

— 蓄積
ソース

この例は状況に大きく依存し、ステートメントは一般的ではありません。例えば、前の15 13と50％、50％、次いで13の観察がそのようでない場合、「N = 13のための私達の事後は、15がその前よりも大きくなる」観察前に事後比較して減少させることができます。

— Sextus Empiricus

また、さらに多くの数値を観測すると、推論が変わる可能性があります。ここで、「私たちが見る次の数が5であれば...」例：（その後、事後はまだ変更され、数字が既に「助け」されている場合でも、追加の数字は、これは「「助けて増やすことができますが、すべての数字をサンプリングするとき1,2、... 12、13その後、13のみをサンプリングする場合よりも13の事後が増加します13）

— Sextus Empiricus