一貫性のある推定量の定義がそのままなのはなぜですか?一貫性の代替定義についてはどうですか?
ウィキペディアからの引用: 統計では、一貫性の推定又は漸近一致推定は、パラメータの計算推定のための推定ルールであるθ∗θ∗θ^*データポイントの数と、無期限に確率の推定値が収束の結果のシーケンスを増加を使用したこと特性を-having θ∗θ∗θ^*。 このステートメントを正確にするには、推定する真のパラメーターの値をθ∗θ∗\theta^*とし、データの関数としてこのパラメーターを推定するためのルールをθ^(Sn)θ^(Sn)\hat\theta(S_n)とします。次に、推定量の一貫性の定義は次のように表現できます。 limn→∞Pr[|θ(Sn^)−θ∗|≥ϵ]=0limn→∞Pr[|θ(Sn^)−θ∗|≥ϵ]=0\lim_{n \to \infty} Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ]=0 私の質問は一見表面的なようだが、それは次のとおりです。なぜ単語「一貫性/整合性は、」推定のこの振る舞いを記述するために使用されたのですか? 私がこれを気にする理由は、私にとって、直感的に一貫性という言葉は異なるものを意味するためです(少なくとも、私にとっては異なるように見えますが、等しいことを示すことができるかもしれません)。例を使用して、その意味を説明します。「あなた」は一貫して「良い」(何らかの良い定義について)、そして一貫しているということは、あなたが良いことを証明/示す機会があるたびに、あなたが本当に良いことを毎回本当に証明することを意味します(または少なくともほとんどの時間)。 直観を適用して、推定量の一貫性を定義します。"you"をθ^θ^\hat{\theta}を計算する関数とし、 "good"が真の推定値\ theta ^ *からどれだけ離れているかを意味しますθ∗θ∗\theta^*(良い、l1l1l_1意味で、そうではありません)。一貫性のより良い定義は次のとおりです。 ∀n,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]<δ∀n,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]<δ\forall n,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta 一貫性の定義としてはあまり有用ではないかもしれませんが、推定器θ^θ^\hat\thetaに投げるトレーニング/サンプルセットについては、一貫性を定義する方法のほうが理にかなっています。良い仕事です。つまり、私は一貫してうまくやるでしょう。すべてのn(おそらく不可能)に対してそれを行うのは少し非現実的ですが、次のように言ってこの定義を修正できます。 ∃n0,∀n≥n0,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]<δ∃n0,∀n≥n0,∀Sn,Pr[|θ(Sn^)−θ∗|≥ϵ]<δ\exists n_0, \forall n \geq n_0,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta すなわち、nが十分に大きい場合、推定器は真のから(つまり、「真実」から超えない)より悪くなることはありません(は少なくとも必要な直感をキャプチャしようとしています何かを学習/推定するためのいくつかの例があり、その数に達すると、推定者が定義しようとしている方法に一貫性がある場合、推定者はほとんどの場合うまくいきます)。ϵϵ\epsilonϵϵ\epsilonθ∗θ∗\theta^*n0n0n_0 ただし、前の定義は強力であり、サイズほとんどのトレーニングセットでから遠ざかる可能性を低くすることができます(つまり、すべてのでこれを必要としませんが、またはそのようなものの分布)。そのため、ほとんどのサンプル/トレーニングセットで高いエラーが発生することはほとんどありません。θ∗θ∗\theta^*n≥n0n≥n0n \geq n_0SnSnS_nSnSnS_n とにかく、私の質問は、「一貫性」のこれらの提案された定義は実際に一貫性の「公式」定義と同じですか、しかし等価性を証明するのは難しいですか?証拠を知っているなら、それを共有してください!または、私の直感は完全にオフになっていますか?通常定義されている方法で定義の一貫性を選択するより深い理由がありますか?なぜ(「公式」)一貫性がそのように定義されているのですか? ある種の同等性の証明候補、または私の一貫性の概念と受け入れられている一貫性の概念の類似性についての私の考えのいくつかは、制限の定義。しかし、私はその方法を100%確信していませんでしたが、一貫性の公式定義では、すべての潜在的なトレーニング/サンプルセットについて話すことを考慮していないようです。私はそれらが同等であると信じているので、私が提供した公式の定義は不完全ですか(つまり、私たちができるデータセットまたはサンプルセットを生成できるすべての異なるデータセットについて話さないのはなぜですか)?(ϵ,δ)−(ϵ,δ)−(\epsilon, …