上のウィキペディアの記事から引用 単純ベイズ分類器のパラメータ推定:「典型的な仮定は、各クラスに関連付けられた連続値がガウス分布に従って分布していることです。」
分析上の理由から、ガウス分布が便利であることを理解しています。しかし、この仮定をする他の現実的な理由はありますか?人口が2つのサブ集団(スマート/ダムの人々、大きなリンゴ/小さなリンゴ)で構成されている場合はどうなりますか?
上のウィキペディアの記事から引用 単純ベイズ分類器のパラメータ推定:「典型的な仮定は、各クラスに関連付けられた連続値がガウス分布に従って分布していることです。」
分析上の理由から、ガウス分布が便利であることを理解しています。しかし、この仮定をする他の現実的な理由はありますか?人口が2つのサブ集団(スマート/ダムの人々、大きなリンゴ/小さなリンゴ)で構成されている場合はどうなりますか?
回答:
少なくとも私にとって、正規性の仮定は2つの(非常に強力な)理由から生じます。
中央極限定理。
ガウス分布は、最大エントロピー(シャノンのエントロピーの連続バージョンに関する)分布です。
私はあなたが最初の点に気づいていると思います:あなたのサンプルが多くのプロセスの合計である場合、いくつかの穏やかな条件が満たされている限り、分布はかなりガウスです(実際にはあなたがしないCLTの一般化があります合計のrvが同じように分布していると仮定する必要があります。たとえば、Lyapunov CLTを参照してください。
2番目のポイントは、一部の人々(特に物理学者)にとってより意味のあるものです:分布の最初と2番目の瞬間を考えると、連続シャノンのエントロピー測定(これは、最も保守的な)連続的なケースでは多少arbitrary意的ですが、少なくとも私にとっては、離散的なケースでは完全に客観的ですが、それは別の話です)、ガウス分布です。これはいわゆる「最大エントロピー原理」の形式であり、エントロピーの形式の実際の使用はややarbitrary意的であるため、それほど広くは普及していません(この方法の詳細については、このウィキペディアの記事を参照してください)。
)、多変量ガウス分布であることが示されます。
PD:この論文によれば、変数の変動範囲がわかった場合、最大エントロピー原理によって得られる分布を調整する必要があるという最大エントロピー原理に追加する必要があります。
私の答えは最初のレスポンダーに同意します。中心極限定理は、統計が合計または平均である場合、個々のサンプルの分布に関係なく、特定の技術条件下でほぼ正常になることを示しています。しかし、あなたが正しいのは、それが便利だと思われるからといって、時々人々がこれを持ちすぎているということです。統計が比率であり、分母がゼロまたはそれに近い場合、比率は通常に対して重すぎます。Gossetは、正規化定数にサンプルの標準偏差を使用する正規化された平均からサンプリングした場合でも、nがサンプルサイズである場合、分布はn-1自由度のt分布であることを発見しました。ギネス醸造所でのフィールド実験では、サンプルサイズは5〜10の範囲になります。これらの場合、t分布は標準の正規分布に似ていますが、0を中心に対称ですが、テールがずっと重いです。nが大きくなると、t分布は標準正規分布に収束することに注意してください。多くの場合、2つの母集団が混在しているため、分布はバイモーダルになる可能性があります。これらの分布は、正規分布の混合として適合できる場合があります。しかし、それらは正規分布のようには見えません。基本的な統計の教科書を見ると、多くの場合、推論問題で生じる多くのパラメトリックな連続分布と離散分布があります。離散データの場合、いくつか例を挙げると、二項、ポアソン、幾何、超幾何、および負の二項があります。連続的な例には、カイ二乗、対数正規、コーシー、負の指数、ワイブルおよびガンベルが含まれます。
CLTは個々の観測値ではなくサンプル平均に適用されるため、ガウス分布の使用を正当化するためにCLTを使用するのはよくある誤りです。したがって、サンプルサイズを増やしても、サンプルが正常に近いことを意味するわけではありません。
ガウス分布が一般的に使用される理由は次のとおりです。
もちろん、最善のオプションは、コンテキストの特性を考慮した分布を使用することですが、これは難しい場合があります。しかし、人々がすべきことです
「すべてをできるだけシンプルにする必要がありますが、シンプルにする必要はありません。」(アルバート・アインシュタイン)
これがお役に立てば幸いです。
ご多幸を祈る。