なぜガウス分布と見なされることが多いのですか?


13

上のウィキペディアの記事から引用 単純ベイズ分類器のパラメータ推定:「典型的な仮定は、各クラスに関連付けられた連続値がガウス分布に従って分布していることです。」

分析上の理由から、ガウス分布が便利であることを理解しています。しかし、この仮定をする他の現実的な理由はありますか?人口が2つのサブ集団(スマート/ダムの人々、大きなリンゴ/小さなリンゴ)で構成されている場合はどうなりますか?


5
おそらく、中心極限定理のために、ガウス分布は物理現象の測定ではありませんが、多くの場合に当てはまりますか?部分母集団では、混合ガウス分布を取得できます。
ディリップサーワテ

1
同じセクション(Naive Bayesの記事を見ていると思います)は、分布がわからない場合は、ビニングがおそらくより良いアイデアであることを指摘しています。おそらく、ガウシアンであると主張できる場合(たとえば、データをプロットする、またはCLTの加法パターンに従う)にのみガウスを仮定する必要があることを明確にするために、誰かがウィキペディアの記事を編集する必要があります。
rm999

回答:


6

少なくとも私にとって、正規性の仮定は2つの(非常に強力な)理由から生じます。

  1. 中央極限定理。

  2. ガウス分布は、最大エントロピー(シャノンのエントロピーの連続バージョンに関する)分布です。

私はあなたが最初の点に気づいていると思います:あなたのサンプルが多くのプロセスの合計である場合、いくつかの穏やかな条件が満たされている限り、分布はかなりガウスです(実際にはあなたがしないCLTの一般化があります合計のrvが同じように分布していると仮定する必要があります。たとえば、Lyapunov CLTを参照してください。

2番目のポイントは、一部の人々(特に物理学者)にとってより意味のあるものです:分布の最初と2番目の瞬間を考えると、連続シャノンのエントロピー測定(これは、最も保守的な)連続的なケースでは多少arbitrary意的ですが、少なくとも私にとっては、離散的なケースでは完全に客観的ですが、それは別の話です)、ガウス分布です。これはいわゆる「最大エントロピー原理」の形式であり、エントロピーの形式の実際の使用はややarbitrary意的であるため、それほど広くは普及していません(この方法の詳細については、このウィキペディアの記事を参照してください)。

μΣ)、多変量ガウス分布であることが示されます。

PD:この論文によれば、変数の変動範囲がわかった場合、最大エントロピー原理によって得られる分布を調整する必要があるという最大エントロピー原理に追加する必要があります。


3

私の答えは最初のレスポンダーに同意します。中心極限定理は、統計が合計または平均である場合、個々のサンプルの分布に関係なく、特定の技術条件下でほぼ正常になることを示しています。しかし、あなたが正しいのは、それが便利だと思われるからといって、時々人々がこれを持ちすぎているということです。統計が比率であり、分母がゼロまたはそれに近い場合、比率は通常に対して重すぎます。Gossetは、正規化定数にサンプルの標準偏差を使用する正規化された平均からサンプリングした場合でも、nがサンプルサイズである場合、分布はn-1自由度のt分布であることを発見しました。ギネス醸造所でのフィールド実験では、サンプルサイズは5〜10の範囲になります。これらの場合、t分布は標準の正規分布に似ていますが、0を中心に対称ですが、テールがずっと重いです。nが大きくなると、t分布は標準正規分布に収束することに注意してください。多くの場合、2つの母集団が混在しているため、分布はバイモーダルになる可能性があります。これらの分布は、正規分布の混合として適合できる場合があります。しかし、それらは正規分布のようには見えません。基本的な統計の教科書を見ると、多くの場合、推論問題で生じる多くのパラメトリックな連続分布と離散分布があります。離散データの場合、いくつか例を挙げると、二項、ポアソン、幾何、超幾何、および負の二項があります。連続的な例には、カイ二乗、対数正規、コーシー、負の指数、ワイブルおよびガンベルが含まれます。


2

CLTは個々の観測値ではなくサンプル平均に適用されるため、ガウス分布の使用を正当化するためにCLTを使用するのはよくある誤りです。したがって、サンプルサイズを増やしても、サンプルが正常に近いことを意味するわけではありません。

ガウス分布が一般的に使用される理由は次のとおりです。

  1. 最尤推定は簡単です。
  2. ベイジアン推論は単純です(共役事前分布またはジェフリーズ型事前分布を使用)。
  3. ほとんどの数値パッケージに実装されています。
  4. 仮説検定の観点から、この分布について多くの理論があります。
  5. 他のオプションに関する知識の欠如(より柔軟な)。...

もちろん、最善のオプションは、コンテキストの特性を考慮した分布を使用することですが、これは難しい場合があります。しかし、人々がすべきことです

「すべてをできるだけシンプルにする必要がありますが、シンプルにする必要はありません。」(アルバート・アインシュタイン)

これがお役に立てば幸いです。

ご多幸を祈る。


なぜ下票なのか?この説明に対する反論は何ですか?
lmsasu

4
「CLTがサンプル平均に適用されるため、ガウス分布の使用を正当化するためのCLTの使用は一般的な誤りです」という信念自体が誤りです。たとえば、導体内の電子はランダムに動き回っています。各電子の小さな電荷は、導体の端子間で測定できる正味のノイズ電圧(熱ノイズと呼ばれる)に寄与します。各寄与は小さく、多くの電子が存在するため、CLTを介して、ノイズはガウスランダムプロセスとしてモデル化されます。このモデルは、数多くの実験研究で相互検証されています。
ディリップサーワテ

1
この最初の段落は混乱を招き、トピックから外れているようです。CLTを適用するとき、個々の観測値は多くのプロセスの合計/平均であるため、分布はガウス分布であるとよく言われます。最初の段落が削除された場合、これは良い答えだと思います。
rm999

1
@ rm999「最初の段落が削除された場合、これは良い答えになると思います」。実際、最初の段落答えの要点です。残りの部分は、ガウスモデルが分析的にどのように役立つか(OPがすでに理解している方法)を示しているだけで、質問に対しては反応しません。
ディリップサーワテ

@Dilip:(+1)最初のコメントには非常に良い答えの核があります。別の投稿で拡張することを検討してください。
枢機
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.