正規分布と単調変換


9

自然界で発生する量の多くは正規分布していると聞いています。これは通常、中心極限定理を使用して正当化されます。これは、多数のiid確率変数を平均化すると正規分布になることを示しています。したがって、たとえば、遺伝子値はiid確率変数のように振る舞う可能性があるため、多数の遺伝子の相加効果によって決定される特性は、ほぼ正規分布する可能性があります。

ここで私を混乱させるのは、正規分布であるという特性は、単調変換では明らかに不変ではないということです。したがって、単調変換に関連するものを測定する方法が2つある場合、両方が正規分布している可能性は低いです(単調変換が線形でない限り)。たとえば、雨滴のサイズを直径、表面積、または体積で測定できます。すべての雨滴について同様の形状を想定すると、表面積は直径の2乗に比例し、体積は直径の3乗に比例します。したがって、これらすべての測定方法を正規分布させることはできません。

したがって、私の質問は、分布が正規になる特定のスケーリング方法(つまり、単調変換の特定の選択)が物理的な意味を持つ必要があるかどうかです。たとえば、高さは正規分布か、高さの2乗か、高さの対数か、高さの平方根か?高さに影響を与えるプロセスを理解することによってその質問に答える方法はありますか?


私がいつも理解しているように、中心極限定理は、多数のiid確率変数の平均化について何かを仮定するものではありません。むしろ、それは、平均値をサンプリングするとき、平均値の分布が(サンプリング元の分布に関係なく)正規になることを述べています。だから私はあなたの質問の前例が成り立つかどうか質問します。
Henrik

ただし、基になる分布の分布に関係なくサンプリング平均が正規になる場合は、「多数のiid確率変数を平均化する」と言うのと同じではなく、正規分布になります。私にはそれらは同等の声明のようです。

私の目にはありません(しかし、私はそうでなければ確信があります)。1つのケース(CLTが意味するものと私が考えるもの)では、1つの分布からサンプルを描画します。それらの平均は正規分布です。「多数のiidランダム変数を平均化する」という質問と引用から私が理解することは、sthで異なります。異なるiidランダム変数からの個々のインスタンス化は、特性を決定(または構成)します。したがって、単一の分布からの平均化(つまり、平均の計算)は行われず、CLTの適用は行われません。mbqの答えは同じ問題を指していると思います。
Henrik

1
まあ、いくつかの条件が満たされている場合、分布は同一である必要はありません。参照:en.wikipedia.org/wiki/...

1
@Henrik N個の独立して同一に分布した RVのそれぞれからの単一のサンプルと、単一のRVのN個の独立した測定値との間に意味のある違いはありますか?
walkytalky 2010

回答:


5

非常に良い質問です。答えは、問題の測定を生じさせる根本的なプロセスを特定できるかどうかにかかっていると思います。たとえば、高さがいくつかの要素(たとえば、親の高さ、祖父母の高さなど)の線形結合であるという証拠がある場合、高さは正規分布であると想定するのが自然です。一方、高さの対数がいくつかの変数(たとえば、親の対数の高さ、祖父母の高さの対数など)の線形結合であるという証拠またはおそらく理論さえあれば、高さの対数は正規分布します。

ほとんどの場合、関心のある測定を駆動する基本的なプロセスはわかりません。したがって、次のいずれかを実行できます。

(a)高さの経験的分布が正常に見える場合は、通常の密度を使用して、高さをいくつかの変数の線形結合であると暗黙的に仮定するさらなる分析を行います。

(b)経験的分布が正常に見えない場合は、mbqで提案されている変換を試すことができます(log(height)など)。この場合、変換された変数(つまり、log(height))はいくつかの変数の線形結合であると暗黙的に仮定します。

(c)(a)または(b)が役に立たない場合は、CLTと正規性の仮定によって得られる利点を放棄し、他の分布を使用して変数をモデル化する必要があります。


5

特定の変数の再スケーリングは、可能な場合、結果のモデルを解釈可能にするのに役立つという理由で、いくつかの包括的なスケールに関連している必要があります。ただし、結果として生じる変換は、物理的に重要である必要はありません。基本的に、正規性の仮定の違反とモデルの解釈可能性との間のトレードオフを行う必要があります。これらの状況で私がやりたいのは、元のデータ、意味のある方法で変換されたデータ、および最も正常な方法で変換されたデータを用意することです。意味のある方法で変換されたデータが、最も正常な方法で変換された結果と同じ場合、最適に変換された(または変換されていない)データの場合も結果は同じであるという副次的な注釈を付けて解釈可能な方法で報告します。変換されていないデータの動作が特に悪い場合、変換されたデータを使用して分析を行いますが、変換されていない単位で結果を報告するように最善を尽くします。

また、「自然界に存在する量は正規分布している」という発言に誤解があると思います。これは、値が「多数の独立した要因の相加効果によって決定される」場合にのみ当てはまります。つまり、平均と合計は、個々の値が正規分布することは期待されていないため、それらの基になる分布に関係なく正規分布します。例のように、二項分布からの個々の描画はすべての正規を調べませんが、二項分布からの30描画の合計の分布はかなり正常に見えます。


5

私はあなたの質問を本当に理解していません。

  • これは、ガウシアンの動作が「多数のiid確率変数の平均」に由来するという事実を示していないため、雨滴の例はあまり満足できません。

  • 関心のある数量が平均であり、その平均値がガウスの方法で変動する場合、にはガウス動作があります。Y 1 + + Y NX fY1++fYNY1++YNNf(Y1)++f(YN)N

  • その平均の周りのの変動がほぼガウスで小さければ、その平均の周りの変動も(テイラー展開による)f X Xf(X)

  • 平均化による(実際の)ガウス動作の真の例をいくつか挙げてください。これはあまり一般的ではありません。ガウスの動作は、計算が非常に扱いやすいため、統計で最初の大まかな近似としてよく使用されます。物理学者は調和近似を使用するので、統計学者はガウス近似を使用します。


最大エントロピー原理は、ガウス分布が使用されるもう1つの理由でもあります。たとえば、扱いやすさを除いて、線形モデルでガウス誤差を使用する適切な理由は何ですか?
Alekk、2010

5

Vipul、あなたの質問は完全に正確ではありません。

これは通常、中心極限定理を使用して正当化されます。これは、多数のiid確率変数を平均化すると正規分布になることを示しています。

これがあなたの言っていることは完全にはわかりませんが、例の雨滴はiidランダム変数ではないことに注意してください。これらの雨滴をいくつかサンプリングして計算された平均は確率変数であり、平均は十分に大きなサンプルサイズを使用して計算されるため、そのサンプル平均の分布は正規です。

多数の法則は、その標本平均の値が母集団の平均値に収束することを示しています(収束のタイプに応じて強いまたは弱い)。

CLTは、標本平均はXM(n)と呼ばれ、確率変数であり、G(n)のような分布を持っていると言います。nが無限に近づくと、その分布は正規分布になります。CLTは、基本的な概念ではなく、ディストリビューションの収束に関するすべてです。

描画する観測(直径、面積、体積)は、まったく正常である必要はありません。あなたがそれらをプロットした場合、それらはおそらくないでしょう。ただし、3つすべての観測値を取得することによる標本平均には正規分布があります。また、体積は直径の3乗ではなく、面積は直径の2乗ではありません。奇妙なことにラッキーにならない限り、和の二乗は二乗の和にはなりません。


4

単にCLT(または他の定理)は、宇宙のすべての量が正規分布しているとは述べていません。実際、統計学者はしばしば単調変換を使用して正規性を改善しているため、お気に入りのツールを使用できます。


4

正規分布の使用統計家の作成(の半分)を誤解していると思いますが、私はあなたの質問が本当に好きです。

私は体系的に正規性を仮定することは良い考えではないと思いますし、検証なしで(正規分布が扱いやすく、単峰性であるためか)いつか行われたことを認めます。したがって、単調マップについてのあなたの発言は素晴らしいです!

ただし、正規性の強力な使用法は、期待値の経験的カウンターパートを適用したときに表示されるもの、つまり経験的平均などの新しい統計を自分で作成するときに得られます。したがって、経験的平均と、より一般的には平滑化は、正規性がどこにでも現れるようにするものです...


2

確率変数とその多くの変換はどちらもほぼ正常です。実際、分散が平均と比較して小さい場合、非常に多種多様な変換がかなり正常に見える可能性があります。

> a<-rgamma(10000,1000,1000)
> hist(a)
> hist(1/a)
> hist(a^2)
> hist(a^(3/2))

ほぼ正常を示す4つのヒストグラム

クリックして拡大版を表示

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.