分散は、(分散の尺度として)正規分布データでのみ機能しますか?


7

ウィキペディアで言う

中心極限定理における正規分布の役割は、確率と統計の分散の有病率の一部です。

これは、
分散/ SDを分散の尺度として使用する場合、ランダム確率変数がCLTの正規分布にほぼ従う可能性があるため、実際には正規分布の「スケーリングパラメーター」を探していると理解しています。

データが正常に分布していない場合でも、分散/ SDは依然として妥当な分散の尺度ですか?

データが均一に分布しているとしましょう。平均絶対偏差は、分散よりも分散のより良い尺度のように思われます。均一分布の「スケーリングパラメータ」と見なすことができるからです。


更新
つまり、サンプルの2つのセットが{1,1,1,-1,-1,-1}あり、もう1つは正規分布から、それらの分散は両方とも1であるとします。メジャーとして分散を使用する場合。N(0,1)

しかし、ガウシアンが分布パラメーターを計算し、「そう、それらは分散に関して等しい」と言うように、私たちはそれらの両方を強制的に扱っているように感じます。


1
タイトルの「仕事」はどういう意味ですか?何をしているの?人口分散、または何か他のものを推定する際に?測定方法は?最後の段落で「より良い」という言葉をどのように意図していますか?正確には何がいいの?一般的な連続均一分布での分散の低分散推定後であれば、平均絶対偏差を使用せず、範囲の関数を使用します。
Glen_b-モニカを復活させる

@Glen_b私は多分、分散/偏差/不一致の尺度として機能するのかわかりません。SDを使用した均一分布のスケールが、SDを使用した均一分布のスケールの2倍ではないという意味でより良いかもしれません。、平均絶対偏差は単に範囲の関数ではありませんか?σ0.5σ
dontloo 16

ユニフォームの場合、母平均絶対偏差と母標準偏差はどちらも母集団範囲の関数です(逆も同様です。それらのいずれかを知っている場合は、他のすべてを知っています)が、サンプル平均絶対偏差、サンプルsdそして、サンプル範囲はそれらを推定するのと同じように良いわけではありません。たとえば、「作業」/「良さ」の測定値が推定量の分散である場合、少なくとも大きなサンプルでは、​​サンプル範囲の倍数が3つすべてを推定する最良の方法です。しかし、何が「良い」かについての基準が変更された場合、他の何かがより良くなるかもしれません。
Glen_b-2016

1
@Glen_b返信に感謝します。「分散とは、定義されたものであり、必ずしも特定の分布とは関係がない」ということを意味します。分散、それは非ガウス(または同様の)分布に最適な選択ではないようです。
dontloo

1
ガウス分布とその変換(スチューデントのt分布など)が最初の強い露出であるため、標準偏差と分散をガウスにリンクしている可能性があります。鼻は動物の特徴なので、分散を特徴と考える方がよいでしょう。鼻がない場合は、木である可能性があります。高さが特徴です。木は少なくとも若ければ5フィートの高さになり、人間は5フィートの高さになりえます。これは分布の記述子ですが、分布の唯一の記述子ではありません。
Dave Harris

回答:


6

あなたの質問は少し曖昧ですが、正規分布との関連があるため、分散は使用されません。ほとんどの分布には、少なくとも平均と分散があります。一部には差異がありません。一部には差異がある場合とない場合があります。一部には平均がないため、差異がありません。

ちょうどあなたの側の精神的な明確化のために、分布に平均がある場合はが、そうでない場合はです。つまり、それはどこにも引き付けられず、どの計算も実数線の周りを浮動するだけです。それは何も意味しません。標準偏差がない分布の標準偏差を計算する場合も同様です。意味がありません。x¯μ,x¯nothing

分散は分布のプロパティです。それは問題をスケールするために使用できるという点であなたは正しいですが、それはそれより深いです。一部の理論的フレームワークでは、それは私たちの無知、より正確には不確実性の尺度です。他の場合には、それは結果にどれくらいの効果のチャンスがあるかを測定します。

分散は分散の概念化ですが、不完全な概念化です。スキューと尖度はどちらも、問題で分散がどのように機能するかをさらに説明します。

思考の帰無仮説フレームワークの多くの問題について、中心極限定理は問題の議論をより簡単にするので、非常に明確に定義された分布特性を持つ正規分布と、標準偏差。ただし、これは複雑な問題よりも単純な問題に当てはまります。これは、帰無仮説を使用せず、推定量のサンプリング分布に依存しないベイズ法にも当てはまりません。

平均絶対偏差は、パラメーターのない方法や分布のない方法では価値のあるツールですが、均一な分布の場合はあまり役立ちません。実際に有界の均一分布があった場合、平均と分散は既知です。

あなたが思っているほど単純ではないかもしれない均一分布問題を挙げましょう。新しい敵の戦車が戦場に現れたと考えてください。あなたは彼らがいくつ持っているか、ましてや彼らが存在していたことは知りません。タンクの総数を見積もるとします。

戦車はエンジンにシリアル番号が付いているか、誰かがこれを理解する前に使用されていました。いずれかの特定のシリアル番号を捕捉する確率はタンクの合計です。もちろん、あなたは知らないので、これは興味深い問題です。Nを知る必要があります。キャプチャされたシリアル番号の分布のみを確認でき、キャプチャされた最大の番号が最後に製造されたタンクでもあるかどうかはわかりません。おそらくそうではありません。1/NNN

その場合、標準偏差は悪い推定値であるという直感にもかかわらず、平均と標準偏差は、問題を解決するための最も強力なツールを提供します。

それが特定の問題の悪い推定値であることは事実ですが、ケースバイケースでそれらを学ぶ必要があります。

統計ツールは、ニーズ、数学のルール、実際のコストと制限と問題の要求との間のトレードオフに基づいて選択されます。それが分散である場合もありますが、そうでない場合もあります。最善の方法は、ルールが設計どおりに設計されている理由を学ぶことです。これは、ここに投稿するには長すぎます。

私は、ノンパラメトリック統計についての優れた実務家向けの本をお勧めします。また、微積分があった場合、ベイジアン手法についての優れた入門実践者向けの本をお勧めします。


1
歴史、戦車、統計の両方が好きな場合のドイツ戦車問題に関連:en.wikipedia.org/wiki/German_tank_problem
Beyer

回答をありがとうございました。ドイツのタンク問題でサンプルのSDがどのように役立つか、私はまったく従いませんでしたか?見積もりの​​SDの使用のみが表示されます(上記のリンクから)。
dontloo 16

4
  1. 最初に、分布の変動性の測定(標準偏差、平均偏差、または範囲など)と、サンプルからその測定を推定するための最良の方法の違いを明確にする必要があります。たとえば、分布が均一である場合、平均からの母平均偏差の最適なサンプル推定値はサンプル平均偏差ではありません-実際には、範囲の一部がはるかに優れています。

    (もちろん、どのディストリビューションを扱っているのか本当にわからない場合は、そのような考慮事項はあまり役に立ちません。)

  2. では、なぜ分散によって母集団の変動性を測定するのでしょうか。

    分散(およびそれを通じて、標準偏差)には、他の可変性の測定値とは共有されない非常に特殊な特性があります。これは、変数の合計(およびより一般的には線形結合)の分散の非常に単純な形式です。

    あなたが独立しているとき、単純な形はさらにずっと単純になります。

    特に、独立性の下では、あり、そのため、標準偏差も非常に単純な形式です。非独立のケースはそれほど複雑ではありません。Var(X+Y)=Var(X)+Var(Y)

    その他の変動性の測定には、このような単純な特性はありません。

    これにより、分散(および標準偏差)は、分布の変動性を測定するための非常に魅力的な方法になります。

  3. 2番目の理由は、平均(通常、自然な位置測定と見なされます)が二乗誤差損失関数を最小化する位置であることです。最小化すると、分散が得られます。多くの人々は、二乗誤差損失関数を自然または有用であると見なしています。その場合、分散は、変化の自然な尺度になります。


しかし、私は常に2乗誤差損失の統計的意味を理解してきましたが、これもガウスノイズ仮定の下で対数尤度を最大化するものであり、これもCLTから導き出されます。
dontloo

それで、分散の有病率は主にその数学的な都合によるものですか?
dontloo 16

1
@dontlooそのように語られた疑問に答えるには推測が必要になるため、扱いやすさが分散を使用する理由です。私に十分な証拠がない請求をするように要求しています(複数の理由があります- 現状維持のバイアスの程度など、記載していないものを含みますが、1つを主要なものとして主張するためです)原因は私が持っていない証拠を必要とするでしょう)。上記の理由2と3は有病率の強力な理由であり、間違いなく十分な理由であると思います。
Glen_b-2016
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.