Cauchy分布に平均がないのはなぜですか?


109

分布密度関数から、下のグラフが示すように、コーシー分布の平均(= 0)を特定できました。しかし、なぜコーシー分布には意味がないと言うのでしょうか?

ここに画像の説明を入力してください


2
参照Cabeza G.、UAをお勧めします。(2013)。La Media de laDistribuciónde Cauchy。コーシー分布の平均についてのブログApoyo enMatemáticas

回答:


99

期待値が存在しないことを機械的に確認できますが、少なくともホイヘンスの原理大数の法則を受け入れる場合、これは物理的に直感的でなければなりません。大数の法則の結論はコーシー分布では失敗するため、平均をとることはできません。独立したコーシー確率変数を平均すると、結果は確率として収束しません。同じサイズのコーシー分布のままです。これは光学において重要です。0 のn 1n0n1

コーシー分布は、点光源からの線上の光の正規化された強度です。ホイヘンスの原理によれば、光源とターゲットの間の任意のラインから光が再放射されると仮定することにより、強度を決定できるとされています。したがって、メートル離れたラインの光の強度は、最初にメートル離れたラインに光が当たり、任意の前方角度で再放射されると仮定して決定できます。メートル離れたライン上の光の強度は、メートル離れたライン上の光の分布の畳み込みとして表すことができます。つまり、独立したコーシー分布の合計は、係数スケーリングされたコーシー分布です。1 n n 1 n n21nn1nn

コーシー分布は、平均値を持っていた場合には、のパーセンタイルで割っ倍畳み込みに収束しなければならない大数の法則によって。代わりに、一定のままです。パーセンタイルをメートル離れた(透明な)線、メートル離れた線などにマークすると、これらのポイントは度の直線を形成します。それらは向かって曲がりません。n n 0 25 1 2 45 025nn02512450

これは特にコーシー分布について説明しますが、明確な物理的解釈を持たない平均のない分布があるため、積分テストを知っておく必要があります。


39
+1今、明確な答えがあります:- )(ごめん)。ちなみに、この原理は、ホイヘンではなく、クリスティアン・ホイゲンにちなんで命名されています。ホイヘンスは、1650年代にパスカルによって(フェルマーとの手紙に基づいて)公表された確率の新しい展開を評価した最初の人物です。足場を作り、ヤコブ・ベルヌーイの独創的な(死後の)論文の道を開いた(Ars Conjectandi、1713)。
whuber

4
強度ではなく、振幅が伝播されます。
ドルコンスタンタン

2
これは素晴らしい答えですが、「... 25番目のパーセンタイルを45度の直線にマークしてください。それらは0に向かって曲がりません。」声明自体は(Huygens-Fresnel原理の結果として)真実ですが、それは「除算される」前です。2メートルで2で除算し、3メートルで3で除算すると、透明な線は垂直になります(光をキャプチャする画面に垂直)。45度の分位線は、Cauchyの合計に属し、引数を(まだ)助けにはなりません。n
リーデイビッドチョンリン

40

Michael Chernicksの回答に対する@whuberのコメントに対する回答として追加された回答(およびwhuberによって指摘されたエラーを削除するために完全に書き直されました。)

Cauchy確率変数の期待値の積分値は、値を好きなように「作成」できるため、未定義と言われています。積分 (リーマン積分の意味で解釈される)は、一般的に呼ばれるものです。不適切な積分とその値は、制限値として計算する必要があります: または

xπ(1+x2)dx
- X
xπ(1+x2)dx=limT1limT2+T1T2xπ(1+x2)dx
xπ(1+x2)dx=limT2+limT1T1T2xπ(1+x2)dx
そして、もちろん、両方の評価で同じ有限値を与える必要があります。そうでない場合、積分は未定義であると言われます。これは、コーシー確率変数の平均が未定義であると言われる理由をすぐに示します。内側の限界の限界値は発散します。

コーシーのプリンシパル値は、単一の制限として取得されます: 上記の二重制限の代わりに。limitandの値はすべてのに対してため、期待積分の主値はであることが簡単にわかります。ただし、これを使用して、コーシー確率変数の平均がであると言うことはできません。つまり、平均は、主値の意味ではなく、通常の意味での積分の値として定義されます。

limTTTxπ(1+x2)dx
00T0

ため、代わりに積分を考える は制限値に近づきます を 。場合は、私たちは、主値を取得上述し。したがって、式に明確な意味を割り当てることはできませんα>0

TαTxπ(1+x2)dx=TTxπ(1+x2)dx+TαTxπ(1+x2)dx=0+ln(1+x2)2π|TαT=12πln(1+α2T21+T2)=12πln(α2+T21+T2)
ln(α)πTα=10
xπ(1+x2)dx
は、2つの無限大へのアプローチ方法を指定せず、この点を無視するとすべてにつながりますプリンシパルバリューのミルクがバリュークリームになりすますと、物事が常に見た目とは限らないため、一種の合併症と不正確な結果です。これが、コーシー確率変数の平均が値(積分の主値)を持つのではなく、未定義であると言われる理由です。0

確率論に対して測定理論的アプローチを使用しており、期待値積分がルベーグ積分の意味で定義されている場合、問題はより単純です。は、場合にのみ存在します は有限であるため、は有限ではないため、はコーシー確率変数に対して未定義です。g|g|E[X]XE[|X|]


9
中間積分の評価は正しくありません。対数ではなくゼロです。問題は、実際には無限積分に含まれる2つの限界を評価することにあります。
whuber

@whuberエラーを指摘してくれてありがとう。回答を完全に書き直したため、コメントは適用されなくなりました。
ディリップサルウェート

比率の期待が存在しない理由がわかりません。場合と共同で、通常と一緒に配布され、ゼロとは異なる意味で、その後の平均値によって与えられる。、私は何が欠けていますか?XYZ=XYxyp(x,y)dxdy
ロイ

@Drazick私は答えのどこにも2つの通常のランダム変数の比率について言及していません。コーシー確率変数に関してこの問題を提起した人に尋ねてください。
ディリップサルワテ

2
@Drazick積分まったく存在するかどうかを調べます。一般に、の密度が近傍で連続している場合、E [X ^ {-1}] $は存在しません。X0
ディリップサルワテ

33

上記の答えは、コーシー分布に期待がない理由の有効な説明ですが、2つの独立した正規変量の比率がコーシーであるという事実を明らかにしています。た および2番目の期待値はです。X1/X2N(0,1)

E[|X1||X2|]=E[|X1|]×E[1|X2|]
+

1
されるが標準のCauchyであることがわかっている場合、「折り畳まれた」Cauchy確率変数ですか?の分布を見つける方法 ?|X1X2|X1X2|X1X2|
StubbornAtom

1
はい、これはコーシー変量の絶対値です。したがって、正の実数に対して密度があります。f(x)+f(x)
西安

正規分布を折り畳む場合、無限ではありませんか?E1/|X2|
アルバートチェン

無限です。
西安

22

選択したポイント(0)は平均ではないため、コーシーには平均がありません。それは、中央値モード。絶対連続分布の平均は、として定義されます。ここで、は密度関数で、積分はの領域(コーシーの場合はからで取得されます。コーシー密度に関しては、この積分は単に有限ではない(から半にあると半分からにするある)。F F - - 0 - 0 xf(x)dxff00


9
私はあなたを批判していません、@ Dilip:あなたの観察を補強しています。非常に興味深いのは、ゼロプリンシパル値の存在により、コーシー分布の平均(または任意のRVの平均)を積分のプリンシパル値として定義しようとする可能性があることです。これは、この質問の性質をより深く掘り下げており、積分が無限または未定義のいずれかであることを宣言することにより、さらに詳しく説明されています。つまり、主な値が機能しないのはなぜですか。どうしてそれを平均として使うのが合法ではないのでしょうか?
whuber

5
@whuberまた、a> 0で-aと+ aで積分を切り捨てると0が得られることも興味深いです。したがって、対称積分の∞に制限としてアプローチすると、0が得られます。 0平均。
マイケルチャーニック

10
@whuber:最後から2番目の発言の最後の質問は修辞的だと思います。とにかく絶対的な収束が必要であり、「頭」の理由は、物事が領域のように振る舞うことです。特に、得られた答えを乱すことなく、物(機能)を細かく切り刻み、自由に並べ替えることができる必要があります。Cauchy分布に対する線形関数のこのチョッピングと再配置はできないため、その平均は存在しないと主張する必要があります。
枢機

9
@cardinalが良い答えです!質問自体が「なぜコーシー分布には意味がないと言うのか」という質問があるので、私は単なる修辞的ではありませんでした。期待が未定義であると断定することは不思議なことを満足させるかもしれませんが、積分の合理的な代替定義が存在する可能性があり、直感的に正しい答えが得られる可能性があります!あなたの答えは私が念頭に置いていたものに近いですが、まだ不完全です。満足のいく答えは、条件付き収束積分で作業するときに失敗する統計理論の重要な定理を特定すると思います。
whuberの

7
@Dilip私もそう思っていましたが、熟考すると、これはあなたが提案しているように見えるよりも少し挑戦的であることがわかります。たとえば、中央極限定理には問題はありません。分散を要求すると、当然、期待値が自動的に保証されます。そして、チェビシェフの不等式を使用して多くの定理が証明されています。ここでも、平均が保証されています。だから私は本当に興味があります:条件付きで収束するが、収束ではない期待の問題を本当に認識しなければならない統計の実践で使用される大きな定理は何ですか?
whuber

16

コーシー分布は、単位円上の均一な分布と最もよく考えられているため、平均化が意味をなすのであれば驚くべきことです。が何らかの「平均化関数」であったと仮定します。つまり、単位円の各有限サブセットについて、が単位円の点であったと仮定します。明らかに、は「不自然」でなければなりません。より正確には、は回転に関して同変ではありません。より一般的ではあるが明らかにされていない形式でコーシー分布を取得するには、単位円を(0,1)からx軸に投影し、この投影を使用して円上の均一分布をx軸に転送します。X f X f ffXf(X)ff

平均が存在しない理由を理解するには、xを単位円上の関数と考えてください。単位円上に無限数の互いに素なアークを見つけるのは非常に簡単です。たとえば、アークの1つが長さdである場合、そのアークのx> 1 / 4dです。したがって、これらの互いに素なアークのそれぞれは平均の1/4以上に寄与し、これらのアークからの合計寄与は無限です。同じことを再び行うことができますが、x <-1 / 4dで、合計の寄与から無限大を差し引いたものです。これらの間隔は図で表示できますが、相互検証用の図を作成できますか?


1
@DavidEpsteinサイトへようこそ。回答フィールドの上にある小さな写真アイコン(ウィザードを起動する)をクリックして、好みのソフトウェアで画像を作成し、回答にアップロードできます。ただし、残念ながら、これを行うには10人以上の担当者が必要です。あなたはすぐにそれを手に入れると確信しています。暫定的に、インターネット上の他の場所に画像を投稿して、回答へのリンクを投稿できる場合、より高い担当者のユーザーが画像を取得して投稿できます。
GUNG

3
私はコーシーが円上のユニフォームとして解釈されることを知りませんでしたが、確かに理にかなっています。トポロジカル引数は、平均化関数の特性を持つ円上に連続関数が存在できないことを示しています。
ジョニー

@DavidEpsteinまた、他の投稿であなたの答えを読みました。ステレオ投影は本当に素晴らしいです。それに比べて、半円の等しく有効な放射投影が、平均が明確に定義されていることを意味しないのはなぜですか?つまり、、次には標準のコーシーです。幾何学的には、これは内接角が常に対応する中心角の半分であるという基本的な事実です。X 日焼け π U - 1UUnif[0,1]Xtan(π(U12))
リーデビッドチョンリン

実際、光源の物理モデルに関しては、ホイヘンスの原理が立体投影を与える理由がすぐには分からないため、半円の写真の方が適切です。
リーデビッドチョンリン

10

ある確率変数の平均値または期待値は、ある確率測度定義されたルベーグ積分です: P E X = X D PXP

EX=XdP

コーシー確率変数の平均が存在しないということは、コーシーrvの積分が存在しないことを意味します。これは、Cauchy分布の裾が重い裾であるためです(正規分布の裾と比較してください)。ただし、期待値の非存在は、コーシー確率変数の他の関数の存在を禁止しません。


5
尾は、積分が収束するのに十分な速さでどちらの方向にも減衰しないという意味で「重い」です。この概念は、正規分布(または参照分布)とは関係ありません。
whuberの

4
はい、この修正をありがとう。太い尾と正規分布の間の厳密な関係を暗示することを意図していません。ただし、正規分布(テールが薄い)とテールがヘビーな分布を視覚的に比較すると(常にではありませんが)「重い」テールの概念を少し簡単に理解できると思います。
トマス

5

ここに視覚的な説明があります。(数学に挑戦している私たちにとって。)コーシー分布の乱数ジェネレーターを使用して、結果の値を平均してみてください。これのための機能に関する良いページがここにあります。 https://math.stackexchange.com/questions/484395/how-to-generate-a-cauchy-random-variable ランダムな値の「スパイク」により、小さい値ではなく大きい値になることがわかります。 。したがって、それは意味がありません。


4

優れた答えに追加するために、積分の非収束が統計的実践に関連する理由についていくつかコメントします。他の人が言及したように、プリンシパル値を「平均」にした場合、slnはもはや有効ではありません。これとは別に、実際には、すべてのモデルが近似であるという事実の意味について考えてください。具体的には、コーシー分布は無制限の確率変数のモデルです。実際には、ランダム変数には境界がありますが、境界はしばしばあいまいで不確実です。制限のないモデルを使用することはそれを軽減する方法であり、不確実な(そしてしばしば不自然な)境界をモデルに導入することを不必要にします。しかし、これが理にかなっているためには、問題の重要な側面に影響を与えるべきではありません。つまり、境界を導入する場合、それは重要な方法でモデルを変更するべきではありません。しかし、積分が非収束の場合、それは起こりません!モデルは、RVの期待がほとんど任意の境界に依存するという意味で不安定です。(アプリケーションでは、必ずしも境界を対称にする理由はありません!)

このため、積分は「無限」であると言うよりも発散的であると言う方が良いです。より徹底的な議論はここにあります


-4

ちょっとうるさくなりたかった。上部のグラフィックが間違っています。x軸は標準偏差にあり、コーシー分布には存在しません。私は仕事で私の毎日のコーシー分布を使用するため、私はうるさいです。混乱が経験的エラーを引き起こす可能性がある実際的なケースがあります。1自由度のスチューデントのt分布が標準のコーシーです。通常、重要性に必要なさまざまなシグマがリストされます。これらのシグマは標準偏差ではなく、推定エラーであり、muがモードです。

上記の図を正しく実行したい場合、x軸は生データであるか、同等のサイズのエラーが必要な場合は、等しい確率のエラーを与えます。可能性のあるエラーの1つは、正規分布でのサイズの.67標準偏差です。どちらの場合も、準四分位範囲です。

さて、あなたの質問への答えについては、誰もが上に書いたすべてが正しいです、そして、それはこの数学的理由です。ただし、あなたは学生であり、このトピックに慣れていないため、視覚的に明らかな反直感的な数学的解決策が当てはまらない可能性があります。

コーシー分布から引き出された2つのほぼ同一の実世界のサンプルがあり、どちらも同じモードと同じ可能性のあるエラーを持っています。1つは平均1.27で、もう1つは平均1.33です。平均値が1.27の標準偏差は400であり、平均値が1.33の標準偏差は5.15です。両方の可能性のあるエラーは.32で、モードは1です。これは、対称データの場合、平均が中央の50%にないことを意味します。任意の検定で平均値および/または分散を有意差外にプッシュするために、追加の観測が1つだけ必要です。その理由は、平均と分散はパラメーターではなく、サンプル平均とサンプル分散はそれ自体が乱数であるためです。

最も簡単な答えは、コーシー分布のパラメーターに平均が含まれていないため、平均に関する分散がないことです。

あなたの過去の教育学では、平均の重要性は、それが通常十分な統計であるということであった可能性があります。長期実行頻度ベースの統計では、コーシー分布には十分な統計がありません。実数全体をサポートするコーシー分布のサンプル中央値が十分な統計量であることは事実ですが、それは順序統計量から継承するためです。それは偶然にも十分なものであり、それについて考える簡単な方法が欠けています。これで、ベイジアン統計にはコーシー分布のパラメーターに十分な統計があり、均一な事前分布を使用する場合も偏りがありません。日常的に使用する必要がある場合は、推定を実行するためのあらゆる方法について学習しているため、これを取り上げます。

切り捨てられたコーシー分布の推定量として使用できる有効な順序統計はありません。これは、現実世界で実行される可能性が高いため、すべてではありませんが、ほとんどの場合、頻度ベースの方法には十分な統計がありません。

私が示唆しているのは、何かを現実のものとして、精神的に、平均から離れることです。これはハンマーのようなツールであり、広く有用であり、通常使用できます。そのツールが機能しない場合があります。

正規分布とコーシー分布に関する数学的なメモ。データが時系列として受信される場合、tが無限大になるにつれて誤差がゼロに収束するときにのみ正規分布が発生します。データが時系列として受信される場合、エラーが無限に発散するとコーシー分布が発生します。1つは収束級数によるもので、もう1つは発散級数によるものです。コーシー分布は制限の特定のポイントに到達することはなく、固定ポイントを前後にスイングするため、時間の50%が一方の側にあり、時間の50%が他方の側にあります。復帰の中央値はありません。


9
この応答には混乱があります!たとえば、「ベイジアン統計では、コーシー分布のパラメーターに十分な統計があり、前もってユニフォームを使用している場合はバイアスもかかりません。」と表示されます。これを理解するのは難しいです!第一に、充足性の頻度主義者とベイジアンの概念は非常に近い(そして、奇妙な無限次元のサンプル空間でのみ異なることができると思うので、実際の線は同じです)。固定次元のコーシーモデルに十分な統計はありません!、単に(完全なデータで十分です)。
kjetil bハルヴォルセン

-6

簡単に言えば、ズームアウトすると曲線の下の領域は無限に近づきます。有限領域をサンプリングすると、その領域の平均を見つけることができます。ただし、無限大の意味はありません。


8
定義では、PDFの下の領域はに等しいため、「曲線」で何か別の意味を持たなければなりません。それは何ですか?1
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.