一部の分布の平均が未定義になるのはなぜですか?


21

多くのPDFの範囲はマイナスからプラスの無限までありますが、いくつかの手段が定義され、いくつかは定義されていません。どのような一般的な特性が計算可能になりますか?



1
この分布は数学的抽象化です。積分が収束しない場合、平均は定義されません。ただし、以下の回答で言及されていないのは、マイナス無限大からプラス無限大のPDFでは実際のデータソースをモデル化できないということです。このようなデータを実際に生成する物理的なプロセスはありません。私の意見では、すべての実際のデータソースは制限されており、平均を近似することができます。
カグダスオズゲンク16

3
@Cagdasその発言は正しいようには見えません。ヘビーテールプロセスがたくさんあります。彼らの異なる期待は、長期平均の極端な変動として現れます。たとえば、Cauchyモデルの説得力のあるアプリケーションについては、stats.stackexchange.com / a / 36037/919にある Douglas Zareの投稿を参照してください。
whuber

2
@CagdasOzgenc:TalebのBlack Swanを読んで、その推論がどれほど間違っているかを確認してください。ヒューリスティックには、未定義の平均または無限平均を持つ分布を完全に生成するプロセスはないかもしれませんが、人々が分布の尾の太さを過小評価し、平均の計算に進む例はたくさんありますが、真の分布にはこれは完全に異なり、通常は右に歪んでいます。この種の不適切な推論は、リスクが多くの規模で過小評価されている金融業界で多くのリスク評価ギャフをもたらしました。
アレックスR.

1
@Cagdas Ozgenc:あなたの引数が間違って参照のことである理由を説明についてはstats.stackexchange.com/questions/94402/...
HalvorsenのはKjetil B

回答:


23

分布の平均は積分の観点から定義されます(連続分布の場合-リーマン積分のように記述します-しかし、問題はより一般的に適用されます.StieltjesまたはLebesgue積分に進んで対処することができますこれらを一度にすべて適切に)

Eバツ=バツfバツdバツ

しかし、それはどういう意味ですか?実質的には略記です

abリムabバツfバツdバツ

または

aリムa0バツfバツdバツ+bリム0bバツfバツdバツ

(ただし、0だけでなくどこでも壊すことができます)

問題は、これらの積分の限界が有限でない場合に発生します。

したがって、たとえば、比例する標準コーシー密度を考えてみてください...11+バツ2

bリム0bバツ1+バツ2dバツ

聞かせて、そう d u = 2 xあなたは=1+バツ2dあなたは=2バツdバツ

=bリム1211+b21あなたはdあなたは

=bリム12lnあなたは|11+b2

=bリム12ln1+b2

有限ではありません。下半分の制限も有限ではありません。したがって、期待は未定義です。

または、ランダム変数として標準コーシーの絶対値がある場合、その期待値全体は、先ほど見た制限に比例します(つまり、)。bリム12ln1+b2

一方、他のいくつかの密度は「無限大」まで続きますが、それらの積分には限界があります。


1
(もちろん)同様の離散確率分布でも同じことがわかります。整数場合、発生するの確率が比例する分布を取ります。確率の合計は有限です(制限1が必要であるため、これも同様です:実際には、定数はまたはそれが何でもなければなりません)が、は意味がありません。一方、比例する確率を選択した場合、平均には合計が関係し、問題ありません。それは収束するのに「十分に小さい」です。n > 0 1nn>0 61n2 16π2 11n 11n31n2
スティーブジェソップ

1
はい、はそのためのスケーリング定数です(合計が1になります)。6π2
Glen_b -Reinstateモニカ

8

他の答えは良いですが、すべての人、特にコーシー分布()を一見して、平均がゼロであること直感的に明らかだと言う人には納得できないかもしれません 。バツ0=0

数学的観点から直感的な答えが正しくない理由は、リーマン再編成定理(ビデオ)によるものです。

コーシーを見て、「ゼロになるはず」という意味は、実質的にゼロで「センター」を分割し、2つのサイズのバランスの瞬間を主張するということです。または、言い換えると、正の項の「半分」(右側の各ポイントでのモーメント)と負の項の「半分」(左側の各ポイントでのモーメント)で暗黙的に無限合計を行い、それを主張しています合計がゼロになります。(技術的には:)0fバツ0+rrdr0fバツ0rrdr=0

リーマン再配置定理によれば、このタイプの無限和(正と負の両方の項を持つもの)は、2つの系列(正の項のみと負の項のみ)がそれぞれ独立して収束する場合にのみ一貫します。両方の側(正と負)がそれ自体で発散している場合、任意の数になるように用語の合計の順序を考え出すことができます。(上のビデオ、6:50から)

そのため、はい、0からバランスの取れた方法で合計を行うと、Cauchy分布の最初の瞬間がキャンセルされます。ただし、平均の(標準)定義では、この合計順序は強制されません。モーメントを任意の順序で合計し、等しく有効にする必要があります。したがって、コーシー分布の平均は定義されていません-モーメントを合計する方法を慎重に選択することにより、実質的に任意の時点でモーメントを「バランス」(または非バランス)にすることができます。

したがって、分布の平均を定義するには、2つのモーメント積分がそれぞれ提案された平均を中心に独立して収束(有限)する必要があります(数学を実行すると、完全積分()は収束する必要があります)。テールが片側のモーメントを無限にするのに十分な「脂肪」であれば、完了です。反対側の無限の瞬間とバランスを取ることはできません。fバツバツdバツ


コーシー分布のようなものの「カウンター直観的」な振る舞いは、無限について考えるときの問題によるものです。コーシー分布を取り、xkcdの数値のプラス/マイナスのように、任意に遠くでも、テールを切り取ります。そして、(再正規化されると)突然、適切に動作し、定義された平均を持つ何かを取得します。問題となっているのは自分自身の太った尾ではなく、無限に近づくときの尾の振る舞いです。


いいね たとえば、2につながる明示的な「合計の順序」を与えることは可能かと思います。
マシュードゥルーリー

@MatthewDrury:p_iとn_iは正と負の数を示します。[n_i、p_i]上の積分が2+(1 / i)で、[n_ {i + 1}、p_i]上の積分が2-(1 / i)になるように、p_iとn_iを連続して見つけます。R、Matlab、または数学を使用して明示的にこれを行うことができますが、用語の数は限られています。
デビッドエプスタイン

7

アブリアル将軍とグレン_bは完璧な答えを持っていました。コーシー分布の平均が存在しない/収束しないことを示す小さなデモを追加したいだけです。

次の実験では、大きなサンプルを取得し、サンプルから経験的平均を計算しても、数値は実験ごとに大きく異なります。

set.seed(0)
par(mfrow=c(1,2))
experiments=rep(1e5,100)
mean_list_cauchy=sapply(experiments, function(n) mean(rcauchy(n)))
mean_list_normal=sapply(experiments, function(n) mean(rnorm(n)))
plot(mean_list_cauchy,ylim=c(-10,10))
plot(mean_list_normal,ylim=c(-10,10))

ここに画像の説明を入力してください

あなたは我々が持っていることを観察できるの実験を、各実験では、我々はサンプル1 × 10 5このような大きなサンプルサイズで、二つの分布からのポイントを、異なる実験間で実験的な平均値はかなり近い真の平均にする必要があります。結果は、コーシー分布には収束平均がありませんが、正規分布にはあることを示しています。1001×105

編集:

チャットで@ mark999が言及したように、実験で使用された2つの分布は同様の「分散」を持っていると主張する必要があります(引用を使用する理由は、コーシー分布の分散も定義されていないためです)。理由は次のとおりです。PDFは似ています。

0

curve(dnorm, -8,8)
curve(dcauchy, -8,8)

ここに画像の説明を入力してください


4
これは、コーシー分布に意味がないことを示しているとは思わない。コーシー分布を適切に大きな分散を持つ正規分布に置き換えた場合、同様の結果が得られます。
mark999

良い点@ mark999、この問題に対処するために回答を編集します。
ハイタオデュ

Cauchy分布のPDFから、おそらく太い尾を見て、意味がないことを理解することは可能ですか?
ks1322

おそらくあなたはこのようなことを念頭に置いていたのでしょうか?stats.stackexchange.com/questions/90531/...
Sycoraxは回復モニカ言う


2

dθ/2πθAS1lengthA/2πうんππππεπ+ε =π+εmod2ππうんππε/2π

円上の分布は回転対称であるため、円上に平均値、中央値または最頻値は存在できません。同様に、分散などの高いモーメントは意味をなしません。この分布は多くの状況で自然に発生します。たとえば、私の現在のプロジェクトには、癌組織の顕微鏡画像が関係しています。画像内の非常に多くのオブジェクトは対称ではなく、それぞれに「方向」を割り当てることができます。明らかな帰無仮説は、これらの方向が均一に分布しているということです。

S1p=01S1バツθpバツバツ=日焼けθ/2dθ/2=dバツ/1+バツ2dθπ1+バツ2

S1{p}ppS1pp=010R


2
コーシー分布には中央値とモードがあります。
jkabrg 16

まったく正しい。少し夢中になりました。しかし、平均値が存在しないという議論は正しいです。答えを編集します。
デビッドエプスタイン

θうんππバツ=日焼けθ/2E[θ]=0

@jkabrg:私は新しい編集は、このより分かり作る願っています
デヴィッド・エプスタイン
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.