コーシー分布はどういうわけか「予測不可能な」分布ですか?


14

コーシー分布はどういうわけか「予測不可能な」分布ですか?

やってみた

cs <- function(n) {
  return(rcauchy(n,0,1))
}

Rで多数のn値を取得し、時折非常に予測不可能な値を生成することに気付きました。

例と比較してください

as <- function(n) {
  return(rnorm(n,0,1))
}

常に「コンパクトな」ポイントクラウドが得られるようです。

この写真では、正規分布のように見えるはずですか?ただし、値のサブセットに対してのみ有効な場合があります。または、おそらく、コーシーの標準偏差(下の写真)がはるかにゆっくり(左右に)収束するため、低い確率ではあるが、より深刻な外れ値が許容されるのでしょうか?

https://i.stack.imgur.com/zGTLU.png

ここで通常のrvとcsはコーシーrvです。

ここに画像の説明を入力してください

しかし、外れ値の極値によって、Cauchy pdfのテールが収束しない可能性はありますか?


9
1.あなたの質問は曖昧/不明瞭なので、答えるのは難しいです。例えば、あなたの質問で「予測不能」とはどういう意味ですか?「コーシー標準偏差」と終わり近くの収束とはどういう意味ですか?どこでも標準偏差を計算していないようです。何の標準偏差、正確に?2.サイト上の多くの投稿では、質問に集中するのに役立つ可能性があるコーシーの特性について説明しています。ウィキペディアをチェックする価値もあります。3.「ベル形」という用語を避けることをお勧めします。どちらの密度もおおまかにベルのような形をしています。それらを名前で呼ぶだけです。
Glen_b-モニカの復活

4
確かにコーシーは非常に重い尾です。
Glen_b-モニカを

1
いくつかの事実を掲載しました。うまくいけば、あなたがあなたが知りたいことを理解し、あなたの質問を洗練できるようになるでしょう。
Glen_b-モニカを

1
編集内容を見ると、「Cauchy pdfのテールが収束しない可能性はありますか」と言うときの意味がわかりません。確かに、密度はとして0 になり、生存関数もとして0になります。意味を明確にしていただけますか?|バツ|バツ
Glen_b

2
正常値では大きな異常値が発生する可能性がありますが、非常にまれです。コーシーよりもはるかに迅速に0 向かって正常な頭部の密度(および、少なくとも特定のサイズの外れ値に関連する、特に生存関数)-しかし、両方の密度(および両方の生存関数) 0に近づくと、どちらにも到達しません。
Glen_b-モニカを

回答:


39

サイト上の多くの投稿はコーシーのさまざまな特性を扱っていますが、実際にそれらを一緒に配置したものを見つけることができませんでした。うまくいけば、これはいくつかを収集するのに良い場所かもしれません。これを拡張することがあります。

重い尾

コーシーは対称で、ほぼ正規分布のベルの形をしているが、尾がずっと重い(そして「肩」が少ない)。たとえば、Cauchy確率変数が中央値から1000を超える四分位範囲を置く可能性はわずかですが明確です-中央値から少なくとも2.67四分位範囲である通常のランダム変数とほぼ同じオーダーです。

分散

コーシーの分散は無限です。

編集:JGはコメントで、未定義だと言っています。分散を値のペア間の距離の2乗の半分の平均としてとると、両方が存在する場合の分散と同じになり、無限になります。ただし、通常の定義ではJGは正しいです。[それにもかかわらず、nが大きくなると実際には何にも収束しないサンプル手段とは対照的に、サンプルのサイズが大きくなると、サンプルの分散のサイズは大きくなり続けます。スケールはnに比例して増加します。つまり、対数分散の分布はサンプルサイズに比例して増加します。無限大をもたらす分散のバージョンが私たちに何かを伝えていると実際に考えることは生産的だと思われます。]

サンプルの標準偏差はもちろん存在しますが、サンプルが大きいほど大きくなる傾向があります(たとえば、n = 10でのサンプル標準偏差の中央値はスケールパラメーターの3.67倍(IQRの半分)ですが、n = 100は約11.9です)。

平均

コーシー分布には有限平均さえありません。平均の積分は収束しません。その結果、大きな数の法則も適用されません。nが大きくなると、サンプル手段は一定量に収束しません(実際、収束するものは何もありません)。

実際、コーシー分布からのサンプル平均の分布は、単一の観測値の分布と同じです(!)。テールは非常に重いため、合計にさらに値を追加すると、平均を取るときに大きな分母で除算するだけで十分に補正できるほど極端な値になります。

予測可能性

コーシー分布からの観測値に対して、完全に賢明な予測区間を確実に生成できます。位置とスケールの推定に適したシンプルでかなり効率的な推定器があり、おおよその予測間隔を構築できます。その意味で、少なくともコーシー変量は「予測可能」です。ただし、テールは非常に遠くまで延びているため、高確率の間隔が必要な場合は、かなり幅が広い場合があります。

分布の中心を予測しようとしている場合(回帰型モデルなど)、ある意味では比較的簡単に予測できます。コーシーは非常にピークに達しているため(典型的な尺度では中心に「近い」分布が多くあります)、適切な推定量があれば中心は比較的よく推定できます。

以下に例を示します。

標準のコーシー誤差(100観測値、切片= 3、勾配= 1.5)と線形関係からデータを生成し、y外れ値に対して適度にロバストな3つの方法で回帰線を推定しました:Tukey 3グループライン(赤)、Theil回帰(濃緑色)およびL1回帰(青)。コーシーでは特に効率的なものはありませんが、より効率的なアプローチのための優れた出発点となります。

それにもかかわらず、3つはデータのノイズと比較してほぼ一致しており、データが実行される場所の中心に非常に近い位置にあります。その意味で、コーシーは明らかに「予測可能」です。

絶対残差の中央値は、どのラインでも1よりわずかに大きいだけです(ほとんどのデータは推定ラインに非常に近くあります)。その意味でも、コーシーは「予測可能」です。

コーシー誤差と3つの近似回帰線との線形関係

左側のプロットには、大きな外れ値があります。データをよりよく見るために、y軸のスケールを右側に絞り込みました。


1
重い尾と無限大の分散は関連していますよね?
mavavilj

もちろん。未定義の平均は、太い尾にも関連しています。
Glen_b-モニカを

「位置とスケールの推定に優れたパフォーマンスを発揮するシンプルでかなり効率的な推定器があり、おおよその予測間隔を構築できます」-参照を提供できますか?
カルロスチネリ

コメントは詳細なディスカッション用ではありません。この会話はチャットに移動さました
GUNG -復活モニカ

@Carlosここには2つの異なる問題があります-(i)場所(適切にトリミングされた平均など)とCauchyのスケールの単純でかなり効率的な推定量、および(ii)Cauchyで機能する予測区間を構築する方法。前者はすでにサイトで取り上げられており、後者は独自の質問に値すると思います。
Glen_b

1

μσnμ±σμ±636.62σ

σ

コーシー分布は、特に成長がある場合は特に、かなり自然に見えます。また、岩が丘を転がるなど、物事が回転する場所にも表示されます。オークションで売られたアンティークのようなもののリターンではなく、株式市場のリターンの分布のmixtureい混合物のコア分布としてそれを見つけるでしょう。骨on品の返品も平均または分散のない分布に属しますが、コーシー分布には属しません。違いは、オークションのルールの違いによって作成されます。NYSEのルールを変更すると、Cauchy分布が消え、別の分布が表示されます。

なぜそれが通常存在するのかを理解するために、非常に大きな一連の入札者と潜在的な入札者の入札者であったと想像してください。株式はダブルオークションで販売されるため、勝者の呪いは適用されません。平衡状態では、合理的な行動は期待値を入札することです。期待は平均の形式です。平均推定値の分布は、サンプルサイズが無限大になるにつれて正規性に収束します。

rt=pt+1pt

これにより、株式市場が正規分布または対数正規分布を持つべきだと考える場合、株式市場は非常に不安定になりますが、重いテールが予想される場合、予想外に不安定ではありません。

コーシー分布のベイジアンおよび頻度分布の予測分布を構築し、それらがうまく機能するという仮定を与えました。ベイジアン予測は、特定のデータセットについて、カルバック・ライブラーの発散を最小限に抑えます。つまり、予測で自然に近づくことができるのと同じです。Frequentistの予測は、多くの独立したサンプルからの多くの独立した予測にわたって、平均の Kullback-Leibler発散を最小化します。ただし、平均的なカバレッジで期待される1つのサンプルでは、​​必ずしもうまく機能するとは限りません。尾は収束しますが、ゆっくり収束します。

多変量コーシーには、さらに動揺させる特性があります。たとえば、平均がないため明らかに変化することはありませんが、共分散行列に似たものはありません。システムで他に何も起きていない場合、コーシー誤差は常に球面です。さらに、共変するものはありませんが、独立しているものもありません。実用的な意味でそれがどれほど重要であるかを理解するために、成長していると同時に相互に貿易している2つの国を想像してください。一方のエラーは、もう一方のエラーから独立していません。私の間違いはあなたの間違いに影響します。ある国が狂人に乗っ取られた場合、その狂人の過ちは至る所で感じられます。一方、共分散行列で予想されるような効果は線形ではないため、他の国は影響を最小限に抑えるために関係を切断できます。

これはまた、トランプの貿易戦争を非常に危険にするものです。欧州連合が他のすべての単一経済に対する貿易を通じて経済戦争を宣言した後、世界で2番目に大きい経済は、戦争を宣言した国からそれと戦うためにお金を借りることによってその戦争に資金を供給しています。これらの依存関係が強制的に解消されると、誰も記憶に残っていないようなugいものになります。イングランド銀行が大西洋貿易を禁輸したジャクソン政権以降、同様の問題は発生していませんでした。

コーシー分布は、指数関数的およびSカーブの成長システムに現れるため、魅力的です。彼らは日々の生活が平均を持ち、通常は分散している密度で満たされているため、人々を混乱させます。間違った教訓が学習されるため、意思決定が非常に難しくなります。


この回答では、数学的なプロパティを実際の動作にマッピングする大胆な方法が気に入っています。しかし、(両側の)切り捨てられたコーシーのモーメントはすべて有限であることに言及してはなりませんか?
アレコスパパドプロス

左側のみが切り捨てられます。名目上の惑星予算の制約は右側では確率論的であり、金融​​システムはシステムを保存していないため、右側では無限です。
デイブ・ハリス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.