サイト上の多くの投稿はコーシーのさまざまな特性を扱っていますが、実際にそれらを一緒に配置したものを見つけることができませんでした。うまくいけば、これはいくつかを収集するのに良い場所かもしれません。これを拡張することがあります。
重い尾
コーシーは対称で、ほぼ正規分布のベルの形をしているが、尾がずっと重い(そして「肩」が少ない)。たとえば、Cauchy確率変数が中央値から1000を超える四分位範囲を置く可能性はわずかですが明確です-中央値から少なくとも2.67四分位範囲である通常のランダム変数とほぼ同じオーダーです。
分散
コーシーの分散は無限です。
編集:JGはコメントで、未定義だと言っています。分散を値のペア間の距離の2乗の半分の平均としてとると、両方が存在する場合の分散と同じになり、無限になります。ただし、通常の定義ではJGは正しいです。[それにもかかわらず、nが大きくなると実際には何にも収束しないサンプル手段とは対照的に、サンプルのサイズが大きくなると、サンプルの分散のサイズは大きくなり続けます。スケールはnに比例して増加します。つまり、対数分散の分布はサンプルサイズに比例して増加します。無限大をもたらす分散のバージョンが私たちに何かを伝えていると実際に考えることは生産的だと思われます。]
サンプルの標準偏差はもちろん存在しますが、サンプルが大きいほど大きくなる傾向があります(たとえば、n = 10でのサンプル標準偏差の中央値はスケールパラメーターの3.67倍(IQRの半分)ですが、n = 100は約11.9です)。
平均
コーシー分布には有限平均さえありません。平均の積分は収束しません。その結果、大きな数の法則も適用されません。nが大きくなると、サンプル手段は一定量に収束しません(実際、収束するものは何もありません)。
実際、コーシー分布からのサンプル平均の分布は、単一の観測値の分布と同じです(!)。テールは非常に重いため、合計にさらに値を追加すると、平均を取るときに大きな分母で除算するだけで十分に補正できるほど極端な値になります。
予測可能性
コーシー分布からの観測値に対して、完全に賢明な予測区間を確実に生成できます。位置とスケールの推定に適したシンプルでかなり効率的な推定器があり、おおよその予測間隔を構築できます。その意味で、少なくともコーシー変量は「予測可能」です。ただし、テールは非常に遠くまで延びているため、高確率の間隔が必要な場合は、かなり幅が広い場合があります。
分布の中心を予測しようとしている場合(回帰型モデルなど)、ある意味では比較的簡単に予測できます。コーシーは非常にピークに達しているため(典型的な尺度では中心に「近い」分布が多くあります)、適切な推定量があれば中心は比較的よく推定できます。
以下に例を示します。
標準のコーシー誤差(100観測値、切片= 3、勾配= 1.5)と線形関係からデータを生成し、y外れ値に対して適度にロバストな3つの方法で回帰線を推定しました:Tukey 3グループライン(赤)、Theil回帰(濃緑色)およびL1回帰(青)。コーシーでは特に効率的なものはありませんが、より効率的なアプローチのための優れた出発点となります。
それにもかかわらず、3つはデータのノイズと比較してほぼ一致しており、データが実行される場所の中心に非常に近い位置にあります。その意味で、コーシーは明らかに「予測可能」です。
絶対残差の中央値は、どのラインでも1よりわずかに大きいだけです(ほとんどのデータは推定ラインに非常に近くあります)。その意味でも、コーシーは「予測可能」です。
左側のプロットには、大きな外れ値があります。データをよりよく見るために、y軸のスケールを右側に絞り込みました。