(これは、電子メールで私に届いた質問に基づいています。同じ人との以前の短い会話からいくつかのコンテキストを追加しました。)
昨年、ガンマ分布は対数正規分布よりも裾が重いと言われましたが、そうではないと言われました。
どちらが重いですか?
関係を調べるために使用できるリソースは何ですか?
(これは、電子メールで私に届いた質問に基づいています。同じ人との以前の短い会話からいくつかのコンテキストを追加しました。)
昨年、ガンマ分布は対数正規分布よりも裾が重いと言われましたが、そうではないと言われました。
どちらが重いですか?
関係を調べるために使用できるリソースは何ですか?
回答:
分布の(右)テールは、大きな値での動作を示します。研究すべき正しい対象は、その密度ではなく(多くの実際的なケースでは存在しません)、むしろその分布関数です。より具体的には、は大きな引数に対して漸近的に上昇する必要があるため(全確率の法則により)、その漸近線にどれだけ迅速に近づくかに関心があります:生存関数動作を調査する必要があります。F 1 x 1 − F (x )x → ∞
具体的には、ランダム変数 1つの分布は、最終的にがより大きな値でより高い確率を持っているという条件で、別のよりも「重い」。これは、形式化することができる:有限の数が存在しなければならないそのようなすべてのためにその、X Pr F(X > x )= 1 − F (x )> 1 − G (x )= Pr G(X > x )。
この図の赤い曲線は、ポアソン分布の生存関数です。青い曲線は、同じ分散をもつガンマ分布のものです。最終的に、青い曲線は常に赤い曲線を上回り、このガンマ分布はこのポアソン分布よりも裾が重いことを示しています。ポアソン分布には密度がないため、これらの分布を密度を使用して簡単に比較することはできません。(3 )
密度 とが存在し、場合、はよりもが重いことは事実です。ただし、逆は誤りです。これは、密度を使用して尾の分析をより簡単に実行できることが多い場合でも、密度ではなく生存関数に尾の重さの定義の基礎を置く説得力のある理由です。g f (x )> g (x )x > x 0 F G
反例は、正の無制限サポートの離散分布を取得することで構築できますが、これはよりも裾が大きくありません(を離散化するとトリックが実行されます)。確率質量置換することによって連続的な分布にこれを回してその支持点の各々で、書かれた、(例えば)スケーリングされたベータによっての適切な間隔で支持体と分布および重み付けされています。小さな正の数与えられた場合、選択しますG G Hのk個のH (K )(2 、2 )[ K - ε (K )、このスケーリングされたベータ分布のピーク密度がを超えることを保証するのに十分小さい。構造上、混合物は連続分布であり、そのテールはテールのように見えます(一様に少し量だけ低くなっています)が、のサポートでの密度とそれらのすべてのスパイクには、の密度を超えるポイントがあります。したがって、はよりもテールが小さくなりますが、テールのどこに行っても、その密度が密度を超えるポイントがあります。
赤い曲線はガンマ分布 PDFで、金の曲線は対数正規分布 PDFであり、青い曲線(スパイクあり)は反例のように構築された混合 PDFです。(お知らせ対数密度軸)の生存関数近い(急速に減衰するウィグル付き)ガンマ分布のそれにある:それは最終的には以下のものより成長するそのPDFは常にその上にスパイクうとしても、どんなに遠くに我々が見て尾にアウト。F G ' G ' F F
ちなみに、この分析を対数正規分布とガンマ分布の生存関数に対して直接実行し、周りで展開して漸近的な挙動を見つけ、すべての対数正規分布がすべてのガンマよりも重いテールであると結論付けます。しかし、これらの分布は「適切な」密度を持っているため、十分に大きい対数正規密度がガンマ密度を超えることを示すことにより、分析がより簡単に実行されます。ただし、この分析の利便性と太い尾の意味を混同しないでください。のx
同様に、高次モーメントとその変形(歪度や尖度など)は尾について少し言いますが、十分な情報を提供しません。簡単な例として、任意の数のモーメントがほとんど変化しないような大きな値で対数正規分布を切り捨てることができますが、そうすることで、そのテールを完全に削除し、無制限の分布よりもテールを軽くしますサポート(ガンマなど)。
これらの数学的ゆがみに対する公正な反対は、分布モデルがそのような極端な(おそらく物理的に到達不可能な)値で有効であると信じる人は誰もいないため、テールのこれまでの動作には実用的な適用がないことを指摘することです。ただし、アプリケーションでは、テールのどの部分が問題であるかを特定し、それに応じて分析する必要があることを示しています。(たとえば、洪水の再発時間は、この意味で理解できます。10年の洪水、100年の洪水、および1000年の洪水は、洪水分布の尾部の特定のセクションを特徴付けます。)ただし、同じ原則が適用されます。ここでの分析の基本的な目的は、密度ではなく分布関数です。
ガンマと対数正規分布は両方とも右スキュー、変動定数分布であり、特定の種類の現象の「競合」モデルの基礎になっていることがよくあります。
尾の重さを定義するにはさまざまな方法がありますが、この場合、通常の方法はすべて対数正規分布が重いことを示していると思います。(最初の人が話していたのは、遠い尾ではなく、モードの少し右にあることです(たとえば、下の最初のプロットの75パーセンタイル付近、対数正規分布では5未満です)ガンマは5を少し超えています。)
ただし、非常に簡単な方法で質問を始めましょう。
以下は、平均4と分散4のガンマ密度と対数正規密度(上のプロット-ガンマは濃緑色、対数正規は青)、そして密度の対数(下)です。したがって、テールの傾向を比較できます。
すべてのアクションが10の右側にあるため、上のプロットで詳細を確認することは困難です。しかし、ガンマが対数正規分布よりもはるかに速く下降している2番目のプロットでは非常に明確です。
関係を調べる別の方法は、ここでの答えのように、ログの密度を調べることです。対数正規のログの密度は対称的であり(正常です!)、ガンマのログの密度は左斜めで、右側に明るい尾があります。
密度の比を(または比の対数)として見ることができる代数的にそれを行うことができます。してみましょうガンマ密度となる対数正規:G F
[]の項は 2次式ですが、残りの項は線形に減少しています。何であれ、そのは、パラメーター値が何であるかに関係なく、最終的に2次増加よりも速く低下します。の制限では、密度の比の対数はに向かって減少します。これは、ガンマpdfが最終的に対数正規pdfよりもはるかに小さく、相対的に減少し続けることを意味します。比率を逆の方法で(対数法線を上に)取る場合、最終的には限界を超えて増加する必要があります。
つまり、与えられた対数正規分布は、最終的にどのガンマよりも尾が大きくなります。
重さの他の定義:
一部の人々は、右尾の重さを測定するために歪度または尖度に興味があります。特定の変動係数では、対数正規分布はスキューが大きく、尖度がガンマよりも高くなります。**
たとえば、歪度では、ガンマの歪度は2CVで、対数正規分布は3CV + CVです。
尾の重さの様々な尺度の技術的定義がいくつかあります。これらの2つのディストリビューションでそれらのいくつかを試してみたいかもしれません。対数正規は、最初の定義では興味深い特別なケースです。そのモーメントはすべて存在しますが、そのMGFは0を超えて収束せず、ガンマのMGFはゼロ付近の近傍で収束します。
-
**ニックコックスが以下で言及するように、ガンマの正規性に近似する通常の変換であるウィルソン-ヒルファーティ変換は、対数よりも弱く、これは立方根変換です。形状パラメーターの値が小さい場合、代わりにこの回答の説明を参照して4番目のルートが言及されていますが、いずれの場合も、ほぼ正規性を達成するのは弱い変換です。
歪度(または尖度)の比較は、極端なテールで必要な関係を示唆していません-代わりに、平均的な動作について何かを教えてくれます。しかし、そのために、極端な尾について元のポイントが作られていなければ、うまく機能するかもしれません。
リソース:RやMinitab、Matlab、Excelなどのプログラムを使用して、密度やログ密度、密度の比率のログなどを好きなものを使用して、特定の場合の状況を確認できます。それが私が最初に提案することです。
尖度は尾の重さに関連していますが、次の例に示すように、尾は太い尾の分布の概念に寄与し、尾の重さ自体には比較的寄与しません。ここで、上と下の投稿で学んだことを逆説します。これは本当に素晴らしいコメントです。最初に、右尾の面積は密度関数のxからまでの面積、別名生存関数です。対数正規分布の場合およびガンマ分布F (X )1 - F (T )E - (ログ(X )- μ )2βαのxα-1つのE-βX、それぞれの生存関数と比較しましょうグラフィカルに。これを行うには、それぞれの分散およびを任意に設定します、およびそれぞれの過剰な尖度および、を選択することにより等しく、ます。これは示しています
青の対数正規分布(LND)とオレンジのガンマ分布(GD)の生存関数。これにより、最初の注意が必要です。つまり、もしこのプロットだけを調べれば、GDのテールはLNDよりも重いと結論付けることができます。そうではないことは、プロットのx軸の値を拡張することで示されます。したがって、
このプロットは、1)尖度が等しい場合でも、LNDとGDの右テール領域が異なる可能性があることを示しています。2)限られた範囲の固定パラメーター値の結果しか表示できないため、グラフィック解釈だけでも危険があります。したがって、の制限生存関数比の一般式を見つける必要があります。無限級数展開でこれを行うことができませんでした。ただし、一意の関数ではない端末関数または漸近関数の中間体を使用してこれを行うことができました。右端の場合はは、および十分です相互に漸近的であること。これらの関数を見つけるのに適切な注意を払うと、これは、複数の密度関数と共有または共有できる生存関数自体よりも単純な関数のサブセットを識別する可能性があります。たとえば、2つの異なる密度関数が共有する場合があります指数関数的なテールを制限します。この投稿の以前のバージョンでは、これが「生存関数の比較の複雑さの追加」と呼んでいたものです。メモ、そのおよび(偶然であり、必ずしもありませんおよび。つまり、上限を選択する必要はなく、漸近関数を選択するだけです。ここでおよびここで、右側の項の比率はと同じ制限を持ちます。左側の用語として。右手項の利回りの制限比率を簡素化するα<1α>1は、xが十分に大きい場合、LNDテール領域がパラメーター値が何であるかに関係なく、GDテール領域と比較して、私たちが好きな大きさです。これは別の問題を引き起こします。すべてのパラメーター値に当てはまる解決策が常にあるとは限らないため、グラフィックイラストだけを使用すると誤解を招く可能性があります。たとえば、ガンマ分布の右テール領域は、場合は指数分布のテール領域より大きく、場合は指数関数的より小さく、場合はGDは正確に指数分布です。
私たちは明らかに制限比を見つけるために対数を取る必要がないため、生存関数の比の対数を取ることの使用は何ですか?多くの分布関数には、対数をとるとより単純に見える指数項が含まれており、xが増加するにつれて限界で比が無限になれば、対数も同様になります。この場合、。一部の人はこれを見る方が簡単だと思うでしょう。最後に、生存関数の比率がゼロになると、その比率の対数は-∞、すべての場合において、比の対数の極限を見つけた後、その値の対数をとって、生存関数の通常の比の限界値との関係を理解する必要があります。