どちらが重い尾、対数正規またはガンマを持っていますか?


41

(これは、電子メールで私に届いた質問に基づいています。同じ人との以前の短い会話からいくつかのコンテキストを追加しました。)

昨年、ガンマ分布は対数正規分布よりも裾が重いと言われましたが、そうではないと言われました。

  • どちら重いですか?

  • 関係を調べるために使用できるリソースは何ですか?


3
ただ投票した人に:質問で認識されている問題が何であるかを知ることは有用でしょう。
Glen_b

1
私ではなかった、私はずっと前に支持した。ただし、外れ値が存在する場合のt検定仮定のコンテキストにおける重度対尖度の有用性に関するものであると思われます。ダウン投票は、私見では、問題があります。
カール

回答:


41

分布の(右)テールは、大きな値での動作を示します。研究すべき正しい対象は、その密度ではなく(多くの実際的なケースでは存在しません)、むしろその分布関数です。より具体的には、は大きな引数に対して漸近的に上昇する必要があるため(全確率の法則により)、その漸近線にどれだけ迅速に近づくかに関心があります:生存関数動作を調査する必要がありますF 1 x 1 F x x FF1x 1F(x)x

具体的には、ランダム変数 1つの分布は、最終的にがより大きな値でより高い確率を持っているという条件で、別のよりも「重い」。これは、形式化することができる:有限の数が存在しなければならないそのようなすべてのためにその、X Pr FX > x = 1 F x > 1 G x = Pr GX > x FXG FGx0x>x0

PrF(X>x)=1F(x)>1G(x)=PrG(X>x).

図

この図の赤い曲線は、ポアソン分布の生存関数です。青い曲線は、同じ分散をもつガンマ分布のものです。最終的に、青い曲線は常に赤い曲線を上回り、このガンマ分布はこのポアソン分布よりも裾が重いことを示しています。ポアソン分布には密度がないため、これらの分布を密度を使用して簡単に比較することはできません。3 (3)(3)

密度 とが存在し、場合、はよりもが重いことは事実です。ただし、逆は誤りです。これは、密度を使用して尾の分析をより簡単に実行できることが多い場合でも、密度ではなく生存関数に尾の重さの定義の基礎を置く説得力のある理由です。g f x > g x x > x 0 F Gfgf(x)>g(x)x>x0FG

反例は、正の無制限サポートの離散分布を取得することで構築できますが、これはよりも裾が大きくありません(を離散化するとトリックが実行されます)。確率質量置換することによって連続的な分布にこれを回してその支持点の各々で、書かれた、(例えば)スケーリングされたベータによっての適切な間隔で支持体と分布および重み付けされています。小さな正の数与えられた場合、選択しますG G Hのk個のH K 2 2 [ K - ε K HGGHkh(k)(2,2)[kε(k),k+ε(k)]h(k)δ,ε(k)このスケーリングされたベータ分布のピーク密度がを超えることを保証するのに十分小さい。構造上、混合物は連続分布であり、そのテールはテールのように見えます(一様に少し量だけ低くなっています)が、のサポートでの密度とそれらのすべてのスパイクには、の密度を超えるポイントがあります。したがって、はよりもテールが小さくなりますが、テールのどこに行っても、その密度が密度を超えるポイントがあります。f(k)/δδH+(1δ)GGGδHfGFF

図

赤い曲線はガンマ分布 PDFで、金の曲線は対数正規分布 PDFであり、青い曲線(スパイクあり)は反例のように構築された混合 PDFです。(お知らせ対数密度軸)の生存関数近い(急速に減衰するウィグル付き)ガンマ分布のそれにある:それは最終的には以下のものより成長するそのPDFは常にその上にスパイクうとしても、どんなに遠くに我々が見て尾にアウト。F G ' G ' F FGFGGFF


討論

ちなみに、この分析を対数正規分布とガンマ分布の生存関数に対して直接実行し、周りで展開して漸近的な挙動を見つけ、すべての対数正規分布がすべてのガンマよりも重いテールであると結論付けます。しかし、これらの分布は「適切な」密度を持っているため、十分に大きい対数正規密度がガンマ密度を超えることを示すことにより、分析がより簡単に実行されます。ただし、この分析の利便性と太い尾の意味を混同しないでください。のxx=x

同様に、高次モーメントとその変形(歪度や尖度など)は尾について少し言いますが、十分な情報を提供しません。簡単な例として、任意の数のモーメントがほとんど変化しないような大きな値で対数正規分布を切り捨てることができますが、そうすることで、そのテールを完全に削除し、無制限の分布よりもテールを軽くしますサポート(ガンマなど)。

これらの数学的ゆがみに対する公正な反対は、分布モデルがそのような極端な(おそらく物理的に到達不可能な)値で有効であると信じる人は誰もいないため、テールのこれまでの動作には実用的な適用がないことを指摘することです。ただし、アプリケーションでは、テールのどの部分が問題あるかを特定、それに応じて分析する必要があることを示しています。(たとえば、洪水の再発時間は、この意味で理解できます。10年の洪水、100年の洪水、および1000年の洪水は、洪水分布の尾部の特定のセクションを特徴付けます。)ただし、同じ原則が適用されます。ここでの分析の基本的な目的は、密度ではなく分布関数です。


6
なぜサバイバー関数に基づくべきかについての優れた議論を+1する。質問の元のソースに、あなたの回答を見てもらうことをお勧めします。
Glen_b 14

1
(+1)生存関数を解釈する方法の確率論的議論。

重い尾のこの定義は、1つの定義としては問題ありません。しかし、深刻な問題があります。特に、.9999 * U(-1,1)+ .0001 * U(-1000,1000)分布のように、おそらく太いテールを持つ有界分布があります。指定された「定義」により、N(0,1)分布は、.9999 * U(-1,1)+ .0001 * U(-1000,1000)分布よりも裾が大きくなります。これは明らかにばかげています。それに直面しましょう:分布のテールを測定する方法は無限にあります。
ピーターウェストフォール

1
@Peter「アイデア」は、あなたが考えを逆にしたように見えるために生じます。どちらの例も、「重い」尾を持っていますが、それらは境界があるためです。両方のサバイバル関数は最終的に正確にゼロであるため、両方のテールは等しく軽いです。
whuber

1
@PeterWestfall境界のあるサポートを持つテールと無限のサポートを持つテールを、あたかも意味があるかのように比較しました。それが不必要で、ばかげている多くのコンテキストが存在します。それらを比較するコンテキストでは、分位差の比率が適切な場合があります。それらを超える多くのコンテキストはありません。もしあなたがそれについて考えることができるなら、教えてください。
カール

30

ガンマと対数正規分布は両方とも右スキュー、変動定数分布であり、特定の種類の現象の「競合」モデルの基礎になっていることがよくあります。(0,)

尾の重さを定義するにはさまざまな方法がありますが、この場合、通常の方法はすべて対数正規分布が重いことを示していると思います。(最初の人が話していたのは、遠い尾ではなく、モードの少し右にあることです(たとえば、下の最初のプロットの75パーセンタイル付近、対数正規分布では5未満です)ガンマは5を少し超えています。)

ただし、非常に簡単な方法で質問を始めましょう。

以下は、平均4と分散4のガンマ密度と対数正規密度(上のプロット-ガンマは濃緑色、対数正規は青)、そして密度の対数(下)です。したがって、テールの傾向を比較できます。

ここに画像の説明を入力してください

すべてのアクションが10の右側にあるため、上のプロットで詳細を確認することは困難です。しかし、ガンマが対数正規分布よりもはるかに速く下降している2番目のプロットでは非常に明確です。

関係を調べる別の方法は、ここでの答えのように、ログの密度を調べることです。対数正規のログの密度は対称的であり(正常です!)、ガンマのログの密度は左斜めで、右側に明るい尾があります。

密度の比を(または比の対数)として見ることができる代数的にそれを行うことができます。してみましょうガンマ密度となる対数正規:G Fxgf

log(g(x)/f(x))=log(g(x))log(f(x))

=log(1Γ(α)βαxα1ex/β)log(12πσxe(log(x)μ)22σ2)

=k1(α1)log(x)x/β(k2log(x)(log(x)μ)22σ2)

=[c(α2)log(x)+(log(x)μ)22σ2]x/β

[]の項は 2次式ですが、残りの項は線形に減少しています。何であれ、そのは、パラメーター値が何であるかに関係なく、最終的に2次増加よりも速く低下します。の制限では、密度の比の対数はに向かって減少します。これは、ガンマpdfが最終的に対数正規pdfよりもはるかに小さく、相対的に減少し続けることを意味します。比率を逆の方法で(対数法線を上に)取る場合、最終的には限界を超えて増加する必要があります。log(x)xx/βx

つまり、与えられた対数正規分布は、最終的にどのガンマより尾が大きくなります


重さの他の定義:

一部の人々は、右尾の重さを測定するために歪度または尖度に興味があります。特定の変動係数では、対数正規分布はスキューが大きく、尖度がガンマよりも高くなります。**

たとえば、歪度では、ガンマの歪度は2CVで、対数正規分布は3CV + CVです。3

尾の重さの様々な尺度の技術的定義がいくつかあります。これらの2つのディストリビューションでそれらのいくつかを試してみたいかもしれません。対数正規は、最初の定義では興味深い特別なケースです。そのモーメントはすべて存在しますが、そのMGFは0を超えて収束せず、ガンマのMGFはゼロ付近の近傍で収束します。

-

**ニックコックスが以下で言及するように、ガンマの正規性に近似する通常の変換であるウィルソン-ヒルファーティ変換は、対数よりも弱く、これは立方根変換です。形状パラメーターの値が小さい場合、代わりにこの回答の説明を参照して4番目のルートが言及されていますが、いずれの場合も、ほぼ正規性を達成するのは弱い変換です。

歪度(または尖度)の比較は、極端なテールで必要な関係を示唆していません-代わりに、平均的な動作について何かを教えてくれます。しかし、そのために、極端な尾について元のポイントが作られていなければ、うまく機能するかもしれません。


リソース:RやMinitab、Matlab、Excelなどのプログラムを使用して、密度やログ密度、密度の比率のログなどを好きなものを使用して、特定の場合の状況を確認できます。それが私が最初に提案することです。


4
確かにそれは示唆していますが、ピーク、ヘビーテール、尖度の間には必要な関係はありません。そのような期待に対する反例があるので、注意する必要があります。2番目のプロットは、疑いを裏付けています。
Glen_b 14

5
ワンライナーです。対数正規を正常にするには、ログ変換が必要であるという定義です。立方根がガンマ法線を作るのは適切な近似です(ウィルソン・ヒルファーティは賢者にとっては2つの単語です)。より強い変換を必要とする分布は、正規またはガウス分布から「さらに」離れています。
ニックコックス

2
@Glen_b素敵な見た目のケーキにちょっとした装飾を加えています。
ニックコックス

2
@Nick Cox変換に関する声明には同意しません。数学的に不正な部分は、あなたが引き出そうとする結論です。対数が対数正規を作り、立方根がガンマをほぼ正規にするという事実から、どちらの尾について結論を出すことはできません。
whuber

2
ありがとう。あなたのポイントは私には明確ですが、私は「経験則」の言葉遣いに固執し、経験も呼び起こします。明らかに、定理はありません。
ニックコックス

7

尖度は尾の重さに関連していますが、次の例に示すように、尾は太い尾の分布の概念に寄与し、尾の重さ自体には比較的寄与しません。ここで、上と下の投稿で学んだことを逆説します。これは本当に素晴らしいコメントです。最初に、右尾の面積は密度関数のxからまでの面積、別名生存関数です。対数正規分布の場合およびガンマ分布F X 1 - F T E - ログX - μ 2f(x)1F(t)βαのxα-1つのE-βXe(log(x)μ)22σ22πσx;x0βαxα1eβxΓ(α);x0、それぞれの生存関数と比較しましょうグラフィカルに。これを行うには、それぞれの分散およびを任意に設定します、およびそれぞれの過剰な尖度および、を選択することにより等しく、ます。これは示しています12erfc(log(x)μ2σ)Q(α,βx)=Γ(α,βx)Γ(α)(eσ21)e2μ+σ2αβ23e2σ2+2e3σ2+e4σ266αμ=0,σ=0.8α0.19128,β0.335421青のLNDとオレンジのGDの1-F(x)

青の対数正規分布(LND)とオレンジのガンマ分布(GD)の生存関数。これにより、最初の注意が必要です。つまり、もしこのプロットだけを調べれば、GDのテールはLNDよりも重いと結論付けることができます。そうではないことは、プロットのx軸の値を拡張することで示されます。したがって、 LNDおよびGDのより長いグラフの1-F(x)

このプロットは、1)尖度が等しい場合でも、LNDとGDの右テール領域が異なる可能性があることを示しています。2)限られた範囲の固定パラメーター値の結果しか表示できないため、グラフィック解釈だけでも危険があります。したがって、の制限生存関数比の一般式を見つける必要があります。無限級数展開でこれを行うことができませんでした。ただし、一意の関数ではない端末関数または漸近関数の中間体を使用してこれを行うことができました。右端の場合はは、および十分ですlimxS(LND,x)S(GD,x)limxF(x)G(x)=1F(x)G(x)相互に漸近的であること。これらの関数を見つけるのに適切な注意を払うと、これは、複数の密度関数と共有または共有できる生存関数自体よりも単純な関数のサブセットを識別する可能性があります。たとえば、2つの異なる密度関数が共有する場合があります指数関数的なテールを制限します。この投稿の以前のバージョンでは、これが「生存関数の比較の複雑さの追加」と呼んでいたものです。メモ、そのおよび(偶然であり、必ずしもありませんおよびlimuerfc(u)eu2πu=1limuΓ(α,u)euuα1=1erfc(u)<eu2πuΓ(α,u)<euuα1。つまり、上限を選択する必要はなく、漸近関数を選択するだけです。ここでおよびここで、右側の項の比率はと同じ制限を持ちます。左側の用語として。右手項の利回りの制限比率を簡素化する12erfc(log(x)μ2σ)<e(log(x)μ2σ)22(π(log(x)μ))2σΓ(α,βx)Γ(α)<eβx(βx)α1Γ(α)xα<1α>1limxσΓ(α)(βx)1αeβx(μlog(x))22σ22π(log(x)μ)=は、xが十分に大きい場合、LNDテール領域がパラメーター値が何であるかに関係なく、GDテール領域と比較して、私たちが好きな大きさです。これは別の問題を引き起こします。すべてのパラメーター値に当てはまる解決策が常にあるとは限らないため、グラフィックイラストだけを使用すると誤解を招く可能性があります。たとえば、ガンマ分布の右テール領域は、場合は指数分布のテール領域より大きく、場合は指数関数的より小さく、場合はGDは正確に指数分布です。α<1α>1α=1

私たちは明らかに制限比を見つけるために対数を取る必要がないため、生存関数の比の対数を取ることの使用は何ですか?多くの分布関数には、対数をとるとより単純に見える指数項が含まれており、xが増加するにつれて限界で比が無限になれば、対数も同様になります。この場合、。一部の人はこれを見る方が簡単だと思うでしょう。最後に、生存関数の比率がゼロになると、その比率の対数は-limx(log(σΓ(α)(βx)1α2π(log(x)μ))+βx(μlog(x))22σ2)=、すべての場合において、比の対数の極限を見つけた後、その値の対数をとって、生存関数の通常の比の限界値との関係を理解する必要があります。


2
この場合(そして興味のある場合は非常に頻繁に)尖度が高いことは尾が重いことに対応しますが、一般的な命題としてはそうではありません-反例を構築するのは簡単です。
Glen_b

1
1.テールを直接比較する以外の一般的な方法は知りません。2.もっと複雑なのは何ですか?whuberの答えは、サバイバー関数(右尾部)以外を見ることに問題がある理由を示しています。pdfを詳細に比較できない理由について説明しますが、同様の点が尖度に引き継がれます。さらに、比較は、尖度の比較よりもはるかに簡単です。(左側では、直接比較しますが、この質問の問題ではありませんでした。)F X S(x)=1F(x)F(x)
Glen_b

2
また、「これは、2つの分布のモーメント(すべて?)が等しい場合、分布は同一であるというモーメント定理と関係があります」ということにも注意してください。-場合でも、すべての二つの分布のモーメントが等しく、分布は必ずしも同一ではありません。反例については、CVに関するいくつかの質問への回答で説明します。あなたは0の近傍に存在するMGFを必要とする-あなたはすべての瞬間が等しい以上必要
Glen_b

1
@PeterWestfall半無限のサポートは、たとえば、血漿中の薬物濃度に対してように想定されることがよくあります。その場合、体内での薬物の平均滞留時間が何かを測定するか(指数分布など)、そうでないか(パレート分布など)を決定するのは尾の重さです。0t<
カール

1
私は次のようにあなたのポイント、得るのですか@PeterWestfall nma.berkeley.edu/ark:/28722/bk000471p7jを。すべての分布が、異なる事柄に対する異なる測定値を意味することを思い出してください。たとえば、平均値ではなく、中央値ではなく、均一分布の位置の平均極値はMVUEです。これらの極端な値の間では、尾は重いですが、それらの外側では尾はジップです。最初の瞬間がMVUEではないとき、それが尖度のようなより高い瞬間に関係していることは、私が推測することを敢えてしないでしょう。何か、多分、でも何?
カール
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.