2つのサンプル分布の裾の比較


13

ほぼゼロを中心とした2つのデータセットがありますが、テールが異なると思われます。分布を正規分布と比較するいくつかのテストを知っていますが、2つの分布を直接比較したいと思います。

2つの分布の裾の太さを比較する簡単なテストはありますか?

ありがとう
fRed


「fat-tails」タグは本当に意味がありますか(将来の質問のために)?
chl

@chl教えてください、私は確かに統計学のあなたほど経験がありません。しかし、IMOは尾の重要性を過小評価する古典的なバイアスです。マンデルブロの作品を読んだことがありますか?金融の応用統計ではファットテールが非常に重要であり、2008年の信用危機は、一部の相関モデルの正常性を想定し、ファットテールを過小評価している価格モデルから生じたものです。それについては別のスレッドで議論できます:)
RockScience

1
この質問は興味深い可能性がありますが、いくつかの説明を歓迎します。あなたは片方の尾または両方を心配していますか?「脂肪」をどのように測定しますか?(たとえば、比較を行うために2つの分布をシフトおよび再スケーリングしますか?)「脂肪」の偏差をどのように測定しますか?仮説検定を検討する場合、正確に対立仮説はどうなりますか?
whuber

@ RockScience、2つのディストリビューションがあり、テールのみを比較したいのですが、その方法を管理しましたか?尖度を計算できることは知っていますが、両方の尾が異なることをどのようにテストしましたか?
user2380782

回答:



2

ラムダと呼ばれるしきい値を構築すると、このテール領域にある2つの観測データセットに基づいて、テール領域(\ lambda、無限大)に制限された2つの分布の2つの平均または分散の等価性をテストできます。もちろん、2つのサンプルのt検定またはF検定は問題ないかもしれませんが、このテール領域で制限されたランダム変数は元のものでも正常ではないため、強力ではありません。


極値理論は、そのような切り捨てられた分布を研究します。漸近的に、尾の分布は通常、一般化されたパレート族に属します。データをこの分布のファミリーに適合させ、パラメーターを比較することもできます。
ビンセントズーネキンド

@Vincent Aテールには、実質的にあらゆる分布があります。極値理論はテールについてほとんど語っていません:iidサンプルの最大値(または最小値)の分布に焦点を当てていますが、これはまったく異なるものです。
whuber

1

一般化されたラムダ分布をフィッティングし、3番目と4番目のパラメーターで信頼区間をブートストラップしてみませんか?


2
なぜこの分布のファミリーはこの問題に特に適していて、ピアソン分布のような他のファミリーには適さないのでしょうか?
whuber

1

カイ二乗検定(適合度検定)は、2つの分布を値のバケット(ヒストグラムでグラフで表される)で比較するように構成されているため、2つの分布の裾の比較に非常に適しています。そして、尾は、ほとんどのバケットに含まれます。

このテストでは、テールだけでなく分布全体に焦点を当てていますが、テールの太さの違いによってカイ二乗値または発散がどれだけ導出されているかを簡単に確認できます。

導出されたヒストグラムが、テストに関連する統計的有意性よりも実際に尾のそれぞれの太さに関する情報をはるかに多く提供することに注意してください。尾の太り具合が統計的に異なると述べることは一つのことです。それを視覚的に観察することは別です。彼らは、写真は千の言葉に値すると言います。時には、数千の価値があることもあります(グラフがすべての数をカプセル化することを考えると、それは理にかなっています)。


3
カイ二乗検定は、尾の違いを特定するのが特に苦手だと思います。テールが多くのビンで覆われている場合、それらはテールだからです!-ビンのいずれかにデータがほとんどない可能性があり、カイ二乗近似を無効にします。テールが少数のビンで覆われている場合、その形状を判別するほとんどすべてのパワーが失われ、判別するために管理していることは、それほど関連性がなく、有用ではない可能性があります。(ここで私たちが直面している問題の1つは、「尻尾の太さ」が定義されていないことです。そのため、質問はあまりにも曖昧すぎてうまく答えられません。)
whuber

@whuber、あなたの意見の1つを完全に理解していないので、あなたのコメントに同意するかどうかは言えません。「カイ二乗近似の無効化」とはどういう意味ですか?
Sympaの

カイ2乗検定は、カイ2乗統計量の真の分布に対する正規理論近似に基づいています。ビン集団が5未満に低下したときに一般的にこの近似は貧しい取得
whuber

@whuber、説明ありがとう。それを考慮すると、最初のコメントの最初のフレーズは、あなたが気にかけているほど微妙ではないかもしれないと思います(「カイ二乗検定はテールの違いを特定するのが特に苦手です」)。おそらく、より適切なステートメントは「依存します...」だったでしょう。このテストには、関連するビンの定義を強制するなど、いくつかのメリットがあります。また、同様に重要なことは、ヒストグラムの作成を容易にすることです。ビン内の観測値が5未満の場合は、説明したとおり正確性が失われます。
Sympa

@Gaetan私はニュアンスに注意を払っていますが、この場合、判断は正当化されるようです。分布を比較するために利用できる他の多くの方法と比較すると、カイ2乗検定はうまく機能しません。データ自体に基づいて「関連するビンを定義する」場合、テストは無効です。また、ヒストグラムは通常、分布の裾を調べるのに便利な方法ではありません。ただし、問題の定義が不明確であるため、代替案を提案することには消極的です。2つの分布が同じ「裾の太さ」を持っているとはどういう意味でしょうか。尖度は1つの可能性ですが、それは大雑把な尺度です。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.