QQプロットがヒストグラムと一致しません


12

ヒストグラム、カーネル密度、財務ログリターンの近似正規分布があり、これらは損失に変換されます(符号が変更されます)。これらのデータの通常のQQプロットがあります。

http://tinypic.com/r/34ocwvr/6

QQプロットは、テールが正しく適合していないことを明確に示しています。しかし、ヒストグラムと適合した正規分布(青)を見ると、0.0付近の値でも正しく適合していません。そのため、QQプロットは、テールのみが適切に適合していないことを示していますが、明らかに分布全体が正しく適合していないことを示しています。QQプロットに表示されないのはなぜですか?


10
左側の青い曲線は、右側の「最適」の仮想線に対応しています。右側の線は、最適な線ではありません。分布の中央の値に最適な線です。全体ではなく、ヒストグラムの中央の3分の2程度に「ベル曲線」を当てはめると、その曲線はピークと急勾配の側面に近くなりますが、それから遠くなります。肩と尾が低すぎ​​ます。それは、qqプロットの線が示すものとまったく同じです。これらのプロットは完全に一致しています。異なるのはフィットです。
whuber

回答:


11

@NickSabbeへの+1。「プロットは「何かがおかしい」ことを示しているだけだ」ためです。ただし、qq-plotの作成方法を考えることで、qq-plotの解釈方法を学ぶことができます。

データを並べ替えることから始め、次にそれぞれを同じ割合として最小値からカウントアップします。たとえば、20個のデータポイントがある場合、最初のポイント(最小)をカウントすると、「自分のデータの5%をカウントしました」と自分に言います。最後に到達するまでこの手順を実行します。この時点で、データの100%を通過することになります。これらのパーセンテージ値は、対応する理論上の法線(つまり、同じ平均とSDを持つ法線)からの同じパーセンテージ値と比較できます。

これらをプロットすると、最後の値(100%)に問題があることがわかります。これは、理論上の法線の100%を通過すると、無限大にあるためです。この問題は、パーセンテージを計算する前に、データの各ポイントで分母に小さな定数を追加することで処理されます。典型的な値は、分母に1を追加することです。たとえば、最初の(20の)データポイント1 /(20 + 1)= 5%を呼び出し、最後は20 /(20 + 1)= 95%になります。 今、あなたが対応する理論通常のに対して、これらの点をプロットした場合、あなたが持っているでしょうPP-プロットを(確率に対する確率のプロット用)。このようなプロットは、分布と分布の中心の正規分布との偏差を示す可能性が最も高いでしょう。これは、正規分布の68%が+/- 1 SD内にあるため、ppプロットの解像度が優れており、他の場所では解像度が低いためです。(この点の詳細については、PPプロット対QQプロットの回答を読むと役立つ場合があります。)

多くの場合、私たちはディストリビューションの末尾で何が起こっているかについて最も懸念しています。そこでより良い解像度を得るため(そして中央の解像度を下げるため)、代わりにqqプロットを作成できます。これを行うには、確率のセットを取得し、正規分布のCDFの逆数を通過させます(これは、統計書の裏にあるzテーブルを逆向きに読むようなものです-確率で読み、zを読みます-スコア)。この操作の結果は2セットの分位数で、同様に互いにプロットできます。

@whuberは、ポイントの中央の50%(つまり、最初の四分位から3番目の四分位まで)を通る最適な近似線を見つけることによって、参照線が(通常)後でプロットされることは正しいです。これは、プロットを読みやすくするために行われます。この行を使用して、分布の変位値がテールに移動するにつれて真の正規分布から徐々に分岐するかどうかを示すものとしてプロットを解釈できます。(中心から遠く離れた点の位置は、近くにある点とは実際には独立していないことに注意してください。したがって、特定のヒストグラムでは、「肩」が異なっていた後に尾が集まっているように見えるという事実は、分位数を意味するわけではありません再び同じになりました。)

バツ3y.2理論上の正規分布よりも分布の裾にあるデータ。言い換えると:

  • 両方の尾が反時計回りにねじれている場合、重い尾があります(レプトクルトシス)、
  • 両方の尾が時計回りにねじれている場合、あなたは軽い尾(カモノハシ)を持っています、
  • 右テールが反時計回りにねじれ、左テールが時計回りにねじれている場合、右スキュー
  • 左の尾が反時計回りにねじれ、右の尾が時計回りにねじれている場合、左のスキューがあります

そのようなルーブリックは満足できるものではありません。1つは、プロットの背後にある原則と直接関係がないことです。それらは別々に記憶する必要があります(そして、欠陥のある記憶によって完全に混乱する可能性があります)。もう1つ(この場合)は、複雑すぎて信頼性の高い方法ではありません。さらに別のことは、そのようなプロットの描画方法が標準化されていないため、別の手順で作成されたqqプロットに適用した場合、この方法が不正確になる可能性があることです。しかし、qqプロットは簡単に解釈できます。quantdec.com/envstats/notes/class_03/probability.htmの途中での説明の試みを参照してください。
whuber

5

簡単に言えば、QQプロットは、予想される分布と比較した経験的分布のランキングを示しています。あなたの場合(そして、これは実際に非常に頻繁に起こります;常に対称分布で)、中央付近のランクは予想と経験の間で類似しているため、QQプロットはそこの線に近くなります。

QQプロット内の位置に基づいて「奇妙な」観測を実際に識別するのはそれほど簡単ではありません。プロットは「何かが間違っている」ことを示しているだけで、データ/分布について詳しく知っている場合は、問題がある場所。


1
私は反対の結論、ニックを維持します:qqプロットは、データの本体と比較して「奇妙な」結果の識別と評価をはるかに容易にします。ここでの問題は、qqプロットが線に近いかどうかではありません。それは、プロットの参照としてソフトウェアによって選択された線に関するものです。(R四分位数などの中程度のパーセンタイルに基づいているのではないかと思われますが、明らかにヒストグラムへの適合は一致するモーメントに基づいていました。)
whuber

1
@whuber:個人的には、可能であれば両方を見るのが好きです(主にQQプロットよりも簡単にヒストグラムを「読む」ため)。しかし、あなたは正しいです、そして、私は修正されます。
ニックサブベ

そして、あなたは2つの技術が補完的であることは非常に正しいです。たとえば、二峰性は、qqプロットよりもヒストグラムで検出(および定量化)しやすい傾向があります。練習すれば、ヒストグラムとqqプロットの両方が読みやすくなると思います。QQプロットは、標準形式のプレゼンテーションがないため、学習に少し時間がかかる場合があります。どの軸が値であり、どの分位数であるかを常に確認する必要があります。標準化されています)。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.