PPプロット対QQプロット


39

データに適合した分布を分析しようとするとき、確率プロット、PPプロット、QQプロットの違いは何ですか?


4
ウィキペディアがこれを手助けしてくれるようです:確率プロットQQプロットPPプロット。より具体的な質問がある場合は明確にしてください!
vector07 14

ありがとう、私はPPプロットと確率プロットが混乱していたと思います!
kay 14

回答:


41

@ vector07が示すように確率プロットは、ppプロットとqqプロットがメンバーである、より抽象的なカテゴリーです。したがって、後者の2つの違いについて説明します。違いを理解する最良の方法は、それらがどのように構築されるかを考え、分布の変位値と、特定の変位値に達したときに通過した分布の割合との違いを認識する必要があることを理解することです。分布累積分布関数(CDF)をプロットすることにより、これらの関係を確認できます。たとえば、標準正規分布を考えます。

ここに画像の説明を入力してください

y軸(赤い線の間の領域)の約68%がx軸(青い線の間の領域)の1/3に対応することがわかります。つまり、通過した分布の割合を使用して2つの分布間の一致を評価する(つまり、ppプロットを使用する)と、分布の中心で多くの解像度が得られますが、しっぽ。一方、変位値を使用して2つの分布間の一致を評価する場合(つまり、qqプロットを使用する場合)、テールでは非常に良好な解像度が得られますが、中央ではあまり得られません。(データアナリストは通常​​、分布の裾についてより懸念しているため、たとえば推論により影響を与えるため、qqプロットはppプロットよりもはるかに一般的です。)

これらの事実が実際に動作することを確認するために、pp-plotとqq-plotの構築について説明します。(私はqq-plotの構築も口頭で/ここでゆっくりと歩きます:QQ-plotはhistogramと一致しません。)Rを使用するかどうかはわかりませんが、うまくいけばそれは自明です:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

ここに画像の説明を入力してください

残念ながら、これらのプロットはあまりデータがなく、真の正規分布を正しい理論分布と比較しているため、あまり特徴的ではありません。そのため、分布の中央または裾に特別なものはありません。これらの違いをより明確に示すために、4自由度の(ファットテール)t分布と、以下のバイモーダル分布をプロットします。ファットテールはqqプロットでより特徴的ですが、バイモダリティはppプロットでより特徴的です。

ここに画像の説明を入力してください ここに画像の説明を入力してください


14
@AleksandrH学生に対するあなたの懸念に本当に感謝しています。ただし、このサイトは統計が初めての学生専用であるという暗黙の仮定は誤りです。そして、このサイトの多くの「言葉の答え」が証明するように、「言葉の答え」が学生にとって不適切であるというあなたのほのめかしは現実に耐えられません。苦情をより建設的に表現する方法は、例です。新しい生徒のニーズに対応するための基準を満たす回答をここに投稿することで、回答を改善し、エミュレートする方法を示してください。
whuber

12

v8doc.sas.comの定義は次のとおりです。

PPプロットは、データセットの経験的累積分布関数を指定された理論的累積分布関数F(・)と比較します。QQプロットは、データ分布の変位値を、指定された分布ファミリーの標準化された理論分布の変位値と比較します。

テキストでは、彼らはまた言及します:

  • PPプロットとQQプロットの作成および解釈方法に関する違い。
  • 経験的分布と理論的分布の比較に関する、いずれかを使用する利点。

参照

SAS Institute Inc.、SASOnlineDoc®、バージョン8、Cary、NC:SAS Institute Inc.、1999

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.