PythonでのQQプロット


11

次のコードを使用してqqプロットを生成しました。qqプロットは、データが正常に分布しているかどうかを確認するために使用されることを知っています。私の質問は、x軸とy軸のラベルがqqプロットで何を示し、そのr二乗値が何を示しているかです。

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

ここに画像の説明を入力してください

すでにqq plotについての議論があることは知っていますが、その議論を経験したにもかかわらず、の概念を理解できませんでした。


4
これは、リンクされたスレッドの複製に非常に近いです。PythonとRはここでは重要な違いではありませんが、側面は新しいものです。質問と回答では、重複を避けるためにその側面にもう少し焦点を当てることをお勧めします。(は誤解される傾向があるのではないかと思います。QQプロットで避けられない上向きの傾きは、がゼロよりも多少大きいことを意味するためです。したがって、回帰で非常に印象的な値になる可能性があります。ここでの分析はそれほど印象的ではないかもしれません。)R2R2R2
Silverfish '10

@Silverfishに集中することは、役に立たない、または価値があるとは思いません。QQプロットは、典型的に見られるだけで無数の表に報告されていない、の値。視覚化がある限り、なぜそれを単一の数に減らすのですか?QQプロットが「悪い」ように見えても、何らかの形で「良い」ように見える場合でも、それが正常であると主張しますか?ほとんどの優れたパッケージは、まさにこの理由でを提供していません。このviz対モーメントの引数には、Anscombeのカルテットというかわいい名前さえあります。R2R2R2R2
マイクウィリアムソン

@MikeWilliamson私は、が特に有用であるとは思われないことに同意します(これは私の指摘の一部でしたが、不十分に表現したかもしれません)。私の主なポイントは、「どのようにQQプロットを解釈するには、」長さで議論されてきたということでした、ここでの重複が問い合わせであるとして、このスレッドがクローズしてはならない唯一の理由-質問、すでにノートとして、ので、本当に、ここでは回答で議論する必要があります(たとえそれが役に立たないと言っているとしても!)R2R2
Silverfish 2017

QQプロットをプロットしてもよろしいですか?help(probplot)状態:probplot確率プロットを生成します。QQまたはPPプロットと混同しないでください。
abukaj

回答:


10

Macondの答えは正確ですが、元の投稿から、私は言葉遣いを少し単純化することが役立つかもしれないと思いました。

QQプロットは「分位点-分位点プロット」を表します。

これは、正規分布(またはガウス分布)を直線で表示するために、軸を意図的に変換したプロットです。つまり、完全に正規な分布は、傾き= 1および切片= 0の直線に正確に従います。

したがって、プロットが(おおまかに)直線に見えない場合、基になる分布は正規ではありません。たとえば、曲がった場合、予想よりも「高いチラシ」の値が多くなります。(リンクはより多くの例を提供します。)


  1. xおよびyラベルは何を表していますか?

理論変位値は、 x軸に沿って配置されています。つまり、x軸はデータではなく、データが正常である場合のデータの位置の予想です。

実際のデータは、 y軸に沿ってプロットされています。

値は平均からの標準偏差です。つまり、0はデータの平均、11標準偏差以上などです。これは、たとえば、68.27%正規分布の場合、すべてのデータのデータが-1と1の間にあることを意味します。

  1. 何が値の平均値は?R2

値は、プロットのこの種のために特に有用ではありません。 は通常、ある変数が別の変数に依存しているかどうかを判断するために使用されます。さて、あなたは理論値を実際の値と比較しています。だから、必然があるだろういくつかの並べ替え。(たとえば、ランダムな均一分布であっても、適度にまともなます。)R2R2R2R2


最後に、ppプロットと呼ばれる、めったに使用されない同様のプロットがあります。このプロットは、極端なデータではなく、データの大部分がどこにあるかに焦点を当てたい場合に役立ちます。


1
ワードスキューは、 ここでは最良の選択ではありません。私が言うと思います変換します
Nick Cox

素晴らしい説明。X軸(期待値)がどのように生成されるか説明していただけますか?
Vivek Ananthan

1

Y軸は観測された分布の値を示し、X軸は理論上の分布の値を示します。

各ポイントは分位点です。プロットに100ポイントがあった場合、最初のポイント(左下にあるポイント)は間隔の上限を示し、最小から最大に並べ替えると、対応する分布はこの間隔のままです。同様に、2番目のポイントは間隔の上限であり、分布からのデータポイントの最小2%が配置されます。これが分位点の概念です。ただし、これは100間隔の場合に限定されるものではなく、一般的な概念であり、可能な限り多くの間隔を設定できます。そうすると、間隔の境界を表す分位数が多くなります。

このプロットの特別な点は、各ポイントの位置が、軸上の対応する値として、両方の分布における特定の分位の実際の値を決定することです。そのような点(分位点)が100個あると考えてみましょう。このプロットは、観測された分布からのデータポイントの最小1%が(、-3.5]の間であり、理論上の分布からのデータポイントの最小1%が間にあることを示しています(、-3.2]。これにより、両方の分布における各区間境界の位置を確認できます。

順序付けられたデータポイントなど、回答全体でデータポイントを使用しました。これは離散分布を指しますが、概念は連続分布に対して一般化できます。

R2は、ポイントが赤い線にどの程度適合するかを示す尺度です。両方の軸の分布が同じである場合、すべての点が直線上にあり、は1に等しくなります。線形回帰について説明しているテキストで詳細を確認できます。R2


3
ただし、線形回帰のテキストでは、ポイントがQQプロットのポイントと同じように厳しく制約されている場合にを解釈する方法は説明されていません。特に、QQプロット上の点は単調に減少していない必要があります。これにより、は何があっても異常に高くなります。R2R2
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.