@NickSabbeへの+1。「プロットは「何かがおかしい」ことを示しているだけだ」ためです。ただし、qq-plotの作成方法を考えることで、qq-plotの解釈方法を学ぶことができます。
データを並べ替えることから始め、次にそれぞれを同じ割合として最小値からカウントアップします。たとえば、20個のデータポイントがある場合、最初のポイント(最小)をカウントすると、「自分のデータの5%をカウントしました」と自分に言います。最後に到達するまでこの手順を実行します。この時点で、データの100%を通過することになります。これらのパーセンテージ値は、対応する理論上の法線(つまり、同じ平均とSDを持つ法線)からの同じパーセンテージ値と比較できます。
これらをプロットすると、最後の値(100%)に問題があることがわかります。これは、理論上の法線の100%を通過すると、無限大にあるためです。この問題は、パーセンテージを計算する前に、データの各ポイントで分母に小さな定数を追加することで処理されます。典型的な値は、分母に1を追加することです。たとえば、最初の(20の)データポイント1 /(20 + 1)= 5%を呼び出し、最後は20 /(20 + 1)= 95%になります。 今、あなたが対応する理論通常のに対して、これらの点をプロットした場合、あなたが持っているでしょうPP-プロットを(確率に対する確率のプロット用)。このようなプロットは、分布と分布の中心の正規分布との偏差を示す可能性が最も高いでしょう。これは、正規分布の68%が+/- 1 SD内にあるため、ppプロットの解像度が優れており、他の場所では解像度が低いためです。(この点の詳細については、PPプロット対QQプロットの回答を読むと役立つ場合があります。)
多くの場合、私たちはディストリビューションの末尾で何が起こっているかについて最も懸念しています。そこでより良い解像度を得るため(そして中央の解像度を下げるため)、代わりにqqプロットを作成できます。これを行うには、確率のセットを取得し、正規分布のCDFの逆数を通過させます(これは、統計書の裏にあるzテーブルを逆向きに読むようなものです-確率で読み、zを読みます-スコア)。この操作の結果は2セットの分位数で、同様に互いにプロットできます。
@whuberは、ポイントの中央の50%(つまり、最初の四分位から3番目の四分位まで)を通る最適な近似線を見つけることによって、参照線が(通常)後でプロットされることは正しいです。これは、プロットを読みやすくするために行われます。この行を使用して、分布の変位値がテールに移動するにつれて真の正規分布から徐々に分岐するかどうかを示すものとしてプロットを解釈できます。(中心から遠く離れた点の位置は、近くにある点とは実際には独立していないことに注意してください。したがって、特定のヒストグラムでは、「肩」が異なっていた後に尾が集まっているように見えるという事実は、分位数を意味するわけではありません再び同じになりました。)
バツ− 3y− .2理論上の正規分布よりも分布の裾にあるデータ。言い換えると:
- 両方の尾が反時計回りにねじれている場合、重い尾があります(レプトクルトシス)、
- 両方の尾が時計回りにねじれている場合、あなたは軽い尾(カモノハシ)を持っています、
- 右テールが反時計回りにねじれ、左テールが時計回りにねじれている場合、右スキュー
- 左の尾が反時計回りにねじれ、右の尾が時計回りにねじれている場合、左のスキューがあります