ヒストグラムよりもQQプロットを使用する利点


22

ではこのコメント、ニック・コックスは書きました:

クラスへのビニングは古代の方法です。ヒストグラムは便利ですが、最新の統計ソフトウェアを使用すると、生データに分布を適合させることが簡単になります。ビニングは、どの分布がもっともらしいかを判断するのに重要な詳細を単に捨てます。

このコメントの文脈は、フィットを評価するための代替手段としてQQプロットを使用することを示唆しています。声明は非常に妥当なように聞こえますが、この声明を裏付ける信頼できる参照について知りたいです。単純な「まあ、これは明白に聞こえます」を超えて、この事実をより徹底的に調査する論文はありますか?結果または同類の実際の体系的な比較はありますか?

また、ヒストグラムに対するQQプロットの利点が、モデルフィッティング以外のアプリケーションにどの程度まで拡張されるかを確認したいと思います。上の回答この質問は「『何かが間違っている』 [...]ちょうどことを示していますQQプロット」ことに同意します。ヌルモデルと比較して観測データの構造を識別するツールとしてそれらを使用することを考えており、非ランダムを検出するだけでなく説明するためにQQプロット(またはその基礎となるデータ)を使用する確立された手順が存在するかどうか疑問に思います観測データの構造。したがって、この指示を含む参照は特に有用です。


4
stats.stackexchange.com/questions/51718/…質問の半分、つまり、ヒストグラムを何に置き換えてもヒストグラムを避けるのが最もよい理由に既に答えています。
ガラ

回答:


25

ここにある正規の紙は

ウィルク、MB、R。グナナデシカン。1968年。データ分析のための確率プロット法。Biometrika 55:1-17

そして、それはまだ近くで返済し、読書を繰り返しました。

多くの良い例と明快な治療はによって与えられました

クリーブランド、WS1993。データの視覚化。ニュージャージー州サミット:ホバートプレス。

そして、より入門的なものに言及する価値があります

クリーブランド、WS1994。グラフ作成データの要素。ニュージャージー州サミット:ホバートプレス。

このアプローチへの合理的な露出を含む他のテキストには、

Davison、AC2003。統計モデル。ケンブリッジ:ケンブリッジ大学出版局。

ライス、JA2007。数学統計とデータ分析。カリフォルニア州ベルモント:ダックスベリー。

それはともかく、私はあなたが尋ねるものとまったく同じものを知りません。変位値と変位値のプロットのポイントを見たら、ヒストグラムが二流の代替手段であることを詳細に示すと、魚を樽で撃つような、面白くも有用でもないように見えます。

しかし、私はこのように要約します:

  1. ビニングは詳細を抑制します。詳細は多くの場合重要です。これは、尾で起こっていることだけでなく、真ん中で起こっていることにも当てはまります。たとえば、粒度やマルチモダリティは、歪度や尾の重みと同様に重要かもしれません。

  2. ビン化には、ビンの起点とビンの幅に関する決定が必要です。これは、ヒストグラムの外観に大きく影響する可能性があるため、実際の結果と選択の副作用を確認することは困難です。ソフトウェアがこれらの決定を下す場合、問題は残ります。(たとえば、デフォルトのビンの選択は、「余りにも多くのビン」を使用しないように、つまり、少しスムージングするように設計されていることがよくあります。)

  3. 2つのヒストグラムを比較するグラフィカルで心理的な問題は、ポイントセットの直線への適合を判断する問題よりも複雑です。

平均)/ SD。変位値が単なる順序統計である場合、最大値の対数は対数の最大値などと同じように、変換を適用するだけです。(単純に、往復は順序を逆にします。)2次統計に基づいて選択された変位値をプロットする場合でも、通常は元の2つのデータ値間で補間され、補間の効果は自明です。対照的に、ログまたは他の変換されたスケールのヒストグラムでは、ビンの起点と幅を新たに決定する必要があります。これは特に難しいことではありませんが、些細なことではありません。密度推定についても、分布を要約する方法としてほぼ同じことが言えます。


8

ウィリアム・S・クリーブランドの作品を​​ご覧ください。

データの視覚化はおそらく最高の単一ソースですが、彼のWebページ、特に参考文献とデータの視覚化のページ(での使用に適したS +コードを含む)も参照してくださいR

クリーブランドには、QQプロットが優れている理由と、ヒストグラムがそれほど優れていない理由がたくさんあります。



7

QQプロットを使用すると、スキューネス、ヘビーテール、一般的な形状、ピークなどを識別できます。人々がヒストグラムを使用して評価する傾向があるのと同じ種類の機能です。

カーネル密度推定値または対数スプライン密度推定値は、ガラがコメントで指摘したヒストグラムの問題の一部を回避できます。

そのリンクからこの例を考えてみましょう:

ただし、非常に幸運でない限り、ヒストグラムや、滑らかな密度推定値(自然に滑らかになっているため)で、疑いのない離散性が見落とされることがありますが、QQプロットではしばしば明らかです。滑らかな密度の推定-特別に処理しない限り-境界変数にも問題があります。

ヒストグラムと滑らかな密度の推定は、どちらもデータの近似に依存します(これは有用な場合があります)が、アーティファクトを導入したり、物を多少不正確にしたりする可能性もあります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.