QQプロットの定量化


10

qq-plotは、2つの分布がどの程度類似しているかを視覚化するために使用できます(たとえば、正規分布に対する分布の類似性を視覚化するだけでなく、2つのArtibraryデータ分布を比較することもできます)。それらの類似性を表すより客観的な数値測定値を生成する統計情報はありますか(できれば正規化された(0 <= x <= 1)形式で)。ジニ係数は、たとえばローレンツ曲線を扱うときに経済学で使用されます。QQプロットに何かありますか?

回答:


8

あなたの前の質問に対するあなたのコメントに応えて私が言うように、コルモゴロフ・スミルノフ検定をチェックしてください。統計として、2つの累積分布関数の間の最大絶対距離(または、QQプロットの曲線の45度の線からの最大絶対距離として考えられます)を使用します。KSテストはks.test()、 'stats'ライブラリのコマンドを使用してRで見つけることができます。ここでは、Rの使用法について詳しく説明します。


(私が理解しているように)KSテストは、経験的データをアプリオリ分布に対してテストするためのものであることに注意してください。2つの経験分布を比較することは適切ではありません。また、経験データを、パラメータ値が経験データから推定されたアプリオリ分布と比較することも適切ではありません。
Mike Lawrence

4
@マイク、あなたは2つの経験的に得られた分布を比較するためにKSテストを使用することができ、参照チャーリーの前の回答とコメントstats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/...
アンディ・Wを

@アンディ、ああ、私はitl.nist.gov/div898/handbook/eda/section3/eda35g.htmから2つの経験的CDFを比較することはできないという結論としてポイント3をとりましたが、私の仮定は間違っていませんでした。適切な。知ってよかった、ありがとう!
Mike Lawrence

2
ただし、ポイント3は、データが正規分布からのものであるかどうかをテストするためにKSを使用できないことを意味します。平均とsd はデータから推定されます。これは私が会う心理学の学生の間で人気のあるエラーです。
ステファンコラサ

1
(+1)この回答の優れた点は、KS統計をQQプロットから直接読み取ることができることです。
whuber

2

は最近、経験的CDFと近似CDFの相関関係を使用して適合度を定量化しましたが、このアプローチが現在のケースでも役立つのではないかと思います。これは、私が理解しているように、2つの経験的データセットの比較に関係しています。セット間で観測数が異なる場合は、補間が必要になることがあります。


あなたの論文は非常にいい数字:)含み
CHL

@chi:それらはすべてggplot2を使用してRで作成されました。素晴らしいグラフィック制作システムです!
Mike Lawrence

フィットCDFとはどういう意味ですか?
Ampleforth

@Ampleforth、その論文では、私は分布を経験的データに適合させたので、「適合CDF」とは適合分布の理論CDFを意味しました。申し訳ありませんが、どうすればもっと明確にできるでしょうか。
Mike Lawrence

あ、ごめんなさい。私の統計の欠如はかなり大きく、それがここでの唯一の問題です;)また、私はあなたの論文を読みませんでしたが、本当に気に入ったグラフをざっと見ました。
Ampleforth

1

2つの分布を比較するための多かれ少なかれ標準的な方法は、カイ2乗検定と言えるでしょう。ただし、統計は正規化されておらず、ビンの選択方法によって異なります。もちろん、最後のポイントはバグではなく機能と見なすことができます。たとえば、ビンを適切に選択すると、分布の真ん中よりもテールの類似性をより詳しく調べることができます。


1

QQプロットの線形性への「直接性」のかなり直接的な測定は、Shapiro-Francia検定統計量です(これは、よく知られたShapiro-Wilkと密接に関連しており、単純な近似と見なすことができます)。

Shapiro-Francia統計は、順序付けられたデータ値と予想される通常の順序統計(「理論的変位値」と呼ばれることもあります)の間の二乗相関です。つまり、プロットに表示される相関の二乗である必要があります。要約メジャー。

(Shapiro-Wilkは類似していますが、次数統計間の相関を考慮に入れています。これは、Shapiro-Franciaと同様の解釈があり、QQプロットの要約とほぼ同じくらい有用です。)

どちらの方法でも、QQプロットが示すものの単一の数の要約の場合、それらの1つは、プロットを要約するのに適した方法です。

個人的には、直線性への近さではなく、直線性からの逸脱を探す傾向があります(見ることをお勧めします)。このスケールは、特定の量の非正規性に対してかなり一定した値を残す傾向があります。1W

[時々私はを掛ける(は、法線をサンプリングする場合、小さくなる傾向があります)。正常からのサンプリングでは、の平均または中央値は、が変化してもかなり安定する傾向があります。による乗算はまだ完全に正しくはありませんが、部分的に過大に修正されます-結果はとともにと間のどこかで 増加し -しかし、この変動は値の種類に比べて小さいです正常性からの実質的な逸脱を伴う傾向があります。分布があまり変化しないスケールに到達する1 W n n 1 W n n n log n n1W)nn(1W)nnnlog(n) nlog(n)nこれは、変換されたp値に似たものになります(非正規性のの測定としてはあまり役に立ちませんが、単にランダムな変動ではないかどうかを判断するようなものに興味がある場合はさらに役立ちます)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.