タグ付けされた質問 「qq-plot」

qqプロット(または変位値変位値プロット)は、2つの分布の変位値の散布図です。QQプロットは、分布の比較に役立ちます。

4
QQプロットの解釈方法
私は小さなデータセット(21の観測値)で作業しており、Rには次の通常のQQプロットがあります。 プロットが正規性をサポートしていないことを見て、基礎となる分布について何を推測できますか?右側に偏った分布がより適切であるように思えます、そうですか?また、データから他にどのような結論を導き出すことができますか?

5
QQplotの解釈-非正規性を決定する経験則はありますか?
ここでQQplotのスレッドを十分に読んで、QQplotが他の正規性テストよりも有益であることを理解しています。しかし、私はQQplotsの解釈に不慣れです。私はたくさんグーグルでした。非正規のQQplotのグラフをたくさん見つけましたが、既知の分布と「直感」との比較と思われるものを除き、それらの解釈方法に関する明確なルールは見つかりませんでした。 非正規性の判断に役立つ経験則があるか(または知っているか)知りたい。 この質問は、次の2つのグラフを見たときに浮上しました。 非正規性の決定は、データとそれらの処理に依存することを理解しています。ただし、私の質問は、一般に、観測された直線からの逸脱が正規性の近似を不合理にするのに十分な証拠を構成するのはいつですか? 価値のあることですが、Shapiro-Wilk検定は、どちらの場合も非正規性の仮説を否定できませんでした。

5
R-QQPlot:データが正規分布しているかどうかを確認する方法
Shapiro-Wilk正規性テストを行った後、これをプロットしました。テストでは、人口が正規分布している可能性が高いことが示されました。ただし、このプロットでこの「動作」を確認するにはどうすればよいですか? 更新 データの単純なヒストグラム: 更新 Shapiro-Wilkテストは次のように述べています。



4
データの分布が対称かどうかを確認するにはどうすればよいですか?
中央値と平均値がほぼ等しい場合、対称分布が存在することを意味しますが、この特定のケースでは確信がありません。平均値と中央値は非常に近い(差額は0.487m / gallのみ)ため、対称分布があると言えますが、箱ひげ図を見ると、わずかに正に歪んでいるように見えます(中央値はQ3よりもQ1に近いことが確認されています)値によって)。 (このソフトウェアについて特別なアドバイスがあれば、Minitabを使用しています。)

3
ヒストグラムよりもQQプロットを使用する利点
ではこのコメント、ニック・コックスは書きました: クラスへのビニングは古代の方法です。ヒストグラムは便利ですが、最新の統計ソフトウェアを使用すると、生データに分布を適合させることが簡単になります。ビニングは、どの分布がもっともらしいかを判断するのに重要な詳細を単に捨てます。 このコメントの文脈は、フィットを評価するための代替手段としてQQプロットを使用することを示唆しています。声明は非常に妥当なように聞こえますが、この声明を裏付ける信頼できる参照について知りたいです。単純な「まあ、これは明白に聞こえます」を超えて、この事実をより徹底的に調査する論文はありますか?結果または同類の実際の体系的な比較はありますか? また、ヒストグラムに対するQQプロットの利点が、モデルフィッティング以外のアプリケーションにどの程度まで拡張されるかを確認したいと思います。上の回答この質問は「『何かが間違っている』 [...]ちょうどことを示していますQQプロット」ことに同意します。ヌルモデルと比較して観測データの構造を識別するツールとしてそれらを使用することを考えており、非ランダムを検出するだけでなく説明するためにQQプロット(またはその基礎となるデータ)を使用する確立された手順が存在するかどうか疑問に思います観測データの構造。したがって、この指示を含む参照は特に有用です。

1
Rでqqline()によって生成された行の使用は何ですか?
qqnorm()R関数は、通常のQQプロットを生成し、qqline()第一及び第三の四分位数を通る線を付加します。この線の起源は何ですか?正常性を確認することは役に立ちますか?これは古典的な線ではありません(対角線おそらく線形スケーリング後)。y= xy=xy=x 以下に例を示します。最初私は理論的な分布関数と経験分布関数を比較: 今は、ラインとQQプロットプロットYが= μ + σ X。このグラフは、前のグラフの(非線形)スケーリングにほぼ対応しています。 ただし、R qqlineを使用したqqプロット は次のとおりです。この最後のグラフは、最初のグラフのように出発を示していません。N(μ^、σ^2)N(μ^,σ^2){\cal N}(\hat\mu,\hat\sigma^2)y= μ^+ σ^バツy=μ^+σ^xy=\hat\mu + \hat\sigma x

4
外れ値のBox and Whisker Plot定義の根拠は何ですか?
Box and Whiskerプロットの外れ値の標準定義は、範囲外側の点です。ここで、およびは最初の四分位数、データの3番目の四分位数です。 I Q R = Q 3 − Q 1 Q 1 Q 3{ Q 1 − 1.5 IQ R 、Q 3 + 1.5 IQ R }{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}私Q R = Q 3 − Q 1IQR=Q3−Q1IQR= Q3-Q1Q 1Q1Q1Q 3Q3Q3 この定義の根拠は何ですか?多数のポイントがある場合、完全に正規分布でも外れ値が返されます。 たとえば、次のシーケンスで開始するとします。 xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) このシーケンスにより、4000ポイントのデータのパーセンタイルランキングが作成されます。 qnormこのシリーズの正規性をテストすると、次の結果が得られます。 shapiro.test(qnorm(xseq)) Shapiro-Wilk normality …

2
p値のQQプロットを解釈する方法
私はplink(http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml)と呼ばれるソフトウェアを使用して、疾患に関するGWAS SNP関連研究を行っています。 アソシエーションの結果で、分析されたすべてのSNPのp値を取得します。ここで、これらのp値のQQプロットを使用して、非常に低いp値が予想されるp値の分布(均一な分布)と異なるかどうかを示します。p値が予想される分布から外れている場合、統計的に有意なp値を「呼び出す」ことができます。 QQプロットを見るとわかるように、最後尾の最後の4つのポイントは解釈がやや困難です。灰色の最後の2つのポイントは、それらのp値がp値の予想される分布にあるのに対し、他の2つの値はそうではないことを示しています。 さて、これをどのように解釈するか、最後の2点はp値が低いが、QQプロットによると「有意」ではありませんが、p値が高い他の2点は「有意」ですか?どうしてこれが本当ですか?
17 qq-plot 

4
どちらを信じるべきか:コルモゴロフ-スミルノフ検定またはQQプロット?
連続データのデータセットがパラメーターshape 1.7およびrate 0.000063のガンマ分布に従うかどうかを判断しようとしています。====== 問題は、Rを使用してデータセット QQプロットを作成するxxxして、理論的な分布ガンマ(1.7、0.000063)に対すると、経験データがガンマ分布とほぼ一致することを示すプロットが得られることです。ECDFプロットでも同じことが起こります。 私はコルモゴロフ-スミルノフ検定を実行するときしかし、それは私に不当に小さな与えの-値&lt; 1 %に。ppp&lt;1%&lt;1%<1\% どちらを信じるべきですか?グラフィック出力またはKSテストからの結果?

3
私の分布は正常です。コルモゴロフ-スミルノフ検定は同意しない
私が持っているいくつかのデータの正規性に問題があります:p = .0000では正常ではないと言うコルモゴロフ検定を実行しましたが、わかりません:私の分布の歪度=-。497、尖度= -0,024 これは非常に正規に見える私の分布のプロットです... (私は3つのスコアを持っていますが、このスコアのそれぞれはコルモゴロフ検定の有意なp値で正常ではありません...私は本当に理解していません)

1
QQラインの信頼帯
この質問は特にに関係するものRではありませんがR、説明のために使用することにしました。 (通常の)qqラインの周りに信頼帯を生成するコードを考えます。 library(car) library(MASS) b0&lt;-lm(deaths~.,data=road) qqPlot(b0$resid,pch=16,line="robust") 私はこれらの信頼帯がどのように構築されるかの説明(または代替の紙/オンライン文書へのリンク)を探しています(RのヘルプファイルでFox 2002への参照を見ましたが、悲しいことに私はこれを持っていません便利な本)。 私の質問は例を使用してより正確になります。Rこれらの特定のCIの計算方法は次のとおりです(で使用するコードを短縮/簡略化しましたcar::qqPlot)。 x&lt;-b0$resid good&lt;-!is.na(x) ord&lt;-order(x[good]) ord.x&lt;-x[good][ord] n&lt;-length(ord.x) P&lt;-ppoints(n) z&lt;-qnorm(P) plot(z,ord.x,type="n") coef&lt;-coef(rlm(ord.x~z)) a&lt;-coef[1] b&lt;-coef[2] abline(a,b,col="red",lwd=2) conf&lt;-0.95 zz&lt;-qnorm(1-(1-conf)/2) SE&lt;-(b/dnorm(z))*sqrt(P*(1-P)/n) #[WHY?] fit.value&lt;-a+b*z upper&lt;-fit.value+zz*SE lower&lt;-fit.value-zz*SE lines(z,upper,lty=2,lwd=2,col="red") lines(z,lower,lty=2,lwd=2,col="red") 問題は、これらのSEを計算するために使用される式の正当化とは何ですか(例:line SE&lt;-(b/dnorm(z))*sqrt(P*(1-P)/n))。 FWIWこの式は、線形回帰で使用される通常の信頼帯の式とは大きく異なります

5
QQプロットの中心付近の無関係な点を削除する
Rで約120万ポイントの2つのデータセットを使用してQQプロットをプロットしようとしています(qqplotを使用し、データをggplot2に送ります)。計算は簡単ですが、結果のグラフは非常に多くのポイントがあるため、読み込みが非常に遅くなります。ポイント数を10000に減らすために線形近似を試みました(これは、データセットの1つが他のデータセットよりも大きい場合、qqplot関数がとにかく行います)が、その後、テールの詳細の多くを失います。 中心に向かうデータポイントのほとんどは基本的に役に立たない-それらは非常に重なるので、おそらくピクセルあたり約100です。よりスパースなデータを末尾に向かって失うことなく、近すぎるデータを削除する簡単な方法はありますか?

3
レプトクルティック分布を正規性に変換する方法は?
正常に変換したいレプトクルティック変数があるとします。このタスクを達成できる変換は何ですか?データを変換することが常に望ましいとは限らないことをよく知っていますが、学術的な追求として、データを正常に「ハンマー」したいとします。さらに、プロットからわかるように、すべての値は厳密に正です。 さまざまな変換を試しました(これまでに使用したものはほとんどすべて、など)、しかし、どれも特にうまく機能しません。レプトクルティック分布をより正規にするためのよく知られた変換はありますか?1バツ、X−−√、asinh (X)1バツ、バツ、アシン(バツ)\frac 1 X,\sqrt X,\text{asinh}(X) 以下の標準QQプロットの例を参照してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.