タグ付けされた質問 「boxplot」

サンプルの分布を要約するグラフィック表示。5つの数値といくつかの外れ値(おそらく)を表示します-これらの5つのポイントは中央値、ヒンジ(おおよその四分位数)、および最大値と最小値であり、外れ値としてマークされたポイントはカウントされません。

3
箱ひげ図から分散を推定する
私は箱ひげ図を使用して変数の分散をどのように推測するのか疑問に思っていました。少なくとも、2つの変数がそれらの箱ひげ図を観察して同じ分散を持っているかどうかを推測することは可能ですか?
12 variance  boxplot 

4
Rでの箱ひげ図のラベル付け
ロックされています。この質問とトピックへの回答はロックされています。質問はトピックから外れていますが、歴史的に重要です。現在、新しい回答や相互作用を受け入れていません。 軸なしで箱ひげ図を作成して現在のプロット(ROC曲線)に追加する必要がありますが、箱ひげ図にさらにテキスト情報を追加する必要があります。最小と最大のラベルです。現在のコード行は次のとおりです(現在のグラフも)。 助力に感謝します。 boxplot(data, horizontal = TRUE, range = 0, axes=FALSE, col = "grey", add = TRUE) 他の解決策は、(x軸ではなく)0から1までの線を追加することですが、中心線を通るようにしたいです...たとえば、このグラフィックのように
11 r  boxplot 

2
箱ひげ図を読む:グループ間の有意差を収集することは可能ですか?
次の箱ひげ図を見ているとしましょう: 木曜日と金曜日の間、私はほとんどの人が睡眠時間に大きな違いがあるように思われることに同意すると思います。しかし、それは統計的に有効な推測ですか?木曜日と金曜日の間で四分位範囲のどちらも重複しないという事実のために、私たちは有意差を識別できますか?木曜日と金曜日のウィスカの上部と下部がそれぞれ重なっているという事実はどうですか?それは分析に影響しますか? 通常、このようなチャートに付随するのはある種の分散分析ですが、箱ひげ図を見るだけでグループ間の違いについてどれだけ言えるか知りたいです。

1
「バグプロット」または「二変量ボックスプロット」とは何ですか?
私は箱ひげ図の多次元(ここでは2変量)バージョンを紹介する論文を見つけました。そのバグプロットは正確には何ですか?頂点に基づいてネストされた一連のポリゴンを確認できます。これらのポリゴンの1つはバグプロットとして宣言されています。ネストされたポリゴン構築のアイデアは何ですか?バグプロットであるポリゴンはどれですか(中央またはポイントの平均数を保持)。バグプロットのエッジには、いくつかの有用なプロパティがありますか(特にポイントセットを分割するなど)?


1
ボックスプロットノッチ対Tukey-Kramer間隔
'R'のボックスプロットからの「ノッチ」ヘルプドキュメント(または元のテキスト)は、次のようになります。 2つのプロットのノッチが重ならない場合、これは2つの中央値が異なることを示す「強力な証拠」です(Chambers et al、1983、p。62)。使用される計算については、boxplot.statsを参照してください。 そして ' boxplot.stats 'は以下を与えます: ノッチ(要求された場合)は+/- 1.58 IQR / sqrt(n)まで拡張されます。これは、McGill et al(1978、p。16)で与えられたChambers et al(1983、p。62)の1.57の式と同じ計算に基づいているようです。それらは、中央値の漸近的正規性と、比較される2つの中央値のサンプルサイズがほぼ等しいことに基づいており、サンプルの基になる分布に比較的鈍感であると言われています。考えは、2つの中央値の差に対して約95%の信頼区間を与えることであると思われます。 これで、JMPバージョンのTukey-Kramerテストを使用して列の平均を比較することに慣れました。 JMPのドキュメントはこれを提供します: 平均間のすべての違いに対応するサイズのテストを表示します。これは、TukeyまたはTukey-Kramer HSD(正直有意差)テストです。(Tukey 1953、Kramer 1956)。このテストは、サンプルサイズが同じ場合は正確なアルファレベルのテストであり、サンプルサイズが異なる場合は控えめです(Hayter 1984)。 質問:2つのアプローチ間の接続の性質は何ですか?一方を他方に変換する方法はありますか? 中央値のおよそ95%のCIを探しており、重複があるかどうかを判断しているようです。もう1つは、2セットのサンプルの中央値が互いに妥当な範囲内にあるかどうかを判断するための「正確なアルファテスト」です(私のサンプルは同じサイズです)。 パッケージを参照していますが、ロジックの背後にある数学に興味があります。

1
中央値の95%CIがはずなのはなぜですか?
さまざまなソース(たとえば、こちらを参照)では、中央値(特に箱ひげ図にノッチを描く目的)の信頼区間について次の式が与えられています。 95% CImedian=Median±1.57×IQRN−−√95% CImedian=Median±1.57×IQRN 95\%\ CI_{\rm median} = {\rm Median} \pm \frac{1.57\times IQR}{\sqrt{N}} 魔法の定数夢中です。どうやって取得したのかわかりません。さまざまな近似(たとえば、分布がガウスでが大きいと仮定)では手掛かりが得られません—定数の値は異なります。1.571.571.57NNN

2
平均、sd、最小、最大で要約統計量をプロットしますか?
私は経済学の出身ですが、通常、分野では変数の要約統計量が表で報告されます。しかし、私はそれらをプロットしたいと思います。 ボックスプロットを変更して、平均値、標準偏差、最小値、最大値を表示できるようにすることもできますが、従来は中央値とQ1およびQ3を表示するためにボックスプロットが使用されているため、そうしたくありません。 すべての変数のスケールが異なります。誰かが私がこれらの要約統計量をプロットすることができる意味のある方法を提案できたら素晴らしいでしょう。RまたはStataを使用できます。

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
多くの左にゆがんだ分布の視覚化
表示したい一連の左スキュー/ヘビーテール分布があります。(AS標識三つの要因を横切る42点の分布がありA、BそしてC以下が)。また、変動は因子全体で縮小していBます。 私が抱えている問題は、結果のスケール(比率または倍率変化)全体で分布を区別するのが難しいことです。 データをログに記録すると、左の歪度が過度に強調され、より多くのサンプルが裾に移動します(異常値ポイントのマッシュが作成されます)。 これらのデータを視覚化するための他の手法についての提案はありますか?

4
1つの中央値が別の中央値よりも低いという事実は、なぜグループ1の大部分がグループ2の大部分よりも少ないことを意味しないのですか?
以下の箱ひげ図は、(このデータセットでは)「ほとんどの男性がほとんどの女性よりも速い」と解釈できると信じていました。しかし、Rと統計のクイズに関するEdXコースは、それが正しくないと教えてくれました。私の直感が正しくない理由を教えてください。 ここに質問があります: 2002年にニューヨークシティマラソンで出場した無作為のサンプルについて考えてみましょう。このデータセットは、UsingRパッケージにあります。ライブラリをロードしてから、nym.2002データセットをロードします。 library(dplyr) data(nym.2002, package="UsingR") ボックスプロットとヒストグラムを使用して、男性と女性の終了時間を比較します。次のうちどれが違いを最もよく説明していますか? 男性と女性の分布は同じです。 ほとんどの男性はほとんどの女性よりも速いです。 男性と女性は同様に右に歪んだ分布をしており、前者は20分左にシフトしています。 両方の分布は通常、平均で約30分の差で分布します。 以下は、分位数、ヒストグラム、箱ひげ図としての男性と女性のニューヨークマラソン時間です。 # Men's time quantile 0% 25% 50% 75% 100% 147.3333 226.1333 256.0167 290.6375 508.0833 # Women's time quantile 0% 25% 50% 75% 100% 175.5333 250.8208 277.7250 309.4625 566.7833

2
箱ひげ図のひげについて
箱ひげ図のひげの解釈について質問があります。私は以下を読みました:「長方形の上部と下部で、「ひげ」は0.25と0.75の分位数の間の距離の1.5倍の範囲を示していますが、「距離」が何を意味するのか完全には理解していません。 0.25と0.75の分位数の間、データのパーセンテージは常に同じであるため、確率質量が意味されているとは限りません。それではアイデアは何ですか?

3
複数の分布の箱ひげ図?
Rの単一のグラフに20の分布を描画する必要があります。boxwex= 0.3を使用しても、通常のボックスプロット(20ボックス)では見栄えがよくありません(乱雑)。以下のように、中央値のドットとボックスの代わりにラインだけを使用して、20の分布に対して一種のボックスプロットをRでプロットする方法を教えてください。素敵な箱ひげ図を作成するRメソッドがあるかどうか、特に単一のグラフで複数の分布を表示したい場合も教えてください。 -----0----
9 r  boxplot 

1
ボックスプロットのノンパラメトリック多重比較の重要な結果を強調表示
1つのプロットで表示する13グループのボックスプロットがあります。グループの人口は不均衡で、通常は分布していません。一致するボックスの上にa、b、cなどを配置して、どのペアが統計的に類似している(つまり、kruskal.testのp値が0.05未満である)かを示したいと思います。ここに私が持っているものを示すための疑似コードがあります: A = c(1, 5, 8, 17, 16, 3, 24, 19, 6) B = c(2, 16, 5, 7, 4, 7, 3) C = c(1, 1, 3, 7, 9, 6, 10, 13) D = c(2, 15, 2, 9, 7) junk = list(g1=A, g2=B, g3=C, g4=D) boxplot(junk) 私が見つけたプロットは次のとおりです(1つの行に13個のグループがあることを除いて)。

1
Rのボックスプロット:変位値が決定されるときに異常値はカウントされますか?
1次元のデータセットがあり、boxplot関数を使用してボックスプロットを作成します。その後、私はいくつかの外れ値を持っていることがわかります。 変位値が決定されるときに異常値はカウントされますか? どちらの方法が使用されているかが明らかである限り、正しい/間違った方法はありますか、それとも両方が正しいですか?もしそうなら、Rはそれをどのように行うのですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.