タグ付けされた質問 「boxplot」

サンプルの分布を要約するグラフィック表示。5つの数値といくつかの外れ値(おそらく)を表示します-これらの5つのポイントは中央値、ヒンジ(おおよその四分位数)、および最大値と最小値であり、外れ値としてマークされたポイントはカウントされません。

2
ポアソン分散データのボックスプロットバリアントはありますか?
ポアソン分布データ(またはおそらく他の分布)に適応したボックスプロットバリアントがあるかどうかを知りたいですか? ガウス分布では、ウィスカはL = Q1-1.5 IQRおよびU = Q3 + 1.5 IQRに配置されているため、箱ひげ図には、高い外れ値(Uより上の点)とほぼ同じくらい多くの低い外れ値(Lより下の点)があります)。 ただし、データがポアソン分布の場合、正の歪度によりPr(X <L)<Pr(X> U)が得られるため、これはもはや成り立ちません。ポアソン分布に「適合する」ようにひげを配置する別の方法はありますか?

6
分布を比較するための優れたデータ視覚化技術とは何ですか?
私は博士論文を書いていますが、分布を比較するためにボックスプロットに過度に依存していることに気付きました。このタスクを達成するために他にどの方法が好きですか? また、データの視覚化に関するさまざまなアイデアを取り入れることができるRギャラリーとして、他のリソースを知っているかどうかを尋ねたいと思います。

7
ボックスプロットのいくつかの代替手段は何ですか?
ユーザーが選択したポリゴンの人口調査データを表示し、さまざまなパラメーターの分布をグラフィカルに表示したい(パラメーターごとに1つのグラフ)Webサイトの作成に取り組んでいます。 通常、データには次のプロパティがあります。 サンプルサイズは大きくなる傾向があります(約10,000個のデータポイントなど) 値の範囲は大きくなる傾向があります(たとえば、最小人口は100未満、最大人口は500,000のようになります) 通常、q1は最小値(200など)に近く、q2とq3は10,000以内です。 正規分布のようには見えません 私は統計学者ではないので、私の説明は正確には明確ではないかもしれません。 この分布をグラフで表示したいと思います。グラフは、市民(必要に応じて、素人)に表示されます。 ヒストグラムを使用することをお勧めしますが、値の範囲が広いため不可能です。そのため、ビンを作成するのは本当に簡単ではありません。 統計についてほとんど知らないことから、箱ひげ図はこの種のデータを表示するためによく使用されますが、素人にとっては箱ひげ図の解読は容易ではないと感じています。 このデータをわかりやすく表示するためのオプションは何ですか?

1
箱ひげ図の歴史はどのようなもので、「箱ひげ」のデザインはどのように進化しましたか?
多くの情報源は、に古典的な「ボックスプロット」デザインとデートジョン・テューキーデザインはで、それ以来、比較的静的に宿泊しているようだと、1970年の彼の「概略的なプロット」エドワード・タフトのカットダウンボックスプロットのバージョン間、上のキャッチに失敗しますバイオリンプロット -ボックスプロットのより有益なバリエーション-はあまり人気がありません。10パーセンタイルと90パーセンタイルまで伸びるというクリーブランドの提案には、支持者がいます。Cox(2009)を参照してくださいが、これは標準ではありません。 Hadley WickhamとLisa Stryjewskiは、箱ひげ図の歴史に関する未発表の論文を書きましたが、箱ひげ図の歴史的な先駆者をカバーしていないようです。 それでは、現在のユビキタスな「箱とひげ」のプロットはどのようにして生まれたのでしょうか?どのようなデータの視覚化から発展し、それらの初期の設計には大きな利点がありましたか?また、なぜそれらがTukeyのスキームによる使用で非常に包括的に食われているように見えるのですか?図解された答えはボーナスになりますが、ウィッカムやストリエフスキーよりも歴史的に深く掘り下げた参考文献に向けられると便利です。 参照資料 ニュージャージー州コックス(2009)。Speaking Stata:ボックスプロットの作成と変更。Stata Journal、9(3)、478。 Wickham、H.およびStryjewski、L.(2011)。40年の箱ひげ図。http://vita.had.co.nz/papers/boxplots.pdf

3
ボックスプロットから歪度を評価する方法は?
このデータから作成された箱ひげ図を見て歪度を決定する方法: 340、300、520、340、320、290、260、330 ある本は、「下位の四分位数が上位の四分位数よりも中央値から遠い場合、分布は負に歪んでいます」と述べています。他のいくつかの情報源は、ほぼ同じことを言った。 Rを使用して箱ひげ図を作成しました。次のようなものです。 下の四分位数は上の四分位数よりも中央値から遠いので、それは負に歪んでいると思います。しかし、問題は、歪度を決定するために別の方法を使用する場合です。 平均(337.5)>中央値(325) これは、データが正に歪んでいることを示します。私は何か見落としてますか?

4
外れ値のBox and Whisker Plot定義の根拠は何ですか?
Box and Whiskerプロットの外れ値の標準定義は、範囲外側の点です。ここで、およびは最初の四分位数、データの3番目の四分位数です。 I Q R = Q 3 − Q 1 Q 1 Q 3{ Q 1 − 1.5 IQ R 、Q 3 + 1.5 IQ R }{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}私Q R = Q 3 − Q 1IQR=Q3−Q1IQR= Q3-Q1Q 1Q1Q1Q 3Q3Q3 この定義の根拠は何ですか?多数のポイントがある場合、完全に正規分布でも外れ値が返されます。 たとえば、次のシーケンスで開始するとします。 xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) このシーケンスにより、4000ポイントのデータのパーセンタイルランキングが作成されます。 qnormこのシリーズの正規性をテストすると、次の結果が得られます。 shapiro.test(qnorm(xseq)) Shapiro-Wilk normality …

3
極端な外れ値を持つボックスプロットを表示する方法は?
データの提示に関するガイダンスを使用できます。 この最初のプロットは、サイトカインIL-10の症例対照比較です。y軸を手動で設定して、データの99%を含めました。 これを手動で設定したのは、ケースグループに極端な異常値があるためです。 私の共同研究者は、データセットの外れ値の削除をためらっています。私はそれでいいですが、彼らはむしろそうではありません。それは明らかな解決策です。しかし、すべてのデータを保持し、この外れ値を削除しない場合、どのようにこの箱ひげ図を最適に提示できますか?軸を分割しますか?最初のグラフだけを使用して、すべてのデータを含むように作成されていることに注意してください。(このオプションは私にとって不誠実です)。どんなアドバイスも素晴らしいでしょう。

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
ボックスプロットで中央値の代わりに平均値を表示する[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 4ヶ月前に閉店。 python matplotblibで箱ひげ図をプロットする場合、プロットの半分の線は分布の中央値です。 代わりに平均でラインを持つ可能性はありますか。または、その横に別のスタイルでプロットします。 また、行が中央値であることが一般的であるため、平均にすると、読者を本当に混乱させますか(もちろん、中間行とは何かをメモします)。

1
GAM vs LOESS vsスプライン
コンテキスト:パラメトリックではない散布図に線を描画したいのでgeom_smooth()、ggplotin を使用していRます。geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.一般化された加法モデルのGAMスタンドを収集し、3次スプラインを使用して自動的に戻ります。 次の認識は正しいですか? レスは、特定の値で応答を推定します。 スプラインは、データ(一般化された加法モデルを構成する)に適合するさまざまな区分的関数を接続する近似であり、3次スプラインはここで使用される特定のタイプのスプラインです。 最後に、スプラインはいつ使用する必要があり、LOESSはいつ使用する必要がありますか?


4
ヒストグラムが提供しないボックスプロットはどのような情報を提供しますか?
ヒストグラムは、変数の分布をよく理解します。ただし、ボックスプロットは同じことをしようとしますが、この変数の分布を十分に描写していません。 なぜ人々が箱ひげ図を使うのか分かりません。ヒストグラムはあらゆる点で優れています。両方を使用する理由はありますか? ボックスプロットが提供する唯一のことは、外れ値です!どの観測が外れ値である可能性があるかがわかります。

1
これはどのようなチャートですか?
あいまいな質問で申し訳ありませんが、このグラフはBiddleらに表示されます。2009年と私は以前にそのような何かに遭遇したことがありません。これは、エッジが面取りされた棒グラフであり、「角」もあります。これらはどういう意味ですか?このタイプのチャートには名前がありますか? パー/meta/244083/site-for-asking-about-charts私はアカデミアが求める最適な場所だと思いました。


2
Rでggplot2を使用する2つの因子に関する箱ひげ図
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 私はRとRのパッケージを初めて使用します。ggplot2のドキュメントを調べましたが、これを見つけることができませんでした。boxthis2つの因子f1とに関して変数のボックスプロットが必要ですf2。それは両方を想定あるf1とf2因子変数であり、それらのそれぞれが2つの値をとり、boxthis連続変数です。私は、それぞれの可能な組み合わせの中から1つの組み合わせに対応し、グラフ上の4箱ひげ図を取得したいf1とf2取ることができます。私はRの基本的な機能を使用して、これを行うことができると思う > boxplot(boxthis ~ f1 * f2 , data = datasetname) 助けてくれてありがとう。
13 r  boxplot  ggplot2 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.