比較のためにバイオリンのプロットを拡大縮小する方法は？

私はバイオリンのプロットを描画しようとしており、グループ間でそれらをスケーリングするための承認されたベストプラクティスがあるかどうか疑問に思っています。R mtcarsデータセットを使用して試した3つのオプションを次に示します（1973年のMotor Trend Cars、こちらをご覧ください）。

等しい幅

どのように思わ原紙は *行い、何Rはvioplotない（例）。形状の比較に適しています。

等面積バイオリンプロット

等しい面積

各プロットは確率プロットであるため、それぞれの面積はある座標空間で1.0に等しくなければなりません。各グループ内の密度を比較するのに適していますが、プロットがオーバーレイされている場合はより適切であると思われます。

等幅バイオリンプロット

加重エリア

等しい面積に似ていますが、観測数で重み付けされています。これらの車の数が少ないため、6気筒は比較的薄くなります。グループ間で密度を比較するのに適しています。

加重エリアバイオリンプロット

*バイオリンプロット：ボックスプロット-密度トレースSynergis（DOI：10.2307 / 2685478）

distributions data-visualization nonparametric

— キサン
ソース

プロットの目的は、大部分、適切なソリューションを決定します。それでは、彼らと何を見せようとしていますか？

— whuber

@whuber良い質問ですが、直接的な答えはありません。私はEDAにグラフィックを提供しようとしていますが、適切な一般的なデフォルト（および他のオプションが表面化するのに十分有用かどうか）を探しています。

— -xan

デフォルトを受け入れるのではなく、目的に合わせてプロットを制御することをお勧めします。

— whuber

人口全体の形を得るために幅を追加するのが理にかなっているかもしれないので、あなたの「加重エリア」バージョンは「人口のサブグループを比較するのに適している」ことをお勧めします。

— ヘンリー

分布の形状の視覚的影響を保持するために、私は平等な領域を好みます。次に、サンプルサイズを示す温度計でグラフを補足するか、バイオリンの横にサンプルサイズのテキスト表現を使用します。

— フランクハレル14

回答:

箱ひげ図は、分布の概略図に使用されます。バイオリンプロットは、Q1、Q2、およびQ3ボックスが広範囲の変位値で置き換えられた単なるボックスプロットです。そのため、受け入れられているプラクティスは、グループ全体で均一な幅を使用することだと思います。

ただし、良い点を挙げます。グループ全体の密度をどのように比較する必要がありますか？答えは、各グループをそれ自体の集団として見るか、サブ集団として見るかによって異なります。

$\Sigma_i P_i = 1$

— リック
ソース

バイオリンプロットは、もともとハイブリッドボックスプロットと密度トレースとして導入および定義されていました。Googleの簡単な説明によると、実際にはバイオリンプロットではボックスが省略され、多くのプロットでは分位点が表示されないため、多くのプロットが公開されています。したがって、ここでは定義が広く開かれています。

— ニックコックス

正直、間違った方向から近づいていると思います。3つのプロットはすべて、値を含む情報を明確に示します。それ以外の場合、どのプロットを使用するかを検討しません。探索的データ分析とは、データを理解することです。期待に合致する場合。そうでない場合。複数の変数にわたってどのように形作られますか。

EDAを実行する全体のポイントは、デフォルト、分布または共線性の仮定、使用される統計モデルなどが十分に正当化されるかどうかを評価することです。そのため、「デフォルト」EDAの概念には多少欠陥があります。

それらのすべて、または少なくともあなたが尋ねるつもりの質問に関連するすべてのプロットを見てください。EDAの段階で「おもしろいもの」と「無視するもの」に引きずり込む理由はありません。そして、デフォルトを介してデータを供給するだけの場合、そもそもEDAではありません。

— フォマイト
ソース

EDはEDAについての啓発的な発言で+1ですが、OPがEDAの後にあるかどうかはまだわかりません（私にとっては...）

— chl

@chl OPのコメントのいくつかは、それが彼が求めていることを示唆しています。それが「どれがもっと役に立つか」だけだとしたら、私が恐れる答えはさらに曖昧になります。

— フォマイト

ああ、私はそのコメントを逃しました...だからあなたの応答は再び+1の価値がありますが、私はできません：（

— chl

帯域幅はどうですか？それについて考えましたか？

ソフトウェアのデフォルト設定を使用してpdfを取得する場合、ガウスカーネルの最適な帯域幅の経験則を使用している可能性が高いです。この「最適な帯域幅」は、サブセットごとに異なる場合があります。今、自分自身に尋ねてください、形状はまだ比較可能ですか？ダブルスタンダードで同じ変数（カーネル密度推定値）を測定することになります。

カーネル密度の推定では、正しい帯域幅（ある種の相互検証）を得るための明確なルールが開発されましたが、バイオリンプロットでは、それらはほとんど無視されます。サンプルサイズが大きく異なる場合、重要になる場合があります。

私は今この問題を抱えています。あなたはそれについてどう思いますか？どのように解決しますか？コメントは大歓迎です。

— ホルガー・ホフマン
ソース