ヒストグラムに平均をプロットするのは適切ですか?


13

平均値を視覚化するためにヒストグラムに垂直線を追加することは「大丈夫」ですか?

私には大丈夫のようですが、教科書などでこれを見たことがないので、そうしない慣習があるのではないかと思っています。

グラフは学期論文用であり、非常に重要な暗黙の統計ルールを誤って破らないようにしたいだけです。:)


何故なの。コメントを追加するだけです。平均は、ヒストグラムと同様の要約値です。たとえば、ヒストグラムのバケットサイズを変えて、提供される情報の程度を変えることができます。ただし、通常、ヒストグラムは平均値よりも多くの情報を提供します。実際にヒストグラムから平均値を概算できます。私はそれが通常一緒に提供されない理由だと思います。
シモーネ

オーバーレイされた分布のヒストグラムが表示される場合があります(たとえば、私の経験では、サンプル平均と標準偏差を使用してプロットされた正規分布です)。これは、垂直線を描く(サンプルを示す平均は曲線のピークを示します。)
ジェームズスタンリー

回答:


30

もちろん、なぜですか?

平均付きヒストグラム

次に例を示します(簡単なGoogle検索で見つけた数十のうちの1つ)。

平均値と中央値を持つhist

(画像ソースは、測定ユーザビリティのブログですこちら。)

平均、平均プラスまたはマイナス標準偏差、さまざまな分位数(中央値、四分位数、10パーセンタイルおよび90パーセンタイルなど)がすべてさまざまな方法で表示されるのを見てきました。

プロットを横切って線を引く代わりに、下に沿って情報をマークすることができます-次のように:

限界ボックスプロット付きのヒストグラム

ここでは、下部ではなく上部にボックスプロットがある例(多数あります)があります

時々、人々はデータにマークを付けます:

ジッター付きヒストグラムrugplot
(値が整数に四捨五入され、相対密度を十分に見ることができなかったため、データの場所をわずかにジッタさせました。)

Stataの中で行われ、この種の例は、上で、あります。このページ(第3 1参照ここに

ヒストグラムは少し余分な情報があればより良くなります- 単独で誤解を招く可能性があります

あなたのプロットが何で構成されているかを説明するために注意するだけです!(最初にここで使用したものよりも優れたタイトルとx軸ラベルが必要です。さらに、マークした内容を説明する図のキャプションで説明します。)

-

最後のプロット:

ストリップチャート付きヒストグラム

-

私のプロットはRで生成されます。

編集:

@gungが推測しabline(v=mean...たように、プロット全体に平均線をrug描画するために使用され、データ値を描画するrug(jitter(...ために使用されました(ただし、データは整数に丸められたため、実際に使用しました)。

ヒストグラムと軸の間に箱ひげ図を作成する方法は次のとおりです。

hist(Davis2[,2],n=30)
boxplot(Davis2[,2],
  add=TRUE,horizontal=TRUE,at=-0.75,border="darkred",boxwex=1.5,outline=FALSE)

すべての目的をリストするつもりはありませんが、ヘルプ(?boxplot)の引数をチェックして、目的を確認し、自分で遊んでみてください。

ただし、これは一般的な解決策ではありません。ここでの動作と同じように常に動作することを保証するものではありません(既にatand boxwexオプションを変更していることに注意してください*)。すべてを処理するインテリジェントな関数を作成しない場合は、すべての処理に注意を払って、必要な処理を確実に実行する必要があります。

使用したデータの作成方法は次のとおりです(Theil回帰が実際にいくつかの影響力のある外れ値を処理できる方法を示していました)。たまたま、この質問に最初に答えたときに遊んでいたデータでした。

 library("car")
 add <- data.frame(sex=c("F","F"),
       weight=c(150,130),height=c(NA,NA),repwt=c(55,50),repht=c(NA,NA))
 Davis2 <- rbind(Davis,add)

*-の適切な値atは、約-0.5倍の値ですboxwex。それを行う関数を作成する場合、これは適切なデフォルトです。boxwexboxplotのyスケール(高さ)に関連する方法でスケーリングする必要があります。多くの場合、yの上限の0.04〜0.05倍でよいことをお勧めします。

限界ストリップチャートのコード:

 hist(Davis2[,2],n=30)
 stripchart(jitter(Davis2[,2],amount=.5),
       method="jitter",jitter=.5,pch=16,cex=.05,add=TRUE,at=-.75,col='purple3')

+1、これらは素晴らしいです。コードを追加しますか?abline(v=mean(Davis2[,2]))rug(Davis2[,2])私は推測しますが、どのようにそこに箱ひげ図をくさび止めましたか?
GUNG -復活モニカ

1
@gung箱ひげ図のような再現可能な例を含む、簡単な詳細については編集を参照してください。boxplot関数への引数のいくつかを利用することほど賢いことは何もしていません。間でboxplotboxpあなたは少しの努力でいくつかのかなり気の利いたことをすることができます。
-Glen_b-モニカーの復活2013

年齢の知恵:「すべての面倒を見るインテリジェントな機能を作成しない場合は、すべてが何をするかに注意を払って、必要なことを確実に実行する必要があります」;-)。
GUNG -復活モニカ

うん。私もセットに巧妙な何かを書くことが企図atし、boxwexというように...しかし、最高の状態で私はその年のようないくつかのプロットを行うには、それがタイプ?箱ひげ図と設定し、右のオプションに数秒毎の時間を要します。自分がやっていることに注意を向ける方が簡単だと思いました。
Glen_b-モニカの復活2013

@gung編集して、使用していたDavis2データを作成するコードを提供しました。お役に立てば幸いです。
-Glen_b-モニカーの復活2013

3

もちろんできます。線の意味を明確にラベル付け/表示し、プロットが「ビジー」になりすぎないようにしてください。

あまりにも多くの情報を伝えるグラフほど簡単に理解できないほど悪くはありません。この表は、要約統計を明確かつ簡潔に表示するために見過ごされがちな方法です。


2

以前の回答は優れたポイントですが、ここで追加する必要がある基本事項の1つです。

平均は、分布の重心であり、ヒストグラムのピボットポイントです。分散のバランスがとれる場所です。したがって、相互関係があります。平均はヒストグラムについて考えるのに役立つだけでなく、ヒストグラムは平均について考えるのにも役立ちます。これは、分布が歪んでいて、分布の平均が必ずしも中央にあるとは限らない場合に、さらに役立つ可能性があります。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.