均一ビンと非均一ビンのヒストグラム


10

この質問では、均一ヒストグラムと非均一ヒストグラムの基本的な違いについて説明します。そして、この質問は、ヒストグラムがデータサンプルの抽出元の分布を表す度合いを(ある意味で)最適化する均一なヒストグラムのビンの数を選択するための経験則について説明します。

均一ヒストグラムと非均一ヒストグラムについて同じ種類の「最適性」の議論を見つけることができないようです。遠く離れた外れ値を持つクラスター化されたノンパラメトリック分布があるので、不均一なヒストグラムは直感的に理解しやすくなります。しかし、私は次の2つの質問のより正確な分析を見たいです。

  1. 均一ビンのヒストグラムは、非均一ビンのヒストグラムよりも優れているのはいつですか?
  2. 不均一なヒストグラムのビンの適切な数はいくつですか?

不均一なヒストグラムのために、私たちが取る最も単純なケースと考えています順序得られ、未知の分布からサンプルをN値、及びにそれらを分離するk個の各ビンを有するようにビンkはnnkknnckcmaxi+1


回答するのに十分な情報がありません(2)。不均一性の条件は何ですか?あなたは好きなビンを選ぶことができますか、それともいくつかの制限がありますか?何を最適化しますか?たとえば、と間の最小平均積分二乗誤差が必要ですか?または、他の何か?ff^
Glen_b-2013

@Glen_b非均一なビンの場合に検討しているヒストグラムの種類についてもう少し詳しく説明します。
アランチューリング

編集内容を確認してください。「cn」ではなく「n = cm」ですか?また、後の誤植もあります。
Glen_b-2013

このようなことを伝えようとしていますか?
Glen_b-2013

それと通常のヒストグラムの間の妥協についてのこの議論も参照してください
Glen_b -Reinstate Monica

回答:


7

均一ビンのヒストグラムは、非均一ビンのヒストグラムよりも優れているのはいつですか?

これには、最適化しようとしているものを特定する必要があります。多くの人が平均積分平均二乗誤差を最適化しようとしますが、多くの場合、ヒストグラムを作成する意味が多少欠けていると思います。それはしばしば(私の目には)「滑らかすぎる」; ヒストグラムのような探索ツールの場合、粗さ自体が目で「滑らかに」する必要がある程度の感覚を与えるので、かなりの粗さを許容できます。私はそのようなルールから、通常のビンの数を少なくとも2倍にする傾向があります。私はこれについてAndrew Gelmanに同意する傾向があります。確かに、私の興味が本当に良いAIMSEを取得することだったとしたら、とにかくヒストグラムを検討すべきではないでしょう。

したがって、基準が必要です。

まず、不等面積ヒストグラムのオプションのいくつかについて説明します。

「等しい面積」または「等しい数」のヒストグラムなど、密度が低い領域でより平滑化(より少ない、より広いビン)を実行し、密度が高いほどより狭いビンを持ついくつかのアプローチがあります。あなたの編集された質問は平等の可能性を考慮しているようです。

histogramRのlatticeパッケージの関数は、ほぼ等しい面積の棒を生成できます。

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

等しい幅と等しい面積の比較

左端のビンのすぐ右側の落ち込みは、4番目の根を取るとさらに明確になります。等幅のビンでは、15から20倍のビンを使用しない限りそれを見ることができず、右の尾がひどく見えます。

ここに等カウントのヒストグラムがあり、Rコードを使用して、サンプル分位点を使用して区切りを見つけます。

たとえば、上記と同じデータの場合、6つのビンに(できれば)8つの観測値があります。

equalcountヒストグラム

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

このCVの質問は、DenbyとMallowsによる論文を指しています。そのバージョンは、ここからダウンロードでき、等幅のビンと等面積のビンの間の妥協点について説明しています。

また、ある程度の質問にも対応します。

あなたはおそらく、問題を区分的に一定のポアソンプロセスの中断を特定することの1つと考えることができます。それはこのような仕事につながるでしょう。また、(たとえば)ポアソンカウントでクラスタリング/分類タイプのアルゴリズムを調べる関連する可能性もあります。そのアルゴリズムのいくつかは、多数のビンを生成します。2Dヒストグラム(実際には画像)でクラスタリングを使用して、比較的均一な領域を特定しています。

-

等カウントのヒストグラムと最適化の基準がある場合、ビンごとのカウントの範囲を試し、何らかの方法で基準を評価できます。ここで言及しワンドの論文[ 論文、またはワーキングペーパーpdf ]とその参考文献の一部(たとえば、Sheather et alの論文など)は、AIMSEを最適化するカーネルスムージングのアイデアに基づく「プラグイン」ビン幅推定の概要を示しています。おおまかに言って、そのようなアプローチはこの状況に適応できるはずですが、私はそれが行われたのを思い出しません。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.