均一ビンのヒストグラムは、非均一ビンのヒストグラムよりも優れているのはいつですか?
これには、最適化しようとしているものを特定する必要があります。多くの人が平均積分平均二乗誤差を最適化しようとしますが、多くの場合、ヒストグラムを作成する意味が多少欠けていると思います。それはしばしば(私の目には)「滑らかすぎる」; ヒストグラムのような探索ツールの場合、粗さ自体が目で「滑らかに」する必要がある程度の感覚を与えるので、かなりの粗さを許容できます。私はそのようなルールから、通常のビンの数を少なくとも2倍にする傾向があります。私はこれについてAndrew Gelmanに同意する傾向があります。確かに、私の興味が本当に良いAIMSEを取得することだったとしたら、とにかくヒストグラムを検討すべきではないでしょう。
したがって、基準が必要です。
まず、不等面積ヒストグラムのオプションのいくつかについて説明します。
「等しい面積」または「等しい数」のヒストグラムなど、密度が低い領域でより平滑化(より少ない、より広いビン)を実行し、密度が高いほどより狭いビンを持ついくつかのアプローチがあります。あなたの編集された質問は平等の可能性を考慮しているようです。
histogram
Rのlattice
パッケージの関数は、ほぼ等しい面積の棒を生成できます。
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
左端のビンのすぐ右側の落ち込みは、4番目の根を取るとさらに明確になります。等幅のビンでは、15から20倍のビンを使用しない限りそれを見ることができず、右の尾がひどく見えます。
ここに等カウントのヒストグラムがあり、Rコードを使用して、サンプル分位点を使用して区切りを見つけます。
たとえば、上記と同じデータの場合、6つのビンに(できれば)8つの観測値があります。
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
このCVの質問は、DenbyとMallowsによる論文を指しています。そのバージョンは、ここからダウンロードでき、等幅のビンと等面積のビンの間の妥協点について説明しています。
また、ある程度の質問にも対応します。
あなたはおそらく、問題を区分的に一定のポアソンプロセスの中断を特定することの1つと考えることができます。それはこのような仕事につながるでしょう。また、(たとえば)ポアソンカウントでクラスタリング/分類タイプのアルゴリズムを調べる関連する可能性もあります。そのアルゴリズムのいくつかは、多数のビンを生成します。2Dヒストグラム(実際には画像)でクラスタリングを使用して、比較的均一な領域を特定しています。
-
等カウントのヒストグラムと最適化の基準がある場合、ビンごとのカウントの範囲を試し、何らかの方法で基準を評価できます。ここで言及したワンドの論文[ 論文、またはワーキングペーパーpdf ]とその参考文献の一部(たとえば、Sheather et alの論文など)は、AIMSEを最適化するカーネルスムージングのアイデアに基づく「プラグイン」ビン幅推定の概要を示しています。おおまかに言って、そのようなアプローチはこの状況に適応できるはずですが、私はそれが行われたのを思い出しません。