ヒストグラムで分布を特定するのに助けが必要


13

特定の信号の登録された最大振幅のサンプル母集団があります。人口は約1500万サンプルです。母集団のヒストグラムを作成しましたが、そのようなヒストグラムでは分布を推測できません。

EDIT1:生のサンプル値を持つファイルはこちら:生データ

誰でも次のヒストグラムを使用して分布を推定できますか? ここに画像の説明を入力してください


1
劇的に問題になるわけではありませんが、ヒストグラムを使用する場合は、通常、y軸に絶対周波数ではなく相対周波数を設定すると役立ちます。
posdef

つまり、垂直軸に120000ではなく120000/15000000 = 0.008を提供しますか?
mbaitoff

@mbaitoff:schenectadyの答えに対するあなたのコメントは、分布の名前を取得することにあまり興味がないが、値がこのように分布する理由を見つけることに興味があることを示しています。これは正しいです ?
ステフェン

1
m

2
これらのデータに対する本当の関心は、10個以上のスパイクにあります。データの量は、実際のローカルモードの証拠であるという意味で、それらが本物であるほど十分に大きいです。ここには、その分布を要約するために使用される単純なパラメトリック式では見落とされがちな情報が豊富な豊富なデータのセットがあるようです。
whuber

回答:


23

fitdistrplusを使用します。

以下は、fitdistrplusへのCRANリンクです。

以下は、fitdistrplusの古いビネットリンクです。

ビネットリンクが機能しない場合は、「ライブラリfitdistrplusを使用してデータから分布を指定する」を検索してください。

ビネットは、パッケージの使用方法を説明するのに適しています。さまざまな分布が短時間でどのように適合するかを見ることができます。また、カレン/フリーダイアグラムも作成します。

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

ここに画像の説明を入力してください

ここに画像の説明を入力してください


(+1):以前にそのパッケージを知らなかった。
ステフェン

1
(+1(カレン/フレイ図と呼ばれていたことを知らなかった私は、ある時点で自分自身それを考え出す必要があった。。
Glen_b -Reinstateモニカ

2番目の画像はplotdistコマンド付きですか?カレン/フリーダイアグラムを取得するにはどうすればよいですか?
ジュアンパブロ

1
@juanpablo-お試しくださいdescdist()。上記の投稿を更新して、いくつかのコードと古いビネットへのリンクを含めました。上記のビネットリンクを機能させることができませんでした。したがって、Googleは次のようになります。「ライブラリfitdistrplusを使用して、データから分布を指定する」。.pdfファイルです。
-bill_080

3
@juanpablo-このステートメントはf1g <- fitdist(x1, "gamma")、ガンマ分布を元のデータに適合させてx1保存しf1gます。の左上のグラフにplot(f1g)は、元のデータのヒストグラムx1がバーとして表示され、フィットされたガンマ密度のプロットf1gが連続線として表示されます。密度プロット(連続線)は、「適合」がデータをどの程度適切に表すかの指標として、ヒストグラム上に描画されます。
-bill_080

6

人口は約1500万サンプルです。

そうすれば、単純な閉じた形式の特定の分布を拒否できる可能性が非常に高くなります。

グラフの左側にあるその小さな隆起でさえ、「明らかにそうではない」などと言うのに十分です。

一方、それはおそらく多くの一般的な分布によってかなりよく近似されています。明らかな候補は、対数正規分布やガンマのようなものですが、他にもたくさんあります。x変数のログを見ると、おそらく対数正規分布が正常かどうかを判断できます(ログを取得した後、ヒストグラムは対称に見えるはずです)。

ログが左スキューの場合、ガンマが正常かどうかを検討し、右スキューの場合は、逆ガンマまたは(さらにスキュー)逆ガウスが正常かどうかを検討します。しかし、この演習は、一緒に暮らすのに十分近い分布を見つけることの1つです。これらの提案には、実際に存在するように見えるすべての機能が実際にはありません。

選択をサポートするための理論がある場合は、この議論すべて捨てて使用してください。


うわー、問題についてそれはどのような直観。いいね!:)
onurcanbektas

1

サンプルがこのような大きなサンプルサイズの特定の分布に分類される理由がわかりません。節約、別のサンプルと比較し、パラメータの物理的な解釈を探していますか?

ほとんどの統計パッケージ(R、SAS、Minitab)では、データが特定の分布からのものである場合に直線を生成するグラフにデータをプロットできます。データが正常(対数変換後の対数正規)、ワイブル、カイ2乗がすぐに私の場合は、直線を生成するグラフを見てきました。この手法により、外れ値を確認して、データポイントが外れ値である理由を割り当てることができます。Rでは、正規確率プロットはqqnormと呼ばれます。


qqplotを提案することをお勧めします。ただし、テクニックの説明は少し曖昧で理解しにくいと思います。いくつかの模範的なRコードを提供できますか?これにより、回答の価値が大幅に向上します。
ステフェン

値は物理的な基盤を持っているため、誰かが私のような状況に遭遇し、基礎となる分布を調査したことを期待しています。
mbaitoff

サンプル配布の物理的背景-配布方法とその理由を調査しています。
mbaitoff
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.