特定の信号の登録された最大振幅のサンプル母集団があります。人口は約1500万サンプルです。母集団のヒストグラムを作成しましたが、そのようなヒストグラムでは分布を推測できません。
EDIT1:生のサンプル値を持つファイルはこちら:生データ
誰でも次のヒストグラムを使用して分布を推定できますか?
特定の信号の登録された最大振幅のサンプル母集団があります。人口は約1500万サンプルです。母集団のヒストグラムを作成しましたが、そのようなヒストグラムでは分布を推測できません。
EDIT1:生のサンプル値を持つファイルはこちら:生データ
誰でも次のヒストグラムを使用して分布を推定できますか?
回答:
fitdistrplusを使用します。
以下は、fitdistrplusへのCRANリンクです。
以下は、fitdistrplusの古いビネットリンクです。
ビネットリンクが機能しない場合は、「ライブラリfitdistrplusを使用してデータから分布を指定する」を検索してください。
ビネットは、パッケージの使用方法を説明するのに適しています。さまざまな分布が短時間でどのように適合するかを見ることができます。また、カレン/フリーダイアグラムも作成します。
#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)
f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)
plotdist
コマンド付きですか?カレン/フリーダイアグラムを取得するにはどうすればよいですか?
descdist()
。上記の投稿を更新して、いくつかのコードと古いビネットへのリンクを含めました。上記のビネットリンクを機能させることができませんでした。したがって、Googleは次のようになります。「ライブラリfitdistrplusを使用して、データから分布を指定する」。.pdfファイルです。
f1g <- fitdist(x1, "gamma")
、ガンマ分布を元のデータに適合させてx1
保存しf1g
ます。の左上のグラフにplot(f1g)
は、元のデータのヒストグラムx1
がバーとして表示され、フィットされたガンマ密度のプロットf1g
が連続線として表示されます。密度プロット(連続線)は、「適合」がデータをどの程度適切に表すかの指標として、ヒストグラム上に描画されます。
人口は約1500万サンプルです。
そうすれば、単純な閉じた形式の特定の分布を拒否できる可能性が非常に高くなります。
グラフの左側にあるその小さな隆起でさえ、「明らかにそうではない」などと言うのに十分です。
一方、それはおそらく多くの一般的な分布によってかなりよく近似されています。明らかな候補は、対数正規分布やガンマのようなものですが、他にもたくさんあります。x変数のログを見ると、おそらく対数正規分布が正常かどうかを判断できます(ログを取得した後、ヒストグラムは対称に見えるはずです)。
ログが左スキューの場合、ガンマが正常かどうかを検討し、右スキューの場合は、逆ガンマまたは(さらにスキュー)逆ガウスが正常かどうかを検討します。しかし、この演習は、一緒に暮らすのに十分近い分布を見つけることの1つです。これらの提案には、実際に存在するように見えるすべての機能が実際にはありません。
選択をサポートするための理論がある場合は、この議論をすべて捨てて使用してください。
サンプルがこのような大きなサンプルサイズの特定の分布に分類される理由がわかりません。節約、別のサンプルと比較し、パラメータの物理的な解釈を探していますか?
ほとんどの統計パッケージ(R、SAS、Minitab)では、データが特定の分布からのものである場合に直線を生成するグラフにデータをプロットできます。データが正常(対数変換後の対数正規)、ワイブル、カイ2乗がすぐに私の場合は、直線を生成するグラフを見てきました。この手法により、外れ値を確認して、データポイントが外れ値である理由を割り当てることができます。Rでは、正規確率プロットはqqnormと呼ばれます。