二峰性分布の有意性を「テスト」する統計的テストがあるのだろうか。つまり、私のデータはバイモーダル分布にどれだけ合致しているか?ある場合、Rプログラムにテストはありますか?
二峰性分布の有意性を「テスト」する統計的テストがあるのだろうか。つまり、私のデータはバイモーダル分布にどれだけ合致しているか?ある場合、Rプログラムにテストはありますか?
回答:
この問題に対する別の可能なアプローチは、表示されているデータを生成している舞台裏で何が起こっているのかを考えることです。つまり、混合モデル、たとえばガウス混合モデルの観点から考えることができます。たとえば、データは単一の正規母集団、または平均と分散が異なる2つの正規分布の混合(ある程度の割合)のいずれかから引き出されていると考えるかもしれません。もちろん、1つまたは2つしかないことを信じる必要はありません。また、データの抽出元の母集団が正常である必要があると信じる必要もありません。
混合モデルを推定できる(少なくとも)2つのRパッケージがあります。1つのパッケージはflexmixで、もう1つのパッケージはmclust です。2つの候補モデルを推定したので、尤度比検定を実施できる可能性があると思います。または、パラメトリックブートストラップ交差適合法(pdf)を使用できます。
コメントで述べたように、「双峰分布」に関するウィキペディアのページには、単峰性に対する多峰性の8つのテストがリストされており、そのうちの7つの参照が提供されています。
Rには少なくともいくつかがあります。例えば:
その包み diptest
は、Hartiganのディップテストを実装しています。
のstamp
データbootstrap
パッケージ Efron and Tibshirani's Introduction to the Bootstrap(パッケージの基になっている本)で使用され、モード数のブートストラップに関連する例を実行しました。本にアクセスできる場合は、そのアプローチを使用できる可能性があります。
Efron、B.およびTibshirani、R.(1993)ブートストラップの紹介。
チャップマンアンドホール、ニューヨーク、ロンドン。
-
CVには、 @ whuberの検索で見つかったモードの数を特定する(つまり、テストするのではなく推定する)ことに関する質問があります。答えを読む価値があります。そこでの回答の1つ(たまたま私のもの)には、Googleの検索へのリンクがあります。この検索は、David Donohoによる、多くのモードの片側CIの構築に関するこの論文を示しています。 、片側区間に単峰性のケースが含まれていない場合、単峰性を拒否できます)。私の知る限りではないウィキペディアが言及しているテストの1つ。その間隔のR実装はないと思いますが、(Donhoの議論ではかなり洗練されたツールを使用する傾向があるという事実にもかかわらず)実際に実装するのは非常に簡単なアイデアです。この考え方は、カーネル密度推定を使用するという概念に直接関係しています。