バイモーダル分布のテスト


30

二峰性分布の有意性を「テスト」する統計的テストがあるのだろうか。つまり、私のデータはバイモーダル分布にどれだけ合致しているか?ある場合、Rプログラムにテストはありますか?


3
私たちのサイトを検索しても答えが見つかりませんでしたか?そうでない場合、何が欠けていますか?
whuber

7
二峰性または多峰性のテストがありますが、それらは一方的である傾向があります。つまり、「複数のモードがある」などの結論を出すことができますが、「3つ未満のモードがある」とは言えません-モード数の下限を取得できますが、上限を取得することはできません。モードの数が少ないマルチモーダル分布は、モードの数が少ない分布に任意に近いことがわかります。明示的なテストまたは参照を掘り下げることができるかどうかを確認します。
Glen_b

4
双峰分布に関するウィキペディアのページには、単峰性に対する多峰性の8つのテストがリストされており、そのうちの7つの参照が提供されています。Rにあるかどうかはわかりません。見ます。
Glen_b

回答:


17

この問題に対する別の可能なアプローチは、表示されているデータを生成している舞台裏で何が起こっているのかを考えることです。つまり、混合モデル、たとえばガウス混合モデルの観点から考えることができます。たとえば、データは単一の正規母集団、または平均と分散が異なる2つの正規分布の混合(ある程度の割合)のいずれかから引き出されていると考えるかもしれません。もちろん、1つまたは2つしかないことを信じる必要はありません。また、データの抽出元の母集団が正常である必要があると信じる必要もありません。

混合モデルを推定できる(少なくとも)2つのRパッケージがあります。1つのパッケージはflexmixで、もう1つのパッケージはmclust です。2つの候補モデルを推定したので、尤度比検定を実施できる可能性があると思います。または、パラメトリックブートストラップ交差適合法pdf)を使用できます。


@gungさん、パラメトリックブートストラップ交差適合法の場合、バイモーダル分布に関して最適な基準をどのように定義しますか?2つの競合する分布が2点で交差する場合があります。そのような場合、何をすべきですか?
akashrajkn

32

コメントで述べたように、「双分布」に関するウィキペディアのページには、単峰性に対する多峰性の8つのテストがリストされており、そのうちの7つの参照が提供されています。

Rには少なくともいくつかがあります。例えば:

  1. その包み diptestは、Hartiganのディップテストを実装しています。

  2. stampデータbootstrapパッケージ Efron and Tibshirani's Introduction to the Bootstrap(パッケージの基になっている本)で使用され、モード数のブートストラップに関連する例を実行しました。本にアクセスできる場合は、そのアプローチを使用できる可能性があります。

    Efron、B.およびTibshirani、R.(1993)ブートストラップの紹介
    チャップマンアンドホール、ニューヨーク、ロンドン。

-

CVには @ whuberの検索で見つかったモードの数を特定する(つまり、テストするのではなく推定する)ことに関する質問があります。答えを読む価値があります。そこでの回答の1つ(たまたま私のもの)には、Googleの検索へのリンクがあります。この検索は、David Donohoによる、多くのモードの片側CIの構築に関するこの論文を示しています。 、片側区間に単峰性のケースが含まれていない場合、単峰性を拒否できます)。私の知る限りではないウィキペディアが言及しているテストの1つ。その間隔のR実装はないと思いますが、(Donhoの議論ではかなり洗練されたツールを使用する傾向があるという事実にもかかわらず)実際に実装するのは非常に簡単なアイデアです。この考え方は、カーネル密度推定を使用するという概念に直接関係しています。


それは貴重な仕事です。
rolando2
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.