確率密度関数のモードを見つける方法は?


14

私の他の質問に触発されて、関数確率密度関数(PDF)のモードをどのように見つけるかを尋ねたいと思います。f(x

このための「料理本」の手順はありますか?どうやら、このタスクは最初に思われるよりもはるかに困難です。


3
あなたが得た非常に異なる答えについて疑問に思う場合、ニックの答え* は、既知のpdfを持っている状況ではなく、サンプルからの推定に関連していることに注意してください。既知のpdfケースについて尋ねているとしてあなたの質問を読みましたが、サンプルから物事を行う方法を見たい場合、それは非常に有用な投稿です。...(*ピエールもサンプルからの推定に関するものです)
Glen_b -Reinstate Monica

回答:


13

「モード」と言うことは、ディストリビューションが1つしかないことを意味します。一般に、ディストリビューションには多くのモードがあるか、(おそらく)モードがありません。

複数のモードがある場合は、それらすべてを使用するか、グローバルモードのみを使用するかを指定する必要があります(1つのみが存在する場合)。

ユニモーダル分布*に限定し、「the」モードと言えば、関数の最大値をより一般的に見つけるのと同じ方法で見つかります。

*ページには「「モード」という用語には複数の意味があるため、「ユニモーダル」という用語には複数のモードの定義があり、0 1があるかどうかにかかわらず、モードとしてカウントされるものを正確に変更できることに注意してください詳細-また、それらを識別するための戦略を変更します。注特にどのように一般的な「冒頭にあるものを単峰性のフレージング「より一般的な」何とか定義された唯一の最高値は、そこにある単峰性の手段

そのページで提供される1つの定義は次のとおりです。

連続確率分布のモードは、確率密度関数(pdf)が最大値に達する値です。

したがって、モードの特定の定義を考えると、関数をより一般的に扱うときに「最高値」の特定の定義を見つけるように、それを見つけます(分布がその定義の下で単峰性であると仮定します)。

状況に応じて、そのようなことを識別するための数学にはさまざまな戦略があります。ウィキペディアのMaximaとminimaのページの「関数の最大値と最小値を見つける」セクションで、簡単な説明を参照してください。

たとえば、密度関数が連続的な1次導関数を持つ連続ランダム変数を扱う場合など、物事が十分に優れている場合は、密度関数の導関数がゼロである場所を見つけて、臨界点のタイプ(最大、最小、水平変曲点)。極大値であるそのような点が1つだけある場合、それは単峰分布のモードである必要があります。

ただし、一般的に物事はより複雑で(たとえば、モードは重要なポイントではない場合があります)、関数の最大値を見つけるためのより広範な戦略が入ります。

導関数が代数的にゼロである場所を見つけるのは難しいか、少なくとも面倒ですが、それでも他の方法で最大値を特定することは可能かもしれません。たとえば、単峰性分布のモードを識別する際に対称性を考慮する必要がある場合があります。または、コンピューターで何らかの形式の数値アルゴリズムを呼び出して、数値的にモードを見つけることもできます。

以下は、関数がユニモーダルで少なくとも区分的に連続している場合でも、チェックする必要がある典型的なことを示すいくつかのケースです。

ここに画像の説明を入力してください

そのため、たとえば、エンドポイント(中央の図)、導関数が符号を変更する点(ただし、ゼロではない場合があります;最初の図)、および不連続点(3番目の図)を確認する必要があります。

場合によっては、物事はこれら3つほどきれいではないかもしれません。あなたが扱っている特定の機能の特徴を理解しようとする必要があります。


多変量の場合は触れませんでした。関数が非常に「いい」場合でも、局所的な最大値を見つけるだけではかなり複雑になる可能性があります(たとえば、論理的に成功しなければならない場合でも、そうするための数値的方法は実用的な意味で失敗する可能性があります)最終的に)。


1
+1マイナーな観察として、グローバルモードも一意ではない場合があります。例えば、等しい重みを有する混合物の密度N - 1 1 ランダム変数。N(1,1)N(1,1
ディリップサルウェート

@Dilipそれについて少しテキストを追加します。
Glen_b-モニカの復活

1
@DilipSarwateまた、共同分布のモードは周辺分布のモードと異なる場合があります。
マルセロベンチュラ

17

この回答では、特定の1つの方法に重点を置いて、サンプルからのモード推定のみに焦点を当てています。分析的または数値的に既に密度を知っているという強い意味がある場合、簡単に言えば、@ Glen_bからの回答のように、単一の最大値または複数の最大値を直接検索することをお勧めします。

「ハーフサンプルモード」は、最短の長さのハーフサンプルを再帰的に選択して計算できます。長いルーツを持っていますが、この考えの優れたプレゼンテーションは、Bickel andFrühwirth(2006)によって与えられました。

固定数の観測値を含む最短間隔の中間点としてモードを推定するという考え方は、少なくともDalenius(1965)にまでさかのぼります。モードの他の推定量については、Robertson and Cryer(1974)、Bickel(2002)、およびBickel andFrühwirth(2006)も参照してください。

サンプルの順序統計量の値xはによって定義されるX 1 X 2 X N - 1 X N nxx(1)x(2)x(n1)x(n)

ここで、ハーフサンプルモードは2つのルールを使用して定義されます。

規則1. 場合、ハーフサンプルモードはx 1 です。場合、N = 2、ハーフサンプルモードであるX 1 + X 2 / 2。場合N = 3、ハーフサンプルモードであるX 1 + X 2 / 2あればX 1 及びX 2n=1x(1)n=2(x(1)+x(2))/2n=3(x(1)+x(2))/2x(1)は、 x 2 および x 3 よりも近く、 x 2 + x 3 / 2が逆の場合、それ以外の場合は x 2 です。x(2)x(2)x(3)(x(2)+x(3))/2x(2)

場合2.ルールで左まで、我々は再帰的な選択を適用する3つの以下の値。第せ、H 1 = N / 2 。ランクからのデータの最短半KランクにK + H 1が最小化するように特定されるX K + H 1 - X K のk = 1 N - H 1。それからそれらの最短半分n43h1=n/2kk+h1x(k+h1)x(k)k=1,,nh1の値は、使用して識別され、H 2 = H 1 / 2 など。終了するには、ルール1を使用します。h1+1h2=h1/2

最短半分を特定するという考え方は、JW Tukeyが命名した「shorth」に適用され、アンドリュース、ビッケル、ハンペル、フーバー、ロジャース、テューキー(1972、p.26)による位置推定器のプリンストンロバストネス研究で導入されました。最短の半分の長さの平均値ため、H = N / 2 。Rousseeuw(1984)は、Hampel(1975)の提案に基づいて、最短半分の中点x k + x k + h x(k),,x(k+h)h=n/2は、 xの位置の最小二乗中央値(LMS)推定量です。LMSの適用と回帰およびその他の問題への関連アイデアについては、Rousseeuw(1984)およびRousseeuw and Leroy(1987)を参照してください。このLMSの中間点は、最近のいくつかの文献(「Maronna、Martin and Yohai 2006、p.48」など)でshorthとも呼ばれていることに注意してください。さらに、Grubel(1988)のタイトルが示すように、最短の半分自体は、時にはshorthと呼ばれることもあります。Stataの実装と詳細については、SSCをご覧ください 。(xk+x(k+h))/2xshorth

いくつかの大まかなコメントは、数学または理論統計学者と同様に、実用的なデータ分析の観点から、ハーフサンプルモードの長所と短所について続きます。プロジェクトが何であれ、結果を標準的な要約測定値(例えば、中央値または幾何平均および調和平均を含む平均)と比較し、結果を分布グラフに関連付けることは常に賢明です。さらに、二峰性または多峰性の存在または範囲に関心がある場合は、適切に平滑化された密度関数の推定値を直接調べるのが最善です。

モード推定 データが最も密な場所を要約することにより、ハーフサンプルモードはモードの自動推定器をツールボックスに追加します。ヒストグラムまたはカーネル密度プロットのピークの特定に基づくモードのより伝統的な推定は、ビンの起源​​または幅またはカーネルタイプとカーネルの半値幅に関する決定に敏感であり、いずれの場合も自動化が困難です。単峰性でほぼ対称な分布に適用すると、半標本モードは平均値と中央値に近くなりますが、いずれのテールの外れ値に対する平均値よりも耐性が高くなります。単峰性で非対称の分布に適用される場合、ハーフサンプルモードは通常、平均または中央値以外の方法で識別されるモードに非常に近くなります。

シンプル ハーフサンプルモードの考え方は、自分自身を統計の専門家と見なしていない学生や研究者に説明するのはかなり簡単で簡単です。

グラフィックの解釈 ハーフサンプルモードは、カーネル密度プロット、累積分布および変位値プロット、ヒストグラム、茎葉プロットなどの分布の標準表示に簡単に関連付けることができます。

同時に、それに注意してください

すべての分布に役立つわけではありません ほぼJ字型の分布に適用すると、ハーフサンプルモードはデータの最小値に近似します。ほぼU字型の分布に適用した場合、ハーフサンプルモードは、分布の半分が平均密度が高くなる範囲内になります。どちらの動作も特に面白くも便利でもありませんが、J字型またはU字型の分布に対して、単一モードのような要約を求めることはほとんどありません。Uシェイプの場合、バイモーダル性により、無効ではないにしても、シングルモードの意味がなくなります。

ネクタイ 最短半分は一意に定義されない場合があります。測定データであっても、報告された値を丸めると、しばしばつながりが生じる場合があります。2つ以上の最短の半分をどうするかは、文献ではほとんど議論されていません。結ばれた半分は重なるか、ばらばらになる可能性があることに注意してください。

hsmodettt/2

9,4,1,0,1,4,90.501+n/2nn、これは他の設計要件を達成するのが困難です。特に、ウィンドウの長さがサンプルサイズとともに減少することはありません。これは、適切なサイズのデータ​​セットに関する小さな問題であると考えています。

1+n/2nnn=1,n=2n/2

1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66.hsmode5.00,5.02,5.04

アンドリュース、DF、PJビッケル、FRハンペル、PJフーバー、WHロジャース、JWテューキー。1972. 位置の堅牢な推定:調査と進歩。 ニュージャージー州プリンストン:プリンストン大学出版局。

Bickel、DR2002。連続データのモードと歪度の堅牢な推定。 計算統計とデータ分析 39:153-163。

Bickel、DR、R。Frühwirth。2006.モードの高速で堅牢な推定器:アプリケーションを使用した他の推定器との比較。 計算統計とデータ分析 50:3500-3530。

Dalenius、T。1965。モード-無視された統計パラメーター。 Journal、Royal Statistical Society A 128:110-117。

グリューベル、R。1988。短小の長さ。 統計 16:619-628。

Hampel、FR1975。位置パラメータを超えて:堅牢な概念と方法。 Bulletin、International Statistics Institute 46:375-382。

マロンナ、RA、RDマーティン、VJヨハイ。2006. 堅牢な統計:理論と方法。チチェスター:ジョン・ワイリー。

ロバートソン、T。およびJD Cryer。1974.モードを推定するための反復手順。 Journal、American Statistical Association 69:1012-1016。

Rousseeuw、PJ1984。最小二乗平均回帰。 Journal、American Statistical Association 79:871-880。

ルセウ、PJ、AMリロイ。1987. 堅牢な回帰および外れ値検出。ニューヨーク:ジョン・ワイリー。

このアカウントは、次のドキュメントに基づいています

コックス、NJ 2007年HSMODE:計算半サンプルモードへのStataモジュール、http://EconPapers.repec.org/RePEc:boc:bocode:s456818

また、デヴィッド・R.ビッケルのウェブサイトを参照してください、ここで 他のソフトウェアでの実装の詳細については。


5

ベクトル "x"の分布のサンプルがある場合、次のようにします。

 mymode <- function(x){
   d<-density(x)
   return(d$x[which(d$y==max(d$y)[1])])
 }

密度関数は、上部が十分に滑らかになるように調整する必要があります;-)。

分布の密度のみがある場合は、オプティマイザーを使用してモード(REML、LBFGS、シンプレックスなど)を見つけます...

 fx <- function(x) {some density equation}
 mode <- optim(inits,fx)

または、モンテカルロサンプラーを使用して、ディストリビューション(パッケージrstan)からサンプルを取得し、上記の手順を使用します。(とにかく、配布のモードを取得するための「最適化」関数としてのスタンパッケージ)。


そのような推定値はもはや使用されないようです。カーネル密度推定器を使用するには、カーネル幅を指定する必要があります。一方、HSMとHRMはチューニングをまったく必要とせず、線形時間で動作します。
ビクトル
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.