データの確率分布を推定するためのさまざまなノンパラメトリック手法


10

データがあり、滑らかな曲線を当てはめようとしていました。しかし、私はそれ、または特定の分布に対して、あまりにも多くの以前の信念または強すぎる先入観(私の質問の残りの部分によって暗示されるものを除く)を強制したくありません。

私はそれを滑らかな曲線に適合させたかっただけです(または、それが由来している可能性のある確率分布を適切に推定しています)。これを行うために私が知っている唯一の方法は、カーネル密度推定(KDE)です。人々がそのようなことを推定する他の方法を知っているのだろうかと思っていました。私はそれらのリストが欲しかっただけであり、そこから自分の調査を行って、使用したいものを見つけることができます。

リンクや適切な参照(または適切な直感)を提供することは常に歓迎されます(推奨されます)。


3
私は事前の信念を強制したくありませんでした」-その場合、それがスムーズである、または継続的であると仮定することはできません(これらは事前の信念です)。その場合、ecdfは唯一の手段です。
Glen_b-モニカを復活させる14

1
私の信念を強くするために、私の質問の言い回しのより良い方法である。私は、ベルヌーイまたは制限的であるかもしれない何かというその言い分を仮定したくないことを意味しました。ecdfが何であるか私は知りません。良い提案や提案のリストがある場合は、遠慮なく投稿してください。
ピノキオ

質問を更新しました。それは良いですか?もっとはっきりしていますか?ちなみに私の質問に対する正しい答えはありません。良い、役に立たないものだけです。:)
ピノキオ

2
ecdf = 経験的 cdf 、申し訳ありません。私たちはあなたが尋ねようとしたものではなく、あなたが尋ねた質問のみに答えることができるので、あなたはあなたの仮定を表現するときに明確に注意する必要があります。
Glen_b-モニカを復元する14

正規化されたヒストグラムは、密度推定として見ることができます
Dason

回答:


5

あなたは連続確率変数について話していることを指定しませんが、あなたがKDEについて言及しているので、あなたはこれを意図していると仮定します。

滑らかな密度をフィッティングする他の2つの方法:

1)対数スプライン密度推定。ここでは、スプライン曲線が対数密度に適合されています。

論文の例:

Kooperbergと石(1991)、
「logspline密度推定の研究、」
計算統計&データ分析12、327から347

Kooperbergは、彼の論文のPDFへのリンクをここ(1991年)に提供しています。

Rを使用する場合は、このためのパッケージがあります。それによって生成されたフィットの例はこちらです。以下は、そこにあるデータセットのログのヒストグラムと、回答からのログスプラインとカーネル密度の推定値の複製です。

ログデータのヒストグラム

ログスプライン密度推定:

ログスプラインプロット

カーネル密度推定:

カーネル密度推定

2)有限混合モデル。ここでは、いくつかの便利な分布のファミリーが選択され(多くの場合、正規分布)、密度はそのファミリーのいくつかの異なるメンバーの混合であると想定されています。カーネル密度の推定値は、そのような混合と見なすことができることに注意してください(ガウスカーネルでは、ガウスの混合です)。

より一般的には、これらはMLまたはEMアルゴリズムを介して、または場合によってはモーメントマッチングを介してフィッティングされますが、特定の状況では他のアプローチが実行可能である場合があります。

(さまざまな形式の混合モデリングを行う多数のRパッケージがあります。)

編集に追加:

3)平均化されたシフトヒストグラム
(文字通り滑らかではありませんが、おそらくあなたの述べていない基準に対しては十分滑らかです):

一定のビン幅()で一連のヒストグラムを計算し、ある整数についてごとにシフトし、その後平均化するビン原点を想像してください。これは一見すると、binwidthで行われたヒストグラムのように見えますが、はるかに滑らかです。b / k k b / kbb/kkb/k

たとえば、ビン幅1でそれぞれ4つのヒストグラムを計算しますが、+ 0、+ 0.25、+ 0.5、+ 0.75でオフセットし、任意の高さを平均します。あなたはそのようなもので終わる:x

平均シフトヒストグラム

この答えから取られた図。私がそこに言っているように、あなたがそのレベルの努力に行くならば、あなたは同様にカーネル密度推定をするかもしれません。


これに追加するには。混合モデルの場合
-2、3、4の

4

滑らかさなどの仮定に関する上記のコメントの対象となります。事前にディリクレプロセスを使用した混合モデルを使用して、ベイジアンノンパラメトリック密度推定を実行できます。

以下の図は、「古い忠実な」データの2変量正規DP混合モデルのMCMC推定から復元された確率密度コンターを示しています。ポイントは、最後のMCMCステップで取得されたクラスタリングに従ってIIRCで色分けされます。

ここに画像の説明を入力してください

2010年はいくつかの良い背景を提供します。


1

一般的な選択肢はランダムフォレストです(「ディシジョンフォレスト:分類、回帰、密度推定、多様体学習、半教師あり学習のための統合フレームワーク」の第5章を具体的に参照してください)。

アルゴリズムについて詳しく説明し、k-means、GMM、KDEなどの他の一般的な選択肢に対してアルゴリズムを評価します。Random ForestはRとscikit-learnに実装されています。

ランダムフォレストは巧妙な方法でバギングされた決定木です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.