PDF推定方法を評価する最良の方法


10

私が見たどのアイデアよりも優れていると思う私のアイデアのいくつかをテストしたいと思います。私は間違っている可能性がありますが、自分の考えをテストして、より確実な観察によって疑問を解消したいと思います。

私がやろうとしていることは次のとおりです:

  1. 一連の分布を分析的に定義します。これらのいくつかは、ガウス、ユニフォーム、またはトップハットのような簡単なものです。しかし、シンプソンズ分布のように、これらのいくつかは困難でやりがいのあるものでなければなりません。
  2. それらの分析分布に基づいてソフトウェアを実装し、それらを使用していくつかのサンプルを生成します。
  3. 分布は分析的に定義されているため、私は(定義により)真のPDFをすでに知っています。これは素晴らしい。
  4. 次に、上記のサンプルに対して次のPDF推定方法をテストします。
    • 既存のPDF推定方法(さまざまなカーネルと帯域幅を備えたKDEなど)。
    • 自分で試してみる価値はあると思います。
  5. 次に、真のPDFに対する推定の誤差を測定します。
  6. 次に、どのPDF推定方法が良いかをよりよく理解します。

私の質問は:

  • Q1:上記の計画に対して何か改善点はありますか?
  • Q2:多くの真のPDFを分析的に定義するのは難しいと思います。私がここで再利用できる、さまざまな困難(非常に困難なものを含む)を持つ分析的に定義された多くの真のPDFの包括的なリストはすでにありますか?

これはモンテカルロシミュレーションのように聞こえますか?
Christoph Hanck 2016

回答:


2

A2:次の一連のベンチマークで1Dでメソッドをテストできます


それがまさに私が探していたものです。そして、はい、現時点で私の関心事は1Dです。
穴居人2016

11
  • A1。これは私には賢明な計画のように思えます。いくつかの点に言及するだけです。メソッドは損失関数に応じて異なる動作をするため、さまざまなエラーメトリック(、KLダイバージェンスなど)でテストする必要があります。また、さまざまな数のサンプルをテストする必要があります。最後に、多くの密度推定方法は、不連続性/境界の近くで悪名高いパフォーマンスを発揮するため、セットに切り捨てられたPDFを必ず含めてください。Lp

  • A2。1次元pdfのみに関心がありますか、それとも多変量ケースをテストする計画ですか?PDFのベンチマークスイートについては、MCMCアルゴリズムテストすることを目的として、以前に多少関連した質問をしましたが、確立されたPDFのセットのようなものは見つかりませんでした。

時間と計算リソースが十分にある場合は、アイデアのある種の敵対的なテストを実行することを検討してください。

  • 非常に柔軟なPDFのパラメトリックファミリー(たとえば、既知のpdfの多数の混合)を定義し、いくつかの非凸グローバル最適化メソッド(*)を介して混合のパラメーター空間を移動し、メソッドのパフォーマンスを最小化して最大化します。他のいくつかの最先端の密度推定方法のパフォーマンス(およびその逆)。これは、メソッドの強み/弱みの強力なテストになります。

最後に、他のすべての方法よりも優れているという要件は、過度に高いバーです。自由な昼食の原則が機能している必要があります(どのアルゴリズムにも、滑らかさ、長さスケールなどの基本的な事前仮定があります)。あなたのメソッドが価値ある貢献になるためには、アルゴリズムがよりよく機能する一般的な関心のある領域/ドメインがあることを示す必要があるだけです(上記の敵対的なテストは、そのようなドメインを見つけ/定義するのに役立ちます)。

(*)パフォーマンスメトリックは確率的であるため(モンテカルロサンプリングで評価します)、ノイズの多い、コストのかかる目的関数の最適化について、この回答を確認することもできます。


1

Q1:上記の計画に対して何か改善点はありますか?

場合によります。混合分布の残差は、多くの場合、最初にデータモデルとして不要な混合分布を指定するなどの愚かなことをした結果として発生します。したがって、私自身の経験では、少なくともモデルに存在するのと同じ数の混合分布項を出力に指定することをお勧めします。さらに、混合PDFの出力は、モデル内のPDFとは異なります。Mathematicaのデフォルト検索には2つの項の混合分布が含まれており、より大きな数として指定することができます。

Q2:分析的に定義された、さまざまな困難(非常に困難なものを含む)を備えた真のPDFの包括的なリストは、ここで再利用できますか?

これはMathematicaのFindDistributionルーチンからのリストです:

TargetFunctionsの可能な連続分布は、BetaDistribution、CauchyDistribution、ChiDistribution、ChiSquareDistribution、ExponentialDistribution、ExtremeValueDistribution、FrechetDistribution、GammaDistribution、GumbelDistribution、HalfNormalDistribution、InverseGaussianDistribution、LaplaceDistribution、LevyDistribution、RayisticDistribution、LogNormalDistributionDistributionDistributionDistributionDistributionDistributionDistributionDistributionDistributionDistribution、MaxDistributionDistribution、MaxDistributionDistribution 、HistogramDistribution。

TargetFunctionsの可能な離散分布は、BenfordDistribution、BinomialDistribution、BorelTannerDistribution、DiscreteUniformDistribution、GeometricDistribution、LogSeriesDistribution、NegativeBinomialDistribution、PascalDistribution、PoissonDistribution、WaringYuleDistribution、ZipfDistribution、HistogramDistribution、EmpiricalDistributionです。

内部情報基準は、ベイジアン情報基準とTargetFunctionsの事前確率を使用します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.