データを過剰適合させずに最適な適合を選択するにはどうすればよいですか?N正規関数などによる二峰性分布のモデリング


11

私は明らかに二峰性の値の分布を持っています。データは、2つの通常の関数(バイモーダル)または3つの通常の関数のいずれかにうまく適合できます。さらに、データを3でフィッティングするのにもっともらしい物理的な理由があります。

導入されるパラメータが多いほど、フィットはより完璧になります。十分な定数があれば、「象にフィット」できます。

これが分布であり、3つの正規(ガウス)曲線の合計に適合します。

配布

これらは各適合のデータです。適合を判断するためにここでどのテストを適用する必要があるかわかりません。データは91点で構成されています。

1通常機能:

  • RSS:1.06231
  • X ^ 2:3.1674
  • Fテスト:0.3092

2通常の機能:

  • RSS:0.010939
  • X ^ 2:0.053896
  • F.テスト:0.97101

3通常機能:

  • RSS:0.00536
  • X ^ 2:0.02794
  • Fテスト:0.99249

これらの3つの近似のどれが最適かを決定するために適用できる正しい統計検定は何ですか?明らかに、1つの通常の関数近似は不十分です。では、どうすれば2と3を区別できますか?

加えて、私は主にこれをExcelと小さなPythonで行っています。私はまだRや他の統計言語に慣れていません。


削減されたカイ二乗 X ^ 2 /(Nn-1)を使用することをお勧めします。ここで、Nはデータポイントの数、nはフィットされたパラメーターの数です。ただし、データポイントの数(91)に比べてペナルティが小さい(+/- 3)のは、別のガウスを追加する場合に特に急なペナルティのように見えるわけではありません。
MurphysLab 2015年

この回答を確認することをお勧めします(Rルートに行くことにした場合)。この回答では、いくつかのモデル選択基準が言及されています。最後に、アンサンブルメソッドを検討することもできます。これは、この回答で簡単に説明しましたが、Pythonに焦点を合わせた情報へのリンクも含まれています。モデルの選択と平均化の詳細については、この回答をご覧ください。
Aleksandr Blekh 2015年

回答:


5

ディストリビューションの選択の問題に対処する方法は2つあります。

  1. モデルの比較には、パラメーターの数に応じてモデルにペナルティを課すメジャーを使用します。情報基準はこれを行います。情報基準を使用して、保持するモデルを選択し、情報基準が最も低いモデル(AICなど)を選択します。AICの違いが有意かどうかを比較する経験則は、AICの違いが2より大きいかどうかです(これは正式な仮説検定ではありません。ネストされていない2つのモデルのAICの違いのテストを参照してください)。

    AIC =、ここでは推定パラメーターの数、は最尤、およびは尤度関数であり、は分布パラメーター条件とした観測データ確率です。2k2ln(L)kLL=maxθL(θ|x)L(θ|x)=Pr(x|θ)Pr(x|θ)xθ

  2. 正式な仮説検定が必要な場合は、少なくとも2つの方法で進めることができます。間違いなく簡単なのは、サンプルの一部を使用して分布を近似し、残りのデータに対してカイ2乗検定またはKolgomorov-Smirnov検定を使用して残差分布が大幅に異なるかどうかを検定することです。この方法では、AndrewMがコメントで述べたのと同じデータを使用してモデルを適合およびテストしていません。

    また、ヌル分布を調整して尤度比検定を行うこともできます。このバージョンは、Lo Y. et al。に記載されています。(2013)「通常の混合物の成分数のテスト。」Biometrikaですが、私はこの記事にアクセスできません。そのため、これを正確に行う方法の詳細を提供することはできません。

    どちらの方法でも、検定が有意でない場合は、パラメーターの数が少ない分布を保持し、有意である場合は、パラメーターの数が多い分布を選択します。


@Momoに感謝、変更、AICの方程式を追加
Chris Novak

私は100%確実ではありませんが、混合の異なる構成が同じモデルを生成する可能性があるため、標準のAICが混合モデルで期待どおりに機能しない可能性があります。
Cagdas Ozgenc、2015年

私が意味したことは、2つのガウスを交換して(1stの平均/分散を2ndに、2ndを1stに、さらに混合ワイトに対して)、それでも同じモデルを取得できることです。私の知る限り、AICはこのような状況では期待どおりに動作しません。
Cagdas Ozgenc、2015年

1
@CagdasOzgencあなたの意見はわかりますが、標準のAICとBICはガウス混合モデルでのモデル選択に十分であることが示されているようです。たとえば、論文projecteuclid.org/download/pdf_1/euclid.aos/1176348772
Chris Novak

1
@ChrisNovakはい、尤度比検定(DOFがパラメーター空間の次元の差に等しい通常のからのヌルサンプリング分布を調整)は良い考えです。調整がどれほど複雑かはわかりませんが、これらの場合は混合が一般的です。パラメータ空間の境界でポイントをテストしているため、調整が必要です。χ2χ2
Andrew M
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.