2Dヒストグラムの適合度
星のパラメーターを表す2つのデータセットがあります。観測されたデータとモデル化されたデータです。これらのセットを使用して、2色図(TCD)と呼ばれるものを作成します。サンプルは次のとおりです。 Aは観測されたデータであり、Bはモデルから抽出されたデータです(黒い線は気にせず、ドットはデータを表します)Aダイアグラムは1つしかありませんが、必要な数の異なるBダイアグラムを作成できます。Aに最適なものを保持するため。 したがって、私が必要とするのは、ダイアグラムB(モデル)からダイアグラムA(観察)への適合度をチェックする信頼できる方法です。 今私がしていることは、両方の軸をビニングすることで各ダイアグラムの2Dヒストグラムまたはグリッド(私はそれを呼んでいますが、より適切な名前かもしれません)を作成します(それぞれ100ビン)その後、グリッドの各セルを通過しますそして、その特定のセルのAとBの間のカウントの絶対差を見つけます。すべてのセルを処理した後、各セルの値を合計するため、AとBの間の適合度()を表す単一の正のパラメーターになります。ゼロに最も近いほど、適合度が高くなります。基本的に、これはそのパラメータがどのように見えるかです:gfgfgf gf=∑ij|aij−bij|gf=∑ij|aij−bij|gf = \sum_{ij} |a_{ij}-b_{ij}|; ここで、はその特定のセル(決定)のダイアグラムAの星の数であり、はBの数です。aijaija_{ij}ijijijbijbijb_{ij} これは、各セルのカウントの差が、作成したグリッドでどのように見えるかです絶対値を使用していないことに注意してくださいしかし、この画像では私が行う計算する際にそれらを使用し)パラメータを:(aij−bij)(aij−bij)(a_{ij}-b{ij})(aij−bij)(aij−bij)(a_{ij}-b{ij})gfgfgf 問題は、これが適切な推定量ではないかもしれないとアドバイスされたことです。主に、パラメータが低いためにこの適合が他の適合よりも優れていると言う以外は、私は本当に何も言えません。 重要: (これを提示してくれた@PeterEllisに感謝) 1- Bのポイントは、Aのポイントと1対1で関連付けられていません。これは、最適なフィットを検索する際に留意すべき重要なことです。AとBのポイントの数は必ずしも同じではなく、適合度テストもこの不一致を考慮して最小化しようとします。 2-すべてのBデータセット(モデル出力)のポイント数は、Aに合わせようとしていますが、固定されていません。 私はいくつかのケースで使用されるカイ二乗検定を見てきました: ∑i(Oi−Ei)2/Ei∑i(Oi−Ei)2/Ei\sum_i (O_i-E_i)^2/E_i ; ここで、は観測頻度(モデル)、は予想頻度(観測)です。OiOiO_iEiEiE_i しかし、問題は次のとおりですがゼロの場合はどうすればよいですか?上の画像でわかるように、その範囲でこれらのダイアグラムのグリッドを作成すると、がゼロのセルがたくさんあります。EiEiE_iEiEiE_i また、ヒストグラムが関係するこのような場合に対数尤度ポアソン検定を適用することを推奨する人もいます。これが正しい場合、誰かがこの特定のケースにそのテストを使用する方法を教えてくれれば本当に感謝しています(統計の私の知識はかなり貧弱なので、できるだけ簡単にしてください:)