まず、漠然としたタイトルについてお詫びしたいのですが、今のところより良いタイトルを作成することができませんでした。自由に変更するか、変更のアドバイスをお願いします。タイトルを質問の核心に合わせてください。 。
質問自体については、サンプリングに経験的分布を使用するというアイデアに出くわしたソフトウェアに取り組んでいますが、実装されたため、すべてを解釈する方法がわかりません。私が行ったこととその理由を説明させてください:
一連のオブジェクトの計算がたくさんあり、最終スコアが得られます。ただし、スコアはその場限りです。したがって、特定のオブジェクトのスコアを理解するために、モック/ランダムに生成された値を使用してスコアの計算を多数(N = 1000)実行し、1000のモックスコアを生成します。その特定のオブジェクトの経験的な「スコア分布」の推定は、これらの1000モックスコア値によって達成されます。
私はこれをJavaで実装しました(他のソフトウェアもJava環境で記述されているため)、Apache Commons Mathライブラリ、特にEmpiricalDistImpl
classを使用します。ドキュメントによると、このクラスは以下を使用します:
ガウス平滑化を使用した可変カーネル法に相当するもの:入力ファイルのダイジェスト
- ファイルを1回渡して、最小値と最大値を計算します。
- 範囲をmin-maxからbinCount "bins"に分割します。
- データファイルを再度渡して、各ビンのビンカウントと一変量統計(平均、標準偏差)を計算します。
- 間隔(0,1)を、ビンに関連付けられたサブインターバルに分割します。ビンのサブインターバルの長さは、そのカウントに比例します。
今私の質問は、ある種の期待値を計算するためにこの分布からサンプリングすることは理にかなっていますか?言い換えれば、このディストリビューションをどれだけ信頼/信頼できますか?たとえば、分布をチェックしてスコアを観察することの重要性について結論を出すことはできますか?
これはおそらく、このような問題を検討するための正統な方法ではないことを理解していますが、経験的分布の概念と、それらを分析にどのように使用できるかできないかを理解することは興味深いと思います。