経験的分布の使用/解釈方法は?


8

まず、漠然としたタイトルについてお詫びしたいのですが、今のところより良いタイトルを作成することができませんでした。自由に変更するか、変更のアドバイスをお願いします。タイトルを質問の核心に合わせてください。 。

質問自体については、サンプリングに経験的分布を使用するというアイデアに出くわしたソフトウェアに取り組んでいますが、実装されたため、すべてを解釈する方法がわかりません。私が行ったこととその理由を説明させてください:

一連のオブジェクトの計算がたくさんあり、最終スコアが得られます。ただし、スコアはその場限りです。したがって、特定のオブジェクトのスコアを理解するために、モック/ランダムに生成された値を使用してスコアの計算を多数(N = 1000)実行し、1000のモックスコアを生成します。その特定のオブジェクトの経験的な「スコア分布」の推定は、これらの1000モックスコア値によって達成されます。

私はこれをJavaで実装しました(他のソフトウェアもJava環境で記述されているため)、Apache Commons Mathライブラリ、特にEmpiricalDistImplclassを使用します。ドキュメントによると、このクラスは以下を使用します:

ガウス平滑化を使用した可変カーネル法に相当するもの:入力ファイルのダイジェスト

  1. ファイルを1回渡して、最小値と最大値を計算します。
  2. 範囲をmin-maxからbinCount "bins"に分割します。
  3. データファイルを再度渡して、各ビンのビンカウントと一変量統計(平均、標準偏差)を計算します。
  4. 間隔(0,1)を、ビンに関連付けられたサブインターバルに分割します。ビンのサブインターバルの長さは、そのカウントに比例します。

今私の質問は、ある種の期待値を計算するためにこの分布からサンプリングすることは理にかなっていますか?言い換えれば、このディストリビューションをどれだけ信頼/信頼できますか?たとえば、分布をチェックしてスコアを観察することの重要性について結論を出すことはできますか?S

これはおそらく、このような問題を検討するための正統な方法ではないことを理解していますが、経験的分布の概念と、それらを分析にどのように使用できるかできないかを理解することは興味深いと思います。


私があなたを正しく理解していれば、最終的な分布は基本的にオブジェクトの「モック/ランダムに生成された値」と同じです。それで、「オブジェクト」の分布をうまくサンプリングしたと思いますか?
AVB 2011年

@AVB:オブジェクトの分布ではなく、特定の1つのオブジェクトのスコアの分布。私の目標は次のとおりだと思います。A)スコアの計算が適切で、問題のオブジェクトのさまざまなプロパティに偏らないようにします。およびB)実際の実験データから計算されたスコアの有意性について何かを言えるようにするため
posdef '21

オブジェクトからさらにサンプルを取得することを検討してください。
John Salvatier

@ジョン:数を1000から、たとえば10Kに増やすということですか?それについても考えていたのですが、計算時間を考えるとどれだけ効果があるのか​​わかりませんでした。その上で何かアイデアはありますか?
posdef 2011年

違いを定量化する簡単な方法は知りません。ポイントの数が異なる一連のヒストグラムまたはカーネル密度(目で確認)を見ると役立つ場合があります。
John Salvatier

回答:


5

経験的分布は常に推論に使用されるため、間違いなく正しい方向に進んでいます!経験的分布の最も一般的な用途の1つは、ブートストラップです。実際、上記の機械を使用する必要はありません。一言で言えば、元のサンプルから均一な方法で(置換を使用して)多くの描画を行い、その結果を使用して、以前に計算された統計量の信頼区間を計算できます。さらに、これらのサンプルは、よく発達した理論的な収束特性を備えています。こちらのトピックに関するウィキペディアの記事をご覧ください


答えてくれてありがとう、ゲイリー。私はブートストラップ方法に精通していますが、ブートストラップを実装する方法(分析:分析のどこにあるか)がどのように提案されているかわかりません。私たちが話している元のサンプルはどれですか?
posdef 2011年

元のサンプルとは、経験的分布を構築するために使用したサンプルを指します。この分布を使用して統計を計算すると述べましたが、単純化するために平均値としましょう。ブートストラップを使用する方法は、最初のポイントで平均を計算することです。これをと呼びましょう。ここで、ブートストラップサンプルを取り、平均の推定値を計算します。次に、このセットを注文すると、注文統計により信頼区間が得られますN=1000Nμ^NMM{μ^i}i=1Mμ^N
Gary

説明ありがとうございます。しかし、これが有用かどうかはわかりませんが、を推定しようとすると、ます。あなたは私が見積もりから行くことができることを意味している場合、確率計算に、私確かに興味を持って...P(x>xobs)xF^1000(x)μ^N
posdef

私はあなたが探しているものに少し混乱していると思いますので、あなたが提案した例を使用するために最善を尽くします。固定値、たとえばとすると、を推定したいとします。次に、サンプルを取得して、いくつかの値を取得します。今取る元のサンプルのレプリカントを、あなたが降伏同じ計算を繰り返すの値上でCIを与え、。重要な点は、元のサンプルが統計を取得し、ブートストラップがCIを提供することです。おそらく、本当の問題は、経験的分布で何をしたいかです。yF(y)N=1000q^MMq^q^
ゲイリー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.