「データに分布を適合させる」とは、ある分布(つまり数学関数)がモデルとして使用され、データの経験的分布を近似するために使用できることを意味します。データに分布を適合させる場合は、データから分布パラメーターを推測する必要があります。これを自動的に実行するいくつかのソフトウェア(fitdistrplus
Rなど)を使用するか、データから手作業で計算する(たとえば、最尤法を使用して)ことができます(ポアソン分布に関するWikipediaの関連エントリを参照)。
以下のプロットでは、フィットされたポアソン分布でプロットされたデータを確認できます。ご覧のとおり、直線は近似値にすぎないため、完全にはフィットしません。
他の方法の中で、この問題に対するアプローチの1つは、最尤法を使用することです。尤度は固定データのパラメーターの関数であることを思い出してください。この関数を最大化することにより、データが与えられれば、「最も可能性の高い」パラメーターを見つけることができます。
L (λ | x1、… 、xん)= ∏私f(x私| λ)
ここで、はポアソン確率質量関数です。適切なを見つける直接の数値的な方法は、最適化アルゴリズムを使用することです。このため、最初に尤度関数を定義してから、関数に最大値に到達する点を見つけるようにアルゴリズムを要求します。λfλ
# negative log-likelihood (since this algorithm looks for minimum)
llik <- function(lambda) -sum(dpois(x, lambda, log = TRUE)*y)
opt.fit <- optimize(llik, c(0, 10))$minimum
あなたはこのコードについて奇妙な何かに気づくことができます。私は、乗算dpois()
によってy
。あなたが持っているデータはテーブルの形で提供され、各値には付随するカウントがありますが、尤度関数はそのようなテーブルではなく生データに関して定義されます。のそれぞれを正確に回(つまりRで)繰り返し、これを統計ソフトウェアへの入力として使用することにより、この値から生データを再作成できますが、より巧妙なアプローチをとることができます。尤度は積です。同一のに対して正確に回を乗算することは、y i x i y i f (x i | λ )f (x i | λ )x i y i y i f (x i | λ )y i ∏ i f (x i | λ )y i ∑ i log f (x i | λ )× y iバツ私y私バツ私y私rep(x, y)
f(x私| λ)f(x私| λ)バツ私y私yiべき乗:。ここでは、対数尤度を最大化しています(ここでlogを使用する理由を参照)。したがって、は、ます。これが、表形式のデータの尤度関数を取得する方法です。f(xi|λ)yi∏if(xi|λ)yi∑ilogf(xi|λ)×yi
ただし、もっと簡単な方法があります。私たちは知っているの経験的平均さんは、の最尤推定量である(すなわち、それはのような値を推定するために私達をすることができます可能性を最大化する)、そうではなく最適化ソフトウェアを使用するよりも、単純に平均値を計算することができます。カウント付きのテーブル形式のデータがあるので、最も直接的な方法は、単純にの加重平均加重平均を使用することです。ここでは加重として使用されます。λ λ のx I yのIxλλxiyi
mx <- sum(x*(y/sum(y)))
これにより、生データから算術平均を計算した場合と同じ結果が得られます。最適化アルゴリズムを使用して尤度を最大化することと、平均を取ることはどちらもほぼ同じ結果を導きます。
> mx
[1] 0.3995092
> opt.fit
[1] 0.3995127
したがって、は、未加工のすべてリストするのではなく、集計された形式で(テーブルとして)このデータを保存する方法として人工的に作成されているため、メモのどこにも記載されていません。上記のように、この形式のデータを利用できます。4075 xy4075x
上記の手順では、「最適な」を見つけることができます。これは、分布のデータを経験的なデータに適合させるような分布のパラメーターを見つけることによって、分布をデータに適合させる方法です。λ
あなたは、なぜが重みと見なされるのかがまだはっきりしないとコメントしました。算術平均は、すべての重みが同じで等しい加重平均の特殊なケースと考えることができます。 1 / Nyi1/N
x1+⋯+xnN=1N(x1+⋯+xn)=1Nx1+⋯+1Nxn
次に、データがどのように格納されるかを考えます。およびは、4つのファイブがあることを意味します、およびは、などを意味します。平均を計算する場合、最初にそれらを合計する必要があるため、ます。これは、加重平均の重みとしてカウントを使用することにつながり、生データの算術平均とまったく同じになります。x6=5y6=4x6={5,5,5,5}x7=6y7=2x7={6,6}5+5+5+5=5×4=x6×y6
x1y1+⋯+xnyny1+⋯+yn=x1y1N+⋯+xnynN=x1N+⋯+x1Ny1 times+⋯+xnN+⋯+xnNyn times
ここで、です。カウントによって重み付けされた尤度関数にも同じ考え方が適用されました。ここで誤解を招く可能性があるのは、を使用して番目の観測値を示す場合がある一方で、は回観測された特定の値であるということです。すでに述べたように、これは同じデータを格納するための代替方法にすぎません。N=∑iyixiiXxiXyi