ポアソン分布をテーブルデータにどのように近似しますか?


8

Iは、テーブルが与えられてきた及びの数ようなものである、指示をすべてのの量。Y = 3062 587 284 103 33 4 2 X I 、Y Ix=(0,1,2,3,4,5,6)y=(3062,587,284,103,33,4,2)xiyi

これにポアソン分布を当てはめるように求められます。

これにポアソン分布をフィットさせるとはどういう意味ですか?

ここ、p.8:http :
//www.stats.ox.ac.uk/~marchini/teaching/L5/L5.notes.pdf

ポアソンのフィッティングには、各についてを計算する必要があると言われています。しかし、ここでやるの行きますか?の計算についてフィッティングはありますか?x y P X = x P(X=x)xyP(X=x)


このデータにポアソン回帰モデルを当てはめるように求められています。これは役立つはずです:onlinecourses.science.psu.edu/stat504/node/168。また、この宿題の質問に自習タグを付けてください。
StatsStudent 2016年

回答:


11

「データに分布を適合させる」とは、ある分布(つまり数学関数)がモデルとして使用され、データの経験的分布を近似するために使用できることを意味します。データに分布を適合させる場合は、データから分布パラメーターを推測する必要があります。これを自動的に実行するいくつかのソフトウェア(fitdistrplusRなど)を使用するか、データから手作業で計算する(たとえば、最尤法を使用して)ことができます(ポアソン分布に関するWikipediaの関連エントリを参照)。

以下のプロットでは、フィットされたポアソン分布でプロットされたデータを確認できます。ご覧のとおり、直線は近似値にすぎないため、完全にはフィットしません。

ここに画像の説明を入力してください

他の方法の中で、この問題に対するアプローチの1つは、最尤法を使用することです。尤度は固定データのパラメーターの関数であることを思い出してください。この関数を最大化することにより、データが与えられれば、「最も可能性の高い」パラメーターを見つけることができます。

L(λ|x1,,xn)=if(xi|λ)

ここで、はポアソン確率質量関数です。適切なを見つける直接の数値的な方法は、最適化アルゴリズムを使用することです。このため、最初に尤度関数を定義してから、関数に最大値に到達する点を見つけるようにアルゴリズムを要求します。λfλ

# negative log-likelihood (since this algorithm looks for minimum)
llik <- function(lambda) -sum(dpois(x, lambda, log = TRUE)*y)
opt.fit <- optimize(llik, c(0, 10))$minimum

あなたはこのコードについて奇妙な何かに気づくことができます。私は、乗算dpois()によってy。あなたが持っているデータはテーブルの形で提供され、各値には付随するカウントがありますが、尤度関数はそのようなテーブルではなく生データに関して定義されます。のそれぞれを正確に回(つまりRで)繰り返し、これを統計ソフトウェアへの入力として使用することにより、この値から生データを再作成できますが、より巧妙なアプローチをとることができます。尤度は積です。同一のに対して正確に回を乗算することは、y i x i y i f x i | λ f x i | λ x i y i y i f x i | λ y ii f x i | λ y ii log f x i | λ × y ixiyixiyirep(x, y)f(xi|λ)f(xi|λ)xiyiyiべき乗:。ここでは、対数尤度を最大化しています(ここでlogを使用する理由を参照)。したがって、は、ます。これが、表形式のデータの尤度関数を取得する方法です。f(xi|λ)yiif(xi|λ)yiilogf(xi|λ)×yi

ただし、もっと簡単な方法があります。私たちは知っているの経験的平均さんは、の最尤推定量である(すなわち、それはのような値を推定するために私達をすることができます可能性を最大化する)、そうではなく最適化ソフトウェアを使用するよりも、単純に平均値を計算することができます。カウント付きのテーブル形式のデータがあるので、最も直接的な方法は、単純にの加重平均加重平均を使用することです。ここでは加重として使用されます。λ λ のx I yのIxλλxiyi

mx <- sum(x*(y/sum(y)))

これにより、生データから算術平均を計算した場合と同じ結果が得られます。最適化アルゴリズムを使用して尤度を最大化することと、平均を取ることはどちらもほぼ同じ結果を導きます。

> mx
[1] 0.3995092
> opt.fit
[1] 0.3995127

したがって、は、未加工のすべてリストするのではなく、集計された形式で(テーブルとして)このデータを保存する方法として人工的に作成されているため、メモのどこにも記載されていません。上記のように、この形式のデータを利用できます。4075 xy4075x

上記の手順では、「最適な」を見つけることができます。これは、分布のデータを経験的なデータに適合させるような分布のパラメーターを見つけることによって、分布をデータに適合させる方法です。λ


あなたは、なぜが重みと見なされるのかがまだはっきりしないとコメントしました。算術平均は、すべての重みが同じで等しい加重平均の特殊なケースと考えることができます。 1 / Nyi1/N

x1++xnN=1N(x1++xn)=1Nx1++1Nxn

次に、データがどのように格納されるかを考えます。およびは、4つのファイブがあることを意味します、およびは、などを意味します。平均を計算する場合、最初にそれらを合計する必要があるため、ます。これは、加重平均の重みとしてカウントを使用することにつながり、生データの算術平均とまったく同じになります。x6=5y6=4x6={5,5,5,5}x7=6y7=2x7={6,6}5+5+5+5=5×4=x6×y6

x1y1++xnyny1++yn=x1y1N++xnynN=x1N++x1Ny1 times++xnN++xnNyn times

ここで、です。カウントによって重み付けされた尤度関数にも同じ考え方が適用されました。ここで誤解を招く可能性があるのは、を使用して番目の観測値を示す場合がある一方で、は回観測された特定の値であるということです。すでに述べたように、これは同じデータを格納するための代替方法にすぎません。N=iyixiiXxiXyi


しかし、それらをどのように計算しますか?ポアソン、x、yの関係がわかりません。はとしてポアソンpmfにプラグインするものだと思いますが、ポアソンpmfは sとどのように関連していますか?xky
mavavilj 2016年

モデルのフィッティングは、各の(経験的)を計算することを意味しますか?x iP(X=xi)xi
mavavilj 2016年

@mavaviljいいえ、それは分布のパラメーター(この場合は)の値を見つけて、分布関数が経験的分布に最も適合するようにすることを意味します(最初の段落を参照)。最後の段落は、データの保存方法についてです。それでも不明な点があればコメントしてください。λ
ティム

(MLEを取得するために)加重平均の重みとして推論する合理性は何ですか?y
mavavilj 2016年

加重平均の計算につながる推論については、まだはっきりしていません。が重みと見なされるのはなぜですか?y
mavavilj 2016年

0

答えは、ポアソン過程のラムダになるデータの平均を見つけることだと思います。データが度数分布表にある場合、期待値/加重平均を見つけます。これは、上記で説明したように、生データの算術平均と同じです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.