切り捨てられたデータの尤度関数


8

切り捨てられたデータの可能性の概念と導出を理解するのに少し問題があります。

たとえば、分布からのサンプルに基づいて尤度関数を検索したいが、分布からサンプルを取得する場合、切り捨てられた値を観察します(カットオフがあるM場合、つまり任意のMバツ>Mとして記録されます):M

バツ1バツ2MバツMバツ4バツ5バツ10

場所の数 M値はメートルです。次に、可能性はおそらく以下によって与えられます:

Lバツ;θ=Π=110fバツ;θ[Pバツ>M]メートル

これがそうである理由の説明/証明、非常に重要なのはなぜ2番目の要素がそうであるのかを私は非常に感謝します。可能であれば直感的かつ数学的に。よろしくお願いします。


小文字の「メートル」とは何ですか?
Alecos Papadopoulos 2013

それはの出現箇所の数である ...つまり、私が観察している10 + m個のうちのデータポイント、10は切り捨てられませんが、そしてMそれらのは、(私はこれらの観察されているメートルのすべての値で、ピックMM10+メートル10メートルメートルM
Delvesy

2
@Alecosが指摘するように、「切り捨てられた」特異的に使用しています。「検閲」は通常の用語です。
Scortchi-モニカの回復

「天井/床の影響」、「ベータ回帰」、「ゼロ膨張モデル」など、検索したい用語がいくつかあります。
DWin

回答:


8

あなたが説明することは特別な扱いを必要とします、それは私たちが通常「切り捨てられた確率変数」によって意味するものではありません-そして私たちが通常意味することは、確率変数が切り捨てられたサポートの範囲外にないこと、つまり確率質量の集中がないことです切り捨てのポイント。ケースを対比するには:

A)切り捨てられたrvの「通常の」意味
サポートを切り捨てた分布の場合、その密度を「修正」して、切り捨てられたサポートに統合されたときに1に統合されるようにする必要があります。変数が- < a < b < でサポートされている場合、(pdf f、cdf F[ab]<a<b<fF

abfバツバツdバツ=aMfバツバツdバツ+Mbfバツバツdバツ=aMfバツバツdバツ+[1FバツM]=1

aMfバツバツdバツ=FバツM

LHSが切り捨て支持体上不可欠であるので、我々は切り捨てられ、RVの密度は、それを呼び出すことがわかりバツでなければなりません、

だから、オーバーユニティに統合することをM ]。上の式の中期は、この状況を(正しく)条件付けの形式として考えさせます。

fバツバツ=fバツバツ|バツM=fバツバツdバツ[FバツM]1
[aM]-しかし、別の確率変数ではなく、rv自体が取り得る可能な値について。ここで、通常のように、切り捨てられたiid rvのコレクションの結合密度/尤度関数は、上記の密度のn倍になります。

B)確率質量濃度
ここで、あなたが質問で説明するものですが、物事は異なります。点は、Mよりも高い変数のサポートに対応するすべての確率質量を集中させますこれにより、密度に不連続点が生じ、2つの分岐ができます。M M

fバツバツ=fバツバツバツ<Mfバツバツ=PバツMバツM

非公式には、2番目は「離散rvのよう」であり、確率質量関数の各点は実際の確率を表します。ここで、そのようなiid確率変数が、それらの結合密度/尤度関数を形成したいとします。実際のサンプルを見る前に、どのブランチを選択する必要がありますか?私たちはその決定を下すことができないので、何とかして両方を含める必要があります。これを行うために、我々は、使用インジケータ機能する必要があります意味I { X *M } I MX *値をとるインジケータ関数1 X *Mを{バツM}Mバツ1バツM、それ以外の場合は。そのようなrvの密度は次のように書くことができます0

の、したがって関節密度関数 Nそのようなiid変数は

fバツバツ=fバツバツ[1Mバツ]+PバツMMバツ

fバツバツ|θ=Π=1[fバツバツ[1Mバツ]+PバツMMバツ]

ここで、上記を尤度関数と見なして、これらのn個の確率変数の実現からなる実際のサンプルが機能します。そしてこのサンプルでは、​​いくつかの観察された実現はしきい値Mよりも低くなり、いくつかは等しくなります。示すMに等しいサンプル中のリアライゼーションの数Mを、およびVすべての残り、M + V = Nm個の実現において、尤度に残る密度の対応する部分がP X i)になることは即時です。MメートルMvメートル+v=メートルPバツM部分、実現では他の部分。その後v

Lθ|{バツ;=1}=Π=1v[fバツバツ]Πj=1メートル[PバツjM]=Π=1v[fバツバツ][PバツM]メートル

ありがとうございました。返信ありがとうございます。私の主な問題はセクションb)の最初のポイントだと思います。これは個別のpmfであり、pdfの定義から実際にはpdfを定義しません。このセクションについて詳しく説明してください。どうもありがとう。
Delvesy 2013年

これらの確率変数は「混合型」と呼ばれます。つまり、これらは部分的に連続的で、部分的に離散的です。あなたの質問が示すように、直感的にそれは明白に理にかなっています。厳密な扱いについては、「混合型確率変数」または「混合型分布」を調べてください。それらを「混合物」と混同しないでください。
Alecos Papadopoulos 2013

4

尤度理論はかなり一般的なフレームワークです。ほとんどの教科書は、連続したr.vsの分離した場合と、離散的なr.vsの場合の結果を述べています。ただし、実際には、ここにあるように、混合ケースが発生します。

離散RVのため、観測の可能性Aが観測された値の取得の確率として定義され、Aが、と言う のP A。連続rvの場合、尤度Lは通常、xでの密度として定義されます。たとえば、f Xx です。ただし、実際には、x L < X < x U-測定精度が制限されているため、Pr { x L < X < x UaapaLバツfバツバツバツL<バツ<バツU可能性として使用されるべきです。服用 のx Lを=X- D X / 2 xはU=X+ D X / 2 D X小さい、我々は得る F XXまで乗法 D XをPr{バツL<バツ<バツU}バツL:=バツdバツ/2バツU:=バツ+dバツ/2dバツfバツバツdバツ問題ではありません。したがって、通常の定義は、観測の精度が無限であると暗黙的に想定していると見なすことができます。

ジョイントタイプが離散/連続の混合であるいくつかのr.vs Xの場合、可能性はジョイント分布になります。これは通常、条件付き分布を使用して表されます。例: L = Pr { A = a バツ したがって、間隔x L

L:=Pr{=aバツL<バツ<バツU}=Pr{=a}×Pr{バツL<バツ<バツU|=a}
、長さ d xが小さい場合、 L { A = a }を 条件とする Xの密度の p Aa 倍、たとえば f X | AバツLバツUdバツLpaバツ{=a}。繰り返しますが、 d xfバツ|バツ|adバツ項ます。

ここで、例に戻り、1つの観察のみを考えてみましょう。次に、は成功確率Pr { X > M }のベルヌーイrv です。X > Mかどうかに応じて、A = 1のみを観察するか、A = 0Xのxの 両方を観察します。どちらの場合も、上記の式を使用しますが、x L=1{バツ>M}Pr{バツ>M}バツ>M=1=0バツバツM バツLバツU又は小さな長さの間隔として D Xを含む Xを。確かに、これは得られる Lが= { Prを{ X > M } × 1 であれば 、X > M  、すなわち  A = 1 Prを{ X M } × F X | AMdバツバツ 以来FX| A

L={Pr{バツ>M}×1もし バツ>M すなわち =1Pr{バツM}×fバツ|バツ|adバツもし バツM すなわち =0。
、可能性は単に fはXX fバツ|バツ|0=fバツバツ/Pr{バツM}2番目のケースでは d xであり、無限の精度を持つ観測値の d x項まで、主張された尤度を取得し ます。独立した観察 A i X iが行われる場合、可能性は、問題の式につながる限界尤度の積として得られます。fバツバツdバツdバツバツ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.